本文章最後由 kiroro9999 於 2014-12-20 12:49 編輯
pleaze 發表於 2014-12-20 02:53 static/image/common/back.gif
昨天也把字庫的全型字刪除,後來想到直接寫在“Replace.sys”,就OK了
就樣既不用刪除字庫,也可以轉換成半型,
不過0(零)有時候會辨識成O(全型O),建議O可以刪掉,重新建立
tuckind 發表於 2014-12-20 06:20 static/image/common/back.gif
俺的 900000-1080204 字庫:
http://pan.baidu.com/s/1ntuVdzj
感謝tuckind大,辛苦了:x
本文章最後由 kiroro9999 於 2014-12-23 13:07 編輯
難字在SubToSrt無法建立,字庫裡有一個字顯示為「--金日弓月--」,後續需要轉化或取代為「鐧」
債卷<=>債券
復雜<=>複雜
馬裡蘭<=>馬里蘭
亞裡斯多德<=>亞里斯多德
佛羅裡達<=>佛羅里達
模范<=>模範
珨<=>一
襬佈<=>擺佈
襬脫<=>擺脫
公裡<=>公里
沖突<=>衝突
甜密<=>甜蜜
餅干<=>餅乾
松手<=>鬆手
征召<=>徵召
房捨<=>房舍
松口氣<=>鬆口氣
榨干<=>榨乾
制成<=>製成
關系<=>關係
照雇<=>照顧
復制品<=>複製品
粘住<=>黏住
===================
幸良<=>報
幹比亞<=>干比亞
休閑<=>休閒
通行証<=>通行證
目堯得<=>曉得
貫撤<=>貫徹
檢樸<=>儉樸
--金日弓月--<=>鐧
神准<=>神準
代志<=>代誌
已黎<=>巴黎
包扎<=>包紮
制造<=>製造
劃面<=>畫面
保証<=>保證
撒銷<=>撤銷
撒換<=>撤換
再問2題
1.難字無法輸入,請問大家會如何處理,是記住、跳過,後續修正嗎?還是有其他方式
2.如下圖,被截去一半,請問大家如何輸入
1.沒有的字就用同義或相近的字代替。不過「酶」、「祢」二字,我的電腦都有。
2.終止識別,刪除「王」字邊,再重新辨識「瑪」。
tuckind 發表於 2014-12-26 00:29
1.沒有的字就用同義或相近的字代替。不過「酶」、「祢」二字,我的電腦都有。
2.終止識別,刪除「王」字邊 ...
用注音輸入,的確有「酶」、「祢」這二字,只是點選該字,軟體會顯示成?
kiroro9999 發表於 2014-12-28 09:00 static/image/common/back.gif
用注音輸入,的確有「酶」、「祢」這二字,只是點選該字,軟體會顯示成? ...
這軟體用的是ANSI編碼,有些字顯示不出來
只能事後補打
本文章最後由 pleaze 於 2014-12-30 14:45 編輯
kiroro9999 發表於 2014-12-28 09:00 static/image/common/back.gif
用注音輸入,的確有「酶」、「祢」這二字,只是點選該字,軟體會顯示成? ...
樓上講對了,SubToSrt 只能處理 Big5(ANSI) 的文字編碼,這從你的描述 “輸入「酶」、「祢」這二字,只是點選該字,軟體會顯示成「?」”,可以明確知道「酶」、「祢」不在 Big5 字元集的定義範圍。如果要輸入這兩字,必須把文件編碼先轉換到字元集較大的 Unicode 編碼,而且需要有支援 Unicode 的軟體下(例如:srtEdit、SubtitleEdit、Windows Note、EmEditor...,現在要找不支援的還不太容易),才有辦法如願輸入。
我的作法大約是三種:
a. 偷懶的方法:跳過這些罕見字,但要記住是甚麼字?在甚麼位置?待字幕處理好後,假設存成 a.srt(這一定是 Big5 碼)。再以 EmEditor 或 Note 開啟 a.srt,補上這些罕見字。完成後,[另存新檔],選擇 編碼(Unucide 的一種)。收工。
b. 略有遠見的作法:例如在 SubToSrt 碰到 「酶」,將它辨識成 (酉每),再到 EmEditor 的「批次取代」裡加入一行。
On (酉每) 酶
......
...
然後把 a.srt 丟到 EmEditor 裡掃一次,另存成 UTF8 編碼。
c. 神的方法:不理它,直接跳掉。或者樓上的建議,找相近的字。貢獻字幕的本質接近慈善事業,如果不想當頂級善人,不必對自己太苛刻。:)>-
所以,Replace.sys 裡要拿掉這行 " --金日弓月--<=>鐧",硬放的結果是 "--金日弓月--<=>?"
p.s. 準備了一個檔案 TestUTF8.txt ,裡頭5個字元全是在 Unicode 字元集才有定義。如果利用 Note 或 ConvertZ 硬轉成 Big5 碼時會發生的情形,不妨親自實驗一下。看懂後就能清楚字元編碼的要緊。
本文章最後由 pleaze 於 2014-12-30 14:44 編輯
*** 我不清楚樓上為什麼會變得滿地麻花?
樓上講對了,SubToSrt 只能處理 Big5(ANSI) 的文字編碼,這從你的描述 “輸入「酶」、「祢」這二字,只是點選該字,軟體會顯示成「?」”,可以明確知道「酶」、「祢」不在 Big5 字元集的定義範圍。如果要輸入這兩字,必須把文件編碼先轉換到字元集較大的 Unicode 編碼,而且需要有支援 Unicode 的軟體下(例如:srtEdit、SubtitleEdit、Windows Note、EmEditor...,現在要找不支援的還不太容易),才有辦法如願輸入。
我的作法大約是三種:
a. 偷懶的方法:跳過這些罕見字,但要記住是甚麼字?在甚麼位置?待字幕處理好後,假設存成 a.srt(這一定是 Big5 碼)。再以 EmEditor 或 Note 開啟 a.srt,補上這些罕見字。完成後,[另存新檔],選擇 編碼(Unucide 的一種)。收工。
b. 略有遠見的作法:例如在 SubToSrt 碰到 「酶」,將它辨識成 (酉每),再到 EmEditor 的「批次取代」裡加入一行。
On (酉每) 酶
......
...
然後把 a.srt 丟到 EmEditor 裡掃一次,另存成 UTF8 編碼。
c. 神的方法:不理它,直接跳掉。或者樓上的建議,找相近的字。貢獻字幕的本質接近慈善事業,如果不想當頂級善人,不必對自己太苛刻。:)>-
所以,Replace.sys 裡要拿掉這行 " --金日弓月--<=>鐧",硬放的結果是 "--金日弓月--<=>?"
p.s. 準備了一個檔案 TestUTF8.txt ,裡頭5個字元全是在 Unicode 字元集才有定義。如果利用 Note 或 ConvertZ 硬轉成 Big5 碼時會發生的狀況,不妨親自實驗一下。看懂後就能清楚字元編碼的要緊。
*** 我不清楚樓上為什麼會變得滿地麻花?
SRTEDIT也可以批量取代,方法就如樓上所言,識別時把酶拆成酉每,取代後轉存成U編碼。
本文章最後由 kiroro9999 於 2015-1-6 17:27 編輯
我拿1.6萬筆字庫,去併63萬字庫,併完結果變53萬
字庫不增反減,真是怪哉,有人知道原因何在嗎??
kiroro9999 發表於 2015-1-6 17:25 static/image/common/back.gif
我拿1.6萬筆字庫,去併63萬字庫,併完結果變53萬
字庫不增反減,真是怪哉,有人知道原因何在嗎??
這真是靈異事件?
猜測原 63 萬的索引資料可能不正確。不妨讓 63 萬字庫,先 "檢查字庫","生成索引文件" 後,再行合併。
我每次合併字幕前都會先做這兩個動作,從未發現這般 014-件。
本文章最後由 baby-yaya 於 2015-1-15 20:54 編輯
響應kiroro9999大大建議, 分享個人字庫, 希望對整合有所幫助^^
baby-yaya 發表於 2015-1-15 20:47 static/image/common/back.gif
響應kiroro9999大大建議, 分享個人字庫, 希望對整合有所幫助^^
感謝!新增 420個字!
baby-yaya 發表於 2015-1-15 20:47 static/image/common/back.gif
響應kiroro9999大大建議, 分享個人字庫, 希望對整合有所幫助^^
感謝baby-yaya提供的字庫
本文章最後由 kiroro9999 於 2015-3-16 16:20 編輯
有合併百萬字庫的朋友可以轉一下這些字幕,可以剃除一些錯字
王牌對王牌 http://www.hd.club.tw/thread-191142-1-4.html
超完美搶案 http://www.hd.club.tw/thread-191460-1-1.html
末路狂花(10幾個錯字) http://www.hd.club.tw/thread-191561-1-1.html
現代啟示錄(約10個錯字)http://www.hd.club.tw/thread-191609-1-1.html
夜訪吸血鬼(10幾個錯字)http://www.hd.club.tw/thread-191649-1-1.html
青蛇(7、8個錯字)http://www.hd.club.tw/thread-192096-1-2.html
偷拐搶騙(10幾個錯字)http://www.hd.club.tw/thread-192806-1-2.html
鐵面特警隊(10幾個錯字)http://www.hd.club.tw/thread-192814-1-1.html
捍衛家園(10幾個錯字)http://www.hd.club.tw/thread-193018-1-1.html
我的字庫 (我也不知道有多少個字,是58.9MB大小的)
http://www.mediafire.com/download/dhbgot7mfoaajmr/SubToSrt字庫.rar
我下载了你们的字库,现在字库出错,索引也不行,该怎么办?
用了你们的字幕,(Wolves)这片根本无法OCR,斜体字太多了,看来斜体字的解决才是大难题啊
kiroro9999 發表於 2015-1-6 17:25 static/image/common/back.gif
我拿1.6萬筆字庫,去併63萬字庫,併完結果變53萬
字庫不增反減,真是怪哉,有人知道原因何在嗎??
俺也碰到過類似事件,合併字幕後,剛OCR完成的一片字幕,又全部不認得了。
推測是臨時字庫沒有歸檔的關係。
因此欲合併或分享字幕之前,應該先執行「生成索引文件」,以免造成損失。