kiroro9999 發表於 2014-12-20 12:44:59

本文章最後由 kiroro9999 於 2014-12-20 12:49 編輯

pleaze 發表於 2014-12-20 02:53 static/image/common/back.gif


昨天也把字庫的全型字刪除,後來想到直接寫在“Replace.sys”,就OK了
就樣既不用刪除字庫,也可以轉換成半型,
不過0(零)有時候會辨識成O(全型O),建議O可以刪掉,重新建立



kiroro9999 發表於 2014-12-20 12:46:38

tuckind 發表於 2014-12-20 06:20 static/image/common/back.gif
俺的 900000-1080204 字庫:
http://pan.baidu.com/s/1ntuVdzj

感謝tuckind大,辛苦了:x

kiroro9999 發表於 2014-12-22 11:39:23

本文章最後由 kiroro9999 於 2014-12-23 13:07 編輯

難字在SubToSrt無法建立,字庫裡有一個字顯示為「--金日弓月--」,後續需要轉化或取代為「鐧」


債卷<=>債券
復雜<=>複雜
馬裡蘭<=>馬里蘭
亞裡斯多德<=>亞里斯多德
佛羅裡達<=>佛羅里達
模范<=>模範
珨<=>一
襬佈<=>擺佈
襬脫<=>擺脫
公裡<=>公里
沖突<=>衝突
甜密<=>甜蜜
餅干<=>餅乾
松手<=>鬆手
征召<=>徵召
房捨<=>房舍
松口氣<=>鬆口氣
榨干<=>榨乾
制成<=>製成
關系<=>關係
照雇<=>照顧
復制品<=>複製品
粘住<=>黏住

===================

幸良<=>報
幹比亞<=>干比亞
休閑<=>休閒
通行証<=>通行證
目堯得<=>曉得
貫撤<=>貫徹
檢樸<=>儉樸
--金日弓月--<=>鐧
神准<=>神準
代志<=>代誌
已黎<=>巴黎
包扎<=>包紮
制造<=>製造
劃面<=>畫面
保証<=>保證
撒銷<=>撤銷
撒換<=>撤換

kiroro9999 發表於 2014-12-25 16:50:18

再問2題

1.難字無法輸入,請問大家會如何處理,是記住、跳過,後續修正嗎?還是有其他方式


2.如下圖,被截去一半,請問大家如何輸入

tuckind 發表於 2014-12-26 00:29:28

1.沒有的字就用同義或相近的字代替。不過「酶」、「祢」二字,我的電腦都有。

2.終止識別,刪除「王」字邊,再重新辨識「瑪」。

kiroro9999 發表於 2014-12-28 09:00:21

tuckind 發表於 2014-12-26 00:29
1.沒有的字就用同義或相近的字代替。不過「酶」、「祢」二字,我的電腦都有。

2.終止識別,刪除「王」字邊 ...

用注音輸入,的確有「酶」、「祢」這二字,只是點選該字,軟體會顯示成?

xdoomtw 發表於 2014-12-28 11:12:58

kiroro9999 發表於 2014-12-28 09:00 static/image/common/back.gif
用注音輸入,的確有「酶」、「祢」這二字,只是點選該字,軟體會顯示成? ...

這軟體用的是ANSI編碼,有些字顯示不出來
只能事後補打

pleaze 發表於 2014-12-29 22:26:54

本文章最後由 pleaze 於 2014-12-30 14:45 編輯

kiroro9999 發表於 2014-12-28 09:00 static/image/common/back.gif
用注音輸入,的確有「酶」、「祢」這二字,只是點選該字,軟體會顯示成? ...
樓上講對了,SubToSrt 只能處理 Big5(ANSI) 的文字編碼,這從你的描述 “輸入「酶」、「祢」這二字,只是點選該字,軟體會顯示成「?」”,可以明確知道「酶」、「祢」不在 Big5 字元集的定義範圍。如果要輸入這兩字,必須把文件編碼先轉換到字元集較大的 Unicode 編碼,而且需要有支援 Unicode 的軟體下(例如:srtEdit、SubtitleEdit、Windows Note、EmEditor...,現在要找不支援的還不太容易),才有辦法如願輸入。


我的作法大約是三種:
a. 偷懶的方法:跳過這些罕見字,但要記住是甚麼字?在甚麼位置?待字幕處理好後,假設存成 a.srt(這一定是 Big5 碼)。再以 EmEditor 或 Note 開啟 a.srt,補上這些罕見字。完成後,[另存新檔],選擇 編碼(Unucide 的一種)。收工。


b. 略有遠見的作法:例如在 SubToSrt 碰到 「酶」,將它辨識成 (酉每),再到 EmEditor 的「批次取代」裡加入一行。
On       (酉每)       酶
......
...
然後把 a.srt 丟到 EmEditor 裡掃一次,另存成 UTF8 編碼。


c. 神的方法:不理它,直接跳掉。或者樓上的建議,找相近的字。貢獻字幕的本質接近慈善事業,如果不想當頂級善人,不必對自己太苛刻。:)>-


所以,Replace.sys 裡要拿掉這行 " --金日弓月--<=>鐧",硬放的結果是 "--金日弓月--<=>?"


p.s. 準備了一個檔案 TestUTF8.txt ,裡頭5個字元全是在 Unicode 字元集才有定義。如果利用 Note 或 ConvertZ 硬轉成 Big5 碼時會發生的情形,不妨親自實驗一下。看懂後就能清楚字元編碼的要緊。






pleaze 發表於 2014-12-29 22:28:27

本文章最後由 pleaze 於 2014-12-30 14:44 編輯

*** 我不清楚樓上為什麼會變得滿地麻花?

樓上講對了,SubToSrt 只能處理 Big5(ANSI) 的文字編碼,這從你的描述 “輸入「酶」、「祢」這二字,只是點選該字,軟體會顯示成「?」”,可以明確知道「酶」、「祢」不在 Big5 字元集的定義範圍。如果要輸入這兩字,必須把文件編碼先轉換到字元集較大的 Unicode 編碼,而且需要有支援 Unicode 的軟體下(例如:srtEdit、SubtitleEdit、Windows Note、EmEditor...,現在要找不支援的還不太容易),才有辦法如願輸入。


我的作法大約是三種:
a. 偷懶的方法:跳過這些罕見字,但要記住是甚麼字?在甚麼位置?待字幕處理好後,假設存成 a.srt(這一定是 Big5 碼)。再以 EmEditor 或 Note 開啟 a.srt,補上這些罕見字。完成後,[另存新檔],選擇 編碼(Unucide 的一種)。收工。


b. 略有遠見的作法:例如在 SubToSrt 碰到 「酶」,將它辨識成 (酉每),再到 EmEditor 的「批次取代」裡加入一行。
On       (酉每)       酶
......
...
然後把 a.srt 丟到 EmEditor 裡掃一次,另存成 UTF8 編碼。


c. 神的方法:不理它,直接跳掉。或者樓上的建議,找相近的字。貢獻字幕的本質接近慈善事業,如果不想當頂級善人,不必對自己太苛刻。:)>-


所以,Replace.sys 裡要拿掉這行 " --金日弓月--<=>鐧",硬放的結果是 "--金日弓月--<=>?"


p.s. 準備了一個檔案 TestUTF8.txt ,裡頭5個字元全是在 Unicode 字元集才有定義。如果利用 Note 或 ConvertZ 硬轉成 Big5 碼時會發生的狀況,不妨親自實驗一下。看懂後就能清楚字元編碼的要緊。

*** 我不清楚樓上為什麼會變得滿地麻花?




bebolan 發表於 2014-12-31 08:31:23

SRTEDIT也可以批量取代,方法就如樓上所言,識別時把酶拆成酉每,取代後轉存成U編碼。

kiroro9999 發表於 2015-1-6 17:25:33

本文章最後由 kiroro9999 於 2015-1-6 17:27 編輯

我拿1.6萬筆字庫,去併63萬字庫,併完結果變53萬
字庫不增反減,真是怪哉,有人知道原因何在嗎??






pleaze 發表於 2015-1-8 16:41:05

kiroro9999 發表於 2015-1-6 17:25 static/image/common/back.gif
我拿1.6萬筆字庫,去併63萬字庫,併完結果變53萬
字庫不增反減,真是怪哉,有人知道原因何在嗎??



這真是靈異事件?

猜測原 63 萬的索引資料可能不正確。不妨讓 63 萬字庫,先 "檢查字庫","生成索引文件" 後,再行合併。

我每次合併字幕前都會先做這兩個動作,從未發現這般 014-件。

baby-yaya 發表於 2015-1-15 20:47:13

本文章最後由 baby-yaya 於 2015-1-15 20:54 編輯

響應kiroro9999大大建議, 分享個人字庫, 希望對整合有所幫助^^

tuckind 發表於 2015-1-16 01:04:39

baby-yaya 發表於 2015-1-15 20:47 static/image/common/back.gif
響應kiroro9999大大建議, 分享個人字庫, 希望對整合有所幫助^^

感謝!新增 420個字!

kiroro9999 發表於 2015-1-16 10:35:22

baby-yaya 發表於 2015-1-15 20:47 static/image/common/back.gif
響應kiroro9999大大建議, 分享個人字庫, 希望對整合有所幫助^^

感謝baby-yaya提供的字庫

kiroro9999 發表於 2015-1-21 16:30:24

本文章最後由 kiroro9999 於 2015-3-16 16:20 編輯

有合併百萬字庫的朋友可以轉一下這些字幕,可以剃除一些錯字

王牌對王牌 http://www.hd.club.tw/thread-191142-1-4.html
超完美搶案 http://www.hd.club.tw/thread-191460-1-1.html
末路狂花(10幾個錯字) http://www.hd.club.tw/thread-191561-1-1.html
現代啟示錄(約10個錯字)http://www.hd.club.tw/thread-191609-1-1.html
夜訪吸血鬼(10幾個錯字)http://www.hd.club.tw/thread-191649-1-1.html
青蛇(7、8個錯字)http://www.hd.club.tw/thread-192096-1-2.html
偷拐搶騙(10幾個錯字)http://www.hd.club.tw/thread-192806-1-2.html
鐵面特警隊(10幾個錯字)http://www.hd.club.tw/thread-192814-1-1.html
捍衛家園(10幾個錯字)http://www.hd.club.tw/thread-193018-1-1.html


Uriel_Z 發表於 2015-1-22 14:06:54

我的字庫 (我也不知道有多少個字,是58.9MB大小的)
http://www.mediafire.com/download/dhbgot7mfoaajmr/SubToSrt字庫.rar

sm1981 發表於 2015-1-24 14:25:53

我下载了你们的字库,现在字库出错,索引也不行,该怎么办?

sm1981 發表於 2015-1-24 15:03:32

用了你们的字幕,(Wolves)这片根本无法OCR,斜体字太多了,看来斜体字的解决才是大难题啊

tuckind 發表於 2015-2-10 04:24:21

kiroro9999 發表於 2015-1-6 17:25 static/image/common/back.gif
我拿1.6萬筆字庫,去併63萬字庫,併完結果變53萬
字庫不增反減,真是怪哉,有人知道原因何在嗎??



俺也碰到過類似事件,合併字幕後,剛OCR完成的一片字幕,又全部不認得了。
推測是臨時字庫沒有歸檔的關係。
因此欲合併或分享字幕之前,應該先執行「生成索引文件」,以免造成損失。
頁: 1 [2] 3 4 5
查看完整版本: SubToSrt字庫交流&使用討論