SubToSrt字庫交流&使用討論-HD.Club 精研視務所 High Definition Vision Club

kiroro9999 發表於 2014-12-20 12:44:59

本文章最後由 kiroro9999 於 2014-12-20 12:49 編輯

pleaze 發表於 2014-12-20 02:53 static/image/common/back.gif

昨天也把字庫的全型字刪除，後來想到直接寫在“Replace.sys”，就OK了
就樣既不用刪除字庫，也可以轉換成半型，
不過0(零)有時候會辨識成Ｏ(全型O)，建議Ｏ可以刪掉，重新建立

kiroro9999 發表於 2014-12-20 12:46:38

tuckind 發表於 2014-12-20 06:20 static/image/common/back.gif
俺的 900000-1080204 字庫：
http://pan.baidu.com/s/1ntuVdzj

感謝tuckind大，辛苦了:x

kiroro9999 發表於 2014-12-22 11:39:23

本文章最後由 kiroro9999 於 2014-12-23 13:07 編輯

難字在SubToSrt無法建立，字庫裡有一個字顯示為「--金日弓月--」，後續需要轉化或取代為「鐧」

債卷<=>債券
復雜<=>複雜
馬裡蘭<=>馬里蘭
亞裡斯多德<=>亞里斯多德
佛羅裡達<=>佛羅里達
模范<=>模範
珨<=>一
襬佈<=>擺佈
襬脫<=>擺脫
公裡<=>公里
沖突<=>衝突
甜密<=>甜蜜
餅干<=>餅乾
松手<=>鬆手
征召<=>徵召
房捨<=>房舍
松口氣<=>鬆口氣
榨干<=>榨乾
制成<=>製成
關系<=>關係
照雇<=>照顧
復制品<=>複製品
粘住<=>黏住

===================

幸良<=>報
幹比亞<=>干比亞
休閑<=>休閒
通行証<=>通行證
目堯得<=>曉得
貫撤<=>貫徹
檢樸<=>儉樸
--金日弓月--<=>鐧
神准<=>神準
代志<=>代誌
已黎<=>巴黎
包扎<=>包紮
制造<=>製造
劃面<=>畫面
保証<=>保證
撒銷<=>撤銷
撒換<=>撤換

kiroro9999 發表於 2014-12-25 16:50:18

再問2題

1.難字無法輸入，請問大家會如何處理，是記住、跳過，後續修正嗎?還是有其他方式

2.如下圖，被截去一半，請問大家如何輸入

tuckind 發表於 2014-12-26 00:29:28

1.沒有的字就用同義或相近的字代替。不過「酶」、「祢」二字，我的電腦都有。

2.終止識別，刪除「王」字邊，再重新辨識「瑪」。

kiroro9999 發表於 2014-12-28 09:00:21

tuckind 發表於 2014-12-26 00:29
1.沒有的字就用同義或相近的字代替。不過「酶」、「祢」二字，我的電腦都有。

2.終止識別，刪除「王」字邊 ...

用注音輸入，的確有「酶」、「祢」這二字，只是點選該字，軟體會顯示成？

xdoomtw 發表於 2014-12-28 11:12:58

kiroro9999 發表於 2014-12-28 09:00 static/image/common/back.gif
用注音輸入，的確有「酶」、「祢」這二字，只是點選該字，軟體會顯示成？ ...

這軟體用的是ANSI編碼，有些字顯示不出來
只能事後補打

pleaze 發表於 2014-12-29 22:26:54

本文章最後由 pleaze 於 2014-12-30 14:45 編輯

kiroro9999 發表於 2014-12-28 09:00 static/image/common/back.gif
用注音輸入，的確有「酶」、「祢」這二字，只是點選該字，軟體會顯示成？ ...
樓上講對了，SubToSrt 只能處理 Big5(ANSI) 的文字編碼，這從你的描述 “輸入「酶」、「祢」這二字，只是點選該字，軟體會顯示成「？」”，可以明確知道「酶」、「祢」不在 Big5 字元集的定義範圍。如果要輸入這兩字，必須把文件編碼先轉換到字元集較大的 Unicode 編碼，而且需要有支援 Unicode 的軟體下(例如：srtEdit、SubtitleEdit、Windows Note、EmEditor...，現在要找不支援的還不太容易)，才有辦法如願輸入。

我的作法大約是三種：
a. 偷懶的方法：跳過這些罕見字，但要記住是甚麼字？在甚麼位置？待字幕處理好後，假設存成 a.srt(這一定是 Big5 碼)。再以 EmEditor 或 Note 開啟 a.srt，補上這些罕見字。完成後，[另存新檔]，選擇編碼(Unucide 的一種)。收工。

b. 略有遠見的作法：例如在 SubToSrt 碰到「酶」，將它辨識成 (酉每)，再到 EmEditor 的「批次取代」裡加入一行。
On (酉每) 酶
......
...
然後把 a.srt 丟到 EmEditor 裡掃一次，另存成 UTF8 編碼。

c. 神的方法：不理它，直接跳掉。或者樓上的建議，找相近的字。貢獻字幕的本質接近慈善事業，如果不想當頂級善人，不必對自己太苛刻。:)>-

所以，Replace.sys 裡要拿掉這行 " --金日弓月--<=>鐧"，硬放的結果是 "--金日弓月--<=>?"

p.s. 準備了一個檔案 TestUTF8.txt ，裡頭5個字元全是在 Unicode 字元集才有定義。如果利用 Note 或 ConvertZ 硬轉成 Big5 碼時會發生的情形，不妨親自實驗一下。看懂後就能清楚字元編碼的要緊。

pleaze 發表於 2014-12-29 22:28:27

本文章最後由 pleaze 於 2014-12-30 14:44 編輯

*** 我不清楚樓上為什麼會變得滿地麻花？

樓上講對了，SubToSrt 只能處理 Big5(ANSI) 的文字編碼，這從你的描述 “輸入「酶」、「祢」這二字，只是點選該字，軟體會顯示成「？」”，可以明確知道「酶」、「祢」不在 Big5 字元集的定義範圍。如果要輸入這兩字，必須把文件編碼先轉換到字元集較大的 Unicode 編碼，而且需要有支援 Unicode 的軟體下(例如：srtEdit、SubtitleEdit、Windows Note、EmEditor...，現在要找不支援的還不太容易)，才有辦法如願輸入。

我的作法大約是三種：
a. 偷懶的方法：跳過這些罕見字，但要記住是甚麼字？在甚麼位置？待字幕處理好後，假設存成 a.srt(這一定是 Big5 碼)。再以 EmEditor 或 Note 開啟 a.srt，補上這些罕見字。完成後，[另存新檔]，選擇編碼(Unucide 的一種)。收工。

b. 略有遠見的作法：例如在 SubToSrt 碰到「酶」，將它辨識成 (酉每)，再到 EmEditor 的「批次取代」裡加入一行。
On (酉每) 酶
......
...
然後把 a.srt 丟到 EmEditor 裡掃一次，另存成 UTF8 編碼。

c. 神的方法：不理它，直接跳掉。或者樓上的建議，找相近的字。貢獻字幕的本質接近慈善事業，如果不想當頂級善人，不必對自己太苛刻。:)>-

所以，Replace.sys 裡要拿掉這行 " --金日弓月--<=>鐧"，硬放的結果是 "--金日弓月--<=>?"

p.s. 準備了一個檔案 TestUTF8.txt ，裡頭5個字元全是在 Unicode 字元集才有定義。如果利用 Note 或 ConvertZ 硬轉成 Big5 碼時會發生的狀況，不妨親自實驗一下。看懂後就能清楚字元編碼的要緊。

*** 我不清楚樓上為什麼會變得滿地麻花？

bebolan 發表於 2014-12-31 08:31:23

SRTEDIT也可以批量取代，方法就如樓上所言，識別時把酶拆成酉每，取代後轉存成U編碼。

kiroro9999 發表於 2015-1-6 17:25:33

本文章最後由 kiroro9999 於 2015-1-6 17:27 編輯

我拿1.6萬筆字庫，去併63萬字庫，併完結果變53萬
字庫不增反減，真是怪哉，有人知道原因何在嗎??

pleaze 發表於 2015-1-8 16:41:05

kiroro9999 發表於 2015-1-6 17:25 static/image/common/back.gif
我拿1.6萬筆字庫，去併63萬字庫，併完結果變53萬
字庫不增反減，真是怪哉，有人知道原因何在嗎??

這真是靈異事件？

猜測原 63 萬的索引資料可能不正確。不妨讓 63 萬字庫，先 "檢查字庫"，"生成索引文件" 後，再行合併。

我每次合併字幕前都會先做這兩個動作，從未發現這般 014-件。

baby-yaya 發表於 2015-1-15 20:47:13

本文章最後由 baby-yaya 於 2015-1-15 20:54 編輯

響應kiroro9999大大建議, 分享個人字庫, 希望對整合有所幫助^^

tuckind 發表於 2015-1-16 01:04:39

baby-yaya 發表於 2015-1-15 20:47 static/image/common/back.gif
響應kiroro9999大大建議, 分享個人字庫, 希望對整合有所幫助^^

感謝！新增 420個字！

kiroro9999 發表於 2015-1-16 10:35:22

baby-yaya 發表於 2015-1-15 20:47 static/image/common/back.gif
響應kiroro9999大大建議, 分享個人字庫, 希望對整合有所幫助^^

感謝baby-yaya提供的字庫

kiroro9999 發表於 2015-1-21 16:30:24

本文章最後由 kiroro9999 於 2015-3-16 16:20 編輯

有合併百萬字庫的朋友可以轉一下這些字幕，可以剃除一些錯字

王牌對王牌 http://www.hd.club.tw/thread-191142-1-4.html
超完美搶案 http://www.hd.club.tw/thread-191460-1-1.html
末路狂花(10幾個錯字) http://www.hd.club.tw/thread-191561-1-1.html
現代啟示錄(約10個錯字)http://www.hd.club.tw/thread-191609-1-1.html
夜訪吸血鬼(10幾個錯字)http://www.hd.club.tw/thread-191649-1-1.html
青蛇(7、8個錯字)http://www.hd.club.tw/thread-192096-1-2.html
偷拐搶騙(10幾個錯字)http://www.hd.club.tw/thread-192806-1-2.html
鐵面特警隊(10幾個錯字)http://www.hd.club.tw/thread-192814-1-1.html
捍衛家園(10幾個錯字)http://www.hd.club.tw/thread-193018-1-1.html

Uriel_Z 發表於 2015-1-22 14:06:54

我的字庫 (我也不知道有多少個字，是58.9MB大小的)
http://www.mediafire.com/download/dhbgot7mfoaajmr/SubToSrt字庫.rar

sm1981 發表於 2015-1-24 14:25:53

我下载了你们的字库，现在字库出错，索引也不行，该怎么办？

sm1981 發表於 2015-1-24 15:03:32

用了你们的字幕，（Wolves）这片根本无法OCR，斜体字太多了，看来斜体字的解决才是大难题啊

tuckind 發表於 2015-2-10 04:24:21

kiroro9999 發表於 2015-1-6 17:25 static/image/common/back.gif
我拿1.6萬筆字庫，去併63萬字庫，併完結果變53萬
字庫不增反減，真是怪哉，有人知道原因何在嗎??

俺也碰到過類似事件，合併字幕後，剛OCR完成的一片字幕，又全部不認得了。
推測是臨時字庫沒有歸檔的關係。
因此欲合併或分享字幕之前，應該先執行「生成索引文件」，以免造成損失。

頁: 1 [2] 3 4 5

HD.Club 精研視務所's Archiver