SubToSrt字庫交流&使用討論
本文章最後由 kiroro9999 於 2016-2-17 11:03 編輯交流字庫的目的,主要希望一個人輸入過的字,不用大家再重複輸入一次
以這個目的為出發點,期望大家都能多分享自己建立或蒐集的字庫
教學:
因為SubRip + SubToSrt操作比較複雜,稍有一個地方卡住,很可能就會方棄這個方式
之前我使用SubRip + SubToSrt不順,因此轉而使用「IdxSubOcr」
但是「IdxSubOcr」會有斷行跑掉、漏字...等問題,近期又開始研究SubRip + SubToSrt
教學部分,在網路上很多,如這一篇、這一篇、這一篇、這一篇,可以自行研究
如果有哪個步驟卡住,可以提出,版上有許多高手,應該可以提供解答
之前我主要是卡在SubRip擷取BMP時,到達99%時,軟體會當掉,後來使用before1012這一篇的軟體才解決
目前提供字庫網友如下:
1. before1012大:這一篇14F,提供約27萬字庫
2. pleaze大:這一篇29F,整合了百萬字庫
3. xdoomt大:本篇4F,提供8萬6千個字
4. tuckind大:本篇9F(1088000~1288664字)、20F(900000-1080204)
5. baby-yaya:本篇33F,提供5仟字
6. Uriel_Z:本篇37F,提供1百萬字
目前我彙整上述字庫達百萬(以自建字庫為優先)
經測試約100片,約有4~5片因字型特殊完全無法辨識外,其餘皆能正常辨識
其中約有1/3的片完全不用輸入,須輸入少則10~20字,多的大約100~150字左右
但在測試過程中發現,併入百萬字庫後,有一些字會出現錯誤,如:沖/衝、卷/捲、托/託、你/妳
因此重新整理以網友提供之自建字庫及我自行輸入字庫為主,整理後字庫達60萬字,跟大家分享
==============================
SubToSrt的問題請大家協助解決
1.斜體字,會把部分裁切掉及多出前後字,這樣的字,大家是否也輸入呢?
2.ocr英文,空格皆會不見,如「Once in a blue moon」會變成「Onceinabluemoon」,有法可解嗎?
同場加映:
1.如何辨別港版和台版字幕
http://www.hd.club.tw/thread-187759-1-1.html
2.如何調srt字幕的時間軸:
http://www.hd.club.tw/thread-193095-1-1.html
3.抽取字幕軟體:VSRip或VobSub Configure
http://www.hd.club.tw/thread-191882-1-1.html(12F,TC.Star的回覆)
http://www.hd.club.tw/thread-204745-1-1.html(2F、3F的回覆)
4.調整idx+sub時間軸軟體:Sub Subresync(下面連結16F,TC.Star的回覆)
http://www.hd.club.tw/thread-193095-1-1.html
5.簡體GBK字幕轉繁體中文
http://www.hd.club.tw/thread-195233-1-1.html
6.去除Vobsub字幕中不需要的語言字幕
http://www.hd.club.tw/thread-153192-1-1.html
7.SUP如何轉idx+sub:BDSup2Sub 5.1.2或BDSup2Sub ++1.0.2(下面連結25F,TC.Star的回覆)
http://www.hd.club.tw/thread-195734-2-1.html
8.發現SubToSrt字庫的錯字如何修正(請參考,下面連結6F)
http://www.hd.club.tw/thread-191851-1-1.html
1.鈄體字,我都把擴展湊成一句,例:我起來了,若"我"成為一個字,那就不要擴展!若"我"沒成為一個字,就擴展字元"我起"看有沒有成為一句,依此類推!
2.如圖:去設定空格(這要多試,因為字幕的空白,都不一樣)
本文章最後由 pleaze 於 2014-12-16 21:12 編輯
(2) 如圖,調前兩項參數。能 Ocr 英文字幕的軟體非常多。也許換 IdxSubOcr 或 SubtitleEdit 會是更好選擇。
(1) 會害人的事情,我不會隨便告訴人。
分享PCDVD 論壇上tonyhsie網友一字一字打的字幕庫加上我自己打的字幕庫
約8萬6千個字。
本文章最後由 pleaze 於 2014-12-19 19:12 編輯
上面的 8.6 萬字合併到百萬字庫裏,僅增加 1592 字,原 before 大的 27.7 萬字庫則增加 3.5 萬字,共約 31.2 萬字,可見大家重覆做工的程度。
Replace.sys.2014_1218 後新增
下周<=>下週
甘乃迪<=>甘迺迪
行事歷<=>行事曆
我說干<=>我說幹
意大利面<=>義大利麵
瞌藥<=>嗑藥
瞌過<=>嗑過
噁劣<=>惡劣 (放到最後面)
本文章最後由 xdoomtw 於 2014-12-18 10:21 編輯
提供重建乾淨字庫的方法,一切從0開始
把 Replace.sys, replace1.txt, replace2.txt, word.sts, word.wrd, word.ind 砍掉
複製 newword.sts (大小為 0 bytes) 五份,把檔名改為上面五個檔名 (word.ind 不用)
重建後,再導入別人一字一字打的正確字庫(非對岸的及來路不明的),這樣中文辨識的"正確率"會提高很多,接近100%,但目前自打的且提供出來的字庫數不是很多,很多字還是得自己打,但優點是不用費心去找錯字。
我使用before1012大字庫+這一篇2F、3F的字庫+xdoomtw字庫,今天試著辨識幾片,效果還不錯,當然如果能有更多人分享自建的字庫,或許可以完全捨棄百萬字庫。 這篇我幫忙置頂 俺合併以上的字庫,增加了壹萬多字。
最近O了很多影集,加上剛合併後的字庫,1088000~1288664字:
http://pan.baidu.com/s/1kT5O0o3 tuckind 發表於 2014-12-18 18:00 static/image/common/back.gif
俺合併以上的字庫,增加了壹萬多字。
最近O了很多影集,加上剛合併後的字庫,1088000~1288664字:
大感謝,補了六萬字入庫。@跳舞@ 俺個人是完全清空 Replace.sys,因為治標不治本,字庫中的錯別字永遠在那裡。
每次掃完一個字幕,就先跑一下其他軟體查找錯別字,發現錯誤再回頭修正 SubToSrt 字庫,確保同樣錯誤不再發生。 tuckind 發表於 2014-12-18 23:44 static/image/common/back.gif
俺個人是完全清空 Replace.sys,因為治標不治本,字庫中的錯別字永遠在那裡。
每次掃完一個字幕,就先跑一 ...
我也覺得自行找出錯誤的識別,可省去校對之苦。取能者校對後的字幕來比較自己識別的字幕,把錯字一律刪除重新識別才能建立完正確的字庫。
比較字幕可用這篇:
http://www.hd.club.tw/thread-189125-1-2.html
開啟程式>檔案>比較:叫出比較程式,分別載入他人和自己的識別,操作很方便。
本文章最後由 kiroro9999 於 2014-12-19 15:24 編輯
tuckind 發表於 2014-12-18 18:00 http://www.hd.club.tw/static/image/common/back.gif
俺合併以上的字庫,增加了壹萬多字。
最近O了很多影集,加上剛合併後的字庫,1088000~1288664字:
感謝tuckind大提供這麼棒的字庫
另外冒昧請求,這一帖1F的900000-1080204,可否再提供一次
本文章最後由 kiroro9999 於 2014-12-19 15:30 編輯
pleaze 發表於 2014-12-18 00:01 http://www.hd.club.tw/static/image/common/back.gif
上面的 8.6 萬字合併到百萬字庫裏,僅增加 1592 字,原 before 大的 27.7 萬字庫則增加 3.5 萬字,共約 31. ...
對於這幾個詞,提出意見:
伙計<=>夥計 (不少字幕這2個詞都有用)
倒楣<=>倒霉 (倒楣國語辭典反而比較常用)
煞車<=>剎車 (國語辭典2個詞都可以)
可卡因<=>古柯鹼 (古柯鹼反而比較常聽到) pleaze 發表於 2014-12-18 00:01 static/image/common/back.gif
上面的 8.6 萬字合併到百萬字庫裏,僅增加 1592 字,原 before 大的 27.7 萬字庫則增加 3.5 萬字,共約 31. ...
隨意測試幾組。。。<=>…,是有問題的
bebolan 發表於 2014-12-19 11:45 static/image/common/back.gif
我也覺得自行找出錯誤的識別,可省去校對之苦。取能者校對後的字幕來比較自己識別的字幕,把錯字一律刪除 ...
感謝bebolan大提供這個資訊,我再來試看看
SubToSrt似乎也有類似功能,只是沒有差異比較的功能
本文章最後由 pleaze 於 2014-12-19 18:34 編輯
kiroro9999 發表於 2014-12-19 15:30 static/image/common/back.gif
對於這幾個詞,提出意見:
伙計夥計 (不少字幕這2個詞都有用)
前三個我是沒甚麼意見,因為我也是抄來的。字幕是你在處理,如果互相通用的話,看哪個順眼就用哪個,不必硬行代換,請自行從 Replace.sys 裏移除。畢竟字幕不是文學著作、也非神作都不會犯錯,我的標準是讓使用者看得懂、順眼、不突兀就行。例如我將 [台灣] 一率取代成 [臺灣],雖然較正確,但前者更為常見,所以覺得不妥,請自行移除。第四個確實是碰到 [可卡因] 代換成我們這邊較常見的 [古柯鹼]。
我是將 Replace.sys 拿來當多用途的字詞代換在用,除了在 SubToSrt 使用外,還將 IdxSubOcr 初完成識別的字幕,以及對岸的翻譯字幕,甚至匯出到我的文字編輯器裏當字詞代換使用,所以可能會感覺很混雜,但那是我個人為多目標所構思。如果覺得不妥,就請自行改掉換成你的版本,或者提出大家討論、研議,我個人還是有自己的盲點,集眾人才智才是最大智慧。 本文章最後由 pleaze 於 2014-12-19 17:01 編輯
kiroro9999 發表於 2014-12-19 15:33 static/image/common/back.gif
隨意測試幾組。。。…,是有問題的
你是指 。。。<=>,,, 代換錯誤嗎?
***
我弄懂了,是在 [設定] 的位置,已經先把句中出現的 [。]先代換成 [,]
解決的方法,要嘛去改設定,或者加入這行 (較佳的選擇)
,,,<=>...
p.s. 請在設定的預設代換裏一併考量,要不要把句末出現的 [。] 或 [,] 給刪除掉,都會影響這個結果。
本文章最後由 pleaze 於 2014-12-20 03:08 編輯
俺的 900000-1080204 字庫:
http://pan.baidu.com/s/1ntuVdzj