樓主: kiroro9999
收起左側

[分享] SubToSrt字庫交流&使用討論

[複製連結]

發表於 2015-9-8 11:01:18 | 顯示全部樓層
這個版本還含導演講評字幕

謝謝TC.Star大提供這個連結
還有評論字幕
不知你是如何搜索到的
太厲害了
再度感謝
我認為包含評論字幕的sub檔應該是原始未經修改過的

至於TC大提供的第一個連結
我原來下載的就是這個字幕
但實在有點詭異
我之前用SubRip
Rip出來的bmp檔文字外有黑框
但現在再用SubRip
Rip出來的bmp檔卻是正常無黑框
不知道問題出在哪
不知是SubRip軟體的問題
或是我電腦的問題

Ps:Dog Day Afternoon(熱天午後)就快發行40週年紀念版藍光囉

http://www.blu-ray.com/movies/Dog-Day-Afternoon-Blu-ray/134125/





回覆

使用道具 舉報


發表於 2015-9-11 16:33:56 | 顯示全部樓層
小妹使用後  發現有些字只會出現1.5個字 如下面第一張圖
必須按下"擴展"後才會OK 但是是一次要輸入2個字
請問高手 這是哪裡出問題了呢?

1.png

3.png
回覆

使用道具 舉報


發表於 2015-9-14 16:35:43 | 顯示全部樓層
joy386 發表於 2015-9-11 16:33
小妹使用後  發現有些字只會出現1.5個字 如下面第一張圖
必須按下"擴展"後才會OK 但是是一次要輸入2個字
請 ...

參考前面47-48F。

另您這字幕字元間距很窄,空格檢測設置可能也要調一下。
回覆

使用道具 舉報


 樓主| 發表於 2015-11-24 16:05:27 | 顯示全部樓層
近期欲整合大家的字庫,若您有新輸入的字庫,請提供給我,待整合後跟大家分享,私訊提供亦可。
回覆

使用道具 舉報


發表於 2015-12-22 00:01:24 | 顯示全部樓層
請教這個軟體是否能分辨的出同時具有註解(直立)與正常(橫向)的字幕,而不會不斷的重複相同句子
回覆

使用道具 舉報


發表於 2015-12-28 20:42:54 | 顯示全部樓層
clubaudition 發表於 2015-12-22 00:01
請教這個軟體是否能分辨的出同時具有註解(直立)與正常(橫向)的字幕,而不會不斷的重複相同句子
...

我猜測閣下想問的是當 Sub 同時兼有直走與橫走字幕的 OCR 結果,其實是可以正常辨識無誤,版面也不會無厘頭重複。如果斷句或斷字不正常時,可以調整右下角的行距或字距參數,以符合自己預期的結果,達到類似像以下的 OCR 結果。




解 橫向字幕......

橫向字幕......

評分

參與人數 1名聲 +10 精幣 +10 收起 理由
clubaudition + 10 + 10 熱心助人

查看全部評分

回覆

使用道具 舉報


發表於 2016-1-18 12:51:52 | 顯示全部樓層
本文章最後由 makeover1986 於 2016-1-18 13:18 編輯

請問各位大大,我照此文章下載了"Uriel_Z:本篇37F"大大的word.sts與word.wrd字庫,也新增了Chinese,並將字庫放進去該資料夾。但放Sub檔進入還是一樣要一字一字打,請問是哪裡錯了?謝謝!
回覆

使用道具 舉報


發表於 2016-6-24 18:52:43 | 顯示全部樓層
本文章最後由 jimmy1817 於 2016-6-24 19:05 編輯

請問kiroro9999大 最近有沒有新的整合字庫分享呢

我把這篇的字庫 都加入以後(120萬字)

還是無法OCRHow to Get Away with Murder S02(謀殺入門課 第二季)R3字幕
謝謝

回覆

使用道具 舉報


 樓主| 發表於 2016-6-25 01:55:30 | 顯示全部樓層
jimmy1817 發表於 2016-6-24 18:52
請問kiroro9999大 最近有沒有新的整合字庫分享呢

我把這篇的字庫 都加入以後(120萬字)

其實只要字型稍做改變,SubToSrt無法OCR也算是正常
目前我抽出的字幕約有8成以上在OCR時僅需key in少部分字
但也有少部分整個字幕需一個字一個字key in,下面這2個就是

http://www.hd.club.tw/thread-208174-1-2.html
http://www.hd.club.tw/thread-208333-1-1.html
回覆

使用道具 舉報


發表於 2016-6-25 11:54:36 | 顯示全部樓層
kiroro9999 發表於 2016-6-25 01:55
其實只要字型稍做改變,SubToSrt無法OCR也算是正常
目前我抽出的字幕約有8成以上在OCR時僅需key in少部分 ...

恩恩 了解

因為看到tuckind有OCR這部

所以以為是已經有這部的字庫

不想做白工 才來問問看 謝謝
回覆

使用道具 舉報


發表於 2016-6-25 17:00:15 | 顯示全部樓層
有些影集字幕的字體會有些微毛邊或瑕疵,造成相同的字特徵卻略有不同,故必須不斷重複輸入,有的字甚至重複輸入百次以上。
回覆

使用道具 舉報


發表於 2016-6-27 00:07:24 | 顯示全部樓層
本文章最後由 a338590 於 2016-6-27 00:09 編輯

奪魂電影 the hills run red 2009

上面這部電影OCR在識別時出了問題,居然需要一個字一個字的輸入,實在曠日廢時,想說是否字幕庫不足的問題,就下載樓主提供的字幕庫覆製進去,再OCR時卻出現識別發生錯誤的對話方塊,真是難以搞定!
可否請樓主或其他大大代為OCR這部電影,將不勝感激!謝謝!
回覆

使用道具 舉報


發表於 2016-6-27 01:25:42 | 顯示全部樓層
想說是否字幕庫不足的問題,就下載樓主提供的字幕庫覆製進去,再OCR時卻出現識別發生錯誤的對話方塊

用字庫合併功能試看看!不知道對不對
有ocr高人一定知道問題出在哪

其實ocr多了
一個字一個字的輸入
這種情況是避免不了的
我喜歡的電影我就老老實實地輸入
不喜歡的或懶得練習打字
就調整sub檔就可看了
回覆

使用道具 舉報


 樓主| 發表於 2016-6-27 11:14:29 | 顯示全部樓層
wb2013 發表於 2016-6-27 01:25
用字庫合併功能試看看!不知道對不對
有ocr高人一定知道問題出在哪

同意

像"重返校園"我也是用sub看完,但錯字實在太多,忍不住就1個字1個字KEY
http://www.hd.club.tw/thread-208174-1-2.html

"電影版妖怪手錶:誕生的秘密喵!"這部我沒興趣,所以就也懶得KEY
http://www.hd.club.tw/thread-208191-1-1.html
回覆

使用道具 舉報


發表於 2016-6-28 02:51:20 | 顯示全部樓層
wb2013 發表於 2016-6-27 01:25
用字庫合併功能試看看!不知道對不對
有ocr高人一定知道問題出在哪

沒錯!用字庫合併功能後,識別就不會發生錯誤了!
但不知怎麼搞的,這部電影OCR還是要一個字一個字的輸入.....算了!
感謝您OCR這部電影,謝謝啦!

回覆

使用道具 舉報


發表於 2017-1-5 15:43:23 | 顯示全部樓層
本文章最後由 whispering 於 2017-1-6 00:33 編輯

我的字庫,共 1,306,374 個字(已合併此討論串第一篇列出的六個網友分享字庫)

STS 1306374 Word

STS 1306374 Word


下載:
MEGA


Replace.sys
共 11,884 個兩岸詞彙替換與OCR修正下載:
Replace.zip (72.6 KB, 下載次數: 102)
MEGA

註:
此替換/修正表含大量兩岸名詞/口語替換,標點符號亦皆替換為全形,
全表純依個人對本地中文的有限理解自訂,而非訴求 100% OCR正確性。
許多中文詞彙會隨前後語態與句型差異而改變詞義,因此有時會產生少量過度替換/修正的情形,
部份全形標點也無法適用所有場合,有時需再對 SubToSrt OCR 後的修正項目再進行快速校對。


回覆

使用道具 舉報


發表於 2017-1-5 19:08:05 | 顯示全部樓層
whispering 發表於 2017-1-5 15:43
我的字庫,共 1,306,374 個字(已合併此討論串第一篇列出的六個網友分享字庫)

Dear whispering,
您分享的字庫檔案只有一個副檔名.sts,
還少一個副檔名.wrd的檔案.....
回覆

使用道具 舉報


發表於 2017-1-6 00:35:22 | 顯示全部樓層
本文章最後由 whispering 於 2017-1-6 00:44 編輯
hcwu386 發表於 2017-1-5 19:08
Dear whispering,
您分享的字庫檔案只有一個副檔名.sts,
還少一個副檔名.wrd的檔案..... ...

感謝您的提醒,已於前文鏈結中的壓縮檔補上 word.wrd 請重新下載
回覆

使用道具 舉報


發表於 2017-1-6 15:50:59 | 顯示全部樓層
whispering 發表於 2017-1-5 15:43
我的字庫,共 1,306,374 個字(已合併此討論串第一篇列出的六個網友分享字庫)

以下幾點參考建議
-----------------------------
先把(裏)全部換成(裡),針對(裡)來做取代。

裏<=>裡       '把這行放在 Replace.sys 最前面
公裡<=>公里

於是以下四組替代,可以被後面這一行完全取代:

公裏<=>公里
公裡<=>公里
公裡外<=>公里外
百公裡<=>百公里
-------------------------------
干燥<=>乾燥
干杯<=>乾杯
....
...
..
.
干<=>龜龜龜
龜龜龜<=>干

以上凡遇見(干)字,就會跳出來。有些 Replace.sys 的取代幾乎不會碰到第二次,所以把後面的兩行放到 Replace.sys 最後面,可以大幅簡化其內容與一些不必要的內容干擾,增加不少效率。
--------------------------------
1英哩=1哩=1.6公里
1海浬=1浬=1.8公里
----------------
回覆

使用道具 舉報


發表於 2017-1-7 21:17:47 | 顯示全部樓層
很好的建議!
我從未考慮過效率問題!
許多替代內容都是取自 ConvertZ 的轉換表與過去校對電子書時逐漸累積的 UE 巨集替換表,
不見得適用於三區字幕,裡面還有少部份取代來源與標的重複的問題,我都未整理
回覆

使用道具 舉報

您需要登錄後才可以回文 登入 | 註冊

本版積分規則

熱門推薦

StormAudio 全新 ADEC 進階解碼卡 —— 安裝與完整效能測試評測—AV NIRVANA
StormAudio 全新 ADEC 進
StormAudio 全新 ADEC 進階解碼卡:安裝流程與完整效能測試心得
絕對有感的杜比視界!Optoma UHR90DV丹爸影音實驗室體驗後感   - 這個價位!這般規格!這等畫質!實力足以挑戰業界巨人的投影機大衛王!
絕對有感的杜比視界!Opto
絕對有感的杜比視界!Optoma UHR90DV丹爸影音實驗室體驗後感 -
南臺灣藝文之都的B&W Nautilus鸚鵡螺/StormAudio風暴7.2.1.6多聲道視聽室開箱!
南臺灣藝文之都的B&W Naut
南臺灣藝文之都的B&W Nautilus鸚鵡螺/StormAudio風暴7.2.1.6多聲
StormAudio ISR Fusion 20:力量、精準與聽覺新典範—Thrillcat Cinema Lab
StormAudio ISR Fusion 20
StormAudio ISR Fusion 20:力量、精準與聽覺新典範—Thrillcat
Barefoot Sound Footprint03:最先進的錄音室監聽進化之作
Barefoot Sound Footprint
Barefoot Sound Footprint03:最先進的錄音室監聽進化之作—Swee

聯絡我們| 問題反映| 小黑屋| 手機版| Archiver|  本網站特別聘請 蔡家豪律師 為本站法律顧問

快速回覆 返回頂部 返回列表