查看: 44536|回覆: 45
收起左側

[教學] 原版藍光字幕OCR轉成SRT

[複製連結]

發表於 2008-9-23 20:01:45 | 顯示全部樓層 |閱讀模式

馬上註冊,結交更多好友,享用更多功能,讓你輕鬆玩轉社區。

您需要 登錄 才可以下載或查看,沒有賬號?註冊

x
藍光字幕SUP文件如何轉成SRT格式以供外掛使用?
對於英文字幕可使用SUPREAD直接進行OCR,但對其他語言則不行,目前也沒有字幕的工具程式可直接辨識SUP格式字幕。
在此小弟有一個想法並且實作證實可行,並且適用於多國語言,在此提供給各位參考。

一、使用TSMUXER將字幕軌DEMUX出來,取得SUP文件。
二、以SUPREAD讀取該SUP文件,將字幕圖形以PNG格式儲存

02.jpg

同時將時間軌存成SRT文件,在此先取名為00001.SRT
01.jpg

三、由於儲存的PNG文件為黑底白字,無法進行OCR,因此須將其反相處理變成白底黑字,可使用自已熟悉的軟體進行批次處理。

四、於ACROBAT中選取建立PDF,選取剛剛反相處理完之圖形檔並將其組合成單一文件之PDF檔。
03.jpg


04.jpg

05.jpg

06.jpg

07.jpg

五、以ACROBAT內建之OCR引擎進行文字辨識。

      在此借用ACROBAT本身的OCR引擎,可支援許多國語言的文字辨識,應該夠大家用了。

08.jpg


09.jpg

六、辨識完成後,於檢視/頁面檢視/選取連續雙欄,再於編輯中選取”全選”/”複製”,將辨識完成的文字複製至記事本內,如此即取得辨識完成之字幕。

七、於記事本內將文件儲存,如果須要簡轉繁的話再請出CONVERTZ來處理,完成的檔案儲存成CHT.SRT,注意將副檔名改成SRT以利後續使用。

八、現在有了正確時間軸的00001.SRT及實際字幕文字的CHT.SRT,要如何將這二個字幕文件合併呢?小弟想到了SRTEDIT可使用。
       於SRTEDIT中先將之前的00001.SRT開啟。
11.jpg

再以載入字幕文件的方式將CHT.SRT開啟,
12.jpg

讓CHT.SRT套用00001.SRT的時間軸,如果字幕行數符合的話就成功套用,
如果出現字幕不符的情形時須檢查是否因二者行數不同造成,建議於筆記本中先將二行的字幕合成一行避免異常。

13.jpg


九、大功告成,如此即有從原版辨識出來的字幕了,而且這種方法適用於多種語言,自已試起來辨識成功率很高,幾乎不用再進行修正。

評分

參與人數 2名聲 +40 精幣 +10 收起 理由
west + 30 原創教學,佩服!
danielhu + 10 + 10 又學到一招了,感謝

查看全部評分


發表於 2008-9-29 02:44:16 | 顯示全部樓層
請教黑底白字如何反相處理?
生手請見諒
回覆

使用道具 舉報


 樓主| 發表於 2008-9-29 12:12:00 | 顯示全部樓層
因為公司查得嚴,所以我是用免費的PHOTOCAP來做批次反相,如果有其他影像軟體應該也可以,重點是要能批次處理,否則一張張來用很浪費時間。
回覆

使用道具 舉報


發表於 2008-10-2 11:30:39 | 顯示全部樓層
感謝hhp兄教學, 終於完成部片子-open season
但校對字幕太耗時, 終於體會字幕提供者的辛勞
回覆

使用道具 舉報


發表於 2008-10-20 21:15:54 | 顯示全部樓層
這篇文章太實用了, 感謝辛苦教學
(樓主採用的範例也真的太銷魂了)
回覆

使用道具 舉報


發表於 2008-10-23 14:50:01 | 顯示全部樓層
It's really hard to convert the subtitle ! Thanks for sharing !
回覆

使用道具 舉報


發表於 2008-11-17 16:34:51 | 顯示全部樓層
Dear hhp  兄,

感謝精彩原創文章分享, 這週末那我先前買的BD片來練功; 發現問題還是很多,要手工修的地方太...多太多..了, 連英文的 subtitle都亂了..., 請問您有何對策? thanks

For instance,
1) Adobe Acroba 的OCR 對specail characters like "" 含字母還是會錯
2) 一幕裡含超過兩列以上的對話字幕, 若copy all and then paste to SRTEdit, 會當成兩列, squence有都亂了
回覆

使用道具 舉報


發表於 2008-11-20 10:23:16 | 顯示全部樓層
小弟對這有點興趣,之前做的多是dvd字幕ocr,哪位可以提供bd的sup,讓我試試看!
回覆

使用道具 舉報


發表於 2009-2-19 17:01:12 | 顯示全部樓層
謝謝您提供的教學,
但發現字幕如果是兩行的時候辨識出錯的機會非常高
辨識出來都亂七八糟的字
回覆

使用道具 舉報


發表於 2009-2-24 00:36:11 | 顯示全部樓層
自己試了一下,原來字幕的製作真是要花很多時間,待全部完成後再PO一下自己的心得.
回覆

使用道具 舉報


發表於 2009-2-25 00:32:19 | 顯示全部樓層
目前用ACROBAT 8.11 pro來辨識, OCR辨識率還不錯. 只是時間花得蠻長了 ,要花好幾個鐘頭以上.
至於用PHOTOCAP來做批次反相,還真是方便, 約1200張 pnp檔,處理還蠻快的.
最後校稿就是最辛苦啦,遇到雙行的可在之前加入\N (ex: 是!\N我知道了).
就先這樣啦.
回覆

使用道具 舉報


發表於 2009-3-21 08:57:47 | 顯示全部樓層
謝謝您提供的教學
回覆

使用道具 舉報


發表於 2009-5-22 23:07:25 | 顯示全部樓層
我是新手
請問如何用PhotoCap做批次反相?
回覆

使用道具 舉報


發表於 2009-6-5 19:54:59 | 顯示全部樓層
谢谢了,学习一下
回覆

使用道具 舉報


發表於 2009-7-3 11:27:13 | 顯示全部樓層
非常感谢作者hhp,因为我的播放器无法识别BD原版中的内迁字幕文件,非常需要将其中的.sup文件转换成.srt文件,正在苦于如何可以做到,看到了作者的文章,如及时雨。
回覆

使用道具 舉報


發表於 2009-7-8 00:37:56 | 顯示全部樓層
原帖由 sf1020 於 2008-10-20 21:15 發表
這篇文章太實用了, 感謝辛苦教學
(樓主採用的範例也真的太銷魂了)

哈哈,貌似是A片哦!
回覆

使用道具 舉報


發表於 2009-7-17 01:27:50 | 顯示全部樓層
又學到一招了,感謝
回覆

使用道具 舉報


發表於 2009-7-23 20:24:03 | 顯示全部樓層
Great and useful article.  Very technical and hope I can follow it. (I am not a computer expert and not smart)
回覆

使用道具 舉報


發表於 2009-9-23 08:46:27 | 顯示全部樓層
真么好的文章 谢谢 学习了
回覆

使用道具 舉報


發表於 2009-12-27 23:04:16 | 顯示全部樓層
哇...技術帖...
但..好難哦..收下來好好練一下
感恩一個不行唷~~~
回覆

使用道具 舉報

您需要登錄後才可以回文 登入 | 註冊

本版積分規則

熱門推薦

看得見的Hi-End好聲音!全台首例StormAudio風暴EVO/Dali/Burmester/Soulnote共生雙系統!
看得見的Hi-End好聲音!全
看得見的Hi-End好聲音!全台首例StormAudio風暴EVO/Dali/Burmest
南臺灣藝文之都的B&W Nautilus鸚鵡螺/StormAudio風暴7.2.1.6多聲道視聽室開箱!
南臺灣藝文之都的B&W Naut
南臺灣藝文之都的B&W Nautilus鸚鵡螺/StormAudio風暴7.2.1.6多聲
Optoma UHR90DV 三雷射 4K 劇院投影機 :  DolbyVision全面支援! 超乎你的對於投影機的想像
Optoma UHR90DV 三雷射 4K
Optoma UHR90DV 三雷射 4K 劇院投影機 : DolbyVision全面支援
25年專業劇院路終遇驚喜美麗新天地 - 新店李師傅Storm Audio風暴Core16客廳5.4.6開箱!
25年專業劇院路終遇驚喜美
25年專業劇院路終遇驚喜美麗新天地 - 新店李師傅Storm Audio風暴
Barefoot Sound—Footprint® Gen2 洛杉磯聆聽派對
Barefoot Sound—Footprin
Barefoot Sound—Footprint® Gen2 洛杉磯Listening Party 一

聯絡我們| 問題反映| 小黑屋| 手機版| Archiver|  本網站特別聘請 蔡家豪律師 為本站法律顧問

快速回覆 返回頂部 返回列表