查看: 10332|回覆: 19
收起左側

[求助] Netflix字幕抽取、合併和OCR的方法

[複製連結]

發表於 2016-3-19 04:56:55 | 顯示全部樓層 |閱讀模式

馬上註冊,結交更多好友,享用更多功能,讓你輕鬆玩轉社區。

您需要 登錄 才可以下載或查看,沒有賬號?註冊

x
本文章最後由 lakers24kobe 於 2016-3-20 16:38 編輯
抓取鏈接無所謂方法,只要能找到鏈接就好
原始字幕轉sup的方法:
subtitle edit把netflix的xml轉成BDN xml(跳過OCR)
png圖片批量重命名為0xxx.png (需要四位數字下面才能認得出)
bdsup2sub導入BDN xml
調整圖片位置使之居中,高低調整到合適位置
導出SUP或者idx/sub

上面是引用自 House of Cards US S04(紙牌屋 第四季)NF官方中文字幕 中 fifanwc 大大的回覆
抽取的部分我是能找到每張png圖片的連結,但感覺應該不是這樣一張一張找出來抓的....

另外,用大大們提供的原始檔要轉為BDN xml的時候...
有先把png重新命名 => 在subtitle edit開啟的時候看不到圖片 => 匯出時只產生BDN xml檔
沒先把png重新命名 => 在subtitle edit開啟的時候看得到圖片 => 匯出時除了BDN xml檔之外還會有一堆檔名為四位數的全黑png圖檔

但不管有沒有先把png批量重新命名成4位數
在bdsup2sub開啟時都看不到圖片....這樣正常嗎?

如果最終是想OCR成.srt檔案的話,需要依照 fifanwc 大大說的那樣先導出成SUP或者idx/sub之後再做OCR嗎?

希望有大大能指點一下

感激不盡

發表於 2016-3-19 12:55:36 | 顯示全部樓層
抓取就不會了

說說轉檔的體會,希望有幫助

1. 用 subtitle edit 打開 原始的 xml文件後,不用在軟體內進行OCR,直接導出成 bdn xml格式(另外找一個文件夾做目標存放),

2. 然後導出的那些黑也好白也好的圖片統統不要,只要導出的那個  BDN XML文件,複製回去原始存放 PNG 的文件夾;

3. 用 acdsee 之類的圖片軟體,批量修改原始PNG的文件名做4位數(切記文件順序不能亂,我嘗試過多個文件批量改名的工具都不好用,只有ACDSEE能夠正確按順序補齊缺少的數位)

4. 用 bdsup2sub 打開自己轉換的那個BDN XML。就能讀取到正確改名後的字幕圖片,直接轉換為 IDX/SUB 後,再用IDXSUBOCR之類的軟體進行OCR,最後校對一下,完工
回覆

使用道具 舉報


發表於 2016-3-19 13:19:29 | 顯示全部樓層
本文章最後由 jimmy1817 於 2016-3-19 13:24 編輯

直接用 subtitle edit OCR 應該會比較簡單 快速一點

只要字庫夠完整
----------------------------------------------------------------------
提取我是用Chrome的擴充功能

GetThemAll Video Downloader

找連結類似
https://so-s.nflximg.net/soa5/400/68479f7cb2c71b88fad4cd1a37eff878.isc/range/XXXXXXXXXXXXXX
的連結 再把range/ 後面的刪掉
變成
https://so-s.nflximg.net/soa5/400/68479f7cb2c71b88fad4cd1a37eff878.isc/range/
就能下載

不太方便的方法...
回覆

使用道具 舉報


 樓主| 發表於 2016-3-20 01:56:05 | 顯示全部樓層
jimmy1817 發表於 2016-3-19 13:19
直接用 subtitle edit OCR 應該會比較簡單 快速一點

只要字庫夠完整

感謝!! 剛剛試抓了幾集都成功了
用那個擴充工具搜尋so-s就能很快找到連結
回覆

使用道具 舉報


 樓主| 發表於 2016-3-20 02:07:22 | 顯示全部樓層
bluemicky 發表於 2016-3-19 12:55
抓取就不會了

說說轉檔的體會,希望有幫助

感謝~按照這個方法順利轉成IDX/SUB了
OCR方面明天再摸索一下

不過剛剛有其中一集[ 原始檔 ]的xml用 subtitle edit 打開看不到時間軸...
其他集都沒有問題


後來發現是xml檔案裡用的標籤名不太一樣,修改後就能順利讀取了

回覆

使用道具 舉報


發表於 2016-3-20 12:03:19 | 顯示全部樓層
lakers24kobe 發表於 2016-3-20 02:07
感謝~按照這個方法順利轉成IDX/SUB了
OCR方面明天再摸索一下

可以用beta版的試試看

我測試你的那個是正常的

回覆

使用道具 舉報


 樓主| 發表於 2016-3-20 16:32:12 | 顯示全部樓層
本文章最後由 lakers24kobe 於 2016-3-20 16:35 編輯
jimmy1817 發表於 2016-3-20 12:03
可以用beta版的試試看

我測試你的那個是正常的

論壇中好像沒有subtitle edit 的OCR字庫分享
只有找到SubToSrt的字庫

subtitle edit預設的Tesseract字庫 OCR出來的實在慘不忍睹...

剛剛試著要用SubRip+SubToSrt來OCR轉出來的IDX/SUB,但讀出來的圖顏色不論怎麼調都完全是白的囧

IdxSubOcr看板內討論似乎錯誤很多...
回覆

使用道具 舉報


發表於 2016-3-20 18:29:48 | 顯示全部樓層
lakers24kobe 發表於 2016-3-20 16:32
論壇中好像沒有subtitle edit 的OCR字庫分享
只有找到SubToSrt的字庫

自己用的字庫

https://mega.nz/#!3RtwxTpT!8fBbQmdCkLjdUZDlnfUWmoZonv-wLy21E4Io81sePFE

解壓縮放到\VobSub
回覆

使用道具 舉報


 樓主| 發表於 2016-3-20 19:15:39 | 顯示全部樓層
jimmy1817 發表於 2016-3-20 18:29
自己用的字庫

https://mega.nz/#!3RtwxTpT!8fBbQmdCkLjdUZDlnfUWmoZonv-wLy21E4Io81sePFE

感謝大大
這樣比自己從頭開始建快很多~

但遇到一個問題

二 按"展開選擇部分"也沒辦法整個選起來囧

很多需要展開的字都要每次輸入不知道是不是 "像素數是空的"的設定不對
我是依照B大的教學文設11
回覆

使用道具 舉報


 樓主| 發表於 2016-3-20 19:48:39 | 顯示全部樓層
後來按略過會跳到下面那橫按展開會選到整個字和旁邊的點
然後再按縮就能只選到"二"了
回覆

使用道具 舉報


 樓主| 發表於 2016-3-20 23:52:51 | 顯示全部樓層
jimmy1817 發表於 2016-3-20 18:29
自己用的字庫

https://mega.nz/#!3RtwxTpT!8fBbQmdCkLjdUZDlnfUWmoZonv-wLy21E4Io81sePFE

成功OCR完一集了
不過不知道為什麼有的地方都會多出一格空白...
回覆

使用道具 舉報


發表於 2016-3-21 00:29:40 | 顯示全部樓層
lakers24kobe 發表於 2016-3-20 23:52
成功OCR完一集了
不過不知道為什麼有的地方都會多出一格空白...

他辨識一、二、三 有時候會有問題 我通常都是按略過

最後再搜尋"*" 自己輸入

空白的問題 就是把"像素是空的"那欄 設大一點 就不會有空白

他辨識如果是黃的 就是沒有空白
回覆

使用道具 舉報


 樓主| 發表於 2016-3-21 18:39:28 | 顯示全部樓層
jimmy1817 發表於 2016-3-21 00:29
他辨識一、二、三 有時候會有問題 我通常都是按略過

最後再搜尋"*" 自己輸入

不知道是不是我用的版本的關係(3.4.11)
辨識後都沒有變黃的耶...
在設定裡面找只有 持續時間太短/太長 或是字幕太長或太多行 時間重疊才會有顏色
回覆

使用道具 舉報


發表於 2016-3-30 14:58:03 | 顯示全部樓層
bluemicky 發表於 2016-3-19 12:55
3. 用 acdsee 之類的圖片軟體,批量修改原始PNG的文件名做4位數(切記文件順序不能亂,我嘗試過多個文件批量改名的工具都不好用,只有ACDSEE能夠正確按順序補齊缺少的數位)

建議你可以試試免安裝的 MyRename,可以萬用字批次改名,批次跳加數字。
回覆

使用道具 舉報


發表於 2016-4-2 23:39:12 | 顯示全部樓層
其實我比較見意直接用sup字幕,
現在已經有多款播放器能讀取sup文件了。

OCR不是不好,但難保沒有錯誤!

再來有些朋友想把字幕嵌入電影中,現在已經有方法掛sup字幕再壓制了!
回覆

使用道具 舉報


 樓主| 發表於 2016-4-5 23:00:03 | 顯示全部樓層
現在我是直接用原始檔OCR了,喜歡用SRT的原因是字型能自己換
比較不喜歡官方用的字型
回覆

使用道具 舉報


發表於 2016-6-25 18:28:55 | 顯示全部樓層
本文章最後由 windows_spy 於 2017-11-5 04:21 編輯
bluemicky 發表於 2016-3-19 12:55
3. 用 acdsee 之類的圖片軟體,批量修改原始PNG的文件名做4位數(切記文件順序不能亂,我嘗試過多個文件批量改名的工具都不好用,只有ACDSEE能夠正確按順序補齊缺少的數位)

4. 用 bdsup2sub 打開自己轉換的那個BDN XML。就能讀取到正確改名後的字幕圖片,直接轉換為 IDX/SUB 後,再用IDXSUBOCR之類的軟體進行OCR,最後校對一下,完工

如要OCR直接用原始檔就好,不用輸出成SUP或sub/idx
如果有人提供原始素材但無人OCR,而你不過只是要看一看就刪的人,那輸出成SUP是最快的


批次改檔名容易誤操作,一旦發生編號錯誤就全盤皆墨,那這個字幕就毀了。
最好用記事本打開轉好的 BDN_Index.xml,搜尋 >0 全部取代成 >,連續全部取代三次再存檔
這個 BDN_Index.xml 就能配合原始圖片使用,不過可能還是太麻煩,有容易的方式如下:

第一種,SubtitleEdit 載入 manifest_ttml2.xml 後,在左邊顯示時間軸那個框框裡,按右鍵,出現選單
選 Export > BDN xml/png,轉出來不會出現黑畫面,就不用批次改檔名,轉出的xml和png都是正確的
再交給 bdsup2sub++ 進行處理

第二種,SubtitleEdit 載入 manifest_ttml2.xml 後,在左邊顯示時間軸那個框框裡,按右鍵,出現選單
選 Export > Blu-ray sup 可直接輸出 SUP 檔案 (也可直出sub/idx)

推薦採用第一種轉出 BDN xml/png 再交給 bdsup2sub++ 進行處理,第二種要耗時非常久

也可以注意避開 bdsup2sub++1.0.2 會讓字幕糊掉的的BUG
http://www.hd.club.tw/forum.php? ... 961&fromuid=2321855

回覆

使用道具 舉報


發表於 2016-9-11 17:31:40 | 顯示全部樓層
批次改檔名容易誤操作,記事本打開轉好的 BDN_Index.xml,搜尋 >0 全部取代成 >,連續全部取代三次再存檔
這個 BDN_Index.xml 就能配合原始圖片使用,不過還是太麻煩,有容易的方式...


感謝windows_spy大
windows_spy大這招很好用啊
一點也不麻煩
連續全部取代三次再存檔
不到幾秒就大功告成了
根本不需要用其他軟體
批次改檔名


回覆

使用道具 舉報


發表於 2016-10-4 17:35:58 | 顯示全部樓層
舊的字幕抽取方法不能用了
回覆

使用道具 舉報


 樓主| 發表於 2016-10-9 03:16:06 | 顯示全部樓層
jimmy1817 發表於 2016-3-19 13:19
直接用 subtitle edit OCR 應該會比較簡單 快速一點

只要字庫夠完整

請問jimmy大知不知道現在Netflix的字幕要怎麼提取?...
之前的那個方法不能用了Q_Q
回覆

使用道具 舉報

您需要登錄後才可以回文 登入 | 註冊

本版積分規則

熱門推薦

南臺灣藝文之都的B&W Nautilus鸚鵡螺/StormAudio風暴7.2.1.6多聲道視聽室開箱!
南臺灣藝文之都的B&W Naut
南臺灣藝文之都的B&W Nautilus鸚鵡螺/StormAudio風暴7.2.1.6多聲
Sharkwire鯊魚 Genesis 創世紀保險絲:打通器材任督二脈!無法淺嘗輒止的極致電流鍊聲術
Sharkwire鯊魚 Genesis 創
Sharkwire鯊魚 Genesis 創世紀保險絲:打通器材任督二脈!無法淺
床上劇院掰掰~小小獨立視聽室啟用
床上劇院掰掰~小小獨立視
本文章最後由 tom3050 於 2016-3-25 12:06 編輯 2016/3/25更
風暴EVO AoIP/帝瓦雷Phantom 7.0.4金蛋客廳劇院建構歷程心得  - 發燒友Phil Lee分享
風暴EVO AoIP/帝瓦雷Phant
風暴EVO AoIP/帝瓦雷Phantom 7.0.4金蛋客廳劇院建構歷程心得 -
看得見的Hi-End好聲音!全台首例StormAudio風暴EVO/Dali/Burmester/Soulnote共生雙系統!
看得見的Hi-End好聲音!全
看得見的Hi-End好聲音!全台首例StormAudio風暴EVO/Dali/Burmest

聯絡我們| 問題反映| 小黑屋| 手機版| Archiver|  本網站特別聘請 蔡家豪律師 為本站法律顧問

快速回覆 返回頂部 返回列表