|
|
發表於 2019-7-18 05:32:07
|
顯示全部樓層
本文最後由 ethan 於 2019-7-19 05:28 AM 編輯
原本是使用"使用圖像比較進行OCR"的華納標楷體字庫
前陣子看到Aray大在這帖所提到與Binary Image Compare法的差距
於是開始另外建立Binary的華納標楷體字庫後發現與圖像比較法間的差異
目前發現圖像比較法對於斜體字不太友善, 即使是輸入過字庫, 但會因為字體邊緣鄰字的邊角也被截入字庫而無法辨識
有時標記範圍時就是無法只標一個字, 遇到非白色字體時(有些sup是灰字或黃字)都必須再輸入
而這些問題在Binary法中都不是問題了, 斜體字鄰字的邊角都會被去背, 任何顏色的字都會直接反白而不用再輸入
但是我在建Binary字庫時發現, 辨識字體"些微差異性"的相容度, 似乎沒有之前我在建圖像比較法的字庫時來得好
個人推測是跟去背反白後的毛邊化有關(似乎字體的陰影效果也會反白)
以下大略提一下我在建兩種字庫時的大致順序
最大錯誤值都是設0.5%
圖像比較法: 3.5.3版本
如樓上所提是以wb2013的西方極樂園字庫做基底開始建立>怪獸與牠們的產地系列>漫威系列>迪士尼
>華納 如沙贊, 男人的一半還是男人>神盾局特工
在上述的OCR過程中, 完全都沒碰到過字體無法辨識的情況
Binary Image Compare: 3.5.9FI版本
完全新建字庫>神盾局特工>無法辨識西方極樂園>漫威系列>無法辨識怪獸與牠們的產地系列
>華納 無法辨識如沙贊, 男人的一半還是男人
許多之前在圖像比較法時能持續辨識輸入字庫的sup, 在Binary法時不少都無法辨識
附上目前的Binary華納標楷體字庫
華納標楷體.rar
(878.01 KB, 下載次數: 30)
目前個人感覺除了針對斜體字跟有色字的辨識支援度, 以及辨識速度較快外, 似乎感覺不到其他的優異性?
想請問版上OCR經驗豐富的大神不吝提供意見與看法, 謝謝
|
|