ML實現中文古籍數位化 達摩院研發OCR識別系統

作者: 吳心予
2021 年 05 月 25 日

近日一批珍藏於美國加州大學柏克萊分校的中文古籍善本利用光學字元辨識(Optical character recognition, OCR)技術數位化,透過漢典重光平台提供古籍內容翻閱、檢索及調用功能。漢典重光由阿里巴巴公益基金會、中國四川大學、加州大學柏克萊分校、中國國家圖書館及浙江圖書館等單位共同合作,旨在尋覓流散海外的中國古籍將其數位化與公共化,協助一般大眾古籍研究者使用古籍資料。

漢典重光平台提供檢索數位化古籍的服務

阿里巴巴達摩院院長張建鋒表示,阿里巴巴計劃將這套技術工具連同古籍數位化平台一併捐贈,交由權威公共機構長期運營,同時,阿里巴巴仍將在古籍數位化工作上持續投入。 

將古籍數位化的方法主要有兩種,一種是純人工輸入,將內容全數輸入至電腦之中;另一種是電腦與人工相結合,由電腦利用OCR技術辨識一部分文字,電腦無法辨識的文字就由專家手動錄入,最終再由人工校對。

中國古籍全部字符約有數十萬,絕大部分不僅沒被現代字庫收錄,也幾乎找不到樣本供人工智慧(AI)學習。面對大量未受標註的數據,如何讓AI快速批量辨識古籍,始終是古籍數位化領域的技術瓶頸。日前達摩院技術團隊與四川大學專家聯手研發一套全新的古籍辨識系統,利用單字檢測、無監督單字聚類、少樣本分類、主動學習等一系統機器學習方法,構造一套邊辨識古籍、邊訓練模型的系統,以97.5%的準確率完成對20萬頁古籍的整體辨識。目前該古籍識別系統已經能有規模地辨識逾百本古籍,並沉澱覆蓋3萬多字的古籍字典。比起專家人工錄入,這套人機交互的辨識系統將效率提升近30倍。隨著古籍識別規模的擴增,機器還會自我進化,不斷提升準確率和效率。

OCR的工作原理基本上包括四個部分:

影像輸入:透過光學設備將圖片轉入電腦後,系統會處理圖片,包括字符格式的分離、二值化處理、圖像降噪、傾斜校正、文字特徵抽取等等,以提升圖片的精確度。

對比辨識:根據字符的不同特徵,將之比對資料庫,並利用對比後的辨識文字與其可能的相似候選字,根據前後的辨識文字找出最合乎邏輯的詞,再更正,以加強比對的正確性。

人工校正:目前為止還沒有軟體的文字辨識百分之百正確,因此需要人工校正,確保輸出的準確性。

影像輸出:將結果輸出成txt、doc、exl等格式。

 

目前OCR的發展已相當完善,不過隨著技術需求改變,傳統的OCR已經不能滿足人們的要求,因此現階段自然環境OCR是最受到關注的領域。相比於傳統的OCR,自然環境OCR最大的挑戰在於文本檢測(將文字從圖片中提取出來),因為它具有極大的多樣性和明顯的不確定性,如文字中包含多種語言、每種語言含多種字母,每個字母又有不同的大小、字體、顏色、亮度、對比度、排列和對齊方式等。因拍攝圖像的隨意性,文字區域還可能會產生變形、模糊斷裂等現象。另外,背景也是一大干擾因素,如文字區域附近有非常複雜的紋理;非文字區域有著跟文字區域非常相似的紋理,比如窗戶、樹葉、柵欄、磚牆等。但自然環境OCR市場的商業價值高,主要可應用於車牌識別、影像監控和自動駕駛等,因此仍受到市場關注。

OCR技術的演算法是機器視覺的延伸,基於文字定位和文字辨識,根據圖片進行圖像分析、圖像提取和表格提取,需根據應用將資料結構化,根據實體的檢測,同時根據語義和圖形圖像的空間關係實現結構的關係,最後理解文本,將文本分析和KV記憶體資料庫結構化輸出。根據工程設計的能力實現相應的產品,需要考慮深度學習引擎的環境,並透過私有雲系統輸出。

標籤
相關文章

機器視覺受大廠重視 AI助力工業應用大爆發

2018 年 08 月 09 日

AI結合光學/運算技術 OCR文字辨識準確無礙

2022 年 04 月 28 日

萬物智慧化驅動半導體成長 EDA工具角色更吃重

2019 年 05 月 16 日

硬體升級/參數調整自動建模 Al光學檢測促應用落地

2020 年 11 月 02 日

福特/Google策略結盟 導入雲端服務

2021 年 02 月 05 日

深度學習正盛 AI逐步發展環境理解能力

2021 年 05 月 21 日
前一篇
纜線/連接器/電路板整合設計 USB4高速訊號完整性有解
下一篇
USB4商機點燃 Hub/Docking擴充商機打頭陣