新電子雜誌 » 熱門新聞 » ML實現中文古籍數位化　達摩院研發OCR識別系統

ML實現中文古籍數位化　達摩院研發OCR識別系統

作者：吳心予

2021 年 05 月 25 日

近日一批珍藏於美國加州大學柏克萊分校的中文古籍善本利用光學字元辨識(Optical character recognition, OCR)技術數位化，透過漢典重光平台提供古籍內容翻閱、檢索及調用功能。漢典重光由阿里巴巴公益基金會、中國四川大學、加州大學柏克萊分校、中國國家圖書館及浙江圖書館等單位共同合作，旨在尋覓流散海外的中國古籍將其數位化與公共化，協助一般大眾古籍研究者使用古籍資料。

阿里巴巴達摩院院長張建鋒表示，阿里巴巴計劃將這套技術工具連同古籍數位化平台一併捐贈，交由權威公共機構長期運營，同時，阿里巴巴仍將在古籍數位化工作上持續投入。

將古籍數位化的方法主要有兩種，一種是純人工輸入，將內容全數輸入至電腦之中；另一種是電腦與人工相結合，由電腦利用OCR技術辨識一部分文字，電腦無法辨識的文字就由專家手動錄入，最終再由人工校對。

中國古籍全部字符約有數十萬，絕大部分不僅沒被現代字庫收錄，也幾乎找不到樣本供人工智慧(AI)學習。面對大量未受標註的數據，如何讓AI快速批量辨識古籍，始終是古籍數位化領域的技術瓶頸。日前達摩院技術團隊與四川大學專家聯手研發一套全新的古籍辨識系統，利用單字檢測、無監督單字聚類、少樣本分類、主動學習等一系統機器學習方法，構造一套邊辨識古籍、邊訓練模型的系統，以97.5%的準確率完成對20萬頁古籍的整體辨識。目前該古籍識別系統已經能有規模地辨識逾百本古籍，並沉澱覆蓋3萬多字的古籍字典。比起專家人工錄入，這套人機交互的辨識系統將效率提升近30倍。隨著古籍識別規模的擴增，機器還會自我進化，不斷提升準確率和效率。

OCR的工作原理基本上包括四個部分：

・影像輸入：透過光學設備將圖片轉入電腦後，系統會處理圖片，包括字符格式的分離、二值化處理、圖像降噪、傾斜校正、文字特徵抽取等等，以提升圖片的精確度。

・對比辨識：根據字符的不同特徵，將之比對資料庫，並利用對比後的辨識文字與其可能的相似候選字，根據前後的辨識文字找出最合乎邏輯的詞，再更正，以加強比對的正確性。

・人工校正：目前為止還沒有軟體的文字辨識百分之百正確，因此需要人工校正，確保輸出的準確性。

・影像輸出：將結果輸出成txt、doc、exl等格式。

目前OCR的發展已相當完善，不過隨著技術需求改變，傳統的OCR已經不能滿足人們的要求，因此現階段自然環境OCR是最受到關注的領域。相比於傳統的OCR，自然環境OCR最大的挑戰在於文本檢測(將文字從圖片中提取出來)，因為它具有極大的多樣性和明顯的不確定性，如文字中包含多種語言、每種語言含多種字母，每個字母又有不同的大小、字體、顏色、亮度、對比度、排列和對齊方式等。因拍攝圖像的隨意性，文字區域還可能會產生變形、模糊斷裂等現象。另外，背景也是一大干擾因素，如文字區域附近有非常複雜的紋理；非文字區域有著跟文字區域非常相似的紋理，比如窗戶、樹葉、柵欄、磚牆等。但自然環境OCR市場的商業價值高，主要可應用於車牌識別、影像監控和自動駕駛等，因此仍受到市場關注。

OCR技術的演算法是機器視覺的延伸，基於文字定位和文字辨識，根據圖片進行圖像分析、圖像提取和表格提取，需根據應用將資料結構化，根據實體的檢測，同時根據語義和圖形圖像的空間關係實現結構的關係，最後理解文本，將文本分析和KV記憶體資料庫結構化輸出。根據工程設計的能力實現相應的產品，需要考慮深度學習引擎的環境，並透過私有雲系統輸出。

標籤

近期研討會 More

白皮書

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

英特爾發表Thunderbolt Share 基礎KVM功能軟體化

Cadence軟硬兼施 多物理模擬結合生成式AI來勢洶洶

2024智慧製造能源成本挑戰浮現 生成式AI將是投資重點

平板市場2024回溫 新款iPad搭M4晶片吸睛

生成式AI助長高速介面需求 Kandou進軍PCIe Retimer市場

全球減碳商機持續 東南亞成電動車兵家必爭之地(1)

全球減碳商機持續 東南亞成電動車兵家必爭之地(2)

Wi-Fi 7時代來臨 產業格局走向三大梯隊

AI晶片成智慧車核心 國際大廠競相投入(1)

AI晶片成智慧車核心 國際大廠競相投入(2)

運算效能需求再突破 AI PC大舉導入高速記憶體(1)

運算效能需求再突破 AI PC大舉導入高速記憶體(2)

氣相層析感測器環境監控立功 污染物排放無所遁形

傳統車聯網安全防護現漏洞 透徹攻擊路徑VSOC保資安

智慧監測守護工廠環境安全 聯網系統降低木材加工污染(1)

插電式混和動力車大受歡迎 1Q’24全球電動車銷量成長18%

手機/AI兩樣情 NVIDIA超越高通拿下IC設計王座

生成式AI進駐智慧手機 AP效能需求三級跳

半導體庫存仍須調整 1Q’24矽晶圓出貨量年減13.2%

多元應用逐步浮現 雷達模組市場穩健成長

國眾電腦/耐能實現360度環景智慧監控

英飛凌/HD KSOE聯合開發船舶電氣化技術

新唐科技5/22~5/31舉辦「2024未來創新峰會」

TI：低雜訊電壓參考提升X光影像清晰度

COMPUTEX 2024 Forum首度以人工智慧為主題

ML實現中文古籍數位化 達摩院研發OCR識別系統

機器視覺受大廠重視 AI助力工業應用大爆發

AI結合光學/運算技術 OCR文字辨識準確無礙

萬物智慧化驅動半導體成長 EDA工具角色更吃重

硬體升級/參數調整自動建模 Al光學檢測促應用落地

福特/Google策略結盟 導入雲端服務

深度學習正盛 AI逐步發展環境理解能力

【成功案例分享】即刻下載！ROHM使用Siemens Tanner提供一流的dual MOSFET元件

【免費贏得開發板】立即報名！樹莓派開發者安全加速計畫，活動至5/31截止唷！

【熱門白皮書】快來下載！類比混合訊號驗證方法論

【重磅白皮書】立刻下載！實惠且全面的3D堆疊晶粒元件測試

【最新上架】搶占新世代Wi-Fi商機！立即下載「Wi-Fi 6E/7引領物聯網新紀元」特輯

芯鼎科技總經理許英偉：深耕AI/車用客製化平台

台灣是德科技行銷處副總經理羅大鈞：2024 AI/量子技術/元宇宙/6G領風騷

安格科技總經理藍世旻：揪團打群架布局AI電源管理

Arm車用事業部亞太區資深總監鄧志偉：虛擬IP加速車用處理器上市時程

ADI台灣業務總監汪揚：AI/半導體賦能汽車未來

英特爾發表Thunderbolt Share 基礎KVM功能軟體化

國眾電腦/耐能實現360度環景智慧監控

英飛凌/HD KSOE聯合開發船舶電氣化技術

新唐科技5/22~5/31舉辦「2024未來創新峰會」

TI：低雜訊電壓參考提升X光影像清晰度

(評析)英特爾PSG部門獨立 Altera重現江湖

引領半導體技術新浪潮 國內研究團隊突破鐵電材料極限

生成式AI走向邊緣裝置 Arm必須做好兩件事

簡立峰：ChatGPT引領語言對話人機介面新時代

台積電德國建廠拍板 四強聯手打造ESMC

英特爾發表Thunderbolt Share　基礎KVM功能軟體化

Cadence軟硬兼施　多物理模擬結合生成式AI來勢洶洶

2024智慧製造能源成本挑戰浮現　生成式AI將是投資重點

平板市場2024回溫　新款iPad搭M4晶片吸睛

生成式AI助長高速介面需求　Kandou進軍PCIe Retimer市場

全球減碳商機持續　東南亞成電動車兵家必爭之地(1)

全球減碳商機持續　東南亞成電動車兵家必爭之地(2)

Wi-Fi 7時代來臨　產業格局走向三大梯隊

AI晶片成智慧車核心　國際大廠競相投入(1)

AI晶片成智慧車核心　國際大廠競相投入(2)

運算效能需求再突破　AI PC大舉導入高速記憶體(1)

運算效能需求再突破　AI PC大舉導入高速記憶體(2)

氣相層析感測器環境監控立功　污染物排放無所遁形

傳統車聯網安全防護現漏洞　透徹攻擊路徑VSOC保資安

智慧監測守護工廠環境安全　聯網系統降低木材加工污染(1)

插電式混和動力車大受歡迎　1Q’24全球電動車銷量成長18%

手機/AI兩樣情　NVIDIA超越高通拿下IC設計王座

生成式AI進駐智慧手機　AP效能需求三級跳

半導體庫存仍須調整　1Q’24矽晶圓出貨量年減13.2%

多元應用逐步浮現　雷達模組市場穩健成長

ML實現中文古籍數位化　達摩院研發OCR識別系統

機器視覺受大廠重視　AI助力工業應用大爆發

AI結合光學/運算技術　OCR文字辨識準確無礙

萬物智慧化驅動半導體成長　EDA工具角色更吃重

硬體升級/參數調整自動建模　Al光學檢測促應用落地

福特/Google策略結盟　導入雲端服務

深度學習正盛　AI逐步發展環境理解能力

英特爾發表Thunderbolt Share　基礎KVM功能軟體化

(評析)英特爾PSG部門獨立　Altera重現江湖

引領半導體技術新浪潮　國內研究團隊突破鐵電材料極限

生成式AI走向邊緣裝置　Arm必須做好兩件事

台積電德國建廠拍板　四強聯手打造ESMC