首頁/ 遊戲/ 正文

合合資訊科技專家分享智慧文件處理“重難點手冊”

1024是2的十次方,也是二進位制計數的基本計量單位之一,每年的10月24日因此成為了中國程式設計師的盛會。近期,CSDN(中國開發者網路)第三屆“1024程式設計師節”(簡稱“大會”)順利舉辦,來自Linaro等開源組織的領導者和微軟、騰訊、華為、合合資訊等企業的技術專家接連登陸主論壇重磅活動《全體大會:2022技術英雄會》,與觀眾雲端話科技。

生產生活中,被整齊記錄在二維表結構裡的“結構化”資料只是少數。據國際資料公司(IDC)預測,全球非結構化資料將在2025年佔據資料總量的80%至90%。智慧文件處理技術能夠對各種檔案、圖片中的非結構化資料進行內容識別和抽取,對推進企業數字化轉型意義重大。

怎樣從資料中發現更多的價值,找到更實用的開發工具,是程式設計師群體重點關注的話題。合合資訊智慧創新事業部總經理唐琪受邀分享智慧文件處理的技術最佳化方法及開源渠道介紹,獲得了眾多開發者的認可。

合合資訊科技專家分享智慧文件處理“重難點手冊”

“智慧文件處理”在開發者群體中熱度攀升(圖源:CSDN官網)

文件處理之困:識別文字還不夠,版式理解是基礎

智慧文件處理技術本質上是把文件裡的資訊從載體中剝離出來,將其對接到其他系統,以資料的流轉實現流程自動化的技術。典型場景如單據的自動稽核,就是先對單據進行影象檢測,從中提取所需資訊並錄入到系統裡,經過結構化處理,“翻譯”成機器能理解的內容後再進行自動判別,達到節省人工成本、提高工作效率的目的。

唐琪在分享中指出,採集裝置的不確定性和文件版式的多樣性,導致文件在處理過程中經常遇到“看不清、看不準、認不全、難理解”四大類問題。合合資訊在彎曲矯正、去摩爾紋(螢幕紋)等影象質量增強領域進行了深入研究,為資訊的提取、儲存、檢索、管理等後續工作創造良好的環境。

合合資訊科技專家分享智慧文件處理“重難點手冊”

合合資訊去摩爾紋(螢幕紋)技術處理效果

合合資訊科技專家分享智慧文件處理“重難點手冊”

合合資訊彎曲矯正技術處理效果

“在各種場景的實踐中我們發現,單純的文字識別不足以支撐更細緻的文件處理需求,版面元素分析才是基礎。”唐琪提到,文件處理過程中要重點關注對印章、logo、水印、頁首、二維碼、公式等元素的檢測,根據檢測結果採取對應的版式分析方式,可得到更精準的識別結果。

合合資訊科技專家分享智慧文件處理“重難點手冊”

合合資訊對智慧文件處理的關鍵要素的思考

如何讓已經接受過市場檢驗的技術產品惠及更多的開發者?技術服務的共享是促進科技創新的重要渠道。合合資訊將在製造業、金融業、物流業等30個行業應用裡打磨出的核心技術產品“智慧文字識別服務平臺”(簡稱“平臺”)以SaaS的形式免費開放給個人開發者,助力使用者們低成本、高效率獲取貼合個性化需求的定製模型。

合合資訊開源平臺:10分鐘完成模型構建,10張樣本即可做訓練

受遠端辦公趨勢發展和環保“無紙化”倡導的影響,社會對智慧文件處理技術的需求不斷增加。合合資訊智慧文件處理技術可支援全球超過50種主流語言的印刷體、手寫體的高精度識別,以及增值稅發票、計程車票等20多種票據的識別,這些通用識別、資訊抽取能力被搭載於合合資訊智慧文字識別服務平臺SaaS版中,並於大會上開放試用。

該平臺提供了海量訓練資料快速生成、自動化模型生成、完整的模型訓練和測試等功能,具備低使用門檻、所需樣本少、開發週期短的優勢,使用者透過雲端的簡單操作,即可定製提取標準和非標準版式文件的結構化資訊,僅需10張樣本就可以開始訓練。

合合資訊科技專家分享智慧文件處理“重難點手冊”

合合資訊智慧文字識別服務平臺工作流程

現階段,企業對於OCR的需求趨向於定製化和多樣化,卻為高昂的開發成本所限,平臺可為中小企業的數字化轉型提供助力。比起傳統的技術方案,企業更希望被賦予人工智慧產品開發能力,去搭建基於自有業務場景的識別模型。在平臺上,企業可透過簡單的配置快速產出結構化識別模型,無需伺服器資源與運維投入便可獲取技術支援,降低開發、部署與運維環節中的門檻。

據悉,實測中應用人員最短可在10分鐘內完成抽取模型開發全流程,視覺化介面設計讓沒有演算法基礎的業務人員也可順利使用。

炒股開戶享福利,入金抽188元紅包,100%中獎!

開啟App看更多精彩內容

相關文章

頂部