新年伊始,中國金融認證中心(CFCA)重磅發布第六代手寫筆跡識別系統,實現了對最新國標8萬生僻漢字的兼容,攻克了手寫生僻字自動識別比對的應用難點。
CFCA第六代手寫筆跡識別系統采用前沿深度學習中的“元學習”技術,能在少量樣本甚至無樣本情況下識別罕見的手寫體生僻字,符合2022年最新的國家標準GB18030-2022 《信息技術 中文編碼字符集》,為國內首款完全支持此標準的手寫識別系統,同時也支持最新的行業標準《金融服務 生僻字處理指南》(JR/T 0253—2022)。
信息系統的生僻字支持工作是“我為群眾辦實事”理念的有力體現,從2021年底包括工信部在內的多個國家部委大力推進各行業系統升級,其中金融行業更是重點領域,2022年6月人行正式發布《金融服務 生僻字處理指南》金融行業標準并召開宣講會,在銀行、保險等領域大力推進。傳統的生僻字支持通常指漢字字符能夠正常地顯示、錄入、傳輸、保存,其主要工作在于對老舊系統的字符集、字體、輸入法升級檢查,工作量較大但在技術上沒有特別大的難點。
CFCA第六代手寫筆跡識別系統支持所有已知生僻字
典型的電子保單辦理抄錄風險須知的場景
但是在近年來流行的電子合同簽署過程中,常常涉及對用戶手寫簽字、手寫抄錄條款內容的識別,防止惡意簽署他人姓名等異常行為,其中對手寫體生僻字的識別一度存在技術難點,目前市場上極少有能夠支持識別手寫生僻字的系統,涉及到生僻字時需要由人工介入審核,降低了業務效率和用戶體驗。這是因為傳統的文字識別技術依賴于較多的樣本數據,而由于生僻字本身的罕見性,收集到能夠滿足機器學習訓練任務所需的手寫生僻字數據量幾乎是不可能的任務。
元學習模型具備快速學會新任務的能力
為了解決這一難題,CFCA引入人工智能前沿技術元學習(Meta-learning),這一種方法可以幫助機器學習算法更好地處理少量數據甚至無數據的情況,通過對許多不同的學習任務進行訓練,旨在使模型能夠自主地根據所給的任務學習到“知識”從而能處理新的任務。
比如給模型設定的目標不再是直接識別每一個字符的分類任務,而是設定筆畫、偏旁部首、結構、相似性分析等多個目標協作訓練,使得模型具有根本的手寫字形特征識別的能力,從而可以通過一個文字樣本完成識別(one-shot),甚至在無樣本的情況下識別(zero-shot),經實驗驗證,該系統不僅能識別所有已知漢字,也支持對英日韓等文字、特殊字符的識別。
古老的漢字遇到年輕的人工智能,“筆走龍蛇”的個性化書寫將更好地融入標準化的交互終端,實現中國人“見字如面”的理想。未來,CFCA將繼續推進人工智能相關研發,讓用戶享受前沿科技帶來的便利,讓企業更加合規地開展在線業務。
責任編輯:韓希宇
免責聲明:
中國電子銀行網發布的專欄、投稿以及征文相關文章,其文字、圖片、視頻均來源于作者投稿或轉載自相關作品方;如涉及未經許可使用作品的問題,請您優先聯系我們(聯系郵箱:cebnet@cfca.com.cn,電話:400-880-9888),我們會第一時間核實,謝謝配合。