作者
中國農業銀行研發中心
呂俊鋒 陳宏曉 張誠 秦雷
NLP即自然語言處理,是計算機科學領域與人工智能領域中的一個重要方向,隨著不斷的發展,自然語言處理技術已經越來越成熟。在銀行領域,數據分析大多集中在客戶行為分析、營銷預測、風險管理等數值分析方面,對于文本處理相對較少。隨著AI技術平臺的日趨完善,NLP技術在銀行領域的應用也逐漸嶄露頭角。本文將介紹NLP技術在農業銀行信用卡風險管理領域的落地應用,包括地址比對驗證、高危風險地址庫構建場景。
一、相關背景
隨著商業銀行數字化轉型的推動,在業務飛速發展的過程中沉淀了海量數據,因此,加大數據領域探索,深入挖掘海量數據所蘊含的巨大潛在價值,成為當前銀行從業人員的共識。
近年來,農業銀行大數據體系不斷發展,大數據平臺匯總的數據逐漸完善,幾乎囊括了全行重要系統的數據,因而打破各個系統間的數據壁壘,成為了支撐業務發展的的新引擎。銀行業日趨激烈的競爭,也促使業務人員將精力更多地聚焦在數據價值的挖掘上,例如信用卡發卡精準營銷預測,使得年新增發卡量兩年翻了一番;基于大數據的行內評分模型,使得信用卡新增不良率降低了45%。在這些數據分析挖掘模型落地實施的帶動下,業務紛紛轉向該領域,期待轉型帶來的新突破。
在技術的推動下,業務對數據分析挖掘的需求量呈井噴式增長,要求也越來越高,特別是非結構化文本數據的處理需求。以往的數據分析大多集中在客戶行為分析、營銷預測、風險管理等數值分析方面,對于文本處理相對較少。為了支撐業務對非結構化文本分析的需求,NLP平臺應運而生?;贜LP平臺,能夠使非結構化文本的處理的問題得以高效解決。
二、NLP平臺概況
NLP平臺引擎承接了行內所有的非結構化文本數據分析挖掘需求,向開發者提供了豐富的算子、訓練環境以及運行環境,打通模型從訓練、發布到集中運行的全流程。NLP平臺架構如圖1所示。
圖1 NLP平臺架構
NLP引擎由五層構成:
· 數據層,包含非結構化數據,以及標注的預料庫,為模型提供數據來源;
· 基礎算法層,包含分詞、詞向量算法、詞性標注等NLP基礎算法;
· NLP原型層,對建模過程提取、抽象、封裝,形成可復用的步驟以及流程,加速建模過程;
· NLP應用層,原型+數據構成了應用層,即在原型的基礎上對數據進行訓練,形成面向特定領域的應用;
· 服務層,對應用功能進行封裝,形成對外提供服務的API,支持其他應用的接入。
NLP平臺五層架構,面向三類客戶提供不同服務(如圖2所示)。
圖2 NLP平臺提供的三種能力
面向數據分析師提供豐富的基礎算法,構建基礎、高效、前沿的模型;面向應用開發者,提供原型接口,加速模型開發,提供模型訓練、部署、發布一站式開發能力;面向應用系統,提供API調用,構建全行統一的NLP服務能力。
三、應用場景
我們能夠標識客戶的金融財產,能夠預測客戶的交易行為,但對于客戶的地址信息等非結構化數據的相關分析變得十分困難。實際上,客戶的很多行為都隱藏在地址信息中:如客戶的風險存在集中性,即存在某一地址區域頻繁逾期現象;又如客戶存在團辦欺詐行為。對此,我們基于NLP技術對地址信息進行了深入的分析挖掘,完成了幾個場景的落地實施。
1.地址比對
在銀行的業務體系中,特別在審批流程中,需要做大量的文本比對工作,尤其是家庭地址、單位名稱。而這些比對現階段主要依靠人工進行審核,一方面效率低下,另一方面出錯率較高。利用NLP技術對文本信息進行模糊比對,能夠解決這些問題,從而提升業務審批效率。
在地址信息中,由于填寫人并沒有按照統一規范進行填寫,因而對地址信息進行直接比對效果欠佳。我們先對地址進行預處理,根據省市代號等信息,對數據進行地址層級三級分類(即省、市、區),縮小地址的比對范圍。
在對地址進行劃分后,對地址進行切詞,將地址細分為單詞進行比較?,F在的主流分詞采用N-gram法、隱馬爾科夫模型、最大熵模型以及條件隨機場等模型,一般而言直接切分效果不會理想。因而我們引用了開源地址庫以及常用停用詞庫,以此提升分詞的準確性。此外,考慮到地址會經常出現錯別字的情況,最后我們會將詞轉換成拼音以消除錯別字的干擾。分詞優化過程如圖3所示。
圖3 分詞優化過程
在分詞之后,會對其進行向量化并計算其相似性。我們通過比對one-hot、tf-idf、Word2Vec多種向量化表示,以及余弦相似性、Jaccard、BM25計算相似性,并評估適用于我行,數據效果最好的方式。地址比對流程如圖4所示。
圖4 地址比對流程
為了驗證比對的準確性,我們對將近12000對地址進了人工標注,根據地址對的相近程度標注了5個層級:一致、大體一致、模糊、無法確定、不一致(見表1)。
表1 地址比對驗證結果
通過比對實際跑出的結果與標注的結果,人工標注為大體一致與一致的與相似度90%以上高度重合,準確率97.2%(加權),人工標注為模糊、無法確定、不一致的與相似度在50%以下的高度重合,準確率為96%。相似度在90%以上以及相似度在50%覆蓋了六成客戶,可認為目前60%以上的地址比對工作可以通過自動化的比對流程來實現。
目前該應用已經應用在信用卡調查審批環節,是農業銀行首個自主研發并投產應用的NLP模型,模型準確率達80%以上,填補了農業銀行地址比對工具的空白。
目前地址比對功能已接入信用卡貸前準入流程,對每日數萬筆的信用卡申請進件進行地址信息異常變動監測,為后續的針對性風控處置提供了業務參考。
2.高危地址庫生成
對信用卡歷史逾期客戶進行分析,可以知道風險具有集中性,即大部分的逾期客戶都集中在少量的地址區域中,所以客戶的地址屬性在很大程度上反映了客戶的風險等級。以城市為單位、以地址區域為維度進行風險監控,能夠極好地預測客戶的風險。這個問題最關鍵就是如何找出高危地址區域。高危地址區域指該地址區域內逾期的客戶數,當該區域的地址逾期客戶數達到一定的數據,我們就認為該地址是高危地址區域。
地址的逾期客戶數反映了這個地址的風險級別,當該地址的逾期客戶數到達一定的數量,我們就可以認為該地址是高危地址。地址是個精確概念,而地址范圍是個區域概念,實際上,評估一個地址區域的風險程度更具備代表性,因此高危地址庫就是找出高危地址區域。
我們整理了國家郵編庫,該庫對地址進行了五級分類。五級標準地址庫見表2。我們將地址基于五級標準分類進行初步分類,以某省的3個城市為例見表3。
表2 五級標準地址庫樣例
表3 某省初步聚類結果
絕大部分的地址都能夠匹配到區級別(第三級),達到了95%以上,區級別以下匹配度準確度為85%,仍有15%的地址無法正確劃分,需要進一步進行劃分。
經過上一步將地址劃分到區級別,現對分到同一個區下的地址進行進一步聚類。采用Kmeans、DBScan以及層次聚類方式進行進一步細分。我們對最終的結果進行了抽樣統計。隨機抽取10000個地址,統計聚類錯誤的數量占比,進而得到每個城市聚類的準確度。聚類錯誤的數量占比=地址非所在類別的數量/總地址數量。以聚類的準確度作為評價聚類效果的指標。我們通過綜合評估聚類算法的效率、輪廓系數以及聚類效果,最終選擇KMEANS算法。聚類的準確度有了顯著的提高,且各個類的分布更加均衡(見表4)。
表4 某省最終聚類結果
高危地址庫生成流程如圖5所示。
圖5 高危地址庫生成流程
我們以上述聚類結果為單位進行分析,即以地址片區為單位,將之看成一個整體進行分析,剔出數量少的地址區域,統計地址區塊的風險逾期情況。生成的數據包含城市名、地址數量、聚類后地址數量、聚類包含平均地址數、逾期占比、風險集中度等情況。
仍以某省城市A為例,城市A的各個區的風險逾期具備顯著的集中性,即各個區出現逾期的地址片區僅占總地址片區的8%。這些地址片區具有較強的風險區分能力,能夠非常好地反映客戶的風險等級,因而對這些地址進行提取,形成高危風險庫,與新申請的客戶地址進行匹配,從而識別客戶風險。
高危地址庫服務對外服務流程如圖6所示。對這些風險庫進行存儲,采用分詞后建立索引并存儲(基于ElasticSearch),利用模糊比對技術對風險庫中的數據進行實時檢索。對于一筆新申請,可通過實時查詢是否命中高危庫,在貸前進行風險識別。
圖6 高危地址庫服務對外服務流程
目前,該應用也應用在了信用卡調查審批環節。通過對高危風險地址庫的有效攔截,顯著提升了農業銀行信用卡風險管理水平。
四、展望
通過對NLP技術的探索,我們完成了農業銀行日前首個自主研發的NLP應用項目的落地投產。該項目有效地提升了農業銀行信用卡風險管理水平與反欺詐能力,為農業銀行AI自研之路奠定了良好的基礎。
后續,我們將繼續探索NLP技術的研究,形成探索、開發、訓練、投產、后評價全流程體系,以支持全行的NLP服務,打造面向全行的NLP引擎,推動NLP引擎向著組件化、原型化、服務化、平臺化的建設目標邁進。
(1)組件化:不斷豐富基礎層算法模型,依托AI平臺,向資深數據分析人員提供最新、最全的原生組件。
(2)原型化:自上而下,對已實現場景進行提煉,對算法進行組裝與封裝,沉淀形成資產,面向應用開發人員提供原型,避免重復造車,提高應用開發效率。
(3)服務化:將服務能力API化,為全行應用系統提供統一實時、批量服務能力,高效實現系統接入。
(4)平臺化:依托AI平臺,向開發人員提供多層次、全方位、流程式、一站式開發部署服務。
責任編輯:韓希宇
免責聲明:
中國電子銀行網發布的專欄、投稿以及征文相關文章,其文字、圖片、視頻均來源于作者投稿或轉載自相關作品方;如涉及未經許可使用作品的問題,請您優先聯系我們(聯系郵箱:cebnet@cfca.com.cn,電話:400-880-9888),我們會第一時間核實,謝謝配合。