案例名稱
多模態數據在反欺詐中的應用
案例簡介
隨著互聯網技術的發展,智能風控技術越來越多地被應用于金融機構的各個業務中,但現有的各類風控模型均基本使用結構化數據進行構建,對于圖片、語音等非結構化數據利用還相對較少。本案例提出一種結合非結構化數據和結構化數據的框架,采用當前較前沿的技術對多模態數據進行特征提取構建反欺詐模型,有效提升了模型的區分精度,助力把控業務風險。
創新技術/模式應用
1、提出了一種結合多模態數據的框架,該框架使用管道的方式,先通過深度學習模型對非結構化數據進行特征提取,再結合提取的非結構化特征與結構化特征構建評分卡,能夠對非結構化數據和結構化數據聯合建模,對信息的有效成分捕捉更全面,使得各類型數據之間的信息能夠實現1+1>2的效果;
圖1:多模態風控框架圖
2、1)采用通用模型遷移學習的方式對圖像這一非結構化數據進行特征提取,預測圖像的標簽:具體實施過程中,本案例采用了當前最大的ImageNet數據集上訓練得到的預訓練模型,對其固定卷積過程參數,之后在業務數據上訓練擬合模型的全連接層參數,最終得到適配本案例業務的模型;2)同時在訓練過程中本案例還采用數據增強技術如對圖片進行翻轉,旋轉,裁剪等,一方面擴充了數據量,另一方面增加了數據的多樣性提升了模型的泛化能力,進而提升了模型分類準確率;3)設計了多標簽網絡預測結構,并設計了多目標的模型訓練優化目標函數,使得最終實現訓練一個模型預測多個標簽的能力;
如圖2所示為圖像特征提取模型結構。
3、構建結合圖像標簽數據以及征信等結構化數據的評分卡,提升了評分卡的效果指標。在構建過程中,通過數據空值過濾、唯一值過濾、相關性過濾、多元線性相關性過濾、特征分箱分析、woe編碼、編碼后的特征相關性分析、逐步回歸分析等多個步驟對特征進行篩選,模型擬合后對模型進行穩定性分析、特征穩定性分析、評分分數分布分析、評分卡單變量業務意義分析等步驟對模型進行嚴格審慎構建。
項目效果評估
·本案例設計了非結構化數據的處理方案,并結合非結構化與結構化數據對現有風控技術進行增益,幫助金融機構更全面控制金融風險,有效規避金融欺詐風險;同時提供了一套可行的多模態數據風控方法論可以推行至其他各個業務場景;
·非結構化數據處理模型分類精度能夠達到95%以上,能夠非常精準給客戶圖像打標簽;較只使用結構化數據的舊模型,多模態數據處理模型從識別好壞申請的能力和模型穩定性上都有相當程度的提升,具體地,auc從0.796提升至0.828,ks從0.48提升至0.5,同時psi穩定性指標穩定在0.05;
·相較舊版本模型本案例能夠處理大量非結構化數據,兼容性強,可以外延擴展至文本、語音等各種形態的非結構化數據處理。
項目牽頭人
高龍:數智金融創新實驗室-智能決策服務部-PO
項目團隊成員
司斌斌:數智金融創新實驗室-智能決策服務部-建模師
龔永昌:數智金融創新實驗室-智能決策服務部-建模師
張青周:數智金融創新實驗室-智能決策服務部-建模師
申曉雪:數智金融創新實驗室-智能決策服務部-建模師
王珂: 風險管理部-智能風控中心-業務經理
段然: 金融科技部-軟件研發中心-技術開發崗
責任編輯:韓希宇
免責聲明:
中國電子銀行網發布的專欄、投稿以及征文相關文章,其文字、圖片、視頻均來源于作者投稿或轉載自相關作品方;如涉及未經許可使用作品的問題,請您優先聯系我們(聯系郵箱:cebnet@cfca.com.cn,電話:400-880-9888),我們會第一時間核實,謝謝配合。