2019年4月13日的下午,在上海普華永道創新中心開啟了一場金融知識圖譜的產業化落地會議,邀請了多位行業專家,有來自東南大學、上海財經大學、復旦大學的專家,以及文因互聯等智能金融技術與服務的業內專家。
從知識圖譜理論、場景實現、發展路線的探討、挑戰與機遇、困境與破局等不同的角度對金融知識圖譜的產業化落地之路進行分享與交流。
所涉及的演講主題有智能金融的破局與金融知識圖譜、探討知識圖譜的成功之路、尋找缺失的因果鏈——淺談當前各行業知識圖譜落地中的挑戰與機遇、金融智能問答系統落地淺析。
關鍵主題是智能金融、知識圖譜、落地,他們雖然從不同的維度去分析,但在某些觀點上能夠起到相互補充和印證。聽完之后,啟發良多,因此結合我當時做的一些筆記,試圖把他們所講整合成一個較為清晰的脈絡。
一、人工智能+金融的應用
人工智能的發展經歷了幾次高潮和低估,當一項技術沒有辦法得到很好的應用時,會受到市場的質疑,進而資本退去。AI能夠在多個方面助力金融的發展,從效率上可提高金融機構工作效率,價值上輔助投資決策,提高合規監管的質量與效率,以及有效預防規避金融風險。
前幾年,金融領域的智能投研、智能投顧得到市場的很多關注,智能投研通過深度學習、自然語言處理、知識圖譜等方法,對數據、事件、結論等信息進行自動化處理和分析,為金融機構的專業從業人員(如分析師、基金經理、投資人等)提供投研幫助。但國內智能投研領域的發展與應用遠不如預期,大規模場景化的服務仍在推進過程中。
智能投顧又稱機器人理財,是虛擬機器人基于客戶自身理財需求,通過算法和產品來完成以往人工提供的理財顧問服務,而目前也是概念重于形式,有關這些高大上的AI金融應用的報道當時在互聯網上滿天飛,但如果不了解行業的實際應用情況,漸漸就會模糊AI+金融的意義在哪里?會議上,專家提出了如下幾個核心觀點:
1. 智能金融的本質:其本質是金融信息處理的部分環節中間件化,金融大工業不是超出市場收益率的投資決策,而是建立金融信息處理的協作系統,直奔主題的金融智能系統并不行得通。
的確,在螞蟻金服,他們就有專門的中間件團隊,打造了大量的金融中間件,如果金融大工業是為了找出超出市場收益率的投資決策,那想必這些公司在下一刻就不會存在了,因為大家都忙著躺賺了。
AI正嘗試和金融結合,但技術的落地需要過程和嘗試,如果試圖從一開始就設計一個完備的系統,可能不太現實,給市場帶來過高的期望,反而會跌的更重。AI技術的發展也經歷好幾個階段,這種演進性也從某種程度上決定AI與行業的結合是有其所處階段的局限性的,不妨先從簡單環節下手,一個切實可行的復雜系統勢必是從一個切實可行的簡單系統發展而來。
2. 金融IT發展的四階段:信息化(從線下到線上)、大數據化(從割裂到融合)、自動化(從繁瑣到簡單)、智能化(從畫龍到點睛)。
目前,我們正處于自動化階段,尤其是現在面臨著數據量增加和非結構化信息的增加,如何能夠自動化地處理復雜數據成為一個較大的問題,在數據分析中有過半的精力都是花費在清洗臟數據上,提升了人力成本,也影響后面環節的應用。
二、知識圖譜在人工智能中處于什么樣的角色
經過上面的分析,我們知道技術對金融行業的升級一定離不開技術本身,如何縮小技術和應用落地之間的差距是一個亟需關注的問題。
之前,我們聽到更多的是大數據的應用,如何利用大數據價值進行變現,這些數據很多都是結構化的數據,而實現人工智能,存在兩種基本范式:
1. 在數據驅動下的統計學習,深度學習。
2. 符號化,才有理解、解釋和推理。
所謂的“符號”我們可以理解為我們人類所積累的經驗、知識、文字等內容。大家都使用過百度的搜索引擎,根據用戶輸入的關鍵字提示完整的問題,其中的原理會使用到統計的知識。比如,我根據大量的中文語料來統計出,哪一句話最像人說的話。
但這種基于統計得出的結果并沒有真正理解數據、文字的意思,就像我們和智能機器人說話一樣,總覺得他們傻傻的,因為他們沒有人的背景知識、所處的環境信息,就無法對人的信息像人類一樣進行解碼解讀。
那我們一定要處理那些復雜的自然語言等符號化信息嗎?人工智能就不能只處理簡單的數據嗎?
引用當時一位專家的話來回答:
“符號知識是人類智慧的最大載體,因此符號知識用于實現機器智能是對人類智慧最重要的繼承方式之一?!?/p>
大數據智能的重要使命是從統計關聯挖掘因果關聯,相信大家聽過一個經典的數據分析案例:啤酒和尿布,我們可以根據數據分析出事物之間的關聯性,但是我們卻不知道原因,這種不具有解釋性的結果使得我們很難相信數據分析到底能給我們帶來多少實在的價值。
如果讓機器人能夠真正理解這些數據,那么就能給我們提供可解釋性的結果,而知識圖譜使得機器具備“理解”能力成為可能。
知識圖譜,簡單來說,就是構建一張知識網絡,類似于人腦中的背景知識,它試圖構建出事物(圓形的節點表示)之間的關聯(節點之間的連接線),有了這張網絡,計算機能夠進行推理,從而找出事物之間的關聯路徑,現在垂直領域的知識圖譜往往來自某公司的業務型數據庫。
三、知識圖譜落地挑戰巨大
現在我們知道了,人工智能要想再往前走,離不開對數據的“理解”,而這種理解可以依靠知識圖譜來實現。但知識圖譜的構建困難重重,具體體現在:
? 構建知識圖譜涉及較多環節,技術棧比較長,每個技術都有很多參考文獻,實現周期較長。
? 構建知識圖譜的過程會應用到自然語言處理、機器學習等內容,離不開大量標注數據的訓練,而標注數據需要耗費巨大的人力成本,如果構建知識圖譜的成本非常大,那么就離應用又遠了一步。
? 知識圖譜的人才缺乏。
因此,會議中的專家提議,建立知識圖譜平臺,它能夠:
? 有機集成各種知識圖譜的技術
? 匯集各種知識,包括通用知識和行業知識(不同的行業建立的知識圖譜是不一樣的)
? 應具備知識服務能力
? 具備多行業應用能力
? 降低知識圖譜構建門檻
? 降低知識圖譜專業人才離職的風險
這樣才能更加有效地把知識圖譜推向行業落地,而行業落地會產生更多的數據及應用需求,才能夠反哺知識圖譜的發展,否則,知識圖譜的研究容易與實際需求產生脫節。
四、知識圖譜應用在金融行業中的必要性和可行性
1. 必要性
要推動人工智能和金融的深度結合,知識圖譜在其中的作用不容小覷,但現在很多傳統類金融企業對知識圖譜還不甚了解,同時,目前的知識圖譜應用還未體現出較大的商業價值,因此很多金融智能服務企業在服務于B端金融企業時,還要竭力科普一番。
我們會發現很多服務平臺都推出了智能客服,工商銀行的叫工小智,京東智能客服叫JIMI,雖然這些客服都傻傻的,遠沒有達到用戶的使用預期,那為什么各家企業還要爭相開發呢?
這源于微軟提出的 “對話即平臺”的理論。
在過去的PC端時代,瀏覽器即入口,到了移動互聯網時代,觸屏手機即入口,那么在未來的人工智能時代,入口是什么,也許就源于用戶與平臺之間的對話,這種對話拉近了用戶與計算機之間的關系,誰更智能,誰能更好地理解用戶的需求,就能更好地抓住用戶。
而這些智能客服都離不開知識圖譜的應用。
在金融的反欺詐領域,傳統反欺詐主要依賴信息的人工審核,但身份證、手機號碼、銀行流水等材料的偽造成本低,金融機構需投入大量人力審核信息主體的身份及材料的真實性;
大數據反欺詐是通過收集大量異構、多樣化的信息交叉驗證信息主體提供的信息及第三方信息來源的真實性,比傳統反欺詐更具有較強的反欺詐能力。但由于數據來源多、數據異構碎片化,結構、半結構、無結構的數據共存,且規模日益龐大,如何整合多元異構數據源,利用已有數據交叉驗證成為新挑戰。
而知識圖譜反欺詐,能夠將多源異構的大數據整合成機器可以理解的知識,將“單點”的身份、資料等的核查轉換成從“面”的形式(網狀)進行欺詐風險檢測,從而實現欺詐的識別與防御。就好像事先編制了一張相互關聯的網,而欺詐的行為能夠通過交叉驗證得到發現。
2. 可行性
對于中小型金融企業來說,他們更加關注知識圖譜在金融領域的落地是否具有可行性,在會議上專家給出了幾點工程實踐上的建議:
? 循序漸進:錯誤想法是想要速戰速決,畢其功于一役,應該做好打持久戰的準備
? 先簡后難:從一些詞匯、簡單關聯、結構化程度高的反推做起,不要依賴不成熟的文本抽取
? 應用引領:從應用反推知識的種類與邊界,從應用中獲得反饋,不要為了建圖譜而建圖譜
? 由粗到細:從粗粒度知識表示做起,避免過早陷入細粒度知識表示的泥潭
這些建議對很多行業應用知識圖譜都有借鑒意義,金融的核心在于風險控制,而各行業的知識圖譜的發展能夠給金融行業帶來更多可用的數據,比如現在的用戶資質審核會使用到更加豐富的數據,包括行為數據、社交數據等,而在過去,這部分數據是很難獲得的。
再例如我最近在做一個關于簡歷和職位的匹配項目,我們是不是可以建立一個員工和跳槽前后公司的關系,根據圖譜,我們發現最近有大量的人才從制造業往互聯網業跳槽,這是不是意味著接下來一段時間互聯網行業的股票會上漲,因為人才的流動可能關系著行業的興衰。
總結來說,知識圖譜的發展能夠促進人工智能的發展,更進一步推動人工智能與行業的結合,但由于目前技術上的問題,中小企業在資金資源、人才資源缺乏的情況下,可以先從簡單的系統做起,逐步演進。
責任編輯:陳愛
免責聲明:
中國電子銀行網發布的專欄、投稿以及征文相關文章,其文字、圖片、視頻均來源于作者投稿或轉載自相關作品方;如涉及未經許可使用作品的問題,請您優先聯系我們(聯系郵箱:cebnet@cfca.com.cn,電話:400-880-9888),我們會第一時間核實,謝謝配合。