知識圖譜是人工智能的一個重要分支,對可解釋人工智能具有重要作用。金融知識圖譜作為專業領域知識圖譜,在智能投研、智能風控、智能客服、智能合規等領域有著重要的應用價值。本文綜合熵簡科技三年以來的產業實踐,結合知識圖譜領域的技術前沿,以及資管場景的落地應用,淺談知識圖譜在金融資管領域的發展現狀與應用展望。
1、金融資管知識圖譜的獨特之處
根據知識圖譜項目的應用場景,可以分為通用知識圖譜、專業領域知識圖譜。
通用知識圖譜指的是百度、谷歌、Yandex這類搜索引擎背后的知識圖譜,例如德國馬普研究所推出的Yago(現在是IBM Watson的知識庫之一)、2010年被Google收購的Freebase、2011年由Google、微軟、雅虎、Yandex共同推出的Schema.org、2012年由Wikipedia推出的Wikidata都屬于通用知識圖譜的范疇。
專業領域知識圖譜則是聚焦于金融、醫療、能源、農業等行業的深度知識沉淀,二者在眾多環節存在巨大差異。
·第一,專業領域知識圖譜的知識結構更復雜并具有層次感。
·第二,專業領域知識圖譜對知識抽取的質量要求更高。
·第三,專業領域知識圖譜的數據來源更聚焦,因此對知識融合的需求更高。
·第四,從應用的形態上來看,專業領域知識圖譜的應用往往涉及決策分析支持,需要用知識圖譜支持邏輯推理,并提供較強的可解釋性。
根據熵簡科技的產業實踐經驗,相比其他專業領域而言,金融領域的知識圖譜有兩個顯著特點。
首先,金融知識具有較高的復雜性和層次性。不同標的的投資機會或者風險暴露之間有較大的差異,比如分析輪胎公司,不能只看上游化工原材料的價格變化,還要看下游配套主胎車型的銷量變化,其中化工原材料價格的變化進一步需要分析供需端的一系列因素,比如礦井勘探、氣候變化、地緣政治、替代品價格等。這只是一個輪胎公司的分析框架,不同行業的公司分析框架有較大差異。
其次,金融知識具有高度動態性,需要關注知識的時效性。金融投資的本質,是利用信息不對稱以及認知不對稱從而產生超額收益的過程,因此需要對金融知識進行時間維度的建模。以航空行業的知識圖譜為例,10-12年主要看油價的變化,12-14年主要看匯率的變化,后來因為國內二三線城市的財富效應導致出境游熱潮,而跨境航班比國內航班毛利率更高,因此出境游成為航空行業增長的核心驅動力,再到后來因為地緣政治的變化,出境游熱潮回退,再到后來17年民航局出文做航空供給側改革,導致機票價格穩步上漲,再到2020年的新冠疫情,不難看出金融投資領域的知識結構對時效性的要求很高,需要能夠進行時間維度的建模比較。
2、構建金融資管知識圖譜的核心技術難點
構建金融資管領域知識圖譜的過程中,有兩個核心技術難題,分別是知識抽取和知識融合。
資管領域的知識來源包括研究報告、公司公告、新聞輿情、數據指標等,從形態上主要分為結構化數據和文本數據。不同類型數據源對應的知識抽取技術有較大的差異。從結構化數據中獲取知識需要使用D2R工具,例如SparqlMap、Triplify、D2RServer等。
從文本數據中抽取知識則需要用到實體識別技術和關系抽取技術,在這兩個領域中,深度學習能夠發揮非常巨大的價值。以招投標文本數據為例,通過word embedding和position embedding,以及 4 層級聯Transformer網絡,我們能夠獲取每個詞的實體類別標注信息,然后再接入 CRF 預測層進行全局組合,可以得到準確率較高的實體標注結果。(注:Transformer 層網絡參數的初始化值繼承自 BERT-base 的參數。)
圖:知識抽取NLP模型
當知識圖譜的搭建進行到一定階段時,我們就需要考慮知識融合了。知識融合指的是對多來源知識圖譜進行合并。知識融合的過程中有兩大難題,分別是實體對齊、本體對齊。
首先先快速過一遍本體和實體的區別。熟悉編程的朋友可以這么理解,本體是類,實體是一個實例。比如我們定義了“人”這個本體,人都有性別、身高、體重這幾個屬性。具體而言,小王是一個人,性別男,身高1米8,小李是一個人,性別女,身高1米7,小王和小李是2個實體。
介紹完定義后,我們來分別看實體對齊和本體對齊這兩個知識融合的難點。
實體對齊的核心任務是實體消歧和指代消解。用大白話來說,就是判斷知識庫中的同名實體是否代表相同的含義,以及知識庫中是否存在相同含義的實體有著不同的命名。具體的做法就是通過聚類算法計算相似度,常用的如空間向量詞袋模型等。
本體對齊的含義是指尋找多知識源中本體之間的映射關系。本體之間的映射橋有很多種,比如is_a的上義映射(熵簡科技是一家數據科技公司),include的下義映射,overlap的重疊映射,part_of的部分映射等。
本體的對齊往往涉及到共識的修改,而這種共識的修改往往是一個持續的過程,因此本體對齊的核心問題在于如何對這種共識的演化進行有效的管理。本體演化框架通常包括本體注冊模型、變化模型、約束模型、演化信息模型和變化傳播模型。目前常用的本體演化管理框架有COnto-diff、KAON等。
圖:COnto-diff架構圖
除了知識抽取和知識融合之外,包括知識存儲方案的選型、知識推理和檢索技術也有眾多可展開之處,這部分放到日后詳談。
3、應用實踐案例
這里以上市公司“玲瓏輪胎”為例,我們可以看看知識圖譜系統的實際應用。當前投研知識的主要載體是研究報告和上市公司公告,通過對其中知識進行抽取、修剪,能夠得到企業的深度研究知識圖譜。
以玲瓏輪胎為例,公司的基本面框架中,上游的原油價格以及下游的配套主胎車型銷量是核心影響因素之一。
對于原油而言,進一步與全球鉆井數、石油企業CAPEX、各國匯率、地緣政治、替代品價格等核心因素相關。
對于下游配套主胎車型來說,系統支持通過與結構化數據關聯進行邏輯推斷,諸如中汽協的分車型銷量數據、易車網的汽車折扣率數據、詢單量數據等。
從案例中不難發現,金融資管領域的知識圖譜需要對專業研究資料文本內容進行深度解構,并且將海量結構化指標數據進行深度融合,方能實現邏輯推斷和演繹推理。
同時,系統支持對知識圖譜的時序建模,當研究框架發生改變時,通過對新增研究資料的文本分析,可以在時間維度上對知識圖譜的演化進行管理,一方面保持知識圖譜的時效性,另一方面也為系統性回溯研究提供知識依據。(題圖來源:Pixabay)
費斌杰,熵簡科技創始人兼CEO,長期深耕金融資管數據科技一線,對數據中臺、知識圖譜的技術實踐和產業應用有深入理解,曾就職于嘉實基金,畢業于清華大學五道口金融學院、清華大學工業工程系。
責任編輯:王超
免責聲明:
中國電子銀行網發布的專欄、投稿以及征文相關文章,其文字、圖片、視頻均來源于作者投稿或轉載自相關作品方;如涉及未經許可使用作品的問題,請您優先聯系我們(聯系郵箱:cebnet@cfca.com.cn,電話:400-880-9888),我們會第一時間核實,謝謝配合。