1月5日,中信銀行一項名為“一種基于通用大語言模型的金融數據查詢方法及系統”的專利公布。其申請于2023年10月25日,涉及數據自動化處理及大數據處理技術領域。
摘要顯示,將自然語言查詢請求轉換為對應數字向量后使用預設的識別模型轉換為查詢腳本執行查詢請求,使用通用大語言模型為基礎,實現可以理解中文需求的SQL腳本自動生成,自動完成腳本安全和數據安全校驗,最終執行并將結果發送給需求提出人,能夠將商業銀行一線業務人員的用數需求文檔直接導出SQL腳本并執行生成結果,減少了數據分析人員分析需求和編寫SQL腳本的工作,在大幅減少人工工作量的同時也提升了業務人員用數效率。
方法包括:
S1、獲取第一查詢需求,將第一查詢請求轉換為第一數字向量并保存第一查詢需求和第一數字向量;第一查詢需求包括中文自然語言查詢需求;
S2、使用預訓練的第一識別模型將第一數字向量轉換為第一查詢腳本;第一識別模型為基于通用大語言模型訓練所得識別模型;
S3、依據第一查詢腳本對第一識別模型執行第一評估操作,并依據第一評估操作結果修正第一識別模型得到第二識別模型,使用第二識別模型將第一數字向量轉換為第二查詢腳本;
S4、判斷第二查詢腳本是否符合預設的腳本安全規則;
S5、當判斷第二查詢腳本符合預設的腳本安全規則時,執行第二查詢腳本得到第一查詢結果;
S6、依據第一查詢結果對第二識別模型執行第二評估操作,并依據第二評估操作結果修正第二識別模型得到第三識別模型,使用第三識別模型將第一數字向量轉換為第三查詢腳本;
S7、判斷第二查詢腳本與第三查詢腳本的相似度是否低于預設閾值,當判斷第二查詢腳本與第三查詢腳本的相似度不低于預設閾值時,使用第一查詢結果作為輸出結果反饋;
S8、當判斷第二查詢腳本與第三查詢腳本的相似度低于預設閾值時,執行第三查詢腳本得到第二查詢結果,并使用第二查詢結果作為輸出結果反饋。
其中,預訓練的第一識別模型包括基于GPT架構語言生成模型的預訓練識別模型。
第一評估操作包括使用強化學習模型匹配第一查詢腳本的人工反饋評分加權評估第一識別模型。
腳本安全規則包括下列規則的任意一種或多種組合:特定關鍵詞屏蔽;特定查詢字段屏蔽;數據輸出長度限制;查詢執行時間限制。
第二評估操作包括依據第二查詢腳本相較生產腳本的關鍵詞修改數量評估第二識別模型。
另外,步驟S4還包括:當判斷第二查詢腳本不符合預設的腳本安全規則時,停止反饋第一查詢需求并依據腳本安全規則輸出提示信息。
說明書提到該發明的背景為,金融業務領域日常需要處理大量數據,并依據業務需求對應提取特定數據內容使用。對于商業銀行的內部用數、取數工作,其主要需求包括:數據分析需求;數據管理需求;數據共享需求;數據可視化需求;實時數據處理需求;多維數據分析需求;智能數據分析需求。為了滿足這些需求,商業銀行需要建立完善的數據處理平臺,包括數據采集、存儲、處理、分析等方面,并采用先進的技術和工具,如大數據技術、數據挖掘技術、可視化技術等,以提高數據處理效率和質量,支持商業決策和競爭。
為實現上述功能需求,需要提供一種自然語言與數據查詢語句之間的轉換系統,例如將中文自然語言查詢語句轉化為SQL查詢語句的中文轉SQL腳本模型。但是,現有的中文轉SQL腳本模型在實現中仍然存在以下技術問題:語義理解問題;語法轉換問題;實體識別問題;關聯關系識別問題;查詢優化問題;多語種支持問題;可擴展性和魯棒性問題。
由此可知,目前的中文轉SQL腳本模型大多采用類似機器翻譯的模式,例如使用bert預訓練模型架構,是將中文詞語逐個轉換為SQL關鍵詞或者表名、字段名,如果需要關聯查詢,無法自動生成復雜的關聯、嵌套查詢語句。而對于金融行業,特別是商業銀行的具體應用領域,數據統計常常設計大跨度時間段和多表關聯,不僅數據量大,計算方式也較復雜,因此傳統的中文轉SQL腳本模型在金融行業的日常工作中實用性不強。
對比傳統的商業銀行需求管理、數據分析和數據庫查詢系統分別獨立的狀態,使用該發明的方法能將以上三個板塊統一起來,實現需求分析、腳本分析、安全審核等功能全程智能化、自動化完成,實現銀行業務人員的7*24小時用數需求支持,可提升銀行內部用數、取數的效率。
責任編輯:陳愛
免責聲明:
中國電子銀行網發布的專欄、投稿以及征文相關文章,其文字、圖片、視頻均來源于作者投稿或轉載自相關作品方;如涉及未經許可使用作品的問題,請您優先聯系我們(聯系郵箱:cebnet@cfca.com.cn,電話:400-880-9888),我們會第一時間核實,謝謝配合。