在軟件開發領域,每當一項新技術橫空出世,“開源”和“閉源”,是擺在大廠面前的兩條技術路徑。
大模型時代亦是如此。開源降低了數據處理與技術開發的門檻降低,但更高投入、更為封閉的閉源模型往往能帶來更好、更專業的開發效果。
在今年大模型浪潮中,據21世紀經濟報道記者了解,在金融機構探索大模型技術的過程中,都嘗試基于已有的大模型開源框架再進行指令微調,以快速實現任務部署,但在生成式AI監管與數據安全保護趨嚴的背景下,也遇到多方問題。而自主研發的大模型需要的巨額投入往往令人望而卻步。
在國內正式對外發布的金融大模型中,除了度小滿“軒轅”金融大模型,其他金融大模型全部是閉源大模型。而在通用大模型領域,大廠、創業機構、學界的開源大模型生態在加速形成。
對于金融大模型而言,開源與閉源技術路徑如何選擇?
“Llama2時代”落幕?
“Llama2作為一個開源模型的時代已經過去了?!?月,百川智能宣布開源升級微調后的Baichuan2大模型,其創始人王小川表示。
Llama2的開源可商用掀起了今年年中大模型應用開發的浪潮。
今年7月,幾乎在同一日,有兩則來自大廠的消息加速了大模型及應用商業化落地:一個是微軟宣布Microsoft 365 Copilot定價,這一“GPT版”Office的全面商用將微軟股價推升至歷史新高;另一個則是Meta宣布免費將旗下大模型Llama2提供給微軟Azure云計算平臺上的軟件開發者。
“雖然二級市場可能對微軟定價公布很激動,但對于大多數開發者對Llama2的開源可商用更興奮?!北藭r,一位投資分析人士向記者表示,這意味著大模型應用進入“免費時代”。
但由于Llama2的中文訓練語料不足,其在中文問題上表現仍有缺陷,更重要的是,Llama2的商用協議聲明“僅適用于英文為主的環境”,這意味著基于Llama2的中文商用大模型拿不到開源協議。
如今國內大模型開源生態正在加速形成,從代碼大模型開源、通用大模型開源到垂直行業大模型開源,覆蓋大模型全產業鏈。
通用大模型方面,除了Baichuan2,阿里云通義千問140億參數模型Qwen-14B及其對話模型Qwen-14B-Chat已正式宣布開源,上海人工智能實驗室聯合商湯科技、復旦大學、香港中文大學推出的“書生·浦語”(InternLM)大模型也已實現開源。
代碼大模型領域,螞蟻集團在外灘大會上宣布開源代碼大模型CodeFuse。
在金融領域,今年5月,度小滿宣布開源國內首個千億參數的金融大模型“軒轅”,9月22日,度小滿宣布將升級后的“軒轅70B”金融大模型開源,同步在社區開源50G高質量金融語料。據度小滿CTO許東亮公開表示,在增量預訓練和指令微調階段,金融數據有所增加,在預訓練階段,模型上下文長度擴充到8k,能夠處理更長的金融報告、研究和分析。
技術普惠與開發共創
源代碼開放與信息共享,推動了移動互聯網的“安卓時刻”。
谷歌是開源生態的一大受益者,正是安卓系統的開源使得眾多開發者涌入谷歌體系進行應用開發,幫助安卓系統打敗除蘋果以外的眾多手機廠商,拿下市場大半江山。
而開源生態的加速形成也被視為大模型時代“安卓時刻”的來臨,對于機構探索金融大模型而言,開源模型的價值在于降本增效。
“可以說通用開源大模型是技術底座,可以用的我們都嘗試過了,哪個好用就用哪個,選好大模型基座以后加上金融語料做預訓練,然后在場景實現落地?!庇薪鹑跈C構科技部門負責人表示,其落地場景下的大模型應用主要是基于開源大模型。
據記者了解,在生成式人工智能監管趨嚴之前,上半年金融機構主要嘗試接入的金融大模型是彭博的BloombergGPT與開源的金融大模型FinGPT,同時也探索了通用大模型在金融垂直領域的微調與預訓練。
浙商證券金融工程分析團隊在一份研報中指出,與閉源的BloombergGPT相比,FinGPT有訓練成本低、數據與模型平民化、端到端系統架構等三個優勢。
一方面,金融行業是高度動態的,信息和數據以較高頻率更新。BloombergGPT 的定期訓練成本非常昂貴,因此輕量級適應在金融領域非常有利。FinGPT 可以快速微調以與新數據保持一致,而不是隨著金融環境的每一次重大變化從頭開始重新訓練模型,估算每次訓練不到300 美元。
其次,BloombergGPT需要特權數據訪問與API接口,而通過FinGPT可以優先考慮模型的輕量和適應性,僅需基于開源大模型輸入金融數據進行微調。
最后從系統架構來看,FinGPT的“數據源層、數據工程層、大語言模型層、應用層”系統框架實現了從信息端到投資端的全流程應用。
但在基于開源大模型訓練過程中,除了算力,最為突出的問題是高質量數據?!爱敂祿康竭_一個程度,大模型確實能夠實現能力的涌現,但首先要有這些優質數據?!币晃换鹦畔⒖萍疾控撠熑颂寡?,在開發側,要讓代碼生成可用,需要超過30個優質金融項目代碼,但很多機構很難做到。
在這一背景下,對于大廠而言,通過開源可以通過開發者實現技術的共創與變革。在宣布代碼大模型“Codefuse”開源時,支付寶小程序云負責人李錚表示,只有將整個技術開源,與社區對接,讓更多人使用它,才能解決整個軟件研發領域各個環節的問題?!罢麄€代碼大模型還在初步階段,寫代碼是沒有問題的,而且整體能力還在不斷提升,但真正解決軟件工程問題還有很長的路要走,我們抱著開放的心態與大家共同提升?!?/p>
監管趨嚴下的路徑探索
在《生成式人工智能服務管理辦法》出臺后,傳統金融機構對境外開源大模型的使用愈發謹慎,逐步轉向基于境內開源大模型應用。
有采訪對象向記者提到,短期內用Llama2或者BloombergGPT可以部署一些簡單的小任務,但再往前走,還是需要訓練自己的基礎模型,或者采用符合國內監管標準的大模型。
據記者調研,目前金融機構的選擇路徑包括兩個方面,一種是與大模型廠商聯合共創,私有化部署基于金融大模型的模塊應用;另一種是接入金融大模型產品,實現部分業務的智能化工具應用。
一位大行云計算方面專家提到,據其走訪發現,一線開發人員在實際編碼工作中的痛點主要有三個方面。首先,對于不熟悉編碼模式、規范的新員工而言,在不知道如何實現代碼編碼時,缺乏優質、可復用的標準代碼作為提示。其次,在開發出現問題時,由于行內研發環境與互聯網環境不互通,開發人員無法及時查找到標準參考案例與相應解決方案。此外,開發人員還會面臨復雜度較高、耗時較長的問題,部分老舊代碼由于缺少注釋,維護也比較困難。
因此該行在內部啟動智能研發建設,將代碼推演預測、代碼自動生成、代碼檢索復用等企業及能力用IDE插件形式進行整合,逐步在開發中心內部推廣?!癎PT-4技術帶來了大量編碼階段的交互式輔助編程能力,未來將顛覆編碼體驗?!彼硎?,由于行內信息安全要求,該行基于聯合創新機制在探索新的大模型能力。
應用接入層面,據公開信息顯示,度小滿開源的“軒轅”金融大模型已有上百家金融機構申請試用;9月25日,恒生電子宣布已面向20家金融機構開啟金融大模型“LightGPT”內測;而螞蟻集團向B端金融機構痛的AI業務助手“支小助”也已與合作機構開啟內測共建。
責任編輯:王超
免責聲明:
中國電子銀行網發布的專欄、投稿以及征文相關文章,其文字、圖片、視頻均來源于作者投稿或轉載自相關作品方;如涉及未經許可使用作品的問題,請您優先聯系我們(聯系郵箱:cebnet@cfca.com.cn,電話:400-880-9888),我們會第一時間核實,謝謝配合。