7月5日,在2024世界人工智能大會“可信大模型助力產業創新發展”論壇上,螞蟻集團公布了其自研的百靈大模型最新研發進展:百靈大模型已具備能“看”會“聽”、能“說”會“畫”的原生多模態能力,可以直接理解并訓練音頻、視頻、圖、文等多模態數據。原生多模態被認為是通往AGI的必經之路,在國內,目前只有為數不多的大模型廠商實現了這一能力。
記者從大會現場的演示看到,多模態技術可以讓大模型更像人一樣感知和互動。據悉,目前百靈的多模態能力已應用于“支付寶智能助理”上,未來還將支持支付寶上更多智能體升級。
發布現場,螞蟻集團副總裁徐鵬展示了新升級的多模態技術可實現的更多應用場景:通過視頻對話的自然形式,AI助理能為用戶識別穿著打扮,給出約會的搭配建議;根據用戶不同的意圖,從一堆食材中搭配出不同的菜譜組合;根據用戶描述的身體癥狀,從一批藥物中,挑選出可能合適的藥,并讀出服用指導,供用戶參考等。
同時,基于百靈大模型多模態能力,由螞蟻集團與武漢大學聯合研發的遙感模型SkySense,也在論壇上公布了開源計劃。SkySense是目前參數規模最大、覆蓋任務最全、識別精度最高的多模態遙感基礎模型。
“從單一的文本語義理解,到多模態能力,是人工智能技術的關鍵迭代,而多模態技術催生的‘看聽說寫畫’的應用場景,將讓AI的表現更真實,更接近人類,從而也能更好地服務人類。螞蟻會持續投入原生多模態技術的研發?!毙禊i說。
責任編輯:王煊
免責聲明:
中國電子銀行網發布的專欄、投稿以及征文相關文章,其文字、圖片、視頻均來源于作者投稿或轉載自相關作品方;如涉及未經許可使用作品的問題,請您優先聯系我們(聯系郵箱:cebnet@cfca.com.cn,電話:400-880-9888),我們會第一時間核實,謝謝配合。