為促進數據要素安全合規高效流通、賦能人工智能大模型創新發展,作為2023世界人工智能大會的重要組成部分,7月8日,由上海數據交易所、大數據流通與交易技術國家工程實驗室承辦的“大模型時代下的數據要素流通”主題論壇在上海世博中心舉行。
啟動語料數據生態創新合作伙伴計劃
語料庫建設是一件長期性、專業性的工作,需要遵循相應的質量標準和規范,并保持持續更新和擴充,以適應大模型發展的新需求和新挑戰。上海數交所作為全國數據要素市場核心樞紐,在助力大模型語料庫建設上具有天然的優勢。上海數交所官網已經于7月7日正式上線語料庫,累計掛牌近30個語料數據產品,包含文本、音頻、圖像等多模態,覆蓋金融、交通運輸和醫療等領域。
為更好打造高質量語料庫、圍繞語料數據共建數商生態,上海數交所牽頭發起語料數據生態創新合作伙伴計劃,攜手首批合作伙伴上海人工智能實驗室、商湯科技、中國知網、瀾舟科技、OpenKG、拓爾思、新致和蜜度正式啟動該計劃,積極引導不同行業、不同領域、具有一定規模的高質量語料數據產品掛牌交易,推動人工智能大模型技術創新與應用落地,進一步豐富語料庫多樣性,助力數據要素市場建設。
數據要素價值不斷凸顯
數據要素在人工智能大模型的發展中具有關鍵性的作用,決定了模型的訓練質量、性能表現和應用領域的廣度與深度。中國電子副總經理陸志鵬圍繞“數據要素驅動的大模型體系”做主旨演講,他認為,大模型技術實現高質量發展,數據有效供給是關鍵,亟需建設安全可信的數據底座。當前數據合規確權、計量估價、協調分配、安全隱私保護等核心難題需要破解。
大數據流通與交易技術國家工程實驗室常務副主任黃麗華表示,數據驅動三大變革,包括經濟結構、創新范式、企業模式。面向大模型,數據要素市場大有可為,多層次數據要素市場的建設將提供重要助力。多層次數據要素市場的建設需要有明確的數據需求應用場景,數據要素產權制度可以提供重要支撐,合規安全機制提供保障,基于這樣的一個市場,數據產品低成本、大規??傻貌庞锌赡軐崿F,才能更好地賦能商業高效應用,促進數字化轉型。未來,顛覆性創新一定是基于數據+人工智能+行業專業知識發生的。
中國知網副總經理張宏偉表示,數據是人工智能的基石,數據的質量和數量最終決定人工智能水平高低,影響其安全性、可信性。知網擁有海量高質量文本語料數據,打造可融入行業生產系統的專業知識增強大模型,同時基于CNKI知識增強大模型,將全面升級現有產品服務,推出AIGC檢測等新服務,賦能知識密集型行業領域。
共建生態共推大模型應用落地
2022年11月,OpenAI推出對話式通用人工智能大模型ChatGPT,全球新一輪AI創新熱潮隨之掀起,國內多個人工智能大模型相繼推出并快速迭代。商湯科技聯合創始人楊帆認為,大模型在C端、G端、B端都有大量應用場景,賦能醫療、金融、科研、制造等各行各業,將帶來全新的技術迭代和場景升級,AI產業即將迎來一個更加繁榮的“大航海時代”,數據將成為智能化過程中最重要的要素,包括數據獲取、數據標注與存儲、數據處理與清洗、數據管理等環節都將影響人工智能的水平。
科大訊飛于今年5月正式發布星火認知大模型及應用成果,向教育、辦公、汽車等多行業伸覆蓋??拼笥嶏w大數據研究院院長譚昶展現了星火認知大模型所具備的開放式問答、解答邏輯和數學問題等多項功能,他表示,認知大模型推動了通用人工智能技術階躍,為更好解決數據更新、數據偏見和數據安全等問題,各方需要加強合作共建生態,共同推動大模型應用落地。
拓爾思總裁創始人施水才認為,高質量數據才是大模型價值躍遷的制勝法寶,此外,基礎大模型沒有辦法解決行業專用問題,行業大模型是行業應用落地重點。今年6月底,拓爾思正式發布“拓天大模型”,并率先面向媒體、金融、政務領域推出了行業大模型,未來一年還將陸續推出網絡輿情、公安、知識產權、法律、審計等行業大模型。
責任編輯:王煊
免責聲明:
中國電子銀行網發布的專欄、投稿以及征文相關文章,其文字、圖片、視頻均來源于作者投稿或轉載自相關作品方;如涉及未經許可使用作品的問題,請您優先聯系我們(聯系郵箱:cebnet@cfca.com.cn,電話:400-880-9888),我們會第一時間核實,謝謝配合。