記者 王俊 馮戀閣 實習生 羅洛 溫泳珊 林婉娜 北京報道
編者按:自1956年“人工智能”的概念首次被提出已過60余年,此間,人工智能從虛化的代碼逐漸轉化成實踐應用,催生出一批批商業故事。不過,人工智能規?;逃貌⒎翘雇?,概念的火熱一直以來未能助推技術突破與商業應用。
時間來到2022年,生成式AI發展為人工智能發展再注入一針強心劑。ChatGPT橫空出世,被視為通用人工智能的起點和強人工智能的拐點,引發新一輪人工智能革命。人工智能發展似乎找到了自己的主流敘事。
不過,技術創新的同時也帶來了監管難題。如何平衡發展與安全,中國正在摸索自己的AI治理路徑。南財合規科技研究院與觀韜中茂律師事務所推出《中國AI治理的獨立思考——生成式人工智能發展與監管白皮書》,通過分析生成式AI的發展現狀、政策導向、實操中面臨的風險,以及各國的監管路徑,以期為未來的AI治理提供有益思路。
2022年被認為是“生成式AI元年”,Dall-E2、Midjourney、Stable Diffusion等文生圖應用的出現引起廣泛關注;12月底,ChatGPT的橫空出世更是使得生成式AI的風頭一時無兩。
自1956年概念的首次提出至今,人工智能技術已發展超60年。然而,時至今日,其仍未實現大規模應用。生成式AI的出現標志著人工智能進入了新紀元,機器開始能夠模擬人類的創造性思維,并有望促進社會生產力的大幅躍進。
根據技術實現及應用路徑,生成式AI可以細分為數據層、算力層、模型層和商業化應用層。數據層包括數據提供、數據分析以及標注等環節;算力層是AI訓練的基礎設施,包括數據中心、服務器,以及高性能的AI芯片;模型層位于生成式AI的中游,是生成式AI得以實現的關鍵環節;商業化應用層則涵蓋文本、音頻、圖片、影片的生成等,是產業鏈的最下游,但也是AI能否大規模應用、能否真正創造價值的關鍵。
可以看到,2023年各類大模型井噴式爆發,上中下游產業鏈持續高漲,技術應用熱潮席卷全球。
熱潮之下,各國、地區對于AI規則的“軍備競賽”已然開始。當歐盟正試圖通過專門的《人工智能法案》來展現他們對于生成式AI基于風險的治理思路時,中國在7月發布的《生成式人工智能服務管理暫行辦法》則體現其對于生成式AI治理的不同思考?!鞍l展”正逐漸成為中國AI治理的第一視角。
與此前的征求意見稿相比,《辦法》有較大的思路調整,“堅持目標導向和問題導向”,單設了“技術發展與治理”章節,同時也新增了不少有力措施來鼓勵生成式AI技術發展。
其背后所反映的,正是中國對于目前生成式AI發展、治理的獨立思考。
本篇將分析目前中國生成式AI發展現狀、面臨的問題以及政策導向。
大模型“涌現” 百模大戰上演
大模型是本輪生成式AI競賽的殺手锏。各個科技公司加碼大模型,上演“百模大戰”。
《中國人工智能大模型地圖研究報告》顯示,截至今年5月28日,中國10億參數規模以上的大模型已發布79個。而美國和中國就占全球已發布大模型總量的80%以上。
中國大模型不斷涌現,既有實力雄厚的互聯網平臺企業:百度、阿里、華為等互聯網公司發布 “文心一言”、 “通義千問”及華為盤古大模型等;也有人工智能新秀,比如瀾舟科技的孟子GPT、智譜AI的ChatGLM、科大訊飛的星火大模型等。
一批高校、科研院所也相繼入局,清華大學發布大模型GLM-130B、復旦大學則發布大語言模型MOSS;上海人工智能實驗室發布天氣預報大模型“風烏”、北京智源人工智能研究院發布“悟道3.0”等。
在教育和新能源汽車行業,一些企業選擇布局與原有業務相適應的大模型。如網易有道為教育場景自研的類ChatGPT模型“子曰”,學而思的自研數學大模型MathGPT也預計在年內推出。新能源車企如理想汽車已經發布了自研MindGPT,將應用于車載AI助手“理想同學”,而蔚來、小鵬等車企也已在申請GPT商標。在醫療領域,上海聯通、華山醫院聯合開發的Uni-talk、醫聯“MedGPT”、云知聲的“山?!钡纫蚕嗬^登場。
處于核心的模型層,目前可分為通用大模型和行業大模型。通用大模型能夠處理多種任務和應用于不同領域,是資金、資源雄厚的科技巨頭優選;行業大模型則是針對特定領域或任務進行優化設計的模型,基于自建模型或利用通用大模型,引入行業語料進行模型深度訓練,以提升對特定行業/領域應用場景的支撐能力。
由于大模型在資金、算力、語料訓練集等方面存在較高門檻,垂直大模型以其成本低,部署升級靈活的優勢成為新賽道;不過,垂直大模型需要專門的、行業深度訓練的數據以更貼合業務;還需更好地與企業內部知識庫進行配合,才能做到實時迭代更新。
值得注意的是,大模型的門檻逐漸降低。近日,臉書母公司Meta宣布將推出開源大型語言模型Llama 2,可免費用于研究和商業用途。
開源為更多想要入局者提供了想象空間。開源平臺和開源生態將助推大模型的快速迭代與落地應用,尤其是對于缺少算力和資金的中小企業而言,開源打開了一個充滿機會的世界。
中國也在積極建設人工智能生態??萍疾扛辈块L吳朝暉在2023中關村論壇上表示,中國堅持開源協作,加強大模型技術持續創新,協同解決透明性、穩定性等共性問題,進一步推動算力資源和數字資源開放共享,加快形成大模型的產業生態。
商業化落地才能創造價值
大模型持續火熱,業內更關心應用落地。只有讓大模型與千行百業的具體業務場景結合,才能產生具體應用價值。
據南財合規科技研究院梳理發現,大模型技術比較熱門的落地領域包括辦公軟件、社交文娛、商業營銷、家庭助理和金融等。
這些領域內,少部分公司選擇自主部署研發模型,更多的公司則選擇接入較為成熟的大模型(類ChatGPT產品),以直接賦能其原有產品和服務。例如,在辦公領域,微軟Microsoft 365、字節飛書“My AI”、金山WPS等均宣布已接入大模型。社交文娛方向,出現了AI搜索引擎如微軟必應、谷歌Magi,還有應用于游戲影視的英偉達AI智能游戲助手GeForceRTXR.O.N.、Adobe的Premiere Pro等。在家庭場景,AI也充當起家庭管家、私人家教、智能汽車助手,如阿里就率先將AI大模型接入了智能音箱天貓精靈。
在商業營銷方向,多種類ChatGPT產品涵蓋智能客服、推薦算法、虛擬人直播、廣告策劃等具體應用場景。類ChatGPT產品正在逐步滲透到生產和生活的各個環節。
可以看出,生成式AI的商業化應用第一類場景為提升生產工作效率的通用工具,通過生成式AI提升內容供給速度、降低內容創作門檻,從而使得人工資源能夠更多地投入到高價值的工作及創作流程中,提升整體工作效率。第二類場景則是可能改變行業格局的場景應用,比如有場景的C端,有數據的B端,帶來一個增量產業的崛起(如教育、醫療分診,個性化生成,高頻時效交互)等。
不過,商業落地是國內人工智能發展面臨的困境之一,大模型發展只有做到商業化、工程化、應用場景化,才能真正賦能產業。
近期,創業者服務平臺GoDaddy對全美1003家小型企業的調查數據顯示,ChatGPT以70%的應用率成為美國小型企業應用最多的生成式AI產品;38%的受訪者,在過去幾個月里嘗試過生成式AI;營銷、內容創作、商業建議是企業應用生成式AI最多的3個用例;75%受訪者非常滿意生成式AI在業務中的表現。
對比之下,國內大模型遠沒有達到可商用化的程度,或是能深度切入具體應用場景。目前大模型落地主要以價值增強和效率提升為主,而商業模式層面的落地仍在探索中。
大模型能否和業務充分結合,從而真正解決業務問題,是決定AI能否實現經濟價值的關鍵因素。只有緊貼業務的AI戰略設計、完善的配套架構、充足的AI人才及健全的內部培養機制,才能使AI與業務發展需求充分融合,最大化實現經濟收益。
各地的人工智能相關政策也聚焦到應用層。5月發布的《北京市加快建設具有全球影響力的人工智能創新策源地實施方案(2023-2025年)》提到,要發揮各區產業特色和資源優勢,結合人工智能技術特點,圍繞經濟社會發展、科學研究發現、重大民生需求等,形成一批示范性強、影響力大、帶動性廣的重大應用場景。7月發布的《上海市推動人工智能大模型創新發展的若干措施》中提及示范應用推進計劃,要加強大模型在智能制造、教育教學、科技金融、設計創意、科學智能等垂直領域的深度應用和標桿場景打造。
加強基礎技術的自主創新
人工智能需要GPU算力、網絡及存儲等硬件基礎設施的全方位支撐?!掇k法》指出,鼓勵生成式AI算法、框架、芯片及配套軟件平臺等基礎技術的自主創新,鼓勵平等互利開展國際交流與合作,參與生成式AI相關國際規則制定。
《2023愛分析·AIGC廠商全景報告》指出,在中美博弈大背景下,A100、H100為代表的芯片被美國列入禁止出口商品名單,加之國內信創進展和適配需要時間,算力問題成為中國人工智能發展的掣肘因素。
國內過去在互聯網及移動互聯網時代所積累的云計算、數據中心、算力中心等領先全球的數字化基礎設施,為生成式AI落地運行提供了堅實基礎。4月,科技部啟動國家超算互聯網部署工作。根據部署,國家超算互聯網通過算力網絡將全國眾多超算中心連接起來,用互聯網思維運營超算中心,構建一體化算力服務平臺,實現算力資源統籌調度,降低超算應用門檻,帶動計算技術向更高水平發展。
生成式AI的訓練和研發需要大量的基礎設施和基礎資源支持?!掇k法》提出,推動生成式AI基礎設施和公共訓練數據資源平臺建設,促進算力資源協同共享,提升算力資源利用效能。
平臺的建設有助于更好地協調和優化訓練資源,更好地集中精力完成技術層面的攻關和突破。
推動公共數據有序開放,擴展高質量的訓練數據資源也是必須要劃出的重點?!按竽P蜁r代,得數據者得天下?!币环矫?,訓練數據是大模型訓練的基石和燃料,如果沒有數據,大模型的訓練就無法開展和持續;另一方面,當前技術領域的研究顯示,各家大模型在算法層區別并不大,并且具有同質化的趨勢。在此背景下,訓練數據就成了真正區分且影響大模型性能的重要因素之一。
從各地實踐也可以看出,加碼訓練高質量數據集建設已成為重要方向。
北京5月印發的《北京市加快建設具有全球影響力的人工智能創新策源地實施方案(2023-2025年)》中就提到,加強公共數據開放共享,包括動態更新公共數據開放計劃,加快構建高質量人工智能訓練數據集等。6月,深圳發布的《深圳市加快推動人工智能高質量發展高水平應用行動方案(2023—2024年)》中也提出,要搭建全市公共數據開放運營平臺,建立多模態公共數據集,打造高質量中文語料數據等。
目前各地出臺了不少關于公共數據開放利用的條例,利用公共數據投喂人工智能,應按照有條件開放、無條件開放或禁止開放的不同方式進行。不過,公共數據開放存在較多阻力,開放的數據范圍和質量不夠。接下來需推動有序開放,亟待分類分級,發揮公共數據紅利,探索契合公共數據價值利用規律的開放之道。
白皮書出品團隊:南財合規科技研究院X觀韜中茂律師事務所
白皮書撰寫者:王俊 馮戀閣 鄭雪 王渝偉 楊欣如 周丹 錢雨晴 溫泳珊 林婉娜 羅洛
(陸釔潼 王敏 朱敏婕 對白皮書撰寫亦有貢獻)
責任編輯:王超
免責聲明:
中國電子銀行網發布的專欄、投稿以及征文相關文章,其文字、圖片、視頻均來源于作者投稿或轉載自相關作品方;如涉及未經許可使用作品的問題,請您優先聯系我們(聯系郵箱:cebnet@cfca.com.cn,電話:400-880-9888),我們會第一時間核實,謝謝配合。