掃碼登錄
中國市場巨大、數(shù)據(jù)豐富、應(yīng)用場景豐富,完全可以用完善的應(yīng)用生態(tài)來帶動底座大模型的進步,走一條“農(nóng)村包圍城市”的路線。
《瞭望東方周刊》記者萬宏蕾?編輯顧佳贇
7月7日,華為技術(shù)有限公司在華為開發(fā)者大會2023上正式發(fā)布人工智能(AI)大模型華為云盤古大模型 3.0 ( 陳宇軒/攝 )
自ChatGPT上線來,國際國內(nèi)各大廠商紛紛跟進,投入了巨大研發(fā)資源來研發(fā)類似大模型。人工智能的發(fā)展,尤其到了通用人工智能階段,可謂熱點紛呈。
作為人工智能產(chǎn)業(yè)發(fā)展過程中的里程碑事件,ChatGPT代表通用人工智能技術(shù)的成熟,宣告人類社會技術(shù)進步有可能進入快速增長期,甚至一個指數(shù)發(fā)展期。在類ChatGPT大模型領(lǐng)域,中國尚處于起步階段,需做進一步戰(zhàn)略規(guī)劃并統(tǒng)籌發(fā)展。就相關(guān)問題,《瞭望東方周刊》近日專訪了上海市數(shù)據(jù)科學(xué)重點實驗室主任、復(fù)旦大學(xué)教授肖仰華,探討我國大模型產(chǎn)業(yè)的發(fā)展路徑。
肖仰華
知識底座
《瞭望東方周刊》:通用大模型一定程度上刷新了我們對人工智能領(lǐng)域的認(rèn)知,如何理解它帶來的變革?或者說大模型有哪些能力?
肖仰華:大模型是人類文明所積累的海量知識容器,其所具備的通識能力,就是開放世界的理解能力?,F(xiàn)在跟ChatGPT聊天,聊任何行業(yè)、學(xué)科的問題,它都能給出一個看起來不錯的答案,雖然其仍可能犯一些事實錯誤、一些邏輯錯誤,但基本不會太偏離問題主旨——比如問出生日期卻答出生地點。它還具備一定的“自知之明”能力,對于超出范圍或者倫理敏感的問題,會拒絕回答。大模型這種對人類開放世界的理解力,已達到甚至超越普通人的水平。傳統(tǒng)人工智能產(chǎn)品的“智障”問題已基本解決,這種開放世界的理解能力,對垂直領(lǐng)域(垂域)的認(rèn)知非常關(guān)鍵,因為垂域應(yīng)用是建立在通用大模型的通用認(rèn)知能力基礎(chǔ)之上的。
大模型有組合創(chuàng)新能力。我們在指令學(xué)習(xí)階段讓它學(xué)了A任務(wù)、B任務(wù),它以后有可能泛化出求解A+B任務(wù)的能力。這種組合泛化,以前做不到,今天能做到,通用大模型讓“舉一反三”成為可能。
大模型有忠實的指令理解和執(zhí)行能力,尤其是超大模型。只要給它指令、要求、約束、規(guī)范、規(guī)則,它就一定能夠按照要求一步步完成任務(wù)。這本質(zhì)上是一種情境化生成能力。我甚至認(rèn)為,大模型智能本質(zhì)就是情境化生成能力,因為大模型在提示越來越豐富時,生成的效果越來越好。
大模型有復(fù)雜任務(wù)的分解能力和規(guī)劃能力?,F(xiàn)實中很多場景都是復(fù)雜任務(wù),需要一步一步求解,先做什么,再做什么,按照順序進行合理編排,這就是規(guī)劃能力。
大模型還有強大的符號推理能力。以前人們只是把大模型當(dāng)做知識容器來看待,只期望其提供需要的知識。但今天不得不承認(rèn)大模型也一定程度上具備類似知識庫(知識圖譜)所具備的推理能力,比如常識推理、數(shù)值推理等能力,當(dāng)然這方面能力還需要進一步提升。
《瞭望東方周刊》:為什么說單有通用大模型不足以解決行業(yè)領(lǐng)域很多問題,需要發(fā)展垂域大模型?
肖仰華:因為具有上述能力,通用大模型好比是一個寬廣的知識底座,但仍然缺乏專業(yè)知識的深度,缺乏專業(yè)領(lǐng)域復(fù)雜應(yīng)用的長程推理能力。ChatGPT這類大模型本質(zhì)上只是實現(xiàn)了在開放環(huán)境下的人機對話,或者叫開放閑聊,但開放閑聊并不能幫我們解決實實在在的工作場景中的復(fù)雜決策任務(wù),比如要做設(shè)備故障排查、疾病診斷,都是嚴(yán)肅復(fù)雜的決策場景。在這些場景中需要豐富的專業(yè)知識、復(fù)雜的決策邏輯、宏觀態(tài)勢的研判能力、綜合任務(wù)的拆解與規(guī)劃能力、復(fù)雜約束的取舍能力、未見事物的預(yù)見能力、不確定場景的推理推斷能力等。
大模型的開放閑聊過程中可能存在兩個問題:一是“幻覺”問題。與ChatGPT聊天,有時它說得頭頭是道,但仔細(xì)分析,會發(fā)現(xiàn)它正在胡編亂造一些不存在的事實。同時因為其語言風(fēng)格一本正經(jīng),讓普通人很容易相信它,即便是領(lǐng)域?qū)<乙獜乃邪逵醒鄣奈谋局凶R別虛構(gòu)和錯誤也是一件不易的事。
二是缺乏領(lǐng)域“忠實度”的問題。解決任何專業(yè)領(lǐng)域的問題都要求大模型不要自己根據(jù)通識去自由發(fā)揮,而要嚴(yán)格遵循這個領(lǐng)域的規(guī)范、用符合這個領(lǐng)域的知識體系來回答問題。但是我們?nèi)L試了一些通用大模型,發(fā)現(xiàn)如果不做一些調(diào)教優(yōu)化,它總是會超出你給定的領(lǐng)域文檔自由發(fā)揮,進而犯錯。
所以,一個基本的判斷是:單單利用現(xiàn)在的通用大模型不足以解決行業(yè)很多問題。實際應(yīng)用需要的是事實正確、忠實于領(lǐng)域知識與文本的垂域大模型。從這個判斷出發(fā),當(dāng)下我們要發(fā)展面向垂域的大模型,要發(fā)展通用大模型的外圍插件,要采取大模型和知識圖譜、傳統(tǒng)知識庫相結(jié)合的策略。
趕上差距
《瞭望東方周刊》:面對ChatGPT所引發(fā)的通用人工智能產(chǎn)業(yè)變革,國內(nèi)企業(yè)應(yīng)該如何抓住大模型產(chǎn)業(yè)機會?
肖仰華:大模型絕不是宣傳文案的噱頭。我們正在見證由通用人工智能所帶來的前所未有的技術(shù)革命。通用人工智能是人類歷史上第一次關(guān)于智能本身的革命。歷次技術(shù)突破都是人類智能的產(chǎn)物,而唯獨通用人工智能是“智能”本身的革命。
大模型的誕生宣告了整個人工智能進入全新的重工業(yè)時代?;仡櫲祟悮v史上的歷次技術(shù)革命,多始于相對低級的手工作坊模式,經(jīng)過漫長的發(fā)展周期,最終形成了成熟的重工業(yè)發(fā)展模式。重工業(yè)化的人工智能有三個鮮明的特征:大模型、大算力和大數(shù)據(jù)。
5月23日,工作人員在貴州大學(xué)省部共建公共大數(shù)據(jù)國家重點實驗室算力中心 ( 劉續(xù)/攝 )
國外大模型產(chǎn)業(yè)已經(jīng)形成了一個生態(tài),而且發(fā)展非常迅速。反觀國內(nèi),從表象上看熱鬧非凡、模型林立,但是剝開外殼從內(nèi)里看,仍然有不少問題,不免讓人擔(dān)憂。
一方面,幾乎所有國內(nèi)人工智能產(chǎn)業(yè)的重要企業(yè)與研發(fā)機構(gòu)紛紛推出了自己的類ChatGPT大模型。這說明,大家都意識到大模型的戰(zhàn)略意義,積極主動投入資源,這值得肯定。
另一方面,國內(nèi)大模型產(chǎn)業(yè)發(fā)展已經(jīng)出現(xiàn)一些問題:一是技術(shù)路線同質(zhì)化嚴(yán)重,很多大模型都是用ChatGPT喂養(yǎng)自己的大模型,或是在國外開源通用大模型基礎(chǔ)上進行指令微調(diào);二是數(shù)據(jù)生態(tài)不完善,中文數(shù)據(jù)生態(tài)尤其重要,但現(xiàn)在較為欠缺;三是算力掣肘;四是模型創(chuàng)新有限,現(xiàn)在很多國內(nèi)大模型都基于國外的開源社區(qū)模型。
總之,ChatGPT所引發(fā)的通用人工智能產(chǎn)業(yè)變革才剛剛開始,中國相關(guān)部門和企業(yè)要以深入的思考和扎實的實踐抓住機遇,同時高度重視發(fā)展過程中出現(xiàn)的問題。
《瞭望東方周刊》:具體來說,中國發(fā)展大模型產(chǎn)業(yè)目前面臨哪些短板?
肖仰華:大模型產(chǎn)業(yè)的發(fā)展取決于多個因素:其一是模型,模型好比內(nèi)功,模型越大,潛力越強。其二是算力,這是大模型的核心競爭力,大模型競爭歸根結(jié)底是算力的競爭。其三是數(shù)據(jù),只有高質(zhì)量的數(shù)據(jù),才能喂養(yǎng)出高水平的大模型。不過,這幾個問題都不是中國大模型產(chǎn)業(yè)的真正短板所在。
與國際同行相比,當(dāng)前我國大模型產(chǎn)業(yè)發(fā)展在數(shù)據(jù)上有優(yōu)勢,在算力方面有基礎(chǔ),模型本身也不存在什么技術(shù)秘密,真正的短板在于我們對大模型“煉制”工藝的掌握,包括數(shù)據(jù)配方、數(shù)據(jù)清洗和參數(shù)設(shè)置等等,這些從根本上決定了大模型的效果,是大模型產(chǎn)業(yè)發(fā)展的重要因素。這方面短期之內(nèi)難以跟上或者超越,需要我們付出巨大代價進行摸索。
實際上,上述的每一個具體模塊,國內(nèi)都知道怎么做,但是將它們整合在一起,總體效果和國外是存在差距的,不是0分和100分的差距,而是70分與100分的差距。我們要趕上最后這幾十分,要不斷試錯、評測和改進。
從大模型問題引申來看,應(yīng)用和集成創(chuàng)新,一直是我們的強項。但是跟美國相比,我們?nèi)鄙僭紕?chuàng)新,原始創(chuàng)新甚至到了極度稀缺的程度。原始創(chuàng)新是怎么來的?可能來自科學(xué)家的奇思妙想,可能來自偏執(zhí)甚至瘋狂的想法。比如Open AI的CEO山姆·奧特曼(Sam Altman),他在2015年成立Open AI,2018年投入巨資研發(fā)大模型。而在2018年這個時間點,全世界沒有多少科學(xué)家認(rèn)為通用大模型這條路可以走通。
將來我們要實現(xiàn)引領(lǐng),就一定要不斷優(yōu)化科研文化和科研生態(tài),鼓勵思辨、鼓勵質(zhì)疑,激發(fā)原始創(chuàng)新。
7月8日,2023世界人工智能大會在上海世博展覽館舉行。蜜度信息,“文稿通”基于大模型的詩歌生成
戰(zhàn)略定力
《瞭望東方周刊》:在大模型熱潮之下,中國自己的大模型發(fā)展道路究竟該怎么走?
肖仰華:國家有關(guān)部門要引導(dǎo)業(yè)界統(tǒng)一規(guī)劃、合作協(xié)同、有序發(fā)展、健康發(fā)展。對此,我建議,可以從八個方面的應(yīng)對措施推動我國大模型產(chǎn)業(yè)的發(fā)展:一是積極推動數(shù)據(jù)聯(lián)盟(數(shù)據(jù)交易)的建設(shè),促進優(yōu)質(zhì)數(shù)據(jù)的共享與傳播;二是大力推動算力聯(lián)盟建設(shè),促進優(yōu)質(zhì)算力共享與協(xié)作;三是推動模型開源社區(qū)建設(shè),完善國產(chǎn)大模型的開源生態(tài);四是創(chuàng)新培養(yǎng)方式,培育大模型產(chǎn)業(yè)人才;五是建立大模型的診斷與應(yīng)用評測體系,保障大模型產(chǎn)業(yè)健康發(fā)展;六是研究綠色可持續(xù)的大模型技術(shù),降低大模型落地成本;七是積極探索大模型的應(yīng)用模式,豐富大模型的應(yīng)用場景;八是持續(xù)研究大模型訓(xùn)練與應(yīng)用關(guān)鍵技術(shù),完善大模型技術(shù)體系。
尤其要注意,在這波大模型的發(fā)展熱潮之下,不能為了追隨ChatGPT,忽略了其他熱點,錯失了下一個機遇。我們一定要有戰(zhàn)略定力,對不斷出現(xiàn)的熱點要有戰(zhàn)略重視,但不能打亂既有部署。比如,很多傳統(tǒng)小模型,該研究還得繼續(xù)研究,數(shù)字化與智能化進程中的其他技術(shù)也得往前推進。
在方向上,或者說,只有底座大模型與垂域應(yīng)用相結(jié)合,才能最終創(chuàng)造價值。比如,醫(yī)療領(lǐng)域希望做能代替或部分解放醫(yī)生的問診機器人,投資領(lǐng)域希望有投資顧問機器人,司法領(lǐng)域希望有法律咨詢機器人,這都屬于垂域場景。在提升通用大模型能力的同時,也期待相關(guān)企業(yè)能在大模型垂域應(yīng)用上有所作為,把大模型的通識能力更好地與垂域的專業(yè)知識、專家經(jīng)驗、行業(yè)解決問題的思維方式相結(jié)合,去解決現(xiàn)實中的復(fù)雜問題。我們既要重視通用大模型,更要重視垂域應(yīng)用,重模型輕應(yīng)用或者重應(yīng)用輕模型,都是不可取的。
中國市場巨大、數(shù)據(jù)豐富、應(yīng)用場景豐富,完全可以用完善的應(yīng)用生態(tài)來帶動底座大模型的進步,走一條“農(nóng)村包圍城市”的路線。也就說,先把我們擅長的外圍應(yīng)用和技術(shù)生態(tài)做好,不斷去補齊通用大模型在數(shù)據(jù)、算力、模型和工藝等方面的短板,并在這一過程中摸索有中國特色的大模型發(fā)展道路,形成獨特優(yōu)勢,另辟大模型競爭賽道,進而形成核心競爭力,形成百花齊放、百家爭鳴的繁榮生態(tài)。
總之,國產(chǎn)大模型絕不能停留在類ChatGPT的開放閑聊,要盡快提升其解決千行百業(yè)實際問題的能力,切實把大模型發(fā)展成為推動我國各行業(yè)數(shù)字化轉(zhuǎn)型與高質(zhì)量發(fā)展的先進生產(chǎn)力。