近日,以“智能躍進 創(chuàng)造無限”為主題的2024中國生成式AI大會(上海站)正式開幕,大會現(xiàn)場座無虛席。
大會為期兩天,共有50+位嘉賓基于前瞻性視角為大家解構(gòu)和把脈生成式AI的技術(shù)產(chǎn)品創(chuàng)新、商業(yè)落地解法、未來趨勢走向與前沿研究焦點。
大會首日,由復(fù)旦大學(xué)計算機科學(xué)技術(shù)學(xué)院教授、上海市智能信息處理實驗室副主任張奇領(lǐng)銜,17位嘉賓圍繞通用大語言模型、多模態(tài)大模型、行業(yè)大模型、垂直大模型、智能體、具身智能、大模型對齊與安全、投資風向等前沿議題,分享了最新的研發(fā)與實踐經(jīng)驗。
“大模型技術(shù)作為人工智能領(lǐng)域的重要分支,正在不斷推動著產(chǎn)業(yè)的創(chuàng)新和轉(zhuǎn)型。”上海市人工智能行業(yè)協(xié)會副秘書長徐琦在致辭中表示,“在此背景下,舉辦此次生成式AI大會,旨在進一步推動上海市生成式AI產(chǎn)業(yè)的發(fā)展,促進院校和研究機構(gòu)的學(xué)術(shù)成果傳播,同時,加強與長三角地區(qū)優(yōu)秀企業(yè)和機構(gòu)的聯(lián)動交流,共同探索人工智能的未來發(fā)展之路。”
▲上海市人工智能行業(yè)協(xié)會副秘書長徐琦
徐琦指出,上海一直在AI領(lǐng)域扮演著引領(lǐng)者的角色。產(chǎn)業(yè)規(guī)模方面,上海規(guī)模以上AI企業(yè)已從2018年的183家增長到2023年的348家,產(chǎn)業(yè)規(guī)模從1340億元增長到3808億元,居全國前列。創(chuàng)新成果方面,目前上海已有46款大模型通過備案,多款通用人形機器人原型機發(fā)布。產(chǎn)業(yè)生態(tài)方面,上海加快打造創(chuàng)新載體,吸引企業(yè)集聚;持續(xù)優(yōu)化算力基礎(chǔ)設(shè)施布局,加大算力資源統(tǒng)籌供給;完善語料數(shù)據(jù)基礎(chǔ)支撐體系。
面向未來,上海將牢牢把握通用人工智能發(fā)展機遇,與海內(nèi)外企業(yè)、機構(gòu)等緊密合作,持續(xù)推動人工智能創(chuàng)新發(fā)展,加快塑造高質(zhì)量發(fā)展新動能、新優(yōu)勢。
作為智一科技傾力打造的產(chǎn)業(yè)峰會IP,2024中國生成式AI大會由智東西和智猩猩聯(lián)合主辦,此次會議超過3000人報名參會,現(xiàn)場座無虛席。中國生成式AI大會已在北京成功舉辦兩屆,此次是中國生成式AI大會首次登陸上海舉辦。
智一科技聯(lián)合創(chuàng)始人、CEO龔倫常代表主辦方為大會致辭:“七年前,我們的首屆AI產(chǎn)業(yè)大會在上海成功舉辦,正式開啟了我們在AI領(lǐng)域舉辦產(chǎn)業(yè)峰會的征程。7年后,我們的生成式AI大會再次回到上海!彼岬脚c生成式AI大會北京站相比,上海站大會從產(chǎn)業(yè)和技術(shù)兩個維度,圍繞模型、AI Infra、應(yīng)用、技術(shù)四個方向?qū)?nèi)容進行了升級。
▲智一科技聯(lián)合創(chuàng)始人、CEO龔倫常
龔倫常還預(yù)告了今年以及明年多個重要會議——下月初,第四屆全球自動駕駛峰會將在北京舉辦;2025年上海車展期間也將舉辦產(chǎn)業(yè)峰會;2025年,AI芯片、生成式AI等領(lǐng)域品牌峰會將持續(xù)舉辦。歡迎大家參會。
一、高端對話:大模型是百年一遇新生產(chǎn)力革命,熱聊資本市場新風向
高端對話環(huán)節(jié)以“大模型時代,資本市場的新風向”為主題,由智一科技聯(lián)合創(chuàng)始人、智車芯產(chǎn)媒矩陣總編輯張國仁主持,靖亞資本合伙人任曉東、BV百度風投執(zhí)行董事溫永騰、達晨財智晨云子基金合伙人朱翔就生成式AI投資策略、大模型市場格局、大模型商業(yè)化路徑等話題分享觀點。
張國仁談道,從社會的發(fā)展來看,這一波生成式AI引領(lǐng)的科技發(fā)展是百年一遇的新生產(chǎn)力革命,無論是個人交互陪伴,還是生活、工作、學(xué)習都在發(fā)生一輪新變革。但不管風向如何改變,我們對AI新技術(shù)的發(fā)展仍保持美好向往。
▲智一科技聯(lián)合創(chuàng)始人、智車芯產(chǎn)媒矩陣總編輯張國仁
靖亞資本合伙人任曉東認為,大模型產(chǎn)品分為公有云和私有化兩類,公有云由于技術(shù)開源,大廠易實現(xiàn)導(dǎo)致初創(chuàng)公司機會極少;在私有化部署上,初創(chuàng)公司可以根據(jù)企業(yè)場景進行定制部署,大廠在這方面優(yōu)勢不明顯。另外,在AI基礎(chǔ)設(shè)施軟件領(lǐng)域,創(chuàng)業(yè)公司如果選擇開源則難有作為,難以和大廠進行競爭。
他還強調(diào),在AI投資中,合規(guī)是第一原則,要符合國家政策法規(guī)以及與LP簽訂的協(xié)議,什么領(lǐng)域不能投資、什么應(yīng)該披露等都予以遵守。
▲靖亞資本合伙人任曉東
BV百度風投執(zhí)行董事溫永騰說,BV自2021年起密集關(guān)注生成式AI創(chuàng)企,從最初到現(xiàn)在,一直認為生成式AI會重塑內(nèi)容生產(chǎn)和分發(fā)方式,Diffusion的出現(xiàn)讓他們在多模態(tài)領(lǐng)域找到了生數(shù)科技以及其他模態(tài)方向上的優(yōu)秀公司,F(xiàn)在,AI Agent的發(fā)展使其開始思考對智能勞動力的投資。
Sequoia Capital(紅杉資本美國)分析,去年全球生成式AI的商業(yè)化達30億美金。產(chǎn)業(yè)中很難看到一個剛開始受關(guān)注一年的市場方向,在一年內(nèi)就實現(xiàn)巨大的收入增長。因為大模型公司普遍都遵從強研發(fā)投入的運營模式,融資和商業(yè)化都是關(guān)鍵問題,尤其是B端商業(yè)化的進展還是需要時間和耐心。但他相信實現(xiàn)更大增長的這一天一定會來,只是時間問題。
▲BV百度風投執(zhí)行董事溫永騰
達晨財智晨云子基金合伙人朱翔談道,國內(nèi)大模型創(chuàng)企仍在追趕OpenAI的節(jié)奏,處于軍備競賽階段,且部分公司因融資問題發(fā)展較慢。
生成式AI領(lǐng)域開始涌現(xiàn)與OpenAI不同的訓(xùn)練方向,如世界模型和具身智能。近期,李飛飛和谷歌DeepMind發(fā)布了新世界模型,新的Scaling Law通過合成數(shù)據(jù)推動更高效的模型生成,可以有效避免Scaling Law放緩的問題。
朱翔說,具身智能是AGI的關(guān)鍵載體,但面臨高訓(xùn)練成本和硬件限制等挑戰(zhàn)。他預(yù)測,具身智能量產(chǎn)前可能會經(jīng)歷2-3年的“瓶頸期”,期間部分公司將退出市場。
▲達晨財智晨云子基金合伙人朱翔
二、大模型的能力邊界在哪?音視頻能力進階,創(chuàng)新架構(gòu)涌現(xiàn)
在今日大會上,復(fù)旦大學(xué)計算機科學(xué)技術(shù)學(xué)院教授、上海市智能信息處理實驗室副主任張奇深入解讀了大語言模型的能力邊界及發(fā)展思考,MiniMax副總裁劉華探討了大模型今年大模型發(fā)展重點的變化,西湖大學(xué)助理教授張馳分享了全場景通用的單目深度估計大模型,北京大學(xué)(臨港)大模型對齊執(zhí)行中心主任、北京阿萊門科技有限公司CEO徐驊討論了模型安全。
張奇認為,大模型發(fā)展迅速但目前仍處于“記憶階段”。大模型訓(xùn)練有不同階段,從知識壓縮和表示學(xué)習、能力注入到生成式任務(wù)能力提升,訓(xùn)練只需要非常少的數(shù)據(jù),完成某個領(lǐng)域知識問答僅需要60條訓(xùn)練數(shù)據(jù),但“怎么加數(shù)據(jù)”是最難的問題。
▲復(fù)旦大學(xué)計算機科學(xué)技術(shù)學(xué)院教授、上海市智能信息處理實驗室副主任張奇
他讓大模型做了今年高考數(shù)學(xué)題后發(fā)現(xiàn),大模型在數(shù)學(xué)運算中的計算過程和答案選擇不一致。結(jié)果表明,模型雖能完成特定任務(wù)推理,但并非真正獲得了與人相似的能力。
張奇總結(jié)大模型發(fā)展有兩條路徑:一是跟隨OpenAI,以替代所有腦力勞動為目標;二是不追求替代通用任務(wù),只完成特定事情。最關(guān)鍵的是落地場景選擇和大模型能力邊界判斷。
對于今年大模型領(lǐng)域的變化,MiniMax副總裁劉華認為,與2022-2023年基礎(chǔ)大模型在文本領(lǐng)域能力的飛速提升相比,2024年基礎(chǔ)大模型能力的提升更全面,體現(xiàn)在了文本、語音、音樂、視頻等多個領(lǐng)域。
他表示,目前多模態(tài)大模型已賦能我國的千行百業(yè),轉(zhuǎn)化為新質(zhì)生產(chǎn)力。比如,MiniMax在國內(nèi)服務(wù)了3萬多家客戶;公司的視頻大模型受到180個國家AI創(chuàng)業(yè)者的喜愛,并在文化創(chuàng)意、電商直播等領(lǐng)域得到了成熟應(yīng)用。
▲MiniMax副總裁劉華
他判斷,多模態(tài)大模型仍處于快速發(fā)展階段,尚未看到模型能力的上限。面向未來,MiniMax將繼續(xù)快速迭代自研的多模態(tài)大模型,并聚焦于降低模型錯誤率、實現(xiàn)無限長的輸入和輸出、推動多模態(tài)更加自然融合這3個方面。
西湖大學(xué)助理教授張馳分享了全場景通用的單目深度估計大模型,在解決傳統(tǒng)單目深度估計方式痛點方面的思考。傳統(tǒng)單目深度估計方式依賴激光雷達等專業(yè)設(shè)備,數(shù)據(jù)采集難度大、成本高,導(dǎo)致數(shù)據(jù)少且分散;贏I大模型,其可以更高效地利用大數(shù)據(jù)訓(xùn)練、視覺大模型先驗和訓(xùn)練優(yōu)化范式,從而追求全場景泛化。
▲西湖大學(xué)助理教授張馳
同時,他提到Zero-shot單目深度估計方式勝在靈活易搭載,可應(yīng)用于機器人、自動駕駛、AI文生3D、AI圖生3D等領(lǐng)域。
西湖心辰CEO、西湖大學(xué)深度學(xué)習實驗室成果轉(zhuǎn)化負責人醒辰介紹了西湖心辰在AI情感理解與多模態(tài)長程對話領(lǐng)域的探索與成果。他們團隊自創(chuàng)立以來便致力于研發(fā)超擬人的情商型大模型,以適配各種涉及復(fù)雜情感的人機互動場景。旗下自研的多模態(tài)通用基座大模型“西湖大模型”采用深度對齊技術(shù)與多模態(tài)情感識別技術(shù),增強了AI的情感識別與需求理解能力,讓人機長程對話成為現(xiàn)實。
▲西湖心辰CEO、西湖大學(xué)深度學(xué)習實驗室成果轉(zhuǎn)化負責人醒辰
今年該公司推出的國內(nèi)首個端到端通用語音大模型心辰Lingo,補足了語音交互能力,讓AI更像人、懂人心、說人話。這些“超擬人”技術(shù)已被應(yīng)用于心辰旗下的AI心理咨詢陪伴產(chǎn)品“聊會小天”。
大模型創(chuàng)新技術(shù)的演進也在加速。RockAI CTO楊華分享了非Transformer架構(gòu)大模型Yan在端側(cè)的實踐。Transformer架構(gòu)雖在大模型領(lǐng)域取得巨大成功,但人們也開始思考是否過度依賴它以及現(xiàn)有大模型形態(tài)的可持續(xù)性。
▲RockAI CTO楊華
Yan架構(gòu)包含類腦激活機制和MCSD,前者參照人腦神經(jīng)網(wǎng)絡(luò),后者在訓(xùn)練時可充分利用GPU計算能力,降低功耗;诖思軜(gòu)的多模態(tài)大模型在手機、電腦、機器人、無人機、樹莓派等端側(cè)設(shè)備上均可部署,且模型具有強大的指令跟隨能力、多應(yīng)用場景。自主學(xué)習、群體智能也是RockAI在大模型領(lǐng)域的思考和探索。
AI應(yīng)用的安全至關(guān)重要。北京大學(xué)(臨港)大模型對齊執(zhí)行中心主任、北京阿萊門科技有限公司CEO徐驊分析了大模型安全與實用性的矛盾,分享了多模態(tài)對齊的探索。
▲北京大學(xué)(臨港)大模型對齊執(zhí)行中心主任、北京阿萊門科技有限公司CEO徐驊
徐驊談道,過度追求安全可能犧牲實用性。為此,他提出了價值對齊方案,設(shè)定“3H原則”(Helpful、Honest、Harmless)為目標,確保模型符合人類價值觀。他強調(diào),Aligner對齊器方案在多模態(tài)場景中平衡安全與實用性,下一步將聚焦提升模型在醫(yī)療、教育等領(lǐng)域的適配能力,突破人類專家上限,推動AGI發(fā)展。
三、AI落地拐點時刻,智能體、3D生成、具身智能成焦點
大模型的落地應(yīng)用是2024年的熱點話題,具身智能、3D生成、AI智能體、音樂生成等創(chuàng)新玩法層出不窮。
1、AI Agent已實現(xiàn)具體算法落地,商務(wù)場景應(yīng)用價值凸顯
AI Agent的多模態(tài)感知、記憶增強和推理能力正逐步提升,聯(lián)匯科技CEO兼首席科學(xué)家趙天成談道,行業(yè)正在從“LLM-First”轉(zhuǎn)向更加符合人類認知的“Agent-First”架構(gòu)。通過新算法,AI Agent能夠在視覺信息不清晰時動態(tài)放大畫面并進行信息分析,從而提升多模態(tài)感知能力,使7b模型推理精度可以超越gpt-4o大模型,達到接近人類基準的水平。
▲聯(lián)匯科技CEO兼首席科學(xué)家趙天成
在推理、記憶和感知三個核心場景中,AI Agent已經(jīng)實現(xiàn)了具體的算法落地。聯(lián)匯科技推出了全面開源的Agent框架,通過構(gòu)建標準化的基本框架支持AI Agent持續(xù)優(yōu)化。
WeMeet薈神基于大模型構(gòu)建了多智能體商務(wù)互聯(lián)平臺,WeMeet薈神創(chuàng)始人顧學(xué)斌提到AI在商務(wù)場景應(yīng)用具有多方面重要價值。
▲WeMeet薈神創(chuàng)始人顧學(xué)斌
例如為商務(wù)人士配備的AI助理;在不同語言環(huán)境下為商務(wù)活動提供支持幫助人們跨越語言障礙進行交流;解決商機生成的問題,讓潛在買家和產(chǎn)業(yè)賣家之間的聯(lián)系更加緊密;還可以快速生成會議應(yīng)用等。最后,他還強調(diào)了安全問題,要做好生成式AI服務(wù)備案,確保商務(wù)場景下AI應(yīng)用穩(wěn)定、可靠地發(fā)展。
2、端到端具身多模態(tài)大模型,瞄準機器人泛化
銀河通用機器人聯(lián)創(chuàng)合伙人、大模型負責人,北京智源人工智能研究院具身智能PI張直政博士談道,具身智能從模型到產(chǎn)品再到新質(zhì)生產(chǎn)力,僅關(guān)注“任務(wù)自動化”還不夠,銀河通用正在追求的是“流程自動化”。而實現(xiàn)這一點的關(guān)鍵在于利用大規(guī)模仿真合成數(shù)據(jù)驅(qū)動機器人從底層向上實現(xiàn)環(huán)境感知與動作技能學(xué)習能力的突破。從將3D小模型與動作大模型結(jié)合的大模型系統(tǒng)到端到端具身多模態(tài)大模型,銀河通用全面布局,重點提升機器人在真實場景中的泛化工作能力。
▲銀河通用機器人聯(lián)創(chuàng)合伙人、大模型負責人,北京智源人工智能研究院具身智能PI張直政博士
談及未來,他認為具身智能的發(fā)展方向是“機器人大腦、小腦與硬件本體”協(xié)同進化,重點關(guān)注其在“流程自動化”中的泛化性突破,從而推動機器人在推理與執(zhí)行任務(wù)中更加高效、智能地完成更復(fù)雜的移動操作任務(wù)。
3、3D、音樂生成到達爆發(fā)節(jié)點,展現(xiàn)多場景商業(yè)化應(yīng)用潛力
在3D生成方面,VAST CTO梁鼎分析了在大模型加持下,3D AIGC的發(fā)展與應(yīng)用。在他看來,3D和其他多模態(tài)大模型發(fā)展歷程類似,都會經(jīng)歷從技術(shù)積累到某個時間點爆發(fā)的過程,3D目前已經(jīng)到了爆發(fā)節(jié)點。
▲VAST CTO梁鼎
他認為3D AIGC在多個場景都能進行商業(yè)化應(yīng)用,如在傳統(tǒng)游戲影視動畫中實現(xiàn)降本增效及帶來新玩法;工業(yè)中能實現(xiàn)3D打印定制化生產(chǎn);社交直播電商等元宇宙領(lǐng)域也可應(yīng)用,還能用于定制玩具及與教育結(jié)合。
2024年是AIGC音樂爆發(fā)元年,趣丸科技副總裁賈朔認為,人工智能的創(chuàng)新發(fā)展大大降低了音樂創(chuàng)作門檻,國產(chǎn)AI音樂的歌聲自然度更是突破人耳識別閾值,效果比肩美國頭部模型。他分享了人與音樂的AI交互形式的變化,從文生音樂,到三鍵成曲,再到哼唱成曲。今年6月份,天譜樂全球首發(fā)多模態(tài)音樂生成模型,支持視頻成曲和圖片成曲功能,一鍵根據(jù)用戶視頻或圖片生成一首完整的音樂。
▲趣丸科技副總裁賈朔
此外,賈朔在現(xiàn)場首次預(yù)告了天譜樂的新功能——MidiRender,模型如同一個精準、可控音樂版的Control Net,可依據(jù)原創(chuàng)音樂片段填充歌詞、完成編曲。
4、法律、醫(yī)療垂直賽道模型落地,螞蟻加速AI商業(yè)化
華院計算大模型和知識推理算法負責人蔡華拆解了華院法律大模型的底層技術(shù)架構(gòu)及其5大主要落地場景。一般的通用大模型不足以覆蓋法律領(lǐng)域的需求,為了讓大模型更適用于法律專業(yè)領(lǐng)域,該公司收集了多源異構(gòu)知識數(shù)據(jù),包括6大類型的基礎(chǔ)知識,并以法條和案件為中心節(jié)點搭建關(guān)系圖譜。
▲華院計算大模型和知識推理算法負責人蔡華
目前,其應(yīng)用場景主要分為法治業(yè)務(wù)和法治決策兩大板塊,具體有類案推薦、法條推薦、判決文書生成、普法反詐宣傳數(shù)字人一體機和小雪人法律智能助手等。
騰訊優(yōu)圖實驗室天衍研究中心負責人、專家研究員吳賢提到了目前基于醫(yī)療大模型的十大應(yīng)用場景,包括科室導(dǎo)診、醫(yī)生推薦、預(yù)問診、醫(yī)患對話領(lǐng)域的病情追問、病例生成、出院小結(jié)生成、醫(yī)藥知識回答、臨床執(zhí)業(yè)醫(yī)師考試、藥企內(nèi)部效率提升以及醫(yī)學(xué)科普文章生成。
▲騰訊優(yōu)圖實驗室天衍研究中心負責人、專家研究員吳賢
他還介紹了在減輕大模型幻覺,語言不均衡問題,大模型評測問題,以及多語言,多模態(tài)醫(yī)學(xué)任務(wù)上的最新研究進展。
螞蟻集團基礎(chǔ)智能技術(shù)部總監(jiān)趙耀分享了大語言模型在業(yè)務(wù)中的應(yīng)用以及如何通過技術(shù)手段解決推理效率、可靠性和可用性問題。螞蟻集團通過知識蒸餾和知識遷移,平衡了推理效率與精度,其中蒸餾將大模型知識轉(zhuǎn)移至小模型,減少計算量并保持精度;知識遷移幫助模型快速適應(yīng)不同場景,提升應(yīng)用效果。
▲螞蟻集團基礎(chǔ)智能技術(shù)部總監(jiān)趙耀
此外,螞蟻集團還通過壓縮和剪枝技術(shù)降低成本與能耗,提升計算效率,減少硬件投入。公司目標是推動AI商業(yè)化,普及應(yīng)用。
結(jié)語:首次落地上海,共探中國生成式AI產(chǎn)業(yè)脈搏
除上述嘉賓外,還有6位青年學(xué)者和技術(shù)專家在下午的端側(cè)生成式AI技術(shù)研討會上進行了干貨分享和圓桌Panel討論。
繼連續(xù)在北京舉辦兩場聚焦生成式AI的高規(guī)格創(chuàng)新峰會,今天,智東西與智猩猩首次落地上海聯(lián)合舉辦聚焦生成式AI領(lǐng)域的行業(yè)盛會,希望通過豐富的議程設(shè)置、多元化的嘉賓經(jīng)驗分享與觀點碰撞,讓大家不虛此行。
明日精彩繼續(xù),25位產(chǎn)學(xué)研代表將圍繞AI Infra、AI視頻生成、具身智能等議題,共探中國生成式AI產(chǎn)業(yè)的脈搏。