2024/7/6 22:12

智象未來梅濤：生成式人工智能將變成基礎(chǔ)設(shè)施擴(kuò)散模型能力處于L2階段

C114通信網(wǎng)

C114訊 7月6日消息昨天，中國信息通信研究院承辦的WAIC 2024“邁向AGI：大模型煥新與產(chǎn)業(yè)賦能”論壇，于上海徐匯西岸拉開帷幕！本次論壇深度聚焦大模型產(chǎn)業(yè)應(yīng)用落地、端側(cè)智能、大模型安全與治理等前沿?zé)狳c話題，攜手全球AI領(lǐng)域頂級學(xué)者、行業(yè)領(lǐng)袖展開頂尖思維碰撞，共探大模型驅(qū)動新質(zhì)生產(chǎn)力發(fā)展的新潛能，為行業(yè)呈現(xiàn)一場精彩紛呈的科技盛宴。

加拿大工程院外籍院士、智象未來創(chuàng)始人兼CEO梅濤院士應(yīng)邀作了題為“大模型視覺多模態(tài)智能交互新界面”的主旨演講。

梅濤表示，生成式人工智能未來像水和電一樣會變成基礎(chǔ)設(shè)施。生成式AI能夠理解人的語言，改變?nèi)藱C(jī)交互的方式，產(chǎn)生通用人工智能的技術(shù)。如果人工智能能夠理解物理世界通過視覺建�？梢愿淖傾IGC和改變元宇宙，人工智能如果能做多模態(tài)的交互就會催生機(jī)器人。

梅濤指出，在通往AGI的道路上，現(xiàn)在有兩條技術(shù)路徑：第一條路線通過語言壓縮，通過GPT模型機(jī)制預(yù)測下一個單詞，從而再去理解人類的知識，預(yù)計2026年人類的知識就會被大語言模型所消耗掉。另外一條路線是擴(kuò)散模型，它的技術(shù)框架跟GPT完全不一樣，它是從視覺的角度構(gòu)建對整個世界物理的模型�！澳壳盀橹梗@條曲線發(fā)展的邏輯會比GPT的曲線稍微慢一點，我們認(rèn)為現(xiàn)在的擴(kuò)散模型的技術(shù)能力相當(dāng)于GPT2的能力，將來有一天這兩條曲線會融合在一起。”

梅濤表示，從整個的視頻生產(chǎn)來說，可以把視頻技術(shù)的成熟度分為五個階段，從L1到L5，從單鏡頭的視頻生成到未來多鏡頭、多故事性。“終局我們希望一篇小說扔給機(jī)器，機(jī)器就能夠做分鏡和鏡頭的生成，做IP的一致性，最后呈現(xiàn)一個完整的電視劇，我們認(rèn)為所有的技術(shù)目前還處于L2的階段�！�

梅濤指出，一個技術(shù)到最后落地有很多因素要考慮，最重要的因素就是成本、效率、體驗�！俺杀径�，1秒鐘的生成成本大概是在1元人民幣到1美金之間；效率端，輸出一個prompt，產(chǎn)生視頻渲染的時間可能是10幾秒甚至是1分鐘；體驗端，不管是做文字模型、視覺模型還是沒有從服務(wù)專業(yè)用戶到服務(wù)普通用戶，未來有很多的路要走�！�

梅濤認(rèn)為，未來不可能是一個大模型解決所有的問題，一定是一個大模型結(jié)合所有的小模型Agent幫助實現(xiàn)用戶的需要。我們的策略是通過一個基礎(chǔ)大模型，通過文字對齊多模態(tài)模型，結(jié)合很多的產(chǎn)品應(yīng)用型的小模型服務(wù)千行百業(yè)，包括智能終端、包括電子商務(wù)、文旅宣傳等等。

給作者點贊

0 VS 0

寫得不太好

版權(quán)說明：C114刊載的內(nèi)容，凡注明來源為“C114通信網(wǎng)”或“C114原創(chuàng)”皆屬C114版權(quán)所有，未經(jīng)允許禁止轉(zhuǎn)載、摘編，違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位，也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性，并完整標(biāo)注作者信息和本站來源。編譯類文章僅出于傳遞更多信息之目的，不代表證實其描述或贊同其觀點；翻譯質(zhì)量問題請指正。

相關(guān)鏈接

元宇宙融合 IP 電子商務(wù)

智象未來梅濤：生成式人工智能將變成基礎(chǔ)設(shè)施 擴(kuò)散模型能力處于L2階段

智象未來梅濤：生成式人工智能將變成基礎(chǔ)設(shè)施擴(kuò)散模型能力處于L2階段