2025/1/8 09:33

谷歌組建新AI團(tuán)隊(duì)開(kāi)發(fā)“世界模型”：通往AGI的關(guān)鍵路徑

極客網(wǎng)

最近谷歌組建一個(gè)新團(tuán)隊(duì)，專門(mén)開(kāi)發(fā)可以用來(lái)模擬物理世界的AI模型，也就是所謂的“世界模型”（World Models）。

蒂姆·布魯克斯（Tim Brooks）原本是OpenAI的一名高管，也是視頻生成工具Sora的主要開(kāi)發(fā)者之一。去年10月，他加入谷歌DeepMind，成為新領(lǐng)導(dǎo)之一。模擬物理世界的AI模型團(tuán)隊(duì)是谷歌DeepMind的一部分。

布魯克斯說(shuō)：“DeepMind有著宏大的計(jì)劃，它準(zhǔn)備開(kāi)發(fā)巨大的生成式模型，可以模擬物理世界。我受聘之后將會(huì)成為新團(tuán)隊(duì)的一員，努力幫公司達(dá)成新使命。”

新團(tuán)隊(duì)將會(huì)與谷歌Gemini、Veo、Genie團(tuán)隊(duì)合作，努力解決關(guān)鍵性新問(wèn)題。Veo是谷歌自己的視頻生成模型；Gemini相當(dāng)于谷歌的旗艦AI模型，它可以分析圖片，生成文本，可以模擬游戲、3D環(huán)境；最新的Genie版本于去年12月揭開(kāi)面紗，它已經(jīng)可以生成巨大多變的可玩性3D世界。

“世界模型”是通往AGI的關(guān)鍵路徑

在新團(tuán)隊(duì)招聘信息中能看到這樣的話：“我們相信在視頻、多模態(tài)方面擴(kuò)大AI訓(xùn)練規(guī)模是通往AGI的關(guān)鍵路徑。”

AGI是頂尖AI企業(yè)共同追求的目標(biāo)，它指的是AI可以像人一樣完成任何任務(wù)。

AI行業(yè)人士認(rèn)為，世界模型就是AI的下一個(gè)大事件。“世界模型”這個(gè)術(shù)語(yǔ)實(shí)際上是從人類(lèi)心智派生出來(lái)的，它是人類(lèi)自然進(jìn)化而來(lái)。

人類(lèi)大腦會(huì)從感官中抽象一些表征，從而加深對(duì)周?chē)澜绲睦斫猓纬伤^的“模型”，大腦會(huì)根據(jù)這些模型進(jìn)行預(yù)測(cè)，繼而影響人對(duì)世界的感知。

棒球手打球時(shí)，只需要幾毫秒就能判斷如何擊球，耗費(fèi)的時(shí)間比視頻信號(hào)傳到大腦還要短。人類(lèi)之所以能擊中時(shí)速達(dá)到100公里的棒球，主要是因?yàn)槲覀兡軕{直覺(jué)判斷球的運(yùn)動(dòng)方向。

一些科學(xué)家認(rèn)為，人類(lèi)之所以擁有超常智力，主要是能夠在潛意識(shí)推理，這些推理是以世界模型作為基礎(chǔ)的。

一旦技術(shù)取得突破，世界模型將會(huì)為多個(gè)領(lǐng)域賦能，比如視覺(jué)推理、模擬、嵌入式智能體規(guī)劃、實(shí)時(shí)娛樂(lè)交互。

按照描述，新團(tuán)隊(duì)將會(huì)開(kāi)發(fā)實(shí)時(shí)交互生成工具，它以谷歌之前開(kāi)發(fā)的模型作為基礎(chǔ)，新團(tuán)隊(duì)開(kāi)發(fā)的模型會(huì)考慮如何與現(xiàn)有多模態(tài)模型整合，比如與Gemini整合。

不少AI公司都在布局“世界模型”

很多創(chuàng)業(yè)公司和科技巨頭正在努力開(kāi)發(fā)世界模型，比如李飛飛創(chuàng)建的World Labs，以色列Decart、Odyssey。大家相信，一旦世界模型獲得成功，可以創(chuàng)建交互性媒體內(nèi)容，比如游戲、電影，還可以為機(jī)器人搭建逼真的模擬環(huán)境。

對(duì)于這樣的新技術(shù)，創(chuàng)意界意見(jiàn)不統(tǒng)一。比如，動(dòng)視暴雪積極進(jìn)入AI工具，提高生產(chǎn)力，結(jié)果導(dǎo)致部分員工被裁。Animation Guild不久前發(fā)布的報(bào)告稱，在2026年之前，由于AI的應(yīng)用，美國(guó)會(huì)有超過(guò)10萬(wàn)個(gè)電影、電視、動(dòng)畫(huà)職位被摧毀。

在“世界模型”開(kāi)發(fā)領(lǐng)域，Odyssey算是新手，它宣稱要與創(chuàng)意專業(yè)人士一起開(kāi)發(fā)，并無(wú)替代創(chuàng)意人士的計(jì)劃。谷歌的物理世界模擬AI會(huì)不會(huì)替代創(chuàng)意人士？還有待觀察。

在版權(quán)方面，開(kāi)發(fā)世界模型也存在障礙。有一些世界模型是根據(jù)視頻游戲片段訓(xùn)練的，訓(xùn)練時(shí)并沒(méi)有拿到版權(quán)，可能會(huì)引發(fā)糾紛。

谷歌是YouTube的所有者，它已經(jīng)獲得許可，準(zhǔn)備用YouTube視頻訓(xùn)練模型，只是現(xiàn)在還不知道具體會(huì)用到哪些視頻。

當(dāng)然，除了這些問(wèn)題，世界模型還有很多技術(shù)難題沒(méi)有解決，即使是谷歌，離成功也有不小的距離。

和所有AI模型一樣，世界模型也存在“幻覺(jué)”。如果用歐洲城市數(shù)據(jù)訓(xùn)練模型，城市的天氣一直晴朗，可能無(wú)法理解下雪的亞洲城市。沒(méi)有充分的數(shù)據(jù)，模型不可能深刻理解世界。

Runway的CEO Cristóbal Valenzuela不久前說(shuō)，由于數(shù)據(jù)和工程方面的問(wèn)題，想精準(zhǔn)捕捉世界上的“居民”（比如動(dòng)物和人）存在巨大挑戰(zhàn)。模型要為環(huán)境生成一致的地圖，要在環(huán)境中導(dǎo)航、交互。

雖然存在巨大挑戰(zhàn)，不過(guò)如果問(wèn)題得到解決，世界模型可以讓AI與真實(shí)世界更好聯(lián)系在一起，到時(shí)不只虛擬世界生成工具會(huì)取得突破，機(jī)器人、AI決策也會(huì)地大踏步前進(jìn)。

給作者點(diǎn)贊

0 VS 0

寫(xiě)得不太好

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

相關(guān)鏈接

整合

AI“造物主”：谷歌招兵買(mǎi)馬打造“世界模型”模擬真實(shí)世界，劍指 AGI
IT之家故淵11:03
2024年全年全球大模型頭部企業(yè)產(chǎn)品與技術(shù)布局及對(duì)電信運(yùn)營(yíng)商建議
天翼智庫(kù) 08:17
斯坦福大學(xué)研究：AI在與人類(lèi)對(duì)話僅2小時(shí)后即可“再現(xiàn)”其個(gè)性特征
IT之家清源1-6
從微軟轉(zhuǎn)戰(zhàn)谷歌：硅芯片專家Rehan Sheikh宣布跳槽
IT之家汪淼1-6