北京時(shí)間今日凌晨,微軟在官網(wǎng)開源了多模態(tài) AI Agent 基礎(chǔ)模型 ——Magma。與傳統(tǒng) Agent 相比,Magma 具備跨數(shù)字、物理世界的多模態(tài)能力,能自動(dòng)處理圖像、視頻、文本等不同類型數(shù)據(jù),此外,Magma 還能內(nèi)置了心理預(yù)測(cè)功能,增強(qiáng)了對(duì)未來視頻幀中時(shí)空動(dòng)態(tài)的理解能力,能夠準(zhǔn)確推測(cè)視頻中人物或物體的意圖和未來行為。
用戶可以用 Magma 來自動(dòng)下電商訂單、查詢天氣;也可以自動(dòng)操作實(shí)體機(jī)器人,或者在下真實(shí)象棋時(shí)獲得幫助。
根據(jù)官方介紹,Magma 能夠幫助 AI 驅(qū)動(dòng)的助手或機(jī)器人理解周圍環(huán)境并采取相應(yīng)行動(dòng)。例如,它可以幫助家用機(jī)器人學(xué)習(xí)如何整理以前從未見過的物品,或幫助虛擬助手為不熟悉的任務(wù)生成逐步的用戶界面導(dǎo)航說明。
Magma 是能夠適應(yīng)數(shù)字和物理環(huán)境中新任務(wù)的 VLA(IT之家注:視覺語(yǔ)言動(dòng)作)基礎(chǔ)模型之一,能夠有效地從海量的公開視覺和語(yǔ)言數(shù)據(jù)中學(xué)習(xí)知識(shí),從而融合語(yǔ)言、空間和時(shí)間智能,應(yīng)對(duì)數(shù)字和物理世界中的復(fù)雜任務(wù)和環(huán)境。
附開源鏈接:https://microsoft.github.io/Magma/