C114通信網(wǎng)  |  通信人家園

人工智能
2025/2/26 08:47

微軟開源多模態(tài)AI Agent“Magma”:購(gòu)物時(shí)可自動(dòng)下單,還能推測(cè)視頻人物行為

IT之家  清源

北京時(shí)間今日凌晨,微軟在官網(wǎng)開源了多模態(tài) AI Agent 基礎(chǔ)模型 ——Magma。與傳統(tǒng) Agent 相比,Magma 具備跨數(shù)字、物理世界的多模態(tài)能力,能自動(dòng)處理圖像、視頻、文本等不同類型數(shù)據(jù),此外,Magma 還能內(nèi)置了心理預(yù)測(cè)功能,增強(qiáng)了對(duì)未來視頻幀中時(shí)空動(dòng)態(tài)的理解能力,能夠準(zhǔn)確推測(cè)視頻中人物或物體的意圖和未來行為。

用戶可以用 Magma 來自動(dòng)下電商訂單、查詢天氣;也可以自動(dòng)操作實(shí)體機(jī)器人,或者在下真實(shí)象棋時(shí)獲得幫助。

根據(jù)官方介紹,Magma 能夠幫助 AI 驅(qū)動(dòng)的助手或機(jī)器人理解周圍環(huán)境并采取相應(yīng)行動(dòng)。例如,它可以幫助家用機(jī)器人學(xué)習(xí)如何整理以前從未見過的物品,或幫助虛擬助手為不熟悉的任務(wù)生成逐步的用戶界面導(dǎo)航說明。

Magma 是能夠適應(yīng)數(shù)字和物理環(huán)境中新任務(wù)的 VLA(IT之家注:視覺語(yǔ)言動(dòng)作)基礎(chǔ)模型之一,能夠有效地從海量的公開視覺和語(yǔ)言數(shù)據(jù)中學(xué)習(xí)知識(shí),從而融合語(yǔ)言、空間和時(shí)間智能,應(yīng)對(duì)數(shù)字和物理世界中的復(fù)雜任務(wù)和環(huán)境。

附開源鏈接:https://microsoft.github.io/Magma/

給作者點(diǎn)贊
0 VS 0
寫得不太好

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡(jiǎn)介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2025 c114 All Rights Reserved | 滬ICP備12002291號(hào)

      C114 通信網(wǎng) 版權(quán)所有 舉報(bào)電話:021-54451141