谷歌昨日在發(fā)布 Gemini 2.0 的同時,還發(fā)布了全新的多模態(tài)直播(Multimodal Live)API,幫助開發(fā)人員開發(fā)具有實時音頻和視頻流功能的應用程序。
該 API 實現(xiàn)了低延遲、雙向的文本、音頻和視頻交互,以音頻和文本形式輸出,帶來更自然流暢、如同人類對話般的交互體驗。用戶可以隨時打斷模型,并通過共享攝像頭輸入或屏幕錄像與其進行互動,就內(nèi)容提問。
該模型的視頻理解功能擴展了通信模式,用戶能夠使用攝像頭實時拍攝或共享桌面并提出相關問題。該 API 已經(jīng)向開發(fā)者開放,同時也向用戶提供了一個多模態(tài)實時助手的演示應用。IT之家附上演示如下: