2024/12/13 08:48

谷歌發(fā)布多模態(tài)直播API：解鎖看、聽、說，開啟音視頻交互新體驗

IT之家故淵

谷歌昨日在發(fā)布 Gemini 2.0 的同時，還發(fā)布了全新的多模態(tài)直播（Multimodal Live）API，幫助開發(fā)人員開發(fā)具有實時音頻和視頻流功能的應用程序。

該 API 實現(xiàn)了低延遲、雙向的文本、音頻和視頻交互，以音頻和文本形式輸出，帶來更自然流暢、如同人類對話般的交互體驗。用戶可以隨時打斷模型，并通過共享攝像頭輸入或屏幕錄像與其進行互動，就內(nèi)容提問。

該模型的視頻理解功能擴展了通信模式，用戶能夠使用攝像頭實時拍攝或共享桌面并提出相關問題。該 API 已經(jīng)向開發(fā)者開放，同時也向用戶提供了一個多模態(tài)實時助手的演示應用。IT之家附上演示如下：

該 API 支持集成多種工具，開發(fā)者只需一次 API 調(diào)用，即可完成復雜的用例。

給作者點贊

0 VS 0

寫得不太好

免責聲明：本文僅代表作者個人觀點，與C114通信網(wǎng)無關。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實，對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關內(nèi)容。

相關鏈接

谷歌發(fā)布多模態(tài)直播API：解鎖看、聽、說，開啟音視頻交互新體驗