C114通信網(wǎng)  |  通信人家園

人工智能
2025/4/9 08:40

亞馬遜推出全新 AI 語(yǔ)音模型 Nova Sonic,叫板 OpenAI 和谷歌

IT之家  遠(yuǎn)洋

亞馬遜發(fā)布了名為 Nova Sonic 的新一代生成式 AI 模型,該模型能夠原生處理語(yǔ)音并生成自然流暢的語(yǔ)音。據(jù)亞馬遜聲稱,Nova Sonic 在速度、語(yǔ)音識(shí)別以及對(duì)話質(zhì)量等關(guān)鍵指標(biāo)的基準(zhǔn)測(cè)試中,表現(xiàn)可與 OpenAI 和谷歌的前沿語(yǔ)音模型相媲美。

Nova Sonic 的問世是亞馬遜對(duì)新興 AI 語(yǔ)音模型的有力回應(yīng),例如為 ChatGPT 語(yǔ)音模式提供支持的模型,相較于亞馬遜早期的 Alexa 等較為刻板的模型,這些新模型在語(yǔ)音交互時(shí)更加自然。

Nova Sonic 通過亞馬遜的 Bedrock 開發(fā)者平臺(tái)提供給用戶,該平臺(tái)是用于構(gòu)建企業(yè)級(jí) AI 應(yīng)用的工具,Nova Sonic 則通過一個(gè)全新的雙向流式 API 進(jìn)行接入。在一份新聞稿中,亞馬遜稱 Nova Sonic 是市場(chǎng)上“最具成本效益”的 AI 語(yǔ)音模型,其價(jià)格比 OpenAI 的 GPT-4o 便宜約 80%。

據(jù)亞馬遜高級(jí)副總裁兼人工通用智能(AGI)部門首席科學(xué)家羅希特 普拉薩德介紹,Nova Sonic 的部分組件已經(jīng)為亞馬遜升級(jí)版數(shù)字語(yǔ)音助手 Alexa+ 提供了動(dòng)力支持。

普拉薩德表示,與競(jìng)爭(zhēng)對(duì)手的 AI 語(yǔ)音模型相比,Nova Sonic 在將用戶請(qǐng)求路由到不同 API 方面表現(xiàn)出色。這一能力使得 Nova Sonic 能夠知曉何時(shí)需要從互聯(lián)網(wǎng)獲取實(shí)時(shí)信息、解析專有數(shù)據(jù)源,或者在外部應(yīng)用程序中采取行動(dòng),并使用合適的工具來(lái)完成任務(wù)。

在雙向?qū)υ捴,Nova Sonic 會(huì)等待“合適的時(shí)機(jī)”發(fā)言,會(huì)考慮到說(shuō)話者的停頓和打斷等情況。此外,Nova Sonic 還能夠?yàn)橛脩舻恼Z(yǔ)音生成文本記錄,開發(fā)者可以將這些文本用于各種應(yīng)用場(chǎng)景。

據(jù)普拉薩德介紹,Nova Sonic 在語(yǔ)音識(shí)別錯(cuò)誤方面比其他 AI 語(yǔ)音模型更少,這意味著該模型即使在用戶咕噥、說(shuō)錯(cuò)話或者處于嘈雜環(huán)境中時(shí),也相對(duì)擅長(zhǎng)理解用戶的意圖。在一項(xiàng)衡量跨語(yǔ)言和方言的語(yǔ)音識(shí)別基準(zhǔn)測(cè)試 —— 多語(yǔ)言 LibriSpeech 中,亞馬遜表示 Nova Sonic 在英語(yǔ)、法語(yǔ)、意大利語(yǔ)、德語(yǔ)和西班牙語(yǔ)上的平均單詞錯(cuò)誤率(WER)僅為 4.2%。也就是說(shuō),在這些語(yǔ)言中,該模型每 100 個(gè)單詞中大約有 4 個(gè)與人工轉(zhuǎn)錄的結(jié)果不同。

IT之家注意到,在另一項(xiàng)衡量多人參與的高音量互動(dòng)的基準(zhǔn)測(cè)試 —— 增強(qiáng)多方互動(dòng)中,亞馬遜稱 Nova Sonic 在單詞錯(cuò)誤率方面比 OpenAI 的 GPT-4o-transcribe 模型準(zhǔn)確率高出 46.7%。Nova Sonic 還擁有行業(yè)領(lǐng)先的速度,其平均感知延遲為 1.09 秒,亞馬遜表示。這一速度比為 OpenAI 的實(shí)時(shí) API 提供動(dòng)力的 GPT-4o 模型更快,后者響應(yīng)時(shí)間為 1.18 秒,這是根據(jù)人工分析的基準(zhǔn)測(cè)試結(jié)果得出的。

普拉薩德稱,Nova Sonic 是亞馬遜構(gòu)建人工通用智能(AGI)這一更廣泛戰(zhàn)略的一部分,公司定義 AGI 為“能夠在計(jì)算機(jī)上完成人類所能做的一切事情的 AI 系統(tǒng)”。展望未來(lái),普拉薩德表示,亞馬遜計(jì)劃推出更多能夠理解不同模態(tài)(包括圖像、視頻和語(yǔ)音)的 AI 模型,以及“其他在將事物引入物理世界時(shí)相關(guān)的感官數(shù)據(jù)”。

由普拉薩德負(fù)責(zé)的亞馬遜 AGI 部門,如今似乎在公司產(chǎn)品戰(zhàn)略中扮演著越來(lái)越重要的角色。就在上周,亞馬遜剛剛推出了 Nova Act 的預(yù)覽版,這是一個(gè)使用瀏覽器的 AI 模型,似乎為 Alexa+ 和亞馬遜的“代我購(gòu)買”功能的部分元素提供了支持。普拉薩德表示,從 Nova Sonic 開始,公司希望將更多內(nèi)部的 AI 模型提供給開發(fā)者使用,以助力他們構(gòu)建各種應(yīng)用。

給作者點(diǎn)贊
0 VS 0
寫得不太好

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡(jiǎn)介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2025 c114 All Rights Reserved | 滬ICP備12002291號(hào)

      C114 通信網(wǎng) 版權(quán)所有 舉報(bào)電話:021-54451141