2024/12/20 17:10

最新研究：AI版本越老越糊涂

快科技秋白

近日，有媒體報(bào)道，以色列特拉維夫大學(xué)的一項(xiàng)研究表明AI已有數(shù)字癡呆癥。

在這項(xiàng)研究中，科學(xué)家測試了幾乎所有全球頂尖AI大型語言模型，結(jié)果都表現(xiàn)出類似于早期老年癡呆的認(rèn)知障礙，并且版本越老，表現(xiàn)就越差。

為了評(píng)估實(shí)驗(yàn)效果，科學(xué)家使用了經(jīng)常被用來測試?yán)夏臧V呆癥的蒙特利爾認(rèn)知評(píng)估量表，針對(duì)幾種公開的領(lǐng)先大型語言模型進(jìn)行測試，包括ChatGPT的新老版本，Gemini新老版本等。設(shè)定的測試最高分為30分，26分或以上被認(rèn)為是正常的。

實(shí)驗(yàn)結(jié)果顯示，只有GPT-4o在測試中獲得了最高分26分，其次是GPT-4是25分，Gemini 1.0僅得16分。

研究還發(fā)現(xiàn)幾乎所有模型在視覺空間能力和執(zhí)行任務(wù)方面都表現(xiàn)不佳，無法表現(xiàn)出同理心或準(zhǔn)確解釋復(fù)雜的視覺場景。

科學(xué)家指出，所有大型語言模型在需要視覺抽象和執(zhí)行功能的任務(wù)中都一致失敗，這凸顯了一個(gè)可能阻礙其在臨床環(huán)境中使用的重要弱點(diǎn)。因此，他們做出了有數(shù)字癡呆的AI，不可能很快取代醫(yī)生的這一結(jié)論。

給作者點(diǎn)贊

0 VS 0

寫得不太好

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實(shí)相關(guān)內(nèi)容。

相關(guān)鏈接

測試

中興通訊聯(lián)合合作伙伴成立開放智算產(chǎn)業(yè)聯(lián)盟，加速AI及大模型行業(yè)落地
C114通信網(wǎng) 12-20
“高校人人學(xué)AI”時(shí)代，升級(jí)AI通識(shí)教育老師先卷起來
C114通信網(wǎng) 12-20
阿爾特曼暗示OpenAI明日發(fā)布o(jì)3，新一代AI推理王者模型
IT之家故淵12-20
榮耀互聯(lián)網(wǎng)服務(wù)：乘著AI浪潮，以創(chuàng)新服務(wù)及優(yōu)質(zhì)體驗(yàn)締造科技未來
廠商供稿 12-20