C114通信網(wǎng)  |  通信人家園

人工智能
2025/3/6 08:58

阿里云推出最新通義千問 QwQ-32B 推理模型,僅 1/20 參數(shù)媲美 DeepSeek R1

IT之家  問舟

研究表明,強(qiáng)化學(xué)習(xí)可以顯著提高模型的推理能力,例如 DeepSeek-R1 通過整合冷啟動(dòng)數(shù)據(jù)和多階段訓(xùn)練,實(shí)現(xiàn)了最先進(jìn)的性能,使其能夠進(jìn)行深度思考和復(fù)雜推理。

阿里云通義千問官方今日宣布推出最新的推理模型 QwQ-32B。這是一款擁有 320 億參數(shù)的模型,其性能可與具備 6710 億參數(shù)(其中 370 億被激活)的 DeepSeek-R1 媲美。

這一成果凸顯了將強(qiáng)化學(xué)習(xí)應(yīng)用于經(jīng)過大規(guī)模預(yù)訓(xùn)練的強(qiáng)大基礎(chǔ)模型的有效性。此外,我們還在推理模型中集成了與 Agent 相關(guān)的能力,使其能夠在使用工具的同時(shí)進(jìn)行批判性思考,并根據(jù)環(huán)境反饋調(diào)整推理過程。

目前,QwQ-32B 已在 Hugging Face (https://huggingface.co/Qwen/QwQ-32B) 和 ModelScope (https://modelscope.cn/models/Qwen/QwQ-32B) 開源,并采用了 Apache 2.0 開源協(xié)議。IT之家提醒,用戶也可以通過 Qwen Chat(https://chat.qwen.ai/?models=Qwen2.5-Plus)直接進(jìn)行體驗(yàn)。

性能方面,阿里云對(duì) QwQ-32B 測(cè)試數(shù)學(xué)推理、編程能力和通用能力,并展示了 QwQ-32B 與其他領(lǐng)先模型的性能對(duì)比,包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的 DeepSeek-R1。

在測(cè)試數(shù)學(xué)能力的 AIME24 評(píng)測(cè)集上,以及評(píng)估代碼能力的 LiveCodeBench 中,千問 QwQ-32B 表現(xiàn)與 DeepSeek-R1 相當(dāng),遠(yuǎn)勝于 o1-mini 及相同尺寸的 R1 蒸餾模型;在由 Meta 首席科學(xué)家楊立昆領(lǐng)銜的“最難 LLMs 評(píng)測(cè)榜” LiveBench、谷歌等提出的指令遵循能力 IFEval 評(píng)測(cè)集、由加州大學(xué)伯克利分校等提出的評(píng)估準(zhǔn)確調(diào)用函數(shù)或工具方面的 BFCL 測(cè)試中,千問 QwQ-32B 的得分均超越了 DeepSeek- R1。

阿里云表示,這是 Qwen 在大規(guī)模強(qiáng)化學(xué)習(xí)(RL)以增強(qiáng)推理能力方面的第一步。通過這一旅程,不僅見證了擴(kuò)展 RL 的巨大潛力,還認(rèn)識(shí)到預(yù)訓(xùn)練語言模型中尚未開發(fā)的可能性。

在致力于開發(fā)下一代 Qwen 的過程中,阿里云計(jì)劃將更強(qiáng)大的基礎(chǔ)模型與依托規(guī);(jì)算資源的 RL 相結(jié)合,從而使其更接近實(shí)現(xiàn)人工通用智能(AGI)。此外,阿里云正積極探索將智能體與 RL 集成,以實(shí)現(xiàn)長(zhǎng)時(shí)推理,目標(biāo)是通過推理時(shí)間擴(kuò)展來釋放更高的智能,敬請(qǐng)期待。

給作者點(diǎn)贊
0 VS 0
寫得不太好

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡(jiǎn)介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2025 c114 All Rights Reserved | 滬ICP備12002291號(hào)

      C114 通信網(wǎng) 版權(quán)所有 舉報(bào)電話:021-54451141