2024全球大模型評(píng)測(cè)榜單揭曉，國(guó)產(chǎn)模型多領(lǐng)域奪冠表現(xiàn)亮眼！

發(fā)布時(shí)間：2024-12-20 16:01 來(lái)源：新智元作者：任飛揚(yáng)

隨著2024年的尾聲漸近，全球大模型技術(shù)的競(jìng)爭(zhēng)格局再次成為焦點(diǎn)。近日，智源研究院公布了下半年的大模型綜合評(píng)測(cè)結(jié)果，覆蓋了超過100個(gè)開源與閉源模型，涉及文本、語(yǔ)音、圖像和視頻等多個(gè)領(lǐng)域，為業(yè)界提供了一份詳盡的技術(shù)參考。

此次評(píng)測(cè)中，智源研究院不僅評(píng)估了模型的常規(guī)能力，還進(jìn)一步擴(kuò)展了任務(wù)解決能力的內(nèi)涵，新增了數(shù)據(jù)處理、高級(jí)編程和工具調(diào)用等相關(guān)任務(wù)。同時(shí)，評(píng)測(cè)首次引入了面向真實(shí)金融量化交易場(chǎng)景的應(yīng)用能力評(píng)估，以及基于模型辯論的對(duì)比評(píng)估方式，對(duì)模型的邏輯推理、觀點(diǎn)理解和語(yǔ)言表達(dá)等核心能力進(jìn)行了深入分析。

在語(yǔ)言模型方面，盡管針對(duì)一般中文場(chǎng)景的開放式問答或生成任務(wù)，模型能力已趨于穩(wěn)定，但在復(fù)雜場(chǎng)景任務(wù)中，國(guó)內(nèi)頭部語(yǔ)言模型與國(guó)際一流水平仍存在差距。評(píng)測(cè)結(jié)果顯示，OpenAI的o1-mini-2024-09-12和Google的Gemini-1.5-pro-latest分別位列第一和第二，阿里巴巴的Qwen-max-0919和字節(jié)跳動(dòng)的Doubao-pro-32k-preview緊隨其后，分列第三和第四。

文生圖多模態(tài)模型方面，相較于今年上半年，參評(píng)的頭部模型已具備中文文字生成能力，但整體仍存在復(fù)雜場(chǎng)景人物變形的情況。針對(duì)常識(shí)或知識(shí)性推理任務(wù)，模型在小于3的數(shù)量關(guān)系任務(wù)上有所提升，但大于3的數(shù)量關(guān)系依然無(wú)法處理。評(píng)測(cè)結(jié)果顯示，騰訊的Hunyuan Image位列第一，字節(jié)跳動(dòng)的Doubao image v2.1和Ideogram 2.0分居第二和第三。

文生視頻多模態(tài)模型在畫質(zhì)、動(dòng)態(tài)性和鏡頭語(yǔ)言等方面均有所提升，但仍存在大幅度動(dòng)作變形、無(wú)法理解物理規(guī)律等問題。評(píng)測(cè)結(jié)果顯示，快手的可靈1.5（高品質(zhì)）、字節(jié)跳動(dòng)的即夢(mèng)P2.0 pro、愛詩(shī)科技的PixVerse V3等模型位列前五。

語(yǔ)音語(yǔ)言模型方面，得益于文本大模型的進(jìn)步，模型能力得到了顯著提升，但在具體任務(wù)上與專家模型仍存在差距。評(píng)測(cè)結(jié)果顯示，阿里巴巴的Qwen2-Audio位居第一，香港中文大學(xué)與微軟合作的WavLLM、清華大學(xué)與字節(jié)跳動(dòng)合作的Salmon分別位列第二和第三。

智源研究院還聯(lián)合海淀區(qū)教師進(jìn)修學(xué)校新編了K12全學(xué)段、多學(xué)科試卷，以考察大模型與人類學(xué)生的能力差異。評(píng)測(cè)發(fā)現(xiàn)，盡管模型在K12學(xué)科測(cè)驗(yàn)中的綜合得分有所提升，但仍與海淀學(xué)生的平均水平存在差距，且普遍存在“文強(qiáng)理弱”的情況。

智源研究院還推出了模型辯論平臺(tái)Flageval Debate，對(duì)模型的邏輯推理、觀點(diǎn)理解和語(yǔ)言表達(dá)等核心能力進(jìn)行了深入評(píng)估。評(píng)測(cè)發(fā)現(xiàn)，大模型在辯論中普遍缺乏框架意識(shí)，論據(jù)經(jīng)不起推敲，且更擅長(zhǎng)反駁而非闡述觀點(diǎn)。

此次評(píng)測(cè)不僅展示了當(dāng)前大模型技術(shù)的最新進(jìn)展，也為未來(lái)技術(shù)的發(fā)展提供了重要參考。智源研究院將繼續(xù)堅(jiān)守科學(xué)、權(quán)威、公正、開放的準(zhǔn)則，通過技術(shù)創(chuàng)新和平臺(tái)升級(jí)，推動(dòng)大模型技術(shù)生態(tài)的持續(xù)健康發(fā)展。

更多>同類內(nèi)容