亚洲精品成人福利网站,无码伊人66久久大杳蕉网站谷歌,亚洲变态另类天堂av手机版,性猛交富婆╳xxx乱大交小说,无码精品国产va在线观看dvd

媒體界 - 推動(dòng)中國媒體行業(yè)創(chuàng)新,促進(jìn)業(yè)內(nèi)人士交流分享!

Meta攜手伯克利推出SWEET-RL框架,AI多輪協(xié)作能力大幅提升

   發(fā)布時(shí)間:2025-03-24 11:18 作者:朱天宇

近日,科技界迎來了一項(xiàng)新的突破,meta AI與加州大學(xué)伯克利分校攜手推出了一個(gè)名為SWEET-RL的強(qiáng)化學(xué)習(xí)框架,并配套發(fā)布了CollaborativeAgentBench(簡稱ColBench)基準(zhǔn)測試。這一合作旨在提升大語言模型(LLMs)在多輪人機(jī)協(xié)作任務(wù)中的性能,特別是在后端編程和前端設(shè)計(jì)兩大領(lǐng)域。

隨著大語言模型的發(fā)展,它們逐漸展現(xiàn)出執(zhí)行復(fù)雜任務(wù)的潛力,但在多輪決策任務(wù)中仍面臨諸多挑戰(zhàn)。傳統(tǒng)的訓(xùn)練方法主要依賴于單輪反饋或模仿高概率行為,這種方法在處理長期依賴和累積目標(biāo)時(shí)顯得力不從心,導(dǎo)致模型在協(xié)作場景中表現(xiàn)平平,特別是在理解人類意圖和多步驟推理方面。

SWEET-RL框架的推出,正是為了解決這一難題。它采用了非對(duì)稱的“演員-評(píng)論家”結(jié)構(gòu),其中評(píng)論家在訓(xùn)練過程中能夠訪問額外信息(如正確答案),從而更準(zhǔn)確地評(píng)估演員的決策。這一創(chuàng)新不僅簡化了信用分配過程,還與LLMs的預(yù)訓(xùn)練架構(gòu)實(shí)現(xiàn)了更好的對(duì)齊。

實(shí)驗(yàn)結(jié)果顯示,SWEET-RL在后端編程任務(wù)中的通過率顯著提升至48.0%,在前端設(shè)計(jì)任務(wù)中的余弦相似度也達(dá)到了76.9%,這一成績顯著優(yōu)于其他多輪強(qiáng)化學(xué)習(xí)方法。這一突破性的進(jìn)展,無疑為LLMs在多輪人機(jī)協(xié)作任務(wù)中的應(yīng)用開辟了新的道路。

為了更全面地評(píng)估SWEET-RL的性能,meta AI和加州大學(xué)伯克利分校還推出了ColBench基準(zhǔn)測試。ColBench包含了超過10000個(gè)訓(xùn)練任務(wù)和1000個(gè)測試案例,這些任務(wù)設(shè)計(jì)均模擬了真實(shí)的人機(jī)協(xié)作場景,涵蓋了后端編程(如Python函數(shù)編寫)和前端設(shè)計(jì)(如HTML代碼生成)兩大領(lǐng)域。該基準(zhǔn)測試還限制了每輪交互的次數(shù),最多不超過10次。

ColBench基準(zhǔn)測試通過單元測試通過率和余弦相似度兩個(gè)指標(biāo)來評(píng)估模型的性能,為多輪任務(wù)提供了可靠的評(píng)估標(biāo)準(zhǔn)。這一測試平臺(tái)的推出,不僅有助于研究人員更準(zhǔn)確地評(píng)估SWEET-RL的性能,也為未來LLMs在多輪人機(jī)協(xié)作任務(wù)中的發(fā)展提供了有力的支持。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新