您的位置: 首頁 >商業(yè) >

UC伯克利LLM排行榜 GPT-4穩(wěn)居榜首 30億參數(shù)位列開源第一名

2023-06-24 18:37:26 編輯:單于言佳 來源:
導(dǎo)讀 近日,備受各界關(guān)注的伯克利LLM排行榜再次更新了,Chat gpt-4在這份榜單中仍舊是排列在榜首的位置,Gpt-3.5僅僅排列在他的后面。由該團(tuán)隊(duì)...

近日,備受各界關(guān)注的伯克利LLM排行榜再次更新了,Chat gpt-4在這份榜單中仍舊是排列在榜首的位置,Gpt-3.5僅僅排列在他的后面。由該團(tuán)隊(duì)發(fā)布的最新參數(shù)大模型Vicuna則沖到了第五名的位置,以330億參數(shù)成為了眾多開源模型中最好的成績,領(lǐng)先微軟華人團(tuán)隊(duì)開發(fā)的300億參數(shù)模型。這一次排行榜不僅加入了更多的新模型,而且還加入了兩個全新的評價標(biāo)準(zhǔn)。

從各項(xiàng)數(shù)據(jù)中來看,GPT-3.5、Claude-v1和Claude-instant-v1這幾個模型的排行簡直是很難分出高低,而且在得分上咬的十分緊,甚至在某些得分領(lǐng)域,都有著互相反超的趨勢,和這些專有模型相比。一些開源模型則是有著比較明顯的差距,比如谷歌的開源模型就落后眾多開源模型,在評估人類偏好的時候,傳統(tǒng)的基準(zhǔn)測試通常是在封閉式的問題中完成測試,并且會提供一些簡潔的輸出作為評價依據(jù)。

這家來自UC伯克利的團(tuán)隊(duì)在這一次的排行中增加了一項(xiàng)新的基準(zhǔn)測試,競技場的具體評價機(jī)制是基于收到的42000個匿名投票,并且采用elo評價機(jī)制完成評分,這一方法已經(jīng)經(jīng)過了驗(yàn)證,是一個精心測試的基準(zhǔn)測試功能。其中是包含了80個高質(zhì)量的多輪問題,通過這些問題,能夠評估模型在多輪對話中的遵循能力與對話流程能力,其中是包含了一些常見的日常使用場景,還添加了更多富有挑戰(zhàn)性的指令。

團(tuán)隊(duì)在最新的論文中還公布了一項(xiàng)系統(tǒng)研究,該研究的結(jié)果顯示,gpt-4這樣強(qiáng)大的評判者,在一致性上是超過了80%。這種一致性的水平已經(jīng)能夠和兩個人類評判者中的一致性相媲美,基于chat gpt的評分能夠更好的去對其他的模型做出排名,而且可以和人類偏好做出更好的匹配。如果使用得當(dāng)?shù)脑挘@種評論模型能夠作為人類偏好發(fā)展的拓展解釋。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ   備案號:

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。

郵箱:toplearningteam#gmail.com (請將#換成@)