2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ 備案號:
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
郵箱:toplearningteam#gmail.com (請將#換成@)
近日,備受各界關(guān)注的伯克利LLM排行榜再次更新了,Chat gpt-4在這份榜單中仍舊是排列在榜首的位置,Gpt-3.5僅僅排列在他的后面。由該團隊發(fā)布的最新參數(shù)大模型Vicuna則沖到了第五名的位置,以330億參數(shù)成為了眾多開源模型中最好的成績,領(lǐng)先微軟華人團隊開發(fā)的300億參數(shù)模型。這一次排行榜不僅加入了更多的新模型,而且還加入了兩個全新的評價標(biāo)準。
從各項數(shù)據(jù)中來看,GPT-3.5、Claude-v1和Claude-instant-v1這幾個模型的排行簡直是很難分出高低,而且在得分上咬的十分緊,甚至在某些得分領(lǐng)域,都有著互相反超的趨勢,和這些專有模型相比。一些開源模型則是有著比較明顯的差距,比如谷歌的開源模型就落后眾多開源模型,在評估人類偏好的時候,傳統(tǒng)的基準測試通常是在封閉式的問題中完成測試,并且會提供一些簡潔的輸出作為評價依據(jù)。
這家來自UC伯克利的團隊在這一次的排行中增加了一項新的基準測試,競技場的具體評價機制是基于收到的42000個匿名投票,并且采用elo評價機制完成評分,這一方法已經(jīng)經(jīng)過了驗證,是一個精心測試的基準測試功能。其中是包含了80個高質(zhì)量的多輪問題,通過這些問題,能夠評估模型在多輪對話中的遵循能力與對話流程能力,其中是包含了一些常見的日常使用場景,還添加了更多富有挑戰(zhàn)性的指令。
團隊在最新的論文中還公布了一項系統(tǒng)研究,該研究的結(jié)果顯示,gpt-4這樣強大的評判者,在一致性上是超過了80%。這種一致性的水平已經(jīng)能夠和兩個人類評判者中的一致性相媲美,基于chat gpt的評分能夠更好的去對其他的模型做出排名,而且可以和人類偏好做出更好的匹配。如果使用得當(dāng)?shù)脑?,這種評論模型能夠作為人類偏好發(fā)展的拓展解釋。
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ 備案號:
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
郵箱:toplearningteam#gmail.com (請將#換成@)