2016-2022 All Rights Reserved.平安財經網.復制必究 聯系QQ 備案號:
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯網 版權歸原作者所有。
郵箱:toplearningteam#gmail.com (請將#換成@)
近日,備受各界關注的伯克利LLM排行榜再次更新了,Chat gpt-4在這份榜單中仍舊是排列在榜首的位置,Gpt-3.5僅僅排列在他的后面。由該團隊發(fā)布的最新參數大模型Vicuna則沖到了第五名的位置,以330億參數成為了眾多開源模型中最好的成績,領先微軟華人團隊開發(fā)的300億參數模型。這一次排行榜不僅加入了更多的新模型,而且還加入了兩個全新的評價標準。
從各項數據中來看,GPT-3.5、Claude-v1和Claude-instant-v1這幾個模型的排行簡直是很難分出高低,而且在得分上咬的十分緊,甚至在某些得分領域,都有著互相反超的趨勢,和這些專有模型相比。一些開源模型則是有著比較明顯的差距,比如谷歌的開源模型就落后眾多開源模型,在評估人類偏好的時候,傳統(tǒng)的基準測試通常是在封閉式的問題中完成測試,并且會提供一些簡潔的輸出作為評價依據。
這家來自UC伯克利的團隊在這一次的排行中增加了一項新的基準測試,競技場的具體評價機制是基于收到的42000個匿名投票,并且采用elo評價機制完成評分,這一方法已經經過了驗證,是一個精心測試的基準測試功能。其中是包含了80個高質量的多輪問題,通過這些問題,能夠評估模型在多輪對話中的遵循能力與對話流程能力,其中是包含了一些常見的日常使用場景,還添加了更多富有挑戰(zhàn)性的指令。
團隊在最新的論文中還公布了一項系統(tǒng)研究,該研究的結果顯示,gpt-4這樣強大的評判者,在一致性上是超過了80%。這種一致性的水平已經能夠和兩個人類評判者中的一致性相媲美,基于chat gpt的評分能夠更好的去對其他的模型做出排名,而且可以和人類偏好做出更好的匹配。如果使用得當的話,這種評論模型能夠作為人類偏好發(fā)展的拓展解釋。
2016-2022 All Rights Reserved.平安財經網.復制必究 聯系QQ 備案號:
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯網 版權歸原作者所有。
郵箱:toplearningteam#gmail.com (請將#換成@)