您的位置: 首頁(yè) >科技 >

Open AI 新論文 用“過(guò)程監(jiān)督”改進(jìn)數(shù)學(xué)推理

2023-06-03 19:30:54 編輯:澹臺(tái)風(fēng)融 來(lái)源:
導(dǎo)讀 在 Open AI新論文中指出:新訓(xùn)練出的一個(gè)模型,通過(guò)對(duì)每個(gè)正確推理步驟進(jìn)行獎(jiǎng)勵(lì)(過(guò)程監(jiān)督)來(lái)提高解決數(shù)學(xué)問(wèn)題的水平,與之前的結(jié)果監(jiān)督...

Open AI新論文中指出:新訓(xùn)練出的一個(gè)模型,通過(guò)對(duì)每個(gè)正確推理步驟進(jìn)行獎(jiǎng)勵(lì)(過(guò)程監(jiān)督)來(lái)提高解決數(shù)學(xué)問(wèn)題的水平,與之前的結(jié)果監(jiān)督有很大的區(qū)別。這種方式最大的一個(gè)好處是能夠直接訓(xùn)練模型產(chǎn)生被人類(lèi)認(rèn)可的思維鏈。

 

過(guò)程監(jiān)督可以為思維鏈中的每一步提供反饋,而且打造的機(jī)器人性能提升的也很明顯。過(guò)程監(jiān)督比結(jié)果監(jiān)督有幾個(gè)對(duì)齊優(yōu)勢(shì),在生成的過(guò)程中,對(duì)每一步都可以做到精確化的監(jiān)督,能夠有效的獎(jiǎng)勵(lì)模型,遵循與人類(lèi)一致的思維鏈。產(chǎn)生可以解釋的推理,希望會(huì)更大。之前采用的結(jié)果監(jiān)督模型在處理復(fù)雜問(wèn)題的時(shí)候很容易出現(xiàn)錯(cuò)誤判斷或者產(chǎn)生幻覺(jué),難以理解解決問(wèn)題的整個(gè)過(guò)程。過(guò)程監(jiān)督則會(huì)驗(yàn)證每一個(gè)思維過(guò)程,確保出現(xiàn)的結(jié)果都是正確的。


免責(zé)聲明:本文由用戶(hù)上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ   備案號(hào):

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。

郵箱:toplearningteam#gmail.com (請(qǐng)將#換成@)