亞洲資本網(wǎng) > 資訊 > 熱播 > 正文
DeepMind發(fā)布提高翻譯質(zhì)量的算法ReST
2023-08-28 12:45:31來(lái)源: 鞭牛士


【資料圖】

谷歌DeepMind于8月21日發(fā)布論文,提出一種使LLM與人類偏好對(duì)齊更簡(jiǎn)單的算法ReST(Reinforced Self-Training)。不同于RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))使用人類反饋改進(jìn)語(yǔ)言模型,ReST通過(guò)生成和使用離線數(shù)據(jù)進(jìn)行訓(xùn)練,從而使得LLM與人類偏好保持一致。研究團(tuán)隊(duì)表示,雖然ReST可用于所有生成任務(wù),但本文的重點(diǎn)是機(jī)器翻譯。研究者在機(jī)器翻譯任務(wù)上進(jìn)行了實(shí)驗(yàn),測(cè)試基準(zhǔn)包括IWSLT 2014、WMT 2020和Web Domain。結(jié)果表明,ReST可以極大地提高翻譯質(zhì)量。

關(guān)鍵詞:

專題新聞
  • 培養(yǎng)綜合素質(zhì),科大訊飛AI學(xué)習(xí)機(jī)LUMIE 10系列讓孩子在快樂(lè)中成長(zhǎng)
  • 菏澤堯舜牡丹生物科技有限公司(關(guān)于菏澤堯舜牡丹生物科技有限公司簡(jiǎn)述)
  • 鄭州“夏日招聘夜市”走進(jìn)萬(wàn)達(dá)商圈|關(guān)注高校畢業(yè)生就業(yè)
  • 自首后,特朗普狂攬710萬(wàn)美元競(jìng)選資金
  • 汕尾陸河創(chuàng)新禁毒宣傳形式,將禁毒宣傳與足球相結(jié)合
  • 致命失誤!米爾斯空砍21+5+6,兩戰(zhàn)46分創(chuàng)紀(jì)錄,無(wú)緣兩連勝
最近更新

京ICP備2021034106號(hào)-51

Copyright © 2011-2020  亞洲資本網(wǎng)   All Rights Reserved. 聯(lián)系網(wǎng)站:55 16 53 8 @qq.com