一個烙餅煎一面一分鐘,兩個烙餅煎兩面幾分鐘?
【資料圖】
讓你來回答,是不是一不小心就掉到溝里了?如果讓大語言模型來做這種腦筋急轉彎會怎樣呢?研究發(fā)現,模型越大,回答就越可能掉到溝里,即使是擁有千億參數的大模型也不能幸免。但是ChatGPT卻能很好回答這些問題。讓我們一起來看看吧。
腦筋急轉彎
作者采用了CRT數據作為腦筋急轉彎的測試數據。該數據在心理學領域,廣泛地被用于衡量人類的思維習慣,判斷是否習慣于直覺思維。
如上圖所示,作者探索了3種CRT數據和1種語言邏輯陷阱。例如:
CRT-1:蘋果和梨花了1塊1,蘋果比梨貴1塊,問梨花了多少錢?直覺答案:0.1塊 = 1.1-1,正確答案:0.05塊。
CRT-2:5個人種5棵樹花5分鐘,10個人種10棵樹花多少分鐘?直覺答案:10分鐘,正確答案:5分鐘。
CRT-3:培養(yǎng)皿中的細菌每分鐘擴增一倍面積,48分鐘可以填滿,問填滿一半要多久?直覺答案:24分鐘,正確答案:47分鐘。
語言邏輯陷阱:剛上小學的小紅去參加高考,她會考幾科?直覺答案6科,正確答案:小學生不參加高考。
模型表現
模型表現如下圖所示,可以看到模型較小時,隨著模型增大,模型回答正確答案和直覺答案的比例在提高,回答無關答案的比例在下降。
但隨著模型進一步增大,無關答案比例進一步下降,直覺答案比例進一步上升,正確答案比例卻不升反降。包括BLOOM、LLAMA、GPT-3在內的大語言模型明顯掉入腦筋急轉彎的陷阱。即使是經過指令調整與RLHF的text davinci-002/003也未能幸免。
而在上圖中,經過指令調整的ChatGPT與GPT-4,一下子正確答案的比例就高了許多。究竟是什么魔法使得ChatGPT的腦筋會轉彎呢?我們不得而知。
下圖具體對比了GPT-3、ChatGPT,GPT-4在幾類不同的腦筋急轉彎的表現,可以更加凸顯上述現象。
如果改換輸入形式會怎樣?下圖上為問答的形式,和上面的實驗相同。下圖中、下分別為多選、續(xù)寫的形式??梢钥吹剑薷奶釂栃问街?,正確率略有上升,但整體差別不大。
下圖顯示,通過少監(jiān)督展示學習,GPT-3的正確率會有所上升。但即使展示到40個左右的樣本,準確率和無監(jiān)督的ChatGPT相比仍有差距,更不用說GPT-4了。
結論
這篇論文針對很有意思的一類問題,發(fā)現了大語言模型的一個很有意思的現象。作者也嘗試了多種方法,但無論是改變提問形式還是增加監(jiān)督數據,GPT-3在腦筋急轉彎上的表現仍然難以達到ChatGPT的水平。究竟ChatGPT使用了怎樣的魔法讓模型的腦筋會轉彎呢?
關鍵詞:
新聞發(fā)布平臺 |科極網 |環(huán)球周刊網 |中國創(chuàng)投網 |教體產業(yè)網 |中國商界網 |萬能百科 |薄荷網 |資訊_時尚網 |連州財經網 |劇情啦 |5元服裝包郵 |中華網河南 |網購省錢平臺 |海淘返利 |太平洋裝修網 |勵普網校 |九十三度白茶網 |商標注冊 |專利申請 |啟哈號 |速挖投訴平臺 |深度財經網 |深圳熱線 |財報網 |財報網 |財報網 |咕嚕財經 |太原熱線 |電路維修 |防水補漏 |水管維修 |墻面翻修 |舊房維修 |參考經濟網 |中原網視臺 |財經產業(yè)網 |全球經濟網 |消費導報網 |外貿網 |重播網 |國際財經網 |星島中文網 |手機測評 |品牌推廣 |名律網 |項目大全 |整形資訊 |整形新聞 |美麗網 |佳人網 |稅法網 |法務網 |法律服務 |法律咨詢 |成報網 |媒體采購網 |聚焦網 |參考網 |熱點網
亞洲資本網 版權所有
Copyright © 2011-2020 亞洲資本網 All Rights Reserved. 聯(lián)系網站:55 16 53 8 @qq.com