九九vs国产品品综合色,在线天堂v亚洲综合a直播

亞洲資本網(wǎng) > 資訊 > 熱播 > 正文

完勝GPT-4，秒殺閉源模型！Code Llama神秘版本曝光

2023-08-28 23:51:46來源： 商業(yè)新知網(wǎng)

發(fā)布僅2天，Code Llama再次引爆AI編碼的變革。

還記得Meta在Code Llama論文中出現(xiàn)的能夠全面持平GPT-4的神秘版本Unnatural Code Llama嗎？

大佬Sebastian在自己博客里做出解釋：

(資料圖片僅供參考)

是使用了1萬(wàn)5千條非自然語(yǔ)言指令對(duì)Code Llama- Python 34B進(jìn)行微調(diào)之后的版本。

Meta通過在論文里隱藏這樣一條非常隱蔽的信息，似乎是想暗示開源社區(qū)，Code Llama的潛力非常大，大家趕快微調(diào)起來吧！

于是剛剛，基于Code Llama微調(diào)的WizardCoder 34B，在HumanEval基準(zhǔn)上，直接打敗了GPT-4。

具體來說，WizardCoder以73.2%的勝率碾壓GPT-4的3月份版本（67%）。

另外，WizardCoder 34B的性能超過了最新版本GPT-3.5，以及Claude 2。

編程大模型WizardCoder，是由微軟聯(lián)合香港浸會(huì)大學(xué)在6月發(fā)布的。據(jù)稱，微調(diào)的13B/7B版本即將推出。

英偉達(dá)頂級(jí)科學(xué)家Jim Fan表示，這基本上是「Unnatural Code Llama」的開放版本。

雖然基準(zhǔn)數(shù)據(jù)看起來不錯(cuò)，但HumanEval只測(cè)試了窄分布，可能會(huì)過度擬合。自然場(chǎng)景下的數(shù)據(jù)測(cè)試才是真正重要的。編碼基準(zhǔn)需要重大升級(jí)。

Code Llama神秘版本誕生？

周五，Meta正式開源了三個(gè)版本的Code Llama。

在HumanEval和MBPP基準(zhǔn)圖中，許多人發(fā)現(xiàn)了一個(gè)未在Meta官方中提到的版本——Unnatural Code Llama。

這個(gè)神秘版本在HumanEval pass@1上取得了62.2%性能。

而在今天公布的微調(diào)WizardCoder 34B在HumanEval pass@1上性能高達(dá)73.2%。

根據(jù)介紹，WizardCoder 34B是使用合成數(shù)據(jù)集Evol-Instruct對(duì)Code Llama模型進(jìn)行微調(diào)的版本。

如下是和所有開源和閉源模型性能對(duì)比可視化。

在和OpenAI模型比較中，研究人員指出GPT4和ChatGPT-3.5有兩個(gè)HumanEval結(jié)果：

OpenAI的官方GPT4報(bào)告（2023/03/15）提供的結(jié)果分別是：67.0%和48.1%。而研究人員使用最新的 API（2023/08/26）測(cè)試的結(jié)果是82.0%和72.5%。

另外，研究人員強(qiáng)調(diào)，這個(gè)性能結(jié)果100%可重現(xiàn)！

WizardCoder 34B的演示已經(jīng)開放，任何人都可以對(duì)對(duì)其進(jìn)行測(cè)試。

有人指出了問題，過度擬合公共排行榜是開源模型在實(shí)際應(yīng)用中舉步維艱的主要原因之一。這里有一個(gè)例子，wizard-coder的數(shù)據(jù)準(zhǔn)備使用HumanEval pass@1的分?jǐn)?shù)來決定是否進(jìn)一步發(fā)展數(shù)據(jù)集。僅針對(duì)測(cè)試集進(jìn)行優(yōu)化有違測(cè)試集的初衷。

同樣就在昨天，來自Phind組織的研究人員，微調(diào)Code Llama-34B在HumanEval評(píng)估中擊敗了GPT-4。

ChatGPT與Code Llama對(duì)打

Code Llama在實(shí)際的代碼任務(wù)中表現(xiàn)到底怎么樣？

有一位網(wǎng)友做了一個(gè)GPT-3.5和Code Llama Instruct-34B的對(duì)比測(cè)試。它通過Perplexity.AI提供的Code Llama 34B的訪問服務(wù)進(jìn)行了測(cè)試。

它分別給兩個(gè)模型喂了8個(gè)同樣的代碼任務(wù)，比較他們的生成代碼的質(zhì)量。

結(jié)果是GPT-3.5以8:5的優(yōu)勢(shì)取勝。

以下是具體的測(cè)試結(jié)果。

第一題

使用Python完成這個(gè)任務(wù)，給定兩個(gè)字符串word1和word2。通過以交替順序添加字母來合并字符串，從word1開始。如果一個(gè)字符串比另一個(gè)字符串長(zhǎng)，請(qǐng)將附加字母附加到合并字符串的末尾。

最后輸出合并后的字符串。

例如：

輸入：word1 =「abc」，word2 =「pqr」輸出：「apbqcr」

GPT-3.5和Code Llama都能完成——1:1

第二題

使用Python完成這個(gè)任務(wù)，給定一個(gè)字符串 s，僅反轉(zhuǎn)字符串中的所有元音并返回它。

元音為「a」、「e」、「i」、「o」和「u」，它們可以以小寫和大寫形式出現(xiàn)多次。

例如：輸入：s =「hello」輸出：「ello」

GPT-3.5完成，Code Llama沒有完成——2:1

第三題

使用Python完成這個(gè)任務(wù)，給定一個(gè)整數(shù)數(shù)組 nums，將所有 0 移至其末尾，同時(shí)保持非零元素的相對(duì)順序。

請(qǐng)注意，您必須就地執(zhí)行此操作，而不制作數(shù)組的副本。

例如：輸入：nums = [0,1,0,3,12] 輸出：[1,3,12,0,0]

GPT-3.5完成，Code Llama沒有完成——3:1

第四題

使用Python完成這個(gè)任務(wù)，你有一個(gè)長(zhǎng)長(zhǎng)的花壇，其中有些地塊種了花，有些沒種。

但是，相鄰的地塊不能種植花卉。給定一個(gè)包含 0 和 1 的整數(shù)數(shù)組花壇，其中 0 表示空，1 表示非空，以及一個(gè)整數(shù) n，如果可以在花壇中種植n 朵新花而不違反無相鄰花規(guī)則，則輸出true，否則就輸出false。

例子1：輸入：花壇 = [1,0,0,0,1], n = 1 輸出：true例子2：輸入：花壇 = [1,0,0,0,1], n = 2 輸出：false

兩個(gè)模型都完成了——4:2

第五題

使用Python，給定一個(gè)輸入字符串s，反轉(zhuǎn)單詞的順序。單詞被定義為非空格字符的序列。s中的單詞將至少由一個(gè)空格分隔。

輸出由單個(gè)空格按相反順序連接的單詞字符串。請(qǐng)注意，s可能在兩個(gè)單詞之間包含前導(dǎo)或尾隨空格或多個(gè)空格。

返回的字符串應(yīng)該只有一個(gè)空格來分隔單詞。請(qǐng)勿包含任何額外空格。

例子：輸入：s =「the sky is blue」輸出：「blue is sky the」

兩個(gè)模型都完成了——5:3

第六題

使用Python完成這個(gè)任務(wù)，給定一個(gè)字符串s和一個(gè)整數(shù)k，返回s中長(zhǎng)度為k的任何子串中元音字母的最大數(shù)量。

英語(yǔ)中的元音字母有「a」、「e」、「i」、「o」和「u」。例子：輸入：s =「leetcode」，k = 3 輸出：2

解釋：「lee」、「eet」和「ode」包含 2 個(gè)元音。

兩個(gè)模型都完成了——6：4

第七題

使用Python完成這個(gè)任務(wù)，給定一個(gè)字符串s，其中包含星號(hào)*。通過一次操作，你可以：在s中選擇一個(gè)星號(hào)。

刪除其左側(cè)最接近的非星號(hào)字符，并刪除星號(hào)本身。刪除所有星號(hào)后輸出字符串。例子：輸入：s =「leet**cod*e」輸出：「lecoe」

GPT-3.5完成了，但是Code Llama沒有完成——7:4

第八題

使用Python完成這個(gè)任務(wù)，給定一個(gè)表示每日溫度的整數(shù)溫度數(shù)組，返回一個(gè)數(shù)組答案，其中answer[i]是在第i天之后您必須等待的天數(shù)才能獲得較溫暖的溫度。

如果未來沒有一天可以這樣做，則保留answer[i] == 0。例如：輸入：溫度 = [73,74,75,71,69,72,76,73] 輸出：[1,1,4,2,1,1,0,0]

兩個(gè)模型都完成了——8:5

針對(duì)兩個(gè)模型的表現(xiàn)，這位網(wǎng)友認(rèn)為這不算是一個(gè)嚴(yán)謹(jǐn)?shù)难芯?，只是一個(gè)簡(jiǎn)單的測(cè)試，每次讓模型再次生成代碼時(shí)基本都能得到更好的答案，但是測(cè)試中沒有。

所以測(cè)試的結(jié)論并不是最終兩個(gè)模型的表現(xiàn)。

堪比GPT-4，Llama 3要開源

自Llama和Llama 2開元發(fā)布后，引爆機(jī)器學(xué)習(xí)社區(qū)ChatGPT平替熱潮，各種微調(diào)模型泉涌而出。

OpenAI的研究人員Jason Wei稱，在Meta GenAI社交活動(dòng)上了解到，未來Llama 3和Llama 4也會(huì)開源。

我們擁有訓(xùn)練Llama 3和4的計(jì)算能力。我們的計(jì)劃是讓Llama-3和GPT-4一樣好。哇，如果Llama-3和GPT-4一樣好，你們還會(huì)開源嗎？是的，我們會(huì)的。對(duì)不起，對(duì)齊工作人員。

又一位網(wǎng)友稱，Meta希望開源一個(gè)GPT-5級(jí)別模型，并且在AGI之前似乎一直堅(jiān)持開源。

我想說清楚這意味著什么：沒有死亡開關(guān)。

如果出了問題--一個(gè)智能體失控了，或者一個(gè)壞人把它武器化了--沒有簡(jiǎn)單的方法把它關(guān)掉。它可以在任何小型集群上運(yùn)行。這樣就沒有安全性可言了。

安全研究變得毫無意義。

人們?yōu)樽屓斯ぶ悄芟到y(tǒng)誠(chéng)實(shí)、一致、合乎道德等所做的所有工作都變得毫無意義。世界上的人工智能系統(tǒng)將朝著哪個(gè)系統(tǒng)能產(chǎn)生最大經(jīng)濟(jì)效益的方向發(fā)展，而不管它們有什么價(jià)值觀或動(dòng)機(jī)。沒有護(hù)欄。任何人都可以隨心所欲地改變?nèi)斯ぶ悄艿膬r(jià)值觀或能力，無論好壞。

如果在我們獲得更智能的人工智能的同時(shí)，Meta繼續(xù)開源，那么我很清楚，事情會(huì)變得一團(tuán)糟。這些外星智能體的到來已經(jīng)會(huì)讓世界變得混亂不堪，但如果我們放棄人類僅有的一點(diǎn)控制權(quán)，情況就會(huì)更加糟糕。

據(jù)我所知，Meta希望開源主要源于「開源社區(qū)教條」，即「開源好」。而且據(jù)我所知，在他們的第一個(gè)模型Llama意外泄露之前，他們并不那么贊成開源，之后他們一直假裝贊成開源。

對(duì)此，馬斯克表示，不過，使用自回歸Transfomer的LLM能效極差，不僅在訓(xùn)練中如此，在推理中也是如此。我認(rèn)為它偏離了幾個(gè)數(shù)量級(jí)。