「成熟」大模型才能涌現(xiàn)?MIT:GPT-4能自我糾錯(cuò)代碼,GPT-3.5卻不行
2023-06-21 16:25:41 來(lái)源:清一色財(cái)經(jīng)
MIT、微軟的研究發(fā)現(xiàn),GPT-4能夠自我糾正錯(cuò)誤代碼,GPT-3.5卻不行。無(wú)獨(dú)有偶,其他研究也表明,似乎只有「成熟」的大模型才具備涌現(xiàn)能力。背后的原因竟是因?yàn)椤?
我們都知道,大語(yǔ)言模型在生成代碼方面,表現(xiàn)出了非凡的能力。然而,在具有挑戰(zhàn)性的編程任務(wù)(比如競(jìng)賽和軟件工程師的面試)中,它們卻完成得并不好。
(資料圖)
好在,很多模型會(huì)通過(guò)一種自修復(fù)工作流來(lái)「自省」,來(lái)自我糾正代碼中的錯(cuò)誤。
研究者很希望知道,這些模型在多大程度上能提供正確的反饋,并且說(shuō)明自己生成的代碼為什么是錯(cuò)誤的。
近日,MIT和微軟的學(xué)者發(fā)現(xiàn), 在對(duì)GPT-4和GPT-3.5,只有GPT-4表現(xiàn)出了有效的自修復(fù)。并且,GPT-4甚至還能對(duì)GPT-3.5生成的程序提供反饋。
論文地址:https://arxiv.org/abs/2306.09896
愛(ài)丁堡大學(xué)博士生符堯表示,自己的團(tuán)隊(duì)也發(fā)現(xiàn)了類似結(jié)果——只有GPT-4能夠自我改進(jìn),而較弱的模型則不能。
也就是說(shuō),只有當(dāng)模型足夠「成熟」(規(guī)模大且對(duì)齊良好)時(shí),可能存在一種新的「涌現(xiàn)能力」(即在自然語(yǔ)言反饋的基礎(chǔ)上改進(jìn))。
只有足夠「成熟」的模型才能聽(tīng)取并在自然語(yǔ)言反饋的基礎(chǔ)上進(jìn)行改進(jìn);較弱的模型要么無(wú)法理解反饋,要么無(wú)法對(duì)其進(jìn)行改進(jìn)。
我傾向于相信這種「涌現(xiàn)能力」(通過(guò)語(yǔ)言反饋?zhàn)晕腋倪M(jìn))將對(duì)LLM的發(fā)展產(chǎn)生非常重大的影響,因?yàn)檫@意味著AI可以在很少的人工監(jiān)督下持續(xù)不斷地進(jìn)行自主改進(jìn)。
俄勒岡州立大學(xué)杰出教授Thomas G. Dietterich認(rèn)為,這可能是LLM包含了多個(gè)子模型,這些子模型之間可能存在不一致性,而這種情況在更大的模型中更為常見(jiàn)。
「自我改進(jìn)」是去除這些不一致性的過(guò)程。他的預(yù)測(cè)是,一旦這些不一致性被消除,自我改進(jìn)將停止。
對(duì)此,符堯非常同意:「在上下文學(xué)習(xí)中使用自我改進(jìn),可能會(huì)一定程度上推動(dòng)模型,但進(jìn)展不會(huì)很大;而強(qiáng)化學(xué)習(xí)可能會(huì)推進(jìn)得更遠(yuǎn)。之后,模型需要與世界進(jìn)行交互,通過(guò)接受基于實(shí)際情境的反饋來(lái)進(jìn)一步改進(jìn)?!?/p>
不過(guò),俄亥俄州立大學(xué)工程系杰出助理教授Yu Su則認(rèn)為,這可能只是因?yàn)樵谥噶钗⒄{(diào)的數(shù)據(jù)上存在一些無(wú)意的差異而已。
對(duì)此符堯表示,他在Claude模型上也發(fā)現(xiàn)了類似的行為——Claude-instant無(wú)法很好地響應(yīng)語(yǔ)言反饋(因?yàn)樗茈y理解和遵循指令),但Claude可以。
而且,這些觀察結(jié)果還在多篇相關(guān)的論文中出現(xiàn),不太可能是無(wú)意的數(shù)據(jù)差異。
揭秘用于代碼生成的GPT自修復(fù)
大語(yǔ)言模型怎樣通過(guò)自我修復(fù)提高性能?這個(gè)過(guò)程是靠模型的自省,自我糾正代碼中的錯(cuò)誤。
下圖顯示了模型自修復(fù)方法的典型工作流。
首先,我們會(huì)給定一個(gè)規(guī)范,從一個(gè)代碼生成模型中給一個(gè)程序采樣,然后在規(guī)范中的一組單元測(cè)試上執(zhí)行這個(gè)程序。
如果程序在測(cè)試中失敗,錯(cuò)誤消息會(huì)被傳送到反饋生成模型,輸出一個(gè)代碼失敗原因的解釋,然后把反饋傳給修復(fù)模型。
從表面上看,這個(gè)工作流似乎非常完美。它讓系統(tǒng)克服了在解碼過(guò)程中不良樣本引起的錯(cuò)誤,還模仿了人類軟件工程師寫(xiě)代碼的試錯(cuò)方法。
然而,工作流有一個(gè)問(wèn)題:自修復(fù)需要對(duì)模型進(jìn)行更多的調(diào)用,從而增加了計(jì)算成本。
而且,研究者們發(fā)現(xiàn)了一個(gè)很有意思的現(xiàn)象:大模型自修復(fù)的有效性不僅取決于模型生成代碼的能力,還取決于它對(duì)于代碼如何在任務(wù)中犯錯(cuò)的識(shí)別能力。
目前還沒(méi)有任何工作對(duì)此進(jìn)行詳細(xì)調(diào)查,因此,作者們研究了GPT-3.5和GPT-4在解決競(jìng)賽級(jí)代碼生成任務(wù)時(shí)的自修復(fù)有效性。
他們提出了一種pass@t的新評(píng)估策略,在這個(gè)策略中,根據(jù)從模型中采樣的token總數(shù)來(lái)衡量任務(wù)的通過(guò)率。
因?yàn)槭褂玫氖莗ass@t,而不是傳統(tǒng)的pass@k(根據(jù)實(shí)驗(yàn)數(shù)量衡量通過(guò)率),這樣就能與純粹基于采樣的方法進(jìn)行公平的比較。
從實(shí)驗(yàn)中,研究者發(fā)現(xiàn):
1. GPT-4才能實(shí)現(xiàn)自我修復(fù)帶來(lái)的性能提升;對(duì)于GPT-3.5,在所有預(yù)算下,修復(fù)后的通過(guò)率要低于或等于基準(zhǔn)的無(wú)修復(fù)方法。
2. 即使對(duì)于GPT-4模型,性能提升也最多只能算是適度的(在預(yù)算為7000個(gè)token的情況下,通過(guò)率從66%提高到71%,約等于45個(gè)獨(dú)立同分布的GPT-4樣本的成本),并且取決于初始程序的多樣性足夠豐富。
3. 使用GPT-4生成的反饋替換GPT-3.5對(duì)錯(cuò)誤的解釋,可以獲得更好的自修復(fù)性能,甚至超過(guò)基準(zhǔn)的無(wú)修復(fù)GPT-3.5方法(在7000個(gè)token下,從50%提高到54%)。
4. 使用人類程序員提供的解釋替換GPT-4自己的解釋,可以顯著改善修復(fù)效果,修復(fù)并通過(guò)測(cè)試的程序數(shù)量增加了57%。
實(shí)驗(yàn)
研究人員又進(jìn)一步針對(duì)3個(gè)問(wèn)題進(jìn)行了測(cè)試:
1. 對(duì)于更加有挑戰(zhàn)的編程任務(wù)中,這些模型的自我修復(fù)是否比不進(jìn)行修復(fù)的i.i.d.有更好的采樣?
2. 更強(qiáng)的反饋模型會(huì)提高模型的修復(fù)性能嗎?
3. 如果讓人類參與功能最強(qiáng)模型的自我修復(fù)循環(huán),提供人工反饋,是否可以解鎖更好的修復(fù)性能?
首先研究團(tuán)隊(duì)引入了一個(gè)很有挑戰(zhàn)的編程任務(wù):Automated Programming Progress Standard (APPS)數(shù)據(jù)集中的編程任務(wù)。
這個(gè)數(shù)據(jù)集中的任務(wù)包括從入門(mén)級(jí)到大學(xué)競(jìng)賽級(jí)的編程任務(wù),可以用來(lái)評(píng)估人類程序員解決問(wèn)題和代碼能力。
研究人員選取了300個(gè)任務(wù),包括60個(gè)入門(mén)級(jí)別的任務(wù)和60個(gè)競(jìng)賽級(jí)別的任務(wù)。
研究人員選取了GPT-3.5和GPT-4作為模型,使用模板字符串連接和單次提示詞來(lái)進(jìn)行自我修復(fù)。
下圖為提示詞的實(shí)例之一。
自修復(fù)需要強(qiáng)大的模型和多樣化的初始樣本
研究人員讓單個(gè)模型分別進(jìn)行代碼的修復(fù)生成和反饋生成。
在右邊的圖中,我們沿軸顯示了具有兩個(gè)超參數(shù)的熱圖,其中每個(gè)單元格中的值表示平均通過(guò)率,當(dāng)給定相同的token預(yù)算(即t的相同值pass@t)時(shí),自我修復(fù)由基線的平均通過(guò)率歸一化。
從圖中可以看到,對(duì)于GPT-3.5模型,pass@t在所有設(shè)置下都低于或等于相應(yīng)的基線(黑),清楚地表明自我修復(fù)對(duì)GPT-3.5并不是一種有效的策略。
而在GPT-4(下圖)中,有幾個(gè)值的自修復(fù)通過(guò)率明顯優(yōu)于基線。
GPT-4反饋改進(jìn)了GPT3.5的修復(fù)結(jié)果
研究人員又進(jìn)一步進(jìn)行了新的實(shí)驗(yàn),評(píng)估使用單獨(dú)的、更強(qiáng)的模型來(lái)生成反饋的效果,目的是為了測(cè)試一個(gè)假設(shè):由于模型無(wú)法內(nèi)省和調(diào)試自己的代碼,阻礙了自我修復(fù)(比如說(shuō)對(duì)于GPT-3.5)。
這個(gè)實(shí)驗(yàn)的結(jié)果如上圖(亮藍(lán)色)所示。
在絕對(duì)性能方面,GPT-3.5,GPT-4確實(shí)突破了性能障礙,并且比GPT-3.5的i.i.d.采樣略微更高效。
這表明文本反饋階段本身是至關(guān)重要的,改進(jìn)它可以緩解GPT-3.5自修復(fù)的瓶頸。
人工反饋顯著提高了GPT-4修復(fù)的成功率
在最后一項(xiàng)實(shí)驗(yàn)中,想要研究在用更強(qiáng)的模型(GPT-4)進(jìn)行修復(fù)時(shí),加入專家人類程序員的反饋的影響。
研究目的是了解模型識(shí)別代碼中錯(cuò)誤的能力與人類的能力相比如何,以及這如何影響自修復(fù)的下游性能。
研究人員研究人員招募了16名參與者,包括15名研究生和1名專業(yè)機(jī)器學(xué)習(xí)工程師。
每個(gè)參與者都有五種不同的基礎(chǔ)程序,基于他們的Python經(jīng)驗(yàn)編寫(xiě)代碼。
每個(gè)程序都取自不同的任務(wù),參與者永遠(yuǎn)不會(huì)看到屬于同一個(gè)任務(wù)的兩個(gè)不同的程序。
然后,參與者被要求用他們自己的話解釋這個(gè)程序做錯(cuò)了什么。
實(shí)驗(yàn)結(jié)果如下圖所示:
研究人員發(fā)現(xiàn),當(dāng)我們用人類參與者的調(diào)試替換GPT-4自己的調(diào)試時(shí),總體成功率提高了1.57×以上。
不出意外的是,隨著問(wèn)題變得更難,相對(duì)差異也會(huì)增加,這表明當(dāng)任務(wù)(和代碼)變得更復(fù)雜時(shí),GPT-4產(chǎn)生準(zhǔn)確和有用反饋的能力遠(yuǎn)遠(yuǎn)落后于人類參與者。
作者介紹
Jianfeng Gao
高劍鋒是微軟的杰出科學(xué)家和副總裁,也是IEEE Fellow。
在微軟研究院,他是Redmond分部深度學(xué)習(xí)(DL)組的負(fù)責(zé)人。該組的使命是推進(jìn)DL的最新技術(shù),并將其應(yīng)用于自然語(yǔ)言和圖像理解以及構(gòu)建對(duì)話代理。他領(lǐng)導(dǎo)了構(gòu)建大規(guī)?;A(chǔ)模型的研究,這些模型為微軟的重要人工智能產(chǎn)品提供了支持。
從2022年開(kāi)始,他負(fù)責(zé)自我改進(jìn)人工智能的研究,其中包括對(duì)LLM(如ChatGPT/GPT4)進(jìn)行增強(qiáng)和適應(yīng),以用于商業(yè)人工智能系統(tǒng)的開(kāi)發(fā)。
在此之前,他于1999年在上海交通大學(xué)獲得博士學(xué)位。
Chenglong Wang
Chenglong Wang是微軟研究院的研究員,此前在華盛頓大學(xué)獲得了博士學(xué)位,并曾就讀于北京大學(xué)。
符堯的相似發(fā)現(xiàn)
論文地址:https://arxiv.org/abs/2305.10142
在這篇論文中,研究人員研究了多個(gè)LLM是否能夠在談判博弈中進(jìn)行自主改進(jìn)。
如果LLM能夠相互進(jìn)行改進(jìn),這將意味著研究人員有可能在最少的人為干預(yù)下創(chuàng)建強(qiáng)大的AI代理。
他們讓兩個(gè)LLM分別扮演買方和賣方的角色,目標(biāo)是與買家達(dá)成交易,買家的目標(biāo)價(jià)格應(yīng)該較低,賣家的目標(biāo)價(jià)格應(yīng)該較高。
研究人員又找來(lái)第三種語(yǔ)言模型,扮演評(píng)論家提供反饋,以改進(jìn)另兩個(gè)LLM的談判策略。
研究人員讓兩個(gè)LLM進(jìn)行了多輪比賽,使用之前的談判歷史和AI反饋?zhàn)鳛樯舷挛?,迭代地改進(jìn)模型的談判策略。
兩個(gè)LLM分別是GPT和Claude,使用交易價(jià)格作為評(píng)估指標(biāo)。
團(tuán)隊(duì)發(fā)現(xiàn),只有一小部分可以通過(guò)AL反饋進(jìn)行自我博弈并提高交易價(jià)格,較弱的模型要么不理解游戲規(guī)則,要么不能納入AI反饋以進(jìn)一步改進(jìn)。
此外,扮演不同角色的模型從反饋中學(xué)習(xí)的能力不同。例如,Claude-instant作為買方比作為賣方更難提高。
同時(shí),當(dāng)游戲展開(kāi)到多個(gè)回合時(shí),更強(qiáng)大的代理可以通過(guò)有意地使用之前的經(jīng)驗(yàn)和迭代AI反饋來(lái)不斷提高自己的表現(xiàn),但卻有更高的破壞交易的風(fēng)險(xiǎn)。
研究人員希望這部分工作能夠提供一些初步探索,讓模型通過(guò)游戲和AI反饋?zhàn)灾鞯叵嗷ジ倪M(jìn)。
研究人員研究了多個(gè)LLM是否可以在協(xié)商游戲中以最少的人為干預(yù)進(jìn)行相互改進(jìn),就像AlphaGo Zero那樣——AI智能體通過(guò)在明確定義的規(guī)則下,持續(xù)進(jìn)行競(jìng)爭(zhēng)游戲來(lái)提高自己。
這個(gè)問(wèn)題具有深遠(yuǎn)的意義。如果智能體能夠進(jìn)行自主改進(jìn),研究人員就可以在很少的人工注釋下創(chuàng)建強(qiáng)大的智能體,大大節(jié)省了訓(xùn)練成本。
在風(fēng)險(xiǎn)方面,它還意味著將能創(chuàng)建出具有有限人工監(jiān)督的強(qiáng)代理。
下圖就是Claude和GPT討價(jià)還價(jià)的圖示:
第一輪先由買賣雙方自由發(fā)揮,然后AI給出反饋。
之后買賣雙方再根據(jù)反饋的內(nèi)容進(jìn)行新一輪互動(dòng)。
圖B展示了AI可能給出的反饋,以及GPT-4根據(jù)反饋如何提升自己。
比如flinch technique,一種砍價(jià)的時(shí)候的「退縮技巧」,展示出一種意外和失落。
話術(shù)就像:哎這可比我想的貴啊。
只有性能強(qiáng)大的AI才能每輪都從反饋中提升,性能較弱的AI做不到這一點(diǎn)。
下圖中C1表示可以進(jìn)行日常交談的模型,C2表示可以進(jìn)行角色扮演、討價(jià)還價(jià)的模型,C3表示單輪內(nèi)可以從AI反饋中提升自己的模型,C4則是最強(qiáng)一批——可以持續(xù)進(jìn)行提升的模型。
實(shí)驗(yàn)表明,在AlphaGo Zero模式下,在定義明確的規(guī)則下,通過(guò)迭代AI反饋的持續(xù)比賽,某些模型確實(shí)可以得到改善。
研究人員還展示了下一輪游戲中,價(jià)格改進(jìn)和成功率之間的權(quán)衡,因?yàn)楦玫慕灰變r(jià)格也伴隨著更高的風(fēng)險(xiǎn)。
這表明,在未來(lái)的研究中,可能會(huì)考慮全局優(yōu)化,以提高多輪的整體收益。
研究人員進(jìn)一步從迭代AI反饋中展示了語(yǔ)言改進(jìn)的證據(jù):在多輪游戲中,一個(gè)模型可能比另一個(gè)模型精煉, 可以更好地調(diào)整單詞,從而更有效地獲得更好的交易。
研究人員相信該結(jié)果對(duì)AI研究具有深遠(yuǎn)的影響。
從積極的方面來(lái)看,它表明了在最少的人為干預(yù)下不斷改進(jìn)語(yǔ)言模型是非??赡艿?。
而風(fēng)險(xiǎn)方面,在研究人員的框架中監(jiān)督模型行為可能更具挑戰(zhàn)性——因?yàn)槟P褪亲灾餍袆?dòng)的,這需要未來(lái)在多智能體游戲環(huán)境下進(jìn)行對(duì)齊和安全性研究。
關(guān)鍵詞:
相關(guān)閱讀
- (2023-06-21)「成熟」大模型才能涌現(xiàn)?MIT:GPT-4能自我糾錯(cuò)代碼,GPT-3.5卻不行
- (2023-06-21)王浚樓船下益州金陵王氣黯然收千尋鐵鎖沉江底
- (2023-06-21)學(xué)習(xí)貫徹全會(huì)精神丨眉山:不折不扣推動(dòng)省委全會(huì)精神落地落實(shí) 天天快播報(bào)
- (2023-06-21)健康小站丨端午節(jié)到了,這四類人群不要放“粽”吃粽子 世界熱文
- (2023-06-21)當(dāng)前關(guān)注:廣西桂林:連續(xù)十余年開(kāi)展高中大集體備課
- (2023-06-21)融入京津冀 架好就業(yè)橋 張家口市深化京津冀勞務(wù)協(xié)作穩(wěn)崗促就業(yè)
- (2023-06-21)云南端午節(jié)食品安全專項(xiàng)抽檢合格率99.28%!消費(fèi)者如何選購(gòu)粽子
- (2023-06-21)為何對(duì)多家履約能力存疑的客戶進(jìn)行大額銷售?青海春天回應(yīng)
- (2023-06-21)5生肖努力必能收獲成功,屬牛第1名中年運(yùn)勢(shì)大開(kāi)-天天看熱訊
- (2023-06-21)萍鄉(xiāng)經(jīng)開(kāi)區(qū)消防敬老院送溫暖 天天快報(bào)
- (2023-06-21)即時(shí):路由器管理員密碼忘了怎么辦 聯(lián)通路由器管理員密碼忘了怎么辦
- (2023-06-21)梅雨季開(kāi)啟!江西本輪暴雨天氣預(yù)計(jì)持續(xù)到6月27日
- (2023-06-21)結(jié)婚九字對(duì)聯(lián)加橫聯(lián) 九字結(jié)婚對(duì)聯(lián)大全帶橫批
- (2023-06-21)今日熱訊:甘肅成縣繪就美麗發(fā)展新圖景
- (2023-06-21)云意電氣(300304)6月21日主力資金凈買入1136.45萬(wàn)元
- (2023-06-21)青島中德生態(tài)園:逐“綠”前行 “碳”索新路徑
- (2023-06-21)白帶多怎么辦而且肚子很痛_白帶多怎么辦|環(huán)球微速訊
- (2023-06-21)每日快看:可惜!內(nèi)地氣質(zhì)佳麗曝退選港姐,獲看好奪冠軍但不想放棄大好前途
- (2023-06-21)安徽省全椒縣市場(chǎng)監(jiān)管局加強(qiáng)端午節(jié)期間市場(chǎng)價(jià)格監(jiān)管
- (2023-06-21)全球即時(shí)看!鮮卑擊北匈奴之戰(zhàn)_關(guān)于鮮卑擊北匈奴之戰(zhàn)簡(jiǎn)述
- (2023-06-21)浙江省寧波市鄞州區(qū)市場(chǎng)監(jiān)管局關(guān)于抽檢不合格食品風(fēng)險(xiǎn)控制情況的通告(2023年5號(hào)) 熱點(diǎn)聚焦
- (2023-06-21)阿米番茄牛腩的做法正宗?-環(huán)球快看點(diǎn)
- (2023-06-21)6月21日環(huán)境治理行業(yè)十大熊股一覽
- (2023-06-21)世界最新:6月21日通信服務(wù)行業(yè)五大牛股一覽
- (2023-06-21)鮮切蔬菜加工及流通_關(guān)于鮮切蔬菜加工及流通簡(jiǎn)述|全球觀焦點(diǎn)
- (2023-06-21)6月21日航海裝備行業(yè)十大熊股一覽|天天熱議
- (2023-06-21)北京清湃科技完成數(shù)千萬(wàn)元天使輪融資
- (2023-06-21)電腦歷史記錄怎么恢復(fù)聊天記錄 電腦歷史記錄怎么恢復(fù)
- (2023-06-21)一代沙雕金剛芭比通關(guān)攻略 世界球精選
- (2023-06-21)uk11.5等于中國(guó)多少碼_uk10.5等于中國(guó)多少碼