GPT-4是8x2200億參數(shù)的混合模型?這個(gè)小道消息今天傳瘋了 世界快資訊
2023-06-21 17:58:35 來源:機(jī)器之心Pro
機(jī)器之心報(bào)道
編輯:吳昕
George Hotz:除了蘋果之外,大部分公司保密的原因都不是在隱藏什么黑科技,而是在隱藏一些?「不那么酷」的東西。
「GPT-4 的參數(shù)量高達(dá) 100 萬億?!瓜嘈藕芏嗳诉€記得這個(gè)年初刷屏的「重磅」消息和一張被病毒式傳播的圖表。
(相關(guān)資料圖)
不過很快,OpenAI 的 CEO Sam Altman 就出來辟謠,證實(shí)這是一條假消息,并表示,「關(guān)于 GPT-4 的謠言都很荒謬。我甚至不知道這從何而起?!?/p>
實(shí)際上,許多人相信并傳播這樣的謠言是因?yàn)榻陙?AI 社區(qū)不斷在增加 AI 模型的參數(shù)規(guī)模。谷歌在 2021 年 1 月發(fā)布的 Switch Transformer 就把 AI 大模型參數(shù)量拉高到了 1.6 萬億。在此之后,很多機(jī)構(gòu)也陸續(xù)推出了自己的萬億參數(shù)大模型。據(jù)此,人們有充分的理由相信,GPT-4 將是一個(gè)萬億參數(shù)的巨量模型,100 萬億參數(shù)也不是不可能。
雖然 Sam Altman 的辟謠幫我們?nèi)サ袅艘粋€(gè)錯(cuò)誤答案,但他背后的 OpenAI 團(tuán)隊(duì)一直對 GPT-4 的真實(shí)參數(shù)量守口如瓶,就連 GPT-4 的官方技術(shù)報(bào)告也沒透露任何信息。
直到最近,這個(gè)謎團(tuán)疑似被「天才黑客」喬治?霍茲(George Hotz)捅破了。
喬治?霍茲因 17 歲破解 iPhone、21 歲攻陷索尼 PS3 而聞名,目前是一家研發(fā)自動(dòng)駕駛輔助系統(tǒng)的公司(comma.ai)的老板。
最近,他接受了一家名為 Latent Space 的 AI 技術(shù)播客的采訪。在采訪中,他談到了 GPT-4,稱 GPT-4 其實(shí)是一個(gè)混合模型。具體來說,它采用了由 8 個(gè)專家模型組成的集成系統(tǒng),每個(gè)專家模型都有 2200 億個(gè)參數(shù)(比 GPT-3 的 1750 億參數(shù)量略多一些),并且這些模型經(jīng)過了針對不同數(shù)據(jù)和任務(wù)分布的訓(xùn)練。
在這段播客播出之后,PyTorch 創(chuàng)建者 Soumith Chintala 表示自己似乎聽過同樣的「傳聞」,很多人可能也聽過,但只有 George Hotz 在公開場合將其說了出來。
「混合模型是你在無計(jì)可施的時(shí)候才會(huì)考慮的選項(xiàng),」George Hotz 調(diào)侃說,「混合模型的出現(xiàn)是因?yàn)闊o法讓模型的參數(shù)規(guī)模超過 2200 億。他們希望模型變得更好,但如果僅僅是訓(xùn)練時(shí)間更長,效果已經(jīng)遞減。因此,他們采用了八個(gè)專家模型來提高性能?!怪劣谶@個(gè)混合模型是以什么形式工作的,George Hotz 并沒有詳細(xì)說明。
為什么 OpenAI 對此諱莫如深呢?George Hotz 認(rèn)為,除了蘋果之外,大部分公司保密的原因都不是在隱藏什么黑科技,而是在隱藏一些「不那么酷」的東西,不想讓別人知道「只要花 8 倍的錢你也能得到這個(gè)模型」。
對于未來的趨勢,他認(rèn)為,人們會(huì)訓(xùn)練規(guī)模較小的模型,并通過長時(shí)間的微調(diào)和發(fā)現(xiàn)各種技巧來提升性能。他提到,與過去相比,訓(xùn)練效果已經(jīng)明顯提升,盡管計(jì)算資源沒有變化,這表明訓(xùn)練方法的改進(jìn)起到了很大作用。
目前,George Hotz 關(guān)于 GPT-4 的「爆料」已經(jīng)在推特上得到了廣泛傳播。
有人從中得到了靈感,聲稱要訓(xùn)練一個(gè) LLaMA 集合來對抗 GPT-4。
還有人說,如果真的像 George Hotz 說的那樣,GPT-4 是一個(gè)由 8 個(gè) 2200 億參數(shù)的專家模型組合的混合模型,那很難想象背后的推理成本有多高。
需要指出的是,由于 George Hotz 并未提及消息來源,我們目前無法判斷以上論斷是否正確。有更多線索的讀者歡迎在評論區(qū)留言。
關(guān)鍵詞:
相關(guān)閱讀
- (2023-06-21)GPT-4是8x2200億參數(shù)的混合模型?這個(gè)小道消息今天傳瘋了 世界快資訊
- (2023-06-21)vivo V29或在未來幾周亮相 搭載驍龍778G+移動(dòng)平臺(tái)
- (2023-06-21)FAST發(fā)現(xiàn)迄今最短軌道周期脈沖雙星系統(tǒng)
- (2023-06-21)匯宇制藥向182名激勵(lì)對象授予290.03萬股限制性股票
- (2023-06-21)田棗?野狗?Meiko談下路組昵稱:粉絲怎么開心,想怎么叫都行
- (2023-06-21)要聞速遞:國家外匯管理局:1-5月中國外匯市場累計(jì)成交101.87萬億元人民幣
- (2023-06-21)中國最大海上油田累產(chǎn)原油突破5億噸
- (2023-06-21)神話秦時(shí)里的劍圣第八區(qū)(神話秦時(shí)里的劍圣)
- (2023-06-21)天天快報(bào)!“小攬運(yùn)”/引入插混系統(tǒng) 新款路虎攬勝極光官圖發(fā)布
- (2023-06-21)后備廂空間有大幅提升 全新奔馳E級旅行版官圖發(fā)布 全球今頭條
- (2023-06-21)2023粵港澳車展:問界M5智駕版全國首批交付
- (2023-06-21)理想,再“狂”一次?-當(dāng)前播報(bào)
- (2023-06-21)成都龍泉驛鄉(xiāng)村競演:“亮”文化家底 “秀”民間藝術(shù) 播資訊
- (2023-06-21)北京新發(fā)地蔬果大量上市 鮮玉米嫩蔬菜價(jià)格都下來了 播報(bào)
- (2023-06-21)荔枝、椰子、咖啡……這些海南特產(chǎn)為何要推新品種?
- (2023-06-21)乘聯(lián)會(huì):6月1-18日乘用車市場零售82.8萬輛,同比下降6%
- (2023-06-21)即時(shí)看!香港國際機(jī)場5月客運(yùn)量為310萬人次 同比增加超17倍
- (2023-06-21)有院子的家一共多少集?在哪里能看更新時(shí)間
- (2023-06-21)全球觀焦點(diǎn):【我們的節(jié)日·端午】天宮殿街道太湖西路社區(qū)開展第四屆鄰里節(jié)
- (2023-06-21)世界速訊:交逼事故賠錢達(dá)不到協(xié)議怎么辦
- (2023-06-21)夏至丨流光半夏 美好日長 每日視訊
- (2023-06-21)世界播報(bào):新和縣農(nóng)村信用合作聯(lián)社 減費(fèi)讓利惠企利民出實(shí)招
- (2023-06-21)甘肅成縣繪就美麗發(fā)展新圖景
- (2023-06-21)【當(dāng)前熱聞】告別母校,實(shí)小明道2023屆學(xué)子揚(yáng)帆起航!
- (2023-06-21)中國經(jīng)濟(jì)信心說丨他們?yōu)槭裁醇娂娡断隆靶湃纹薄保縷視焦點(diǎn)訊
- (2023-06-21)海博思創(chuàng)遞交招股書,研發(fā)占比持續(xù)下降,張劍輝曾獲蔚來資本投資|環(huán)球微動(dòng)態(tài)
- (2023-06-21)極兔沖刺港交所,三年虧損超36億美元,背后誰在“撐腰” 世界今日訊
- (2023-06-21)貴人鳥資產(chǎn)變現(xiàn)遭遇“老賴”-世界今頭條
- (2023-06-21)2018年至今,青島年均政策性扶持創(chuàng)業(yè)3萬余人_精彩看點(diǎn)
- (2023-06-21)*ST金山: 公司2022年年度報(bào)告中的研發(fā)投入嚴(yán)格按照《企業(yè)會(huì)計(jì)準(zhǔn)則第6號-無形資產(chǎn)》的相關(guān)規(guī)定編制