騰訊大模型的絕活 居然是發(fā)布會上沒吹的寫代碼?
2023-09-09 10:24:56 來源:快科技
就在昨天騰訊的全球數(shù)字生態(tài)大會上,騰訊大模型混元終于亮相了。
為什么要說終于?
在各方消息看來,除了像小米這種說不打算做大模型的之外,絕大部分大廠們基本都已經(jīng)陸續(xù)上線過大模型了。
(相關資料圖)
其實,騰訊自己也在6月中旬就推出了自己面向B端行業(yè)的MaaS(Model-as-a-service,模型即服務)解決方案。
方案中包含了很多行業(yè)大模型,只不過當時騰訊的通用大模型依舊還很神秘。
后續(xù)的各種消息、報道里,騰訊也在內(nèi)部不斷打磨混元大模型。
所以這也讓差評君對混元的期待值,越來越高。
畢竟上一個用“hun yuan ”名號的,可是打了一整套閃電五連鞭。
話不多說,下面就開始新一輪大模型測試。
本次測試和混元同場競技的是,大模型界的老學長 ChatGPT。
整個測試環(huán)節(jié)將分:常規(guī)語義理解、復雜問題理解、連續(xù)對話與角色扮演能力、學習能力、代碼能力、數(shù)學能力、長文總結,以及大家喜聞樂見的弱智吧問答等 8 個維度。
這次我們一反常態(tài),把長文總結能力的測評放在了第一位。
因為我們讓大模型總結的,就是這篇測評本身( 除長文總結能力部分 )。
至于能不能當成省流版,往下看你就懂了。
混元的總結非常精練,但過于精練,以至于我很難從這個總結得出有效的信息。
但當我讓他展開講講的時候其實還行,但可惜無中生有了“長文總結”這個模塊。
而 ChatGPT 由于輸入字數(shù)限制,被我人為分成了兩部分輸入,不確定這有沒有沒影響它的總結能力。
在回答中,它莫名克扣了對自己的所有評測,甚至沒在總結里寫出混元的數(shù)學能力、弱智吧問答挑戰(zhàn)和差評君的觀點,也不好用。
向上滑動
看來,這倆大模型總結得都沒那么完美,想看看兩家到底什么水平,大家還得仔細往下看正文。
首先我們做的測試是常規(guī)的語義理解問題。
問題是理解“原來誰都看不上,現(xiàn)在誰都看不上”。
這句話混元理解得挺好,基本解釋了我對單身這事的調(diào)侃,兩個“看不上”都解釋上了。
但ChatGPT說的依舊很ChatGPT,說最多的話,犯最蠢的錯。
他本來解釋得相當?shù)轿唬貏e是分析這句話是用幽默的方式來調(diào)侃單身,還帶著一絲無奈情緒,很高級。
但它完全沒品出這前后兩個“看不上”里,帶有反轉的幽默感,遺憾。
向上滑動
接下來我們看混元的復雜問題理解能力。
問題是魂穿到官渡之戰(zhàn)中袁紹身上,時間節(jié)點是罵完許攸之后。
既要回答怎么破局贏下官渡之戰(zhàn),還要提供進一步統(tǒng)一全國的規(guī)劃。
要給大家稍微講下這題為啥是復雜提問。
因為要回答這題,首先得熟悉三國這些人物歷史背景、相關故事,特別是罵完許攸這個時間節(jié)點很微妙。
因為在這之后許攸投靠曹操,獻計火燒袁紹囤積在烏巢的糧草。
最終以少勝多擊敗袁紹,隨后幾年內(nèi)徹底吞下冀北逐漸統(tǒng)一北方。
而進一步設想里的統(tǒng)一全國,更是曹操本人都沒能實現(xiàn)。
所以大模型們要完美理解并回答這個問題,那網(wǎng)文作者們基本可以宣告失業(yè)了。
AI浪潮下的網(wǎng)文作者現(xiàn)狀
經(jīng)過測試,兩個大模型的回答都很一般。
從一開始,二者都沒能理解自己穿越扮演袁紹角色的指令。
混元急哄哄地給袁紹出主意, ChatGPT 則是以為我要穿越,教我做事。
至于兩個給的回答,既沒有 get 到我提出這個微妙時間節(jié)點的用意,也沒有什么行之有效的戰(zhàn)略規(guī)劃,都是些泛泛而談的車轱轆話。
相對而言,個人感覺混元的稍勝一籌。
畢竟ChatGPT可是希望袁紹去和曹操建立互利共贏的關系,哈哈哈。
向上滑動 ▼
既然一個復雜指令兩個考試都理解不好,那干脆簡單點,讓兩者去角色扮演一個婚禮主持人,一點點誘導進行連續(xù)對話。
結果立馬就能發(fā)現(xiàn)混元和ChatGPT,就像理科生和文科生的區(qū)別。
混元的回答簡單不啰嗦,但有的時候過于生硬。
你說有錯吧,談不上,你要說給高分肯定不可能。
而 ChatGPT 就是不管對不對,先把字寫滿再說。
看里面的描述啥的都很好,但其實從中間就已經(jīng)理解錯意思,搞混了我的意圖。
所以兩者都不完美,都有待改進。
向上滑動 ▼
然后我們還重點考驗了下大模型的文字學習能力。
搬出了當年的火星文,給兩個考生上上強度。
先是丟了一篇火星文版的朱自清《背影》名場面給大模型學習。
然后讓他們分別用這種風格寫一篇養(yǎng)金毛心得。
結果就是,混元不愧是本土大模型,背靠火星文鼻祖發(fā)源地QQ空間就是有優(yōu)勢,火星文的熟練度相當不錯。
第一眼就悟到了火星文的精髓,非常順利地學習了火星文的創(chuàng)作手法。
而ChatGPT雖然意識到火星文是一種不標準的中文形式,但他實在學不會這種方式,最后甚至直接承認自己不行了。
向上滑動 ▼
接下來就到了代碼能力的考核。
這次出的題目是,寫一個現(xiàn)代極客風格的 925 活動抽獎頁面,頁面中必須有醒目的 925 標志。
說起來,因為混元發(fā)布時對代碼能力基本沒咋提,所以本來我們對混元的代碼能力沒啥期待。
但論這個題目,混元的效果相當不錯,黑白配色的極客風有了,頁面邏輯也沒啥問題。
甚至還預留了給我們替換 logo 的位置滿足我們有 925 醒目標志的區(qū)域,相當成熟。
對比之下, ChatGPT 甚至把極客風理解成了 925 極客活動。。。整個抽獎界面也非常毛胚。
混元頁面效果
ChatGPT頁面效果
除了代碼問題,數(shù)學就是另一個大模型的老大難了。
這次我們也挑了不少數(shù)學問題給兩個考生做,從小學 1 年級一直做到了初一。
最終混元大模型在六年級時挑戰(zhàn)失敗,到了初一開始胡言亂語,也讓我們徹底放棄測試了。
而 ChatGPT 明顯還有余力。
而 ChatGPT 由于輸入字數(shù)限制,被我人為分成了兩部分輸入,不確定這有沒有沒影響它的總結能力。
年級測試題向上滑動
6年級測試題 向上滑動
初一測試題 向上滑動
當然,最后也少不了網(wǎng)友們喜聞樂見的“弱智吧”精選套餐。
這次我們更新了題庫,用上了今年上半年最新的弱智吧精選問題,我們發(fā)現(xiàn)可能 AI 最后的圖靈測試可能還真是弱智吧。
因為在大部分測試里,混元和GPT基本都不夠弱智而無法正確理解問題,這點上,人類遙遙領先!
向上滑動
除了以上這些常規(guī)測試外,混元發(fā)布會后的媒體采訪上,很多媒體也在詢問騰訊這么晚掏出大模型,那和市面上的競品們有什么優(yōu)勢。
騰訊方面則是說,混元大模型在大模型飽受詬病容易受誘導、典型的大模型幻覺(胡言亂語)等通病上,有了針對性的改善。
所以我們在實際測試時,也專門留心感受了這兩塊內(nèi)容。
不得不說,混元的大模型幻覺減少較為明顯,這大概也和他惜字如金有關系,畢竟說多錯多還是很有道理的。
但容易受誘導這方面的改善其實并不明顯,一些該跳的坑還是很難避免,只能說千防萬防,人心難防。
而且作為一個剛上市的大模型,一些小問題比起同期早已發(fā)布的前輩們還是有待改進。
比如“重新生成”答案經(jīng)常性會失靈,甚至有的時候重啟重新輸入問題都沒法解決。
而當你發(fā)現(xiàn)混元說錯了某個回答希望他改正,他總是倔強地虛心認錯,死不悔改。
還有就是,他對一些比較簡單的提問,反而有時候會抽風,有點像抓關鍵詞一樣作答,很讓人抓狂,只能不停修改提示詞才會好點。
再吹毛求疵一點的話,這個生成問題時的頭像動效,有種二胡卵子的異樣美感,咱也不知道這是高級呢還是可愛呢?
這些小問題其實還挺頻繁,真要列起來又有點太稀碎,大家還是自己體驗后會有更深刻的理解。
不過這些小毛病,后續(xù)的更新迭代倒也簡單,等用戶數(shù)多了,相信很快就能優(yōu)化。
總的來說,混元和ChatGPT在中文環(huán)境下的PK中,二者其實水平差不多,放到國產(chǎn)大模型梯隊里,也能有個平均水平。
只是在用了這么多大模型后,我們感覺混元特別之處是給人的感覺,它更像個理工科直男,主打一個廢話少說。
而 GPT 為首的其它大模型們則是典型的文科小編,主打能水就水,油多不壞菜。
而這種感覺也更貼合騰訊對混元大模型“實用級”的定義。
畢竟誰也不想在急著用的時候還要在長篇大論里找關鍵信息吧。
那對于差評君來說,混元大模型更讓人期待的,反而是和騰訊旗下應用的深度融合。
現(xiàn)在大家手里沒個七八九十個騰訊系應用,都不敢說自己在互聯(lián)網(wǎng)上沖浪的。
雖然眼下,我們在發(fā)布會上只看到了騰訊會議、騰訊文檔里們的進化。
但在這些辦公軟件之外,騰訊系里游戲、社交、影音等等,才是更和大家休閑快樂相關的業(yè)務。
在這些領域,大模型的未來會是什么形式、什么程度的結合,才更是大家所最期待的。
更關鍵的是,在其他大模型還在苦苦嘗試怎么和業(yè)務、和已有應用的結合上,騰訊卻已經(jīng)有了成功經(jīng)驗。
此前騰訊多模態(tài) AI 大模型率先被應用在廣告投放,當時累計給廣告主帶來 15%的 GMV 提升。
所以,被網(wǎng)上吐槽的最晚發(fā)布大模型的大廠,這么看起來好像也不是什么飛龍騎臉的天崩局面。
好飯不怕晚嘛。
關鍵詞:
相關閱讀
- (2023-09-09)騰訊大模型的絕活 居然是發(fā)布會上沒吹的寫代碼?
- (2023-09-09)林尼克常數(shù)問題(關于林尼克常數(shù)問題的簡介)
- (2023-09-09)新發(fā)現(xiàn)挑戰(zhàn)基礎生物學長期以來關于 "第二大腦"的觀點
- (2023-09-09)月內(nèi)基金發(fā)行市場募集規(guī)模突破230億元 一批創(chuàng)新寬基指數(shù)基金密集宣布成立
- (2023-09-09)科研實力再獲肯定,丹姿集團獲批建立“廣東省科技專家工作站”
- (2023-09-09)零售業(yè)數(shù)字化再升級 零售行業(yè)面臨的機遇和挑戰(zhàn)分析
- (2023-09-09)金秋薈萃 | 全球首款西普尼智能金表亮相香港鐘表展
- (2023-09-09)“壯美廣西·長壽福地”——廣西康養(yǎng)產(chǎn)業(yè)(京津冀區(qū)域)合作洽談會在京召開
- (2023-09-09)大學紀律委員職責有哪些(大學紀律委員職責)
- (2023-09-09)正業(yè)科技(300410.SZ)曾向華為提供鋰電智能檢測設備
- (2023-09-09)2023年水體放射性核素股票概念有哪些?(9月8日)
- (2023-09-09)沉浸新巨幕!長虹200吋巨幕激光影院亮相2023世界顯示產(chǎn)業(yè)大會
- (2023-09-09)最好的小折疊屏手機?OPPO Find N3 Flip拍照真不錯
- (2023-09-09)Android 14穩(wěn)定版將9月發(fā)布?首批支持設備公布
- (2023-09-09)云南臨滄:同心并肩前行 警校共建護航
- (2023-09-09)精神病的臨床表現(xiàn)有哪些(精神病的臨床表現(xiàn))
- (2023-09-09)經(jīng)銷商退網(wǎng)半價賣廠,北京現(xiàn)代還能存續(xù)多久?
- (2023-09-09)投資百億!榕融新材料先進制造基地落地廣西百色,推動東西部產(chǎn)業(yè)深入?yún)f(xié)同發(fā)展
- (2023-09-09)《永無止境》故事預告 9月14日發(fā)售
- (2023-09-09)ST曙光(600303):9月8日14時44分觸及漲停板
- (2023-09-09)“高質(zhì)量發(fā)展調(diào)研行”主題采訪活動走進寶雞、商洛
- (2023-09-09)香港突發(fā)雷暴天氣!已致75人受傷!
- (2023-09-09)天然氣價格承壓下行,美元走強和全球經(jīng)濟放緩給價格帶來壓力
- (2023-09-09)5小時內(nèi)完成理賠!太平財險深圳分公司以速度抗擊暴雨
- (2023-09-09)藥康生物:財務總監(jiān)焦曉杉辭職
- (2023-09-09)永州市冷水灘區(qū)開展秋季校園食品安全專項整治行動
- (2023-09-09)薩巴倫卡VS高芙:中生代對決新生代,新科世界第一PK小威接班人!
- (2023-09-09)最新研究成果為棉花產(chǎn)業(yè)可持續(xù)發(fā)展提出策略