實(shí)測學(xué)而思MathGPT大模型:中小學(xué)數(shù)學(xué)解題正確率有望全球新SOTA
2023-09-01 07:07:17 來源:騰訊網(wǎng)
白交 發(fā)自 凹非寺
(資料圖)
量子位 | 公眾號 QbitAI
國內(nèi)首個(gè)數(shù)學(xué)大模型MathGPT開放內(nèi)測了,不上手試試怎么行?
第一印象上,最明顯的就是:啪的一下,很快啊~
題目識別到對話框,結(jié)果不光答案準(zhǔn)確,還就給出了具體的公式步驟、詳細(xì)解析。
并且支持公式輸入和修改。
這著實(shí)是數(shù)理愛好者福音了!要知道市面上GPT-4在內(nèi)的通用大模型,都無法實(shí)現(xiàn)這一點(diǎn)。
作為千億參數(shù)級別首個(gè)數(shù)學(xué)專用大模型,放在全球范圍內(nèi)也是少數(shù),背后則是來自國內(nèi)教育行業(yè)20年深耕的學(xué)而思。
另外內(nèi)測據(jù)說還只是開始,因?yàn)橹熬鸵呀?jīng)透露,將于年內(nèi)推出基于該自研大模型的產(chǎn)品級應(yīng)用。
所以這款垂直數(shù)學(xué)大模型究竟怎么樣,完整上手“體驗(yàn)報(bào)告”呈上。
上手實(shí)測:支持公式圖像輸入
首先,從大模型基礎(chǔ)功能來看,與GPT-4、Claude2相比,MathGPT主要有這些能與不能。
由于是數(shù)學(xué)專用大模型,因此對話內(nèi)容目前只能回答與數(shù)學(xué)相關(guān)的問題。
界面上從現(xiàn)有的示例上看,它目前覆蓋小學(xué)、中學(xué)以及高中的題目。
不僅有內(nèi)容的劃分,比如集合、立體幾何、解析幾何、導(dǎo)數(shù)、三角函數(shù)、統(tǒng)計(jì)學(xué)等模塊;
還有題型的選擇,比如應(yīng)用題、高考填空壓軸、解答壓軸;
以及一些開拓思維的題目,比如小學(xué)題目中的推理推導(dǎo)、歸納總結(jié)、創(chuàng)新思維;初中的反正法、代入法等。
對于數(shù)學(xué)愛好者而言,可以說是非常全面了。
在輸入端,除了普通文本外,它支持公式格式以及圖像(帶有數(shù)字和文字)的輸入。
除此之外,面對數(shù)學(xué)題目的追問,它也支持多輪對話的能力。
了解基本情況后,接著就來考驗(yàn)一下MathGPT的真實(shí)實(shí)力。
根據(jù)此前官方介紹,MathGPT是以解題和講題算法為核心的大模型,具體拆分為三個(gè)問題:
題目要解對;
解題步驟要穩(wěn)定、清晰;
解題要講的有趣、個(gè)性化。
依照這樣的邏輯,先來看看它的基本解題思路。
以初中示例題為例,分為分析、詳解、點(diǎn)睛三個(gè)步驟,不光給出詳細(xì)的步驟,還會給你說知識點(diǎn)和題目難度,這歸屬于基本不等式的應(yīng)用,難度為中檔。
甚至還可以舉一反三,比如就像這道整體代換的題目。
隨手修改其中一兩個(gè)數(shù)字,結(jié)果不光給出來了,還有更為詳細(xì)的解析。
那么再上點(diǎn)難度,直接考驗(yàn)它高中題目,比如這道選擇壓軸。
結(jié)果也是分分鐘出來。
還有像涉及幾何類型的題目,也沒有被難倒。
,時(shí)長00:30
所以,一圈體驗(yàn)下來,簡單總結(jié)一下MathGPT的評測感受:
基礎(chǔ)功能上支持公式格式、圖像輸入,對數(shù)學(xué)愛好者很友好;
支持小初高中的各類型題,覆蓋比較全面。
還能舉一反三,多輪對話。
除此之外,還有一些不足,比如圖像輸入暫時(shí)不支持幾何類型的題目,以及有時(shí)會出現(xiàn)一些亂碼問題,比如答案對了,但中文輸入,結(jié)果英文輸出……
首個(gè)數(shù)學(xué)大模型,為什么是學(xué)而思?
大模型涌現(xiàn)以來,數(shù)學(xué)推理能力始終是產(chǎn)學(xué)研界共同攻堅(jiān)的對象。
通用思路都是基于現(xiàn)有的通用LLM進(jìn)行調(diào)優(yōu),最典型的就是OpenAI自己提出過程監(jiān)督方法。
傳統(tǒng)獎(jiǎng)勵(lì)模型采用的是結(jié)果監(jiān)督,僅針對思維鏈的結(jié)果進(jìn)行判別和反饋;相對的,過程監(jiān)督就是對思維鏈每一步進(jìn)行反饋。因此獎(jiǎng)勵(lì)增多、效果變好。
更多的還有像指令微調(diào)、prompt優(yōu)化等思路。微軟全華人團(tuán)隊(duì)提出WizardMath,用AI生成的指令微調(diào)羊駝大模型,結(jié)果直接超ChatGPT。
以及前段時(shí)間,有研究團(tuán)隊(duì)發(fā)現(xiàn)GPT-4代碼解釋器的代碼生成和執(zhí)行機(jī)制,于是就有特定的代碼約束提示詞直接將數(shù)學(xué)能力拔高至SOTA。
而像專門針對數(shù)學(xué)推理方向的自研大模型確實(shí)不多。目前來看,國內(nèi)有且只有一個(gè)。
這樣做的核心原因只有一個(gè),加速大模型在數(shù)學(xué)領(lǐng)域的落地。
于行業(yè)玩家而言,若是依照通用開源LLM進(jìn)行調(diào)優(yōu),一來目前還處于積極探索的階段,沒有形成一個(gè)很好的范式;二來,幻覺問題沒有解決,穩(wěn)定性依舊無法保證。
而數(shù)學(xué)推理不光要求結(jié)果的準(zhǔn)確,還得強(qiáng)調(diào)過程的清晰和邏輯性。
當(dāng)然同樣的原因,也不能簡單直接調(diào)用像GPT-4的API,性能等各方面始終會受限。
不過此前我們也討論過,打造行業(yè)大模型天然就有這非常高的壁壘,數(shù)據(jù)量大還得高質(zhì)量,關(guān)鍵還要有場景,知道行業(yè)Know-how。
既然如此,學(xué)而思又是如何做到?
核心還是:術(shù)業(yè)專攻、對癥下藥。
一方面,最首要也是本質(zhì)的原因——術(shù)業(yè)專攻——多年在數(shù)學(xué)和AI領(lǐng)域的深入研發(fā)和布局。
學(xué)而思“以數(shù)學(xué)起家”,至今已有20年的數(shù)學(xué)教學(xué)經(jīng)驗(yàn),積累了龐大的數(shù)學(xué)相關(guān)數(shù)據(jù),這些獨(dú)家數(shù)據(jù)是進(jìn)行MathGPT訓(xùn)練的必備物料。
而在AI領(lǐng)域,學(xué)而思早在第一波AI浪潮興起之時(shí)(2017年)就已經(jīng)開始布局——成立AI lab人工智能實(shí)驗(yàn)室。如今還是教育領(lǐng)域首批唯一一家人工智能“國家隊(duì)”成員。
在學(xué)術(shù)方面,學(xué)而思實(shí)際也有高頻產(chǎn)出。公開資料顯示,基于智慧教育人工智能開放創(chuàng)新平臺助力,學(xué)而思AI lab獲得各類頂級學(xué)術(shù)會議比賽冠軍16項(xiàng),亞軍6項(xiàng);發(fā)表國際期刊和會議高水平學(xué)術(shù)論文31篇,包含光學(xué)字符識別、圖像、自然語言處理、語音以及多模態(tài)等多領(lǐng)域的學(xué)術(shù)研究。
而在產(chǎn)品應(yīng)用端,今年2月學(xué)而思學(xué)習(xí)機(jī)上線AI講題機(jī)器人“小π”。其相關(guān)技術(shù)于2020年啟動(dòng)研發(fā),背后是超3億專業(yè)題庫數(shù)據(jù),經(jīng)過三年的數(shù)據(jù)訓(xùn)練和迭代。
在實(shí)測中可以看到,在配套的AR鏡識別到一道手寫或者印刷的數(shù)學(xué)計(jì)算題時(shí)。
小π機(jī)器人會對題目進(jìn)行智能AI拆解分析,同時(shí)生成邏輯流暢、表達(dá)清晰的語言,將題目的解題方法講解出來。
該功能已覆蓋的題目包括分?jǐn)?shù)、小數(shù)等復(fù)雜計(jì)算,甚至一些“湊數(shù)、組合”的巧妙算法,已十分接近真人老師的解題效果。
正是基于這樣的行業(yè)Know-how,MathGPT自誕生之日起就定義明確「面向更廣泛的數(shù)學(xué)愛好者和科研機(jī)構(gòu)打造」,并對癥下藥——
因?yàn)橄胍蛟鞌?shù)學(xué)垂直大模型,就繞不過三大挑戰(zhàn):
第一,題目要解對。現(xiàn)在連GPT的結(jié)果經(jīng)常出現(xiàn)錯(cuò)誤;
第二,解題步驟要穩(wěn)定、清晰。現(xiàn)在GPT的解題步驟每次都不一樣,而且生成內(nèi)容經(jīng)常很冗余;
第三,解題要講的有趣、個(gè)性化?,F(xiàn)在GPT的解釋過于“學(xué)術(shù)”和機(jī)械,對體驗(yàn)很不友好。
基于這樣的目標(biāo),MathGPT結(jié)合大模型和計(jì)算引擎兩者能力。
前者負(fù)責(zé)理解題目、分步解析,并在合適的步驟自行調(diào)用計(jì)算引擎,以此來提高正確率?;诤A棵麕熃忸}過程的數(shù)據(jù)進(jìn)行模型訓(xùn)練,模型的解題步驟可以更加清晰。再引入優(yōu)秀老師的教學(xué)理念和方法,模型在解題趣味性上也能進(jìn)一步提高。
可以看到的是,學(xué)而思展現(xiàn)了場景玩家入局大模型的優(yōu)勢——
可以后發(fā)制人,謀定而后動(dòng),而且壁壘天然。
Wolfram alpha之后,數(shù)學(xué)大模型
隨著業(yè)內(nèi)首個(gè)數(shù)學(xué)大模型的發(fā)布,有關(guān)大模型在數(shù)學(xué)領(lǐng)域的落地可以階段性梳理,大致可以分為兩個(gè)方向。
一方面,科研為核心的前沿探索。陶哲軒不止一次地透露大模型如何加入其工作流、輔助研究。
他讓GPT-4針對論文提出問題來準(zhǔn)備講座;還讓GPT-4生成數(shù)學(xué)證明,并發(fā)現(xiàn)過去閱讀人類作品的經(jīng)驗(yàn)完全不適用了。
對于AI在數(shù)學(xué)研究中的表現(xiàn),他給出預(yù)言:
當(dāng)與形式證明驗(yàn)證器、互聯(lián)網(wǎng)搜索和數(shù)學(xué)符號包等工具整合時(shí),2026年的AI,如果使用得當(dāng),將成為數(shù)學(xué)研究中值得信賴的共同作者,而且在許多其他領(lǐng)域也是如此。
事實(shí)上,在更多的科研領(lǐng)域,大模型也正在賦予這樣的價(jià)值。學(xué)界教授也不止一次提出,大模型的幻覺不見得是壞事,可以給研究方向提供新思路。
另一方面,則是面向更廣泛大眾的普惠教育、基礎(chǔ)教育提升。讓大模型參與到學(xué)習(xí)數(shù)學(xué)、思考數(shù)學(xué)的過程當(dāng)中去,幫助人們更好地解決數(shù)學(xué)問題。學(xué)而思MathGPT就是基于這樣的初衷。
事實(shí)上,數(shù)學(xué)本身在各個(gè)領(lǐng)域中充當(dāng)著一種基礎(chǔ)能力,未來數(shù)學(xué)大模型也將能夠以工具的形態(tài),與更多行業(yè)產(chǎn)生關(guān)聯(lián)。
在此之前,理工科神器Wolfram alpha,就是以這樣的作用垂直風(fēng)靡。
它顛覆了傳統(tǒng)模式,創(chuàng)造了一種全新的知識搜索引擎。由于支持幾何、數(shù)值以及符號式計(jì)算,并擁有強(qiáng)大的可視化功能,支持用戶對上傳的圖片進(jìn)行識別等一系列功能而受到推崇。目前已經(jīng)支持包括數(shù)學(xué)、統(tǒng)計(jì)學(xué)、物理化學(xué)、材料學(xué)等近20個(gè)領(lǐng)域的查詢、計(jì)算和分析。
而現(xiàn)在,隨著大模型范式到來,Wolfram alpha一樣的理工基礎(chǔ)教育、科研的工具,也將面臨革新浪潮。
至少M(fèi)athGPT已經(jīng)展現(xiàn)了這樣的趨勢,MathGPT正在實(shí)踐這樣的趨勢。
而MathGPT,一定只是開始。你說呢?
關(guān)鍵詞:
相關(guān)閱讀
- (2023-09-01)實(shí)測學(xué)而思MathGPT大模型:中小學(xué)數(shù)學(xué)解題正確率有望全球新SOTA
- (2023-09-01)2023南昌央視開學(xué)第一課直播時(shí)間及入口(在線觀看)
- (2023-09-01)新天地產(chǎn)集團(tuán)(00760.HK)中期虧損收窄至3900萬元
- (2023-09-01)[3D漫畫][JO白金之星JO]作品集
- (2023-09-01)高質(zhì)量發(fā)展燃激情!這九名大學(xué)生的濱城社會實(shí)踐課不一般
- (2023-09-01)2023東莞企石鎮(zhèn)千年秋楓文化節(jié)延期通知
- (2023-09-01)2023鄭州高新區(qū)免費(fèi)健身地點(diǎn)推薦
- (2023-09-01)兒子機(jī)場被撞受傷 送醫(yī)途中遇車禍致女兒身亡
- (2023-09-01)庫克再現(xiàn)精準(zhǔn)刀法,iPhone15這一點(diǎn)限制讓人太難受了
- (2023-09-01)寶新置地上半年?duì)I業(yè)額同比下降至1.6億港元 歸母凈虧損1.355億港元
- (2023-09-01)存量房貸利率調(diào)整漸行漸近,多家銀行表態(tài)
- (2023-09-01)“遂寧人社”微信公眾號將上線33項(xiàng)具體社保業(yè)務(wù)
- (2023-09-01)按摩椅進(jìn)高鐵站:5年超2.5萬張,收益分成可高達(dá)65%
- (2023-09-01)郎平:“郎平執(zhí)教日本女排”純屬謠言
- (2023-09-01)3小時(shí)內(nèi)可達(dá)!貴陽至南寧高速鐵路今日全線貫通運(yùn)營
- (2023-09-01)@瓊海人 舉報(bào)交通違法“隨手拍”已上線
- (2023-09-01)一財(cái)社論:孕育穿越周期的力量
- (2023-09-01)21世紀(jì)教育(01598)公布2023年中期業(yè)績 職業(yè)教育收入實(shí)現(xiàn)大幅增長
- (2023-09-01)2-0!美網(wǎng)再爆冷門,中國金花橫掃大滿貫冠軍,兩人晉級帶來驚喜
- (2023-09-01)看好硅碳負(fù)極創(chuàng)新賽道 千乘攜手和創(chuàng)助力鋰電產(chǎn)業(yè)提速增效
- (2023-09-01)美國政府限制英偉達(dá)等公司向中東國家出口AI芯片,原因不明
- (2023-09-01)寶武、華為將進(jìn)一步推進(jìn)數(shù)字化、智能化方面的合作
- (2023-09-01)深市公司中報(bào)業(yè)績回升明顯 八成公司實(shí)現(xiàn)盈利
- (2023-09-01)河里的小蝦怎么養(yǎng)才長得好
- (2023-09-01)漢得信息:AI方面現(xiàn)在已有簽訂的訂單在實(shí)施 可能還會有幾個(gè)訂單馬上會落下來
- (2023-09-01)百強(qiáng)房企前8個(gè)月賣了約4.4萬億,保利、萬科、中海居前三,碧桂園降至第6名
- (2023-09-01)房企銷售探底,政策連續(xù)大招,“金九”能否有所起色?
- (2023-09-01)現(xiàn)場刷卡,線上轉(zhuǎn)定!新政后26盤“開Party”了
- (2023-09-01)東莞發(fā)布樓市新政 9月1日起執(zhí)行“認(rèn)房不認(rèn)貸”
- (2023-09-01)珠三角城市“認(rèn)房不認(rèn)貸”密集落地,中部第一城也已跟進(jìn)