欧美日韩电影精品视频_亚洲天堂一区二区三区四区_亚洲欧美日韩国产综合_日韩精品一区二区三区中文_為您提供優質色综合久久88色综合天天

您的位置:首頁 > 理財(cái) >

實(shí)測學(xué)而思MathGPT大模型:中小學(xué)數(shù)學(xué)解題正確率有望全球新SOTA

2023-09-01 07:07:17 來源:騰訊網(wǎng)

評論

白交 發(fā)自 凹非寺


(資料圖)

量子位 | 公眾號 QbitAI

國內(nèi)首個(gè)數(shù)學(xué)大模型MathGPT開放內(nèi)測了,不上手試試怎么行?

第一印象上,最明顯的就是:啪的一下,很快啊~

題目識別到對話框,結(jié)果不光答案準(zhǔn)確,還就給出了具體的公式步驟、詳細(xì)解析。

并且支持公式輸入和修改。

這著實(shí)是數(shù)理愛好者福音了!要知道市面上GPT-4在內(nèi)的通用大模型,都無法實(shí)現(xiàn)這一點(diǎn)。

作為千億參數(shù)級別首個(gè)數(shù)學(xué)專用大模型,放在全球范圍內(nèi)也是少數(shù),背后則是來自國內(nèi)教育行業(yè)20年深耕的學(xué)而思。

另外內(nèi)測據(jù)說還只是開始,因?yàn)橹熬鸵呀?jīng)透露,將于年內(nèi)推出基于該自研大模型的產(chǎn)品級應(yīng)用。

所以這款垂直數(shù)學(xué)大模型究竟怎么樣,完整上手“體驗(yàn)報(bào)告”呈上。

上手實(shí)測:支持公式圖像輸入

首先,從大模型基礎(chǔ)功能來看,與GPT-4、Claude2相比,MathGPT主要有這些能與不能。

由于是數(shù)學(xué)專用大模型,因此對話內(nèi)容目前只能回答與數(shù)學(xué)相關(guān)的問題。

界面上從現(xiàn)有的示例上看,它目前覆蓋小學(xué)、中學(xué)以及高中的題目。

不僅有內(nèi)容的劃分,比如集合、立體幾何、解析幾何、導(dǎo)數(shù)、三角函數(shù)、統(tǒng)計(jì)學(xué)等模塊;

還有題型的選擇,比如應(yīng)用題、高考填空壓軸、解答壓軸;

以及一些開拓思維的題目,比如小學(xué)題目中的推理推導(dǎo)、歸納總結(jié)、創(chuàng)新思維;初中的反正法、代入法等。

對于數(shù)學(xué)愛好者而言,可以說是非常全面了。

輸入端,除了普通文本外,它支持公式格式以及圖像(帶有數(shù)字和文字)的輸入。

除此之外,面對數(shù)學(xué)題目的追問,它也支持多輪對話的能力。

了解基本情況后,接著就來考驗(yàn)一下MathGPT的真實(shí)實(shí)力。

根據(jù)此前官方介紹,MathGPT是以解題和講題算法為核心的大模型,具體拆分為三個(gè)問題:

題目要解對;

解題步驟要穩(wěn)定、清晰;

解題要講的有趣、個(gè)性化。

依照這樣的邏輯,先來看看它的基本解題思路。

以初中示例題為例,分為分析、詳解、點(diǎn)睛三個(gè)步驟,不光給出詳細(xì)的步驟,還會給你說知識點(diǎn)和題目難度,這歸屬于基本不等式的應(yīng)用,難度為中檔。

甚至還可以舉一反三,比如就像這道整體代換的題目。

隨手修改其中一兩個(gè)數(shù)字,結(jié)果不光給出來了,還有更為詳細(xì)的解析。

那么再上點(diǎn)難度,直接考驗(yàn)它高中題目,比如這道選擇壓軸。

結(jié)果也是分分鐘出來。

還有像涉及幾何類型的題目,也沒有被難倒。

,時(shí)長00:30

所以,一圈體驗(yàn)下來,簡單總結(jié)一下MathGPT的評測感受:

基礎(chǔ)功能上支持公式格式、圖像輸入,對數(shù)學(xué)愛好者很友好;

支持小初高中的各類型題,覆蓋比較全面。

還能舉一反三,多輪對話。

除此之外,還有一些不足,比如圖像輸入暫時(shí)不支持幾何類型的題目,以及有時(shí)會出現(xiàn)一些亂碼問題,比如答案對了,但中文輸入,結(jié)果英文輸出……

首個(gè)數(shù)學(xué)大模型,為什么是學(xué)而思?

大模型涌現(xiàn)以來,數(shù)學(xué)推理能力始終是產(chǎn)學(xué)研界共同攻堅(jiān)的對象。

通用思路都是基于現(xiàn)有的通用LLM進(jìn)行調(diào)優(yōu),最典型的就是OpenAI自己提出過程監(jiān)督方法。

傳統(tǒng)獎(jiǎng)勵(lì)模型采用的是結(jié)果監(jiān)督,僅針對思維鏈的結(jié)果進(jìn)行判別和反饋;相對的,過程監(jiān)督就是對思維鏈每一步進(jìn)行反饋。因此獎(jiǎng)勵(lì)增多、效果變好。

更多的還有像指令微調(diào)、prompt優(yōu)化等思路。微軟全華人團(tuán)隊(duì)提出WizardMath,用AI生成的指令微調(diào)羊駝大模型,結(jié)果直接超ChatGPT。

以及前段時(shí)間,有研究團(tuán)隊(duì)發(fā)現(xiàn)GPT-4代碼解釋器的代碼生成和執(zhí)行機(jī)制,于是就有特定的代碼約束提示詞直接將數(shù)學(xué)能力拔高至SOTA。

而像專門針對數(shù)學(xué)推理方向的自研大模型確實(shí)不多。目前來看,國內(nèi)有且只有一個(gè)

這樣做的核心原因只有一個(gè),加速大模型在數(shù)學(xué)領(lǐng)域的落地

于行業(yè)玩家而言,若是依照通用開源LLM進(jìn)行調(diào)優(yōu),一來目前還處于積極探索的階段,沒有形成一個(gè)很好的范式;二來,幻覺問題沒有解決,穩(wěn)定性依舊無法保證。

而數(shù)學(xué)推理不光要求結(jié)果的準(zhǔn)確,還得強(qiáng)調(diào)過程的清晰和邏輯性

當(dāng)然同樣的原因,也不能簡單直接調(diào)用像GPT-4的API,性能等各方面始終會受限。

不過此前我們也討論過,打造行業(yè)大模型天然就有這非常高的壁壘,數(shù)據(jù)量大還得高質(zhì)量,關(guān)鍵還要有場景,知道行業(yè)Know-how。

既然如此,學(xué)而思又是如何做到?

核心還是:術(shù)業(yè)專攻、對癥下藥。

一方面,最首要也是本質(zhì)的原因——術(shù)業(yè)專攻——多年在數(shù)學(xué)和AI領(lǐng)域的深入研發(fā)和布局。

學(xué)而思“以數(shù)學(xué)起家”,至今已有20年的數(shù)學(xué)教學(xué)經(jīng)驗(yàn),積累了龐大的數(shù)學(xué)相關(guān)數(shù)據(jù),這些獨(dú)家數(shù)據(jù)是進(jìn)行MathGPT訓(xùn)練的必備物料。

而在AI領(lǐng)域,學(xué)而思早在第一波AI浪潮興起之時(shí)(2017年)就已經(jīng)開始布局——成立AI lab人工智能實(shí)驗(yàn)室。如今還是教育領(lǐng)域首批唯一一家人工智能“國家隊(duì)”成員。

在學(xué)術(shù)方面,學(xué)而思實(shí)際也有高頻產(chǎn)出。公開資料顯示,基于智慧教育人工智能開放創(chuàng)新平臺助力,學(xué)而思AI lab獲得各類頂級學(xué)術(shù)會議比賽冠軍16項(xiàng),亞軍6項(xiàng);發(fā)表國際期刊和會議高水平學(xué)術(shù)論文31篇,包含光學(xué)字符識別、圖像、自然語言處理、語音以及多模態(tài)等多領(lǐng)域的學(xué)術(shù)研究。

而在產(chǎn)品應(yīng)用端,今年2月學(xué)而思學(xué)習(xí)機(jī)上線AI講題機(jī)器人“小π”。其相關(guān)技術(shù)于2020年啟動(dòng)研發(fā),背后是超3億專業(yè)題庫數(shù)據(jù),經(jīng)過三年的數(shù)據(jù)訓(xùn)練和迭代。

在實(shí)測中可以看到,在配套的AR鏡識別到一道手寫或者印刷的數(shù)學(xué)計(jì)算題時(shí)。

小π機(jī)器人會對題目進(jìn)行智能AI拆解分析,同時(shí)生成邏輯流暢、表達(dá)清晰的語言,將題目的解題方法講解出來。

該功能已覆蓋的題目包括分?jǐn)?shù)、小數(shù)等復(fù)雜計(jì)算,甚至一些“湊數(shù)、組合”的巧妙算法,已十分接近真人老師的解題效果。

正是基于這樣的行業(yè)Know-how,MathGPT自誕生之日起就定義明確「面向更廣泛的數(shù)學(xué)愛好者和科研機(jī)構(gòu)打造」,并對癥下藥——

因?yàn)橄胍蛟鞌?shù)學(xué)垂直大模型,就繞不過三大挑戰(zhàn):

第一,題目要解對。現(xiàn)在連GPT的結(jié)果經(jīng)常出現(xiàn)錯(cuò)誤;

第二,解題步驟要穩(wěn)定、清晰。現(xiàn)在GPT的解題步驟每次都不一樣,而且生成內(nèi)容經(jīng)常很冗余;

第三,解題要講的有趣、個(gè)性化?,F(xiàn)在GPT的解釋過于“學(xué)術(shù)”和機(jī)械,對體驗(yàn)很不友好。

基于這樣的目標(biāo),MathGPT結(jié)合大模型計(jì)算引擎兩者能力。

前者負(fù)責(zé)理解題目、分步解析,并在合適的步驟自行調(diào)用計(jì)算引擎,以此來提高正確率?;诤A棵麕熃忸}過程的數(shù)據(jù)進(jìn)行模型訓(xùn)練,模型的解題步驟可以更加清晰。再引入優(yōu)秀老師的教學(xué)理念和方法,模型在解題趣味性上也能進(jìn)一步提高。

可以看到的是,學(xué)而思展現(xiàn)了場景玩家入局大模型的優(yōu)勢——

可以后發(fā)制人,謀定而后動(dòng),而且壁壘天然

Wolfram alpha之后,數(shù)學(xué)大模型

隨著業(yè)內(nèi)首個(gè)數(shù)學(xué)大模型的發(fā)布,有關(guān)大模型在數(shù)學(xué)領(lǐng)域的落地可以階段性梳理,大致可以分為兩個(gè)方向。

一方面,科研為核心的前沿探索。陶哲軒不止一次地透露大模型如何加入其工作流、輔助研究。

他讓GPT-4針對論文提出問題來準(zhǔn)備講座;還讓GPT-4生成數(shù)學(xué)證明,并發(fā)現(xiàn)過去閱讀人類作品的經(jīng)驗(yàn)完全不適用了。

對于AI在數(shù)學(xué)研究中的表現(xiàn),他給出預(yù)言:

當(dāng)與形式證明驗(yàn)證器、互聯(lián)網(wǎng)搜索和數(shù)學(xué)符號包等工具整合時(shí),2026年的AI,如果使用得當(dāng),將成為數(shù)學(xué)研究中值得信賴的共同作者,而且在許多其他領(lǐng)域也是如此。

事實(shí)上,在更多的科研領(lǐng)域,大模型也正在賦予這樣的價(jià)值。學(xué)界教授也不止一次提出,大模型的幻覺不見得是壞事,可以給研究方向提供新思路。

另一方面,則是面向更廣泛大眾的普惠教育、基礎(chǔ)教育提升。讓大模型參與到學(xué)習(xí)數(shù)學(xué)、思考數(shù)學(xué)的過程當(dāng)中去,幫助人們更好地解決數(shù)學(xué)問題。學(xué)而思MathGPT就是基于這樣的初衷。

事實(shí)上,數(shù)學(xué)本身在各個(gè)領(lǐng)域中充當(dāng)著一種基礎(chǔ)能力,未來數(shù)學(xué)大模型也將能夠以工具的形態(tài),與更多行業(yè)產(chǎn)生關(guān)聯(lián)。

在此之前,理工科神器Wolfram alpha,就是以這樣的作用垂直風(fēng)靡。

它顛覆了傳統(tǒng)模式,創(chuàng)造了一種全新的知識搜索引擎。由于支持幾何、數(shù)值以及符號式計(jì)算,并擁有強(qiáng)大的可視化功能,支持用戶對上傳的圖片進(jìn)行識別等一系列功能而受到推崇。目前已經(jīng)支持包括數(shù)學(xué)、統(tǒng)計(jì)學(xué)、物理化學(xué)、材料學(xué)等近20個(gè)領(lǐng)域的查詢、計(jì)算和分析。

而現(xiàn)在,隨著大模型范式到來,Wolfram alpha一樣的理工基礎(chǔ)教育、科研的工具,也將面臨革新浪潮。

至少M(fèi)athGPT已經(jīng)展現(xiàn)了這樣的趨勢,MathGPT正在實(shí)踐這樣的趨勢。

而MathGPT,一定只是開始。你說呢?

關(guān)鍵詞:

[責(zé)任編輯:]

相關(guān)閱讀