實(shí)測學(xué)而思MathGPT大模型：中小學(xué)數(shù)學(xué)解題正確率有望全球新SOTA

2023-09-01 07:07:17 來源：騰訊網(wǎng)

評(píng)論

白交發(fā)自凹非寺

(資料圖)

量子位 | 公眾號(hào) QbitAI

國內(nèi)首個(gè)數(shù)學(xué)大模型MathGPT開放內(nèi)測了，不上手試試怎么行？

第一印象上，最明顯的就是：啪的一下，很快啊~

題目識(shí)別到對(duì)話框，結(jié)果不光答案準(zhǔn)確，還就給出了具體的公式步驟、詳細(xì)解析。

并且支持公式輸入和修改。

這著實(shí)是數(shù)理愛好者福音了！要知道市面上GPT-4在內(nèi)的通用大模型，都無法實(shí)現(xiàn)這一點(diǎn)。

作為千億參數(shù)級(jí)別首個(gè)數(shù)學(xué)專用大模型，放在全球范圍內(nèi)也是少數(shù)，背后則是來自國內(nèi)教育行業(yè)20年深耕的學(xué)而思。

另外內(nèi)測據(jù)說還只是開始，因?yàn)橹熬鸵呀?jīng)透露，將于年內(nèi)推出基于該自研大模型的產(chǎn)品級(jí)應(yīng)用。

所以這款垂直數(shù)學(xué)大模型究竟怎么樣，完整上手“體驗(yàn)報(bào)告”呈上。

上手實(shí)測：支持公式圖像輸入

首先，從大模型基礎(chǔ)功能來看，與GPT-4、Claude2相比，MathGPT主要有這些能與不能。

由于是數(shù)學(xué)專用大模型，因此對(duì)話內(nèi)容目前只能回答與數(shù)學(xué)相關(guān)的問題。

界面上從現(xiàn)有的示例上看，它目前覆蓋小學(xué)、中學(xué)以及高中的題目。

不僅有內(nèi)容的劃分，比如集合、立體幾何、解析幾何、導(dǎo)數(shù)、三角函數(shù)、統(tǒng)計(jì)學(xué)等模塊；

還有題型的選擇，比如應(yīng)用題、高考填空壓軸、解答壓軸；

以及一些開拓思維的題目，比如小學(xué)題目中的推理推導(dǎo)、歸納總結(jié)、創(chuàng)新思維；初中的反正法、代入法等。

對(duì)于數(shù)學(xué)愛好者而言，可以說是非常全面了。

在輸入端，除了普通文本外，它支持公式格式以及圖像（帶有數(shù)字和文字）的輸入。

除此之外，面對(duì)數(shù)學(xué)題目的追問，它也支持多輪對(duì)話的能力。

了解基本情況后，接著就來考驗(yàn)一下MathGPT的真實(shí)實(shí)力。

根據(jù)此前官方介紹，MathGPT是以解題和講題算法為核心的大模型，具體拆分為三個(gè)問題：

題目要解對(duì)；

解題步驟要穩(wěn)定、清晰；

解題要講的有趣、個(gè)性化。

依照這樣的邏輯，先來看看它的基本解題思路。

以初中示例題為例，分為分析、詳解、點(diǎn)睛三個(gè)步驟，不光給出詳細(xì)的步驟，還會(huì)給你說知識(shí)點(diǎn)和題目難度，這歸屬于基本不等式的應(yīng)用，難度為中檔。

甚至還可以舉一反三，比如就像這道整體代換的題目。

隨手修改其中一兩個(gè)數(shù)字，結(jié)果不光給出來了，還有更為詳細(xì)的解析。

那么再上點(diǎn)難度，直接考驗(yàn)它高中題目，比如這道選擇壓軸。

結(jié)果也是分分鐘出來。

還有像涉及幾何類型的題目，也沒有被難倒。

，時(shí)長00:30

所以，一圈體驗(yàn)下來，簡單總結(jié)一下MathGPT的評(píng)測感受：

基礎(chǔ)功能上支持公式格式、圖像輸入，對(duì)數(shù)學(xué)愛好者很友好；

支持小初高中的各類型題，覆蓋比較全面。

還能舉一反三，多輪對(duì)話。

除此之外，還有一些不足，比如圖像輸入暫時(shí)不支持幾何類型的題目，以及有時(shí)會(huì)出現(xiàn)一些亂碼問題，比如答案對(duì)了，但中文輸入，結(jié)果英文輸出……

首個(gè)數(shù)學(xué)大模型，為什么是學(xué)而思？

大模型涌現(xiàn)以來，數(shù)學(xué)推理能力始終是產(chǎn)學(xué)研界共同攻堅(jiān)的對(duì)象。

通用思路都是基于現(xiàn)有的通用LLM進(jìn)行調(diào)優(yōu)，最典型的就是OpenAI自己提出過程監(jiān)督方法。

傳統(tǒng)獎(jiǎng)勵(lì)模型采用的是結(jié)果監(jiān)督，僅針對(duì)思維鏈的結(jié)果進(jìn)行判別和反饋；相對(duì)的，過程監(jiān)督就是對(duì)思維鏈每一步進(jìn)行反饋。因此獎(jiǎng)勵(lì)增多、效果變好。

更多的還有像指令微調(diào)、prompt優(yōu)化等思路。微軟全華人團(tuán)隊(duì)提出WizardMath，用AI生成的指令微調(diào)羊駝大模型，結(jié)果直接超ChatGPT。

以及前段時(shí)間，有研究團(tuán)隊(duì)發(fā)現(xiàn)GPT-4代碼解釋器的代碼生成和執(zhí)行機(jī)制，于是就有特定的代碼約束提示詞直接將數(shù)學(xué)能力拔高至SOTA。

而像專門針對(duì)數(shù)學(xué)推理方向的自研大模型確實(shí)不多。目前來看，國內(nèi)有且只有一個(gè)。

這樣做的核心原因只有一個(gè)，加速大模型在數(shù)學(xué)領(lǐng)域的落地。

于行業(yè)玩家而言，若是依照通用開源LLM進(jìn)行調(diào)優(yōu)，一來目前還處于積極探索的階段，沒有形成一個(gè)很好的范式；二來，幻覺問題沒有解決，穩(wěn)定性依舊無法保證。

而數(shù)學(xué)推理不光要求結(jié)果的準(zhǔn)確，還得強(qiáng)調(diào)過程的清晰和邏輯性。

當(dāng)然同樣的原因，也不能簡單直接調(diào)用像GPT-4的API，性能等各方面始終會(huì)受限。

不過此前我們也討論過，打造行業(yè)大模型天然就有這非常高的壁壘，數(shù)據(jù)量大還得高質(zhì)量，關(guān)鍵還要有場景，知道行業(yè)Know-how。

既然如此，學(xué)而思又是如何做到？

核心還是：術(shù)業(yè)專攻、對(duì)癥下藥。

一方面，最首要也是本質(zhì)的原因——術(shù)業(yè)專攻——多年在數(shù)學(xué)和AI領(lǐng)域的深入研發(fā)和布局。

學(xué)而思“以數(shù)學(xué)起家”，至今已有20年的數(shù)學(xué)教學(xué)經(jīng)驗(yàn)，積累了龐大的數(shù)學(xué)相關(guān)數(shù)據(jù)，這些獨(dú)家數(shù)據(jù)是進(jìn)行MathGPT訓(xùn)練的必備物料。

而在AI領(lǐng)域，學(xué)而思早在第一波AI浪潮興起之時(shí)（2017年）就已經(jīng)開始布局——成立AI lab人工智能實(shí)驗(yàn)室。如今還是教育領(lǐng)域首批唯一一家人工智能“國家隊(duì)”成員。

在學(xué)術(shù)方面，學(xué)而思實(shí)際也有高頻產(chǎn)出。公開資料顯示，基于智慧教育人工智能開放創(chuàng)新平臺(tái)助力，學(xué)而思AI lab獲得各類頂級(jí)學(xué)術(shù)會(huì)議比賽冠軍16項(xiàng)，亞軍6項(xiàng)；發(fā)表國際期刊和會(huì)議高水平學(xué)術(shù)論文31篇，包含光學(xué)字符識(shí)別、圖像、自然語言處理、語音以及多模態(tài)等多領(lǐng)域的學(xué)術(shù)研究。

而在產(chǎn)品應(yīng)用端，今年2月學(xué)而思學(xué)習(xí)機(jī)上線AI講題機(jī)器人“小π”。其相關(guān)技術(shù)于2020年啟動(dòng)研發(fā)，背后是超3億專業(yè)題庫數(shù)據(jù)，經(jīng)過三年的數(shù)據(jù)訓(xùn)練和迭代。

在實(shí)測中可以看到，在配套的AR鏡識(shí)別到一道手寫或者印刷的數(shù)學(xué)計(jì)算題時(shí)。

小π機(jī)器人會(huì)對(duì)題目進(jìn)行智能AI拆解分析，同時(shí)生成邏輯流暢、表達(dá)清晰的語言，將題目的解題方法講解出來。

該功能已覆蓋的題目包括分?jǐn)?shù)、小數(shù)等復(fù)雜計(jì)算，甚至一些“湊數(shù)、組合”的巧妙算法，已十分接近真人老師的解題效果。

正是基于這樣的行業(yè)Know-how，MathGPT自誕生之日起就定義明確「面向更廣泛的數(shù)學(xué)愛好者和科研機(jī)構(gòu)打造」，并對(duì)癥下藥——

因?yàn)橄胍蛟鞌?shù)學(xué)垂直大模型，就繞不過三大挑戰(zhàn)：

第一，題目要解對(duì)。現(xiàn)在連GPT的結(jié)果經(jīng)常出現(xiàn)錯(cuò)誤；

第二，解題步驟要穩(wěn)定、清晰。現(xiàn)在GPT的解題步驟每次都不一樣，而且生成內(nèi)容經(jīng)常很冗余；

第三，解題要講的有趣、個(gè)性化?，F(xiàn)在GPT的解釋過于“學(xué)術(shù)”和機(jī)械，對(duì)體驗(yàn)很不友好。

基于這樣的目標(biāo)，MathGPT結(jié)合大模型和計(jì)算引擎兩者能力。

前者負(fù)責(zé)理解題目、分步解析，并在合適的步驟自行調(diào)用計(jì)算引擎，以此來提高正確率?；诤Ａ棵麕熃忸}過程的數(shù)據(jù)進(jìn)行模型訓(xùn)練，模型的解題步驟可以更加清晰。再引入優(yōu)秀老師的教學(xué)理念和方法，模型在解題趣味性上也能進(jìn)一步提高。

可以看到的是，學(xué)而思展現(xiàn)了場景玩家入局大模型的優(yōu)勢——

可以后發(fā)制人，謀定而后動(dòng)，而且壁壘天然。

Wolfram alpha之后，數(shù)學(xué)大模型

隨著業(yè)內(nèi)首個(gè)數(shù)學(xué)大模型的發(fā)布，有關(guān)大模型在數(shù)學(xué)領(lǐng)域的落地可以階段性梳理，大致可以分為兩個(gè)方向。

一方面，科研為核心的前沿探索。陶哲軒不止一次地透露大模型如何加入其工作流、輔助研究。

他讓GPT-4針對(duì)論文提出問題來準(zhǔn)備講座；還讓GPT-4生成數(shù)學(xué)證明，并發(fā)現(xiàn)過去閱讀人類作品的經(jīng)驗(yàn)完全不適用了。

對(duì)于AI在數(shù)學(xué)研究中的表現(xiàn)，他給出預(yù)言：

當(dāng)與形式證明驗(yàn)證器、互聯(lián)網(wǎng)搜索和數(shù)學(xué)符號(hào)包等工具整合時(shí)，2026年的AI，如果使用得當(dāng)，將成為數(shù)學(xué)研究中值得信賴的共同作者，而且在許多其他領(lǐng)域也是如此。

事實(shí)上，在更多的科研領(lǐng)域，大模型也正在賦予這樣的價(jià)值。學(xué)界教授也不止一次提出，大模型的幻覺不見得是壞事，可以給研究方向提供新思路。

另一方面，則是面向更廣泛大眾的普惠教育、基礎(chǔ)教育提升。讓大模型參與到學(xué)習(xí)數(shù)學(xué)、思考數(shù)學(xué)的過程當(dāng)中去，幫助人們更好地解決數(shù)學(xué)問題。學(xué)而思MathGPT就是基于這樣的初衷。

事實(shí)上，數(shù)學(xué)本身在各個(gè)領(lǐng)域中充當(dāng)著一種基礎(chǔ)能力，未來數(shù)學(xué)大模型也將能夠以工具的形態(tài)，與更多行業(yè)產(chǎn)生關(guān)聯(lián)。

在此之前，理工科神器Wolfram alpha，就是以這樣的作用垂直風(fēng)靡。

它顛覆了傳統(tǒng)模式，創(chuàng)造了一種全新的知識(shí)搜索引擎。由于支持幾何、數(shù)值以及符號(hào)式計(jì)算，并擁有強(qiáng)大的可視化功能，支持用戶對(duì)上傳的圖片進(jìn)行識(shí)別等一系列功能而受到推崇。目前已經(jīng)支持包括數(shù)學(xué)、統(tǒng)計(jì)學(xué)、物理化學(xué)、材料學(xué)等近20個(gè)領(lǐng)域的查詢、計(jì)算和分析。

而現(xiàn)在，隨著大模型范式到來，Wolfram alpha一樣的理工基礎(chǔ)教育、科研的工具，也將面臨革新浪潮。

至少M(fèi)athGPT已經(jīng)展現(xiàn)了這樣的趨勢，MathGPT正在實(shí)踐這樣的趨勢。

而MathGPT，一定只是開始。你說呢？

關(guān)鍵詞：

[責(zé)任編輯：]