欧美日韩电影精品视频_亚洲天堂一区二区三区四区_亚洲欧美日韩国产综合_日韩精品一区二区三区中文_為您提供優質色综合久久88色综合天天

您的位置:首頁 > 財經(jīng)觀察 >

中國大模型語料數(shù)據(jù)聯(lián)盟開源發(fā)布高質(zhì)量多模態(tài)語料“書生·萬卷”

2023-08-16 02:45:52 來源:上海證券報

評論

繼今年7月在2023世界人工智能大會發(fā)起成立“中國大模型語料數(shù)據(jù)聯(lián)盟”(以下簡稱“語料數(shù)據(jù)聯(lián)盟”),上海人工智能實驗室(上海AI實驗室)于8月14日宣布,聯(lián)合語料數(shù)據(jù)聯(lián)盟成員單位,共同開源發(fā)布“書生·萬卷”1.0多模態(tài)預(yù)訓(xùn)練語料。

“書生·萬卷”1.0目前包含文本數(shù)據(jù)集、圖文數(shù)據(jù)集、視頻數(shù)據(jù)集三部分,本次開源的數(shù)據(jù)總量超過2TB。該語料數(shù)據(jù)包含超過5億個文本,2200萬個圖文交錯文檔,1000個節(jié)目影像視頻,具備多元融合、精細(xì)處理、價值對齊、易用高效等四大特征。

集合語料數(shù)據(jù)聯(lián)盟成員豐富的內(nèi)容積累與上海AI實驗室領(lǐng)先的數(shù)據(jù)處理能力等優(yōu)勢,“書生·萬卷”將為學(xué)術(shù)界及產(chǎn)業(yè)界提供更符合主流中文價值對齊的高質(zhì)量大模型多模態(tài)預(yù)訓(xùn)練語料。


(資料圖片)

跨界聯(lián)合,共建寬領(lǐng)域語料庫

本次開源的“書生·萬卷”1.0包含文本、圖文、視頻三部分?jǐn)?shù)據(jù)集。其中文本數(shù)據(jù)為來自網(wǎng)頁、百科、書籍、專利、教材、考題等不同來源的清洗后預(yù)訓(xùn)練語料,數(shù)據(jù)總量超過5億個文檔,數(shù)據(jù)大小超過1TB,覆蓋科技、文學(xué)、媒體、教育、法律等多個領(lǐng)域。

圖文數(shù)據(jù)主要來自公開網(wǎng)頁,經(jīng)處理后形成圖文交錯文檔。文檔總量超過2200萬個,數(shù)據(jù)大小超過140GB(不含圖片),覆蓋新聞事件、人物、自然景觀、社會生活等多個領(lǐng)域。

視頻數(shù)據(jù)主要來自中央廣播電視總臺和上海文廣集團(tuán),包含新聞、影視等多種類型的節(jié)目影像,總計視頻文件數(shù)超過1000個,數(shù)據(jù)大小超過900GB,內(nèi)容覆蓋軍事、文藝、體育、自然、真實世界、知識、影像藝術(shù)、媒體、美食、歷史、科教等方面。

精細(xì)處理構(gòu)建高質(zhì)量預(yù)訓(xùn)練語料

高質(zhì)量、大規(guī)模、安全可信的語料數(shù)據(jù)對于大語言模型的訓(xùn)練和性能提升至關(guān)重要?;谡Z料數(shù)據(jù)聯(lián)盟構(gòu)建的語料庫,上海AI實驗室對其中部分?jǐn)?shù)據(jù)進(jìn)行細(xì)粒度清洗、去重以及價值對齊,形成了高質(zhì)量多模態(tài)預(yù)訓(xùn)練語料“書生·萬卷”1.0,具備多元融合、精細(xì)處理、價值對齊、易用高效等四大特征。

在多元融合方面,“書生·萬卷”1.0包含文本、圖文、視頻等多模態(tài)數(shù)據(jù),范圍覆蓋科技、文學(xué)、媒體、教育、法律等多個領(lǐng)域,在訓(xùn)練提升模型知識含量、邏輯推理和泛化能力方面具有顯著效果。

在精細(xì)處理方面,“書生·萬卷”1.0經(jīng)歷了語言甄別、正文抽取、格式標(biāo)準(zhǔn)化、基于規(guī)則及模型的數(shù)據(jù)過濾與清洗、多尺度去重、數(shù)據(jù)質(zhì)量評估等精細(xì)化數(shù)據(jù)處理環(huán)節(jié),因而能更好地適配后續(xù)的模型預(yù)訓(xùn)練需求。

在價值對齊方面,研究人員在“書生·萬卷”1.0的構(gòu)建過程中,著眼于內(nèi)容與中文主流價值觀的對齊,通過算法與人工評估結(jié)合的方式,提升了語料的純凈度。

在易用高效方面,研究人員在“書生·萬卷”1.0采用統(tǒng)一格式,并提供詳細(xì)的字段說明和工具指導(dǎo),使其兼顧了易用性和效率,可快速應(yīng)用于語言、多模態(tài)等大模型預(yù)訓(xùn)練。

據(jù)悉,高質(zhì)量、多模態(tài)、寬領(lǐng)域的數(shù)據(jù)支持已成為當(dāng)前人工智能大模型發(fā)展的重要基石,中國大模型語料數(shù)據(jù)聯(lián)盟將持續(xù)通過開源開放,共建包容、開放、有序、共享的人工智能大生態(tài)。

上海人工智能實驗室是我國人工智能領(lǐng)域的新型科研機(jī)構(gòu),目標(biāo)為建成國際一流的人工智能實驗室,成為享譽(yù)全球的人工智能原創(chuàng)理論和技術(shù)的策源地。

中國大模型語料數(shù)據(jù)聯(lián)盟是由上海人工智能實驗室聯(lián)合國家氣象中心、上海數(shù)據(jù)集團(tuán)、上海市數(shù)商協(xié)會等單位聯(lián)合發(fā)起成立的開放組織。旨在通過鏈接模型訓(xùn)練、數(shù)據(jù)供給、學(xué)術(shù)研究、第三方服務(wù)等多方面機(jī)構(gòu),聯(lián)合打造多知識、多模態(tài)、標(biāo)準(zhǔn)化的高質(zhì)量語料數(shù)據(jù),探索形成基于貢獻(xiàn)、可持續(xù)運(yùn)行的激勵機(jī)制,打造國際化、開放型的大模型語料數(shù)據(jù)生態(tài)圈。

(文章來源:上海證券報)

關(guān)鍵詞:

[責(zé)任編輯:]

相關(guān)閱讀