中國大模型語料數(shù)據(jù)聯(lián)盟開源發(fā)布高質(zhì)量多模態(tài)語料“書生·萬卷”
2023-08-16 02:45:52 來源:上海證券報
繼今年7月在2023世界人工智能大會發(fā)起成立“中國大模型語料數(shù)據(jù)聯(lián)盟”(以下簡稱“語料數(shù)據(jù)聯(lián)盟”),上海人工智能實驗室(上海AI實驗室)于8月14日宣布,聯(lián)合語料數(shù)據(jù)聯(lián)盟成員單位,共同開源發(fā)布“書生·萬卷”1.0多模態(tài)預(yù)訓(xùn)練語料。
“書生·萬卷”1.0目前包含文本數(shù)據(jù)集、圖文數(shù)據(jù)集、視頻數(shù)據(jù)集三部分,本次開源的數(shù)據(jù)總量超過2TB。該語料數(shù)據(jù)包含超過5億個文本,2200萬個圖文交錯文檔,1000個節(jié)目影像視頻,具備多元融合、精細(xì)處理、價值對齊、易用高效等四大特征。
集合語料數(shù)據(jù)聯(lián)盟成員豐富的內(nèi)容積累與上海AI實驗室領(lǐng)先的數(shù)據(jù)處理能力等優(yōu)勢,“書生·萬卷”將為學(xué)術(shù)界及產(chǎn)業(yè)界提供更符合主流中文價值對齊的高質(zhì)量大模型多模態(tài)預(yù)訓(xùn)練語料。
(資料圖片)
跨界聯(lián)合,共建寬領(lǐng)域語料庫
本次開源的“書生·萬卷”1.0包含文本、圖文、視頻三部分?jǐn)?shù)據(jù)集。其中文本數(shù)據(jù)為來自網(wǎng)頁、百科、書籍、專利、教材、考題等不同來源的清洗后預(yù)訓(xùn)練語料,數(shù)據(jù)總量超過5億個文檔,數(shù)據(jù)大小超過1TB,覆蓋科技、文學(xué)、媒體、教育、法律等多個領(lǐng)域。
圖文數(shù)據(jù)主要來自公開網(wǎng)頁,經(jīng)處理后形成圖文交錯文檔。文檔總量超過2200萬個,數(shù)據(jù)大小超過140GB(不含圖片),覆蓋新聞事件、人物、自然景觀、社會生活等多個領(lǐng)域。
視頻數(shù)據(jù)主要來自中央廣播電視總臺和上海文廣集團(tuán),包含新聞、影視等多種類型的節(jié)目影像,總計視頻文件數(shù)超過1000個,數(shù)據(jù)大小超過900GB,內(nèi)容覆蓋軍事、文藝、體育、自然、真實世界、知識、影像藝術(shù)、媒體、美食、歷史、科教等方面。
精細(xì)處理構(gòu)建高質(zhì)量預(yù)訓(xùn)練語料
高質(zhì)量、大規(guī)模、安全可信的語料數(shù)據(jù)對于大語言模型的訓(xùn)練和性能提升至關(guān)重要?;谡Z料數(shù)據(jù)聯(lián)盟構(gòu)建的語料庫,上海AI實驗室對其中部分?jǐn)?shù)據(jù)進(jìn)行細(xì)粒度清洗、去重以及價值對齊,形成了高質(zhì)量多模態(tài)預(yù)訓(xùn)練語料“書生·萬卷”1.0,具備多元融合、精細(xì)處理、價值對齊、易用高效等四大特征。
在多元融合方面,“書生·萬卷”1.0包含文本、圖文、視頻等多模態(tài)數(shù)據(jù),范圍覆蓋科技、文學(xué)、媒體、教育、法律等多個領(lǐng)域,在訓(xùn)練提升模型知識含量、邏輯推理和泛化能力方面具有顯著效果。
在精細(xì)處理方面,“書生·萬卷”1.0經(jīng)歷了語言甄別、正文抽取、格式標(biāo)準(zhǔn)化、基于規(guī)則及模型的數(shù)據(jù)過濾與清洗、多尺度去重、數(shù)據(jù)質(zhì)量評估等精細(xì)化數(shù)據(jù)處理環(huán)節(jié),因而能更好地適配后續(xù)的模型預(yù)訓(xùn)練需求。
在價值對齊方面,研究人員在“書生·萬卷”1.0的構(gòu)建過程中,著眼于內(nèi)容與中文主流價值觀的對齊,通過算法與人工評估結(jié)合的方式,提升了語料的純凈度。
在易用高效方面,研究人員在“書生·萬卷”1.0采用統(tǒng)一格式,并提供詳細(xì)的字段說明和工具指導(dǎo),使其兼顧了易用性和效率,可快速應(yīng)用于語言、多模態(tài)等大模型預(yù)訓(xùn)練。
據(jù)悉,高質(zhì)量、多模態(tài)、寬領(lǐng)域的數(shù)據(jù)支持已成為當(dāng)前人工智能大模型發(fā)展的重要基石,中國大模型語料數(shù)據(jù)聯(lián)盟將持續(xù)通過開源開放,共建包容、開放、有序、共享的人工智能大生態(tài)。
上海人工智能實驗室是我國人工智能領(lǐng)域的新型科研機(jī)構(gòu),目標(biāo)為建成國際一流的人工智能實驗室,成為享譽(yù)全球的人工智能原創(chuàng)理論和技術(shù)的策源地。
中國大模型語料數(shù)據(jù)聯(lián)盟是由上海人工智能實驗室聯(lián)合國家氣象中心、上海數(shù)據(jù)集團(tuán)、上海市數(shù)商協(xié)會等單位聯(lián)合發(fā)起成立的開放組織。旨在通過鏈接模型訓(xùn)練、數(shù)據(jù)供給、學(xué)術(shù)研究、第三方服務(wù)等多方面機(jī)構(gòu),聯(lián)合打造多知識、多模態(tài)、標(biāo)準(zhǔn)化的高質(zhì)量語料數(shù)據(jù),探索形成基于貢獻(xiàn)、可持續(xù)運(yùn)行的激勵機(jī)制,打造國際化、開放型的大模型語料數(shù)據(jù)生態(tài)圈。
(文章來源:上海證券報)
關(guān)鍵詞:
相關(guān)閱讀
- (2023-08-16)中國大模型語料數(shù)據(jù)聯(lián)盟開源發(fā)布高質(zhì)量多模態(tài)語料“書生·萬卷”
- (2023-08-16)黑白調(diào)E3結(jié)構(gòu)大師,T支撐系統(tǒng),全新護(hù)腰科技
- (2023-08-16)2023年家庭供水概念股是哪些?(8月14日)
- (2023-08-16)實探北京充電樁:蔚來、極氪開放程度最高,特斯拉、小鵬仍有限制
- (2023-08-16)2023張信哲演唱會重慶站在哪里舉行?(附乘車及自駕指南)
- (2023-08-16)中山子女投靠入戶指南(條件+材料+地址)
- (2023-08-16)青海甘肅部分地區(qū)多降雨 江南華南對流活躍強(qiáng)降水分散
- (2023-08-16)咸安區(qū)溫泉街道希望橋社區(qū)老舊小區(qū)加裝電梯 便捷生活一鍵直達(dá)
- (2023-08-16)華爾街大佬發(fā)出警告!
- (2023-08-16)全國生態(tài)日丨守好綠水青山 解密天津“含綠量”
- (2023-08-16)艾德生物:與阿斯利康達(dá)成抗體偶聯(lián)藥物(ADC)伴隨診斷合作
- (2023-08-16)多途徑建設(shè)靠譜托管托育班
- (2023-08-16)【速記寶典9】中級會計臨考重點提煉速記-中級會計實務(wù)
- (2023-08-16)兩只貓頭鷹受傷后跌落,警民接力救助送動物園
- (2023-08-16)金壯龍會見美國霍尼韋爾公司全球首席執(zhí)行官柯偉茂
- (2023-08-16)數(shù)學(xué)的歡樂與瘋狂:從勾股定理到球面三角學(xué)
- (2023-08-16)23青島債44今日發(fā)布發(fā)行公告
- (2023-08-16)價格連跌13周,西瓜可以放肆“炫”了
- (2023-08-16)哈爾濱市雙城區(qū):打造“黨建+”六大檢察品牌
- (2023-08-16)豆都話豆事
- (2023-08-16)青海甘肅部分地區(qū)多降雨 江南華南對流活躍強(qiáng)降水分散
- (2023-08-16)內(nèi)蒙古伊金霍洛旗總工會開展安全隱患專項檢查和消防安全知識培訓(xùn)
- (2023-08-16)亞冠8月24日小組抽簽:泰山二檔恐進(jìn)死亡之組 三鎮(zhèn)或開賽前換帥
- (2023-08-16)監(jiān)督返還被扣押的涉案財物
- (2023-08-16)市水務(wù)局大清河管理中心子牙河管理所黨支部 在抗洪搶險一線淬煉過硬黨性
- (2023-08-16)河南有住院患者墜樓死亡 醫(yī)院通報:配合公安機(jī)關(guān)開展調(diào)查
- (2023-08-16)國信證券(002736)8月15日主力資金凈買入537.85萬元
- (2023-08-16)克明食品(002661)8月15日主力資金凈買入29.77萬元
- (2023-08-16)醫(yī)生學(xué)醫(yī)不應(yīng)該是救死扶傷嗎?