亞洲資本網 > 資訊 > 焦點 > 正文
上海人工智能實驗室發(fā)布多模態(tài)語料
2023-08-16 13:06:20來源: 人民日報


(資料圖)

人民日報上海8月15日電 (記者沈文敏)近日,上海人工智能實驗室宣布聯(lián)合語料數據聯(lián)盟成員單位,共同開源發(fā)布“書生·萬卷”1.0多模態(tài)預訓練語料。

“書生·萬卷”1.0集合了語料數據聯(lián)盟成員豐富的內容積累與上海人工智能實驗室的數據處理能力等優(yōu)勢,將為學術界及產業(yè)界提供高質量大模型多模態(tài)預訓練語料。本次開源的數據總量超過2TB,具備多元融合、精細處理、價值對齊、易用高效等四大特征。

本次開源的“書生·萬卷”1.0包含文本、圖文、視頻三部分數據集。其中文本數據來自網頁、百科、書籍、專利、教材、考題等,數據總量超過5億個文檔,數據大小超過1TB,覆蓋科技、文學、媒體、教育、法律等多個領域;圖文數據主要來自公開網頁,經處理后形成圖文交錯文檔,總量超過2200萬個,數據大小超過140GB(不含圖片),覆蓋新聞事件、人物、自然景觀、社會生活等多個領域;視頻數據主要來自中央廣播電視總臺和上海文廣集團,包含新聞、影視等多種類型的節(jié)目影像,總計視頻文件數超過1000個,數據大小超過900GB,內容覆蓋軍事、文藝、體育、自然、知識、影像藝術等方面。

關鍵詞:

專題新聞
  • 新時代中國調研行·長江篇|長江源頭的“護魚”行動
  • 鋼鐵業(yè)迎挑戰(zhàn)顯韌性
  • 丁次烤肉(丁次死了嗎)
  • 英雄聯(lián)盟游戲環(huán)境出現異常怎么辦(英雄聯(lián)盟游戲環(huán)境異常 請重啟機器后再試)
  • 在波蘭賣智能小家電,他4個月跑出近兩百萬GMV
  • 隨著地球變暖,科學家對南極洲極端事件感到“震驚”

京ICP備2021034106號-51

Copyright © 2011-2020  亞洲資本網   All Rights Reserved. 聯(lián)系網站:55 16 53 8 @qq.com