商湯科技等機(jī)構(gòu)聯(lián)合開(kāi)源了百億級(jí)圖文交錯(cuò)數(shù)據(jù)集OmniCorpus,規(guī)模是現(xiàn)有數(shù)據(jù)集的15倍,包含86億張圖像和16,960億個(gè)文本標(biāo)記。OmniCorpus數(shù)據(jù)集在多語(yǔ)言、多類型數(shù)據(jù)抓取上進(jìn)行了優(yōu)化,提高了內(nèi)容提取的質(zhì)量和完整性。通過(guò)人工反饋和自動(dòng)過(guò)濾規(guī)則,確保了數(shù)據(jù)集的高質(zhì)量。在VQA和Image Captioning等測(cè)試中,基于OmniCorpus預(yù)訓(xùn)練的模型表現(xiàn)出色,對(duì)訓(xùn)練多模態(tài)大模型有重要幫助。