智源研究院發佈開源中文互聯網語料庫CCI 4.0

據智源研究院消息,5月6日,智源研究院在法國巴黎舉行的GOSIM全球開源創新論壇上發佈大型開源文本數據集CCI 4.0。本次發佈包括了中、英語兩種語言,並將在隨後的發佈中,開源更多語言的版本。CCI 4.0數據集由智源研究院牽頭,聯合包括阿里雲、上海人工智能實驗室、華爲、出門問問、金山辦公、崑崙萬維、面壁智能、奇虎科技、美團、稀宇科技、月之暗面、紫東太初、中科聞歌、科大訊飛等多個機構共同貢獻。