人民網(wǎng)北京9月13日電 (記者夏曉倫、許維娜)近日,國(guó)家數(shù)據(jù)局發(fā)布一批“高質(zhì)量數(shù)據(jù)集典型案例”,人民網(wǎng)“主流價(jià)值語料庫(kù)”成功入選。
此次評(píng)選是為落實(shí)“人工智能+”行動(dòng)有關(guān)部署,按照《國(guó)家數(shù)據(jù)局綜合司關(guān)于征集高質(zhì)量數(shù)據(jù)集典型案例的通知》工作安排,經(jīng)嚴(yán)格的申報(bào)推薦、專家評(píng)審環(huán)節(jié)最終確定名單。
作為中央重點(diǎn)新聞網(wǎng)站排頭兵,人民網(wǎng)依托傳播內(nèi)容認(rèn)知全國(guó)重點(diǎn)實(shí)驗(yàn)室科研能力,早在2023年初就啟動(dòng)了主流價(jià)值語料庫(kù)的建設(shè)工作。該語料庫(kù)依托黨報(bào)黨網(wǎng)長(zhǎng)期建設(shè)形成的新聞資訊、理論評(píng)論、政策法規(guī)和科普知識(shí)等優(yōu)質(zhì)資源,經(jīng)科學(xué)采樣、歸集、清洗、標(biāo)注、定制、風(fēng)控等環(huán)節(jié)精心打磨而成。目前,語料庫(kù)已入庫(kù)3000多萬篇基礎(chǔ)語料、31萬對(duì)問答語料、500多萬對(duì)圖文語料,在國(guó)內(nèi)多家主流大模型廠家得到實(shí)際應(yīng)用,正向糾偏作用明顯。
主流價(jià)值語料庫(kù)入選國(guó)家數(shù)據(jù)局發(fā)布的“高質(zhì)量數(shù)據(jù)集典型案例”,是人民日?qǐng)?bào)社AI建設(shè)的階段性成果。人民網(wǎng)將持續(xù)保持項(xiàng)目建設(shè)的力度和質(zhì)量,繼續(xù)擴(kuò)大語料庫(kù)規(guī)模,不斷深挖重點(diǎn)領(lǐng)域,為人工智能行業(yè)供給更多高質(zhì)量語料。
據(jù)悉,國(guó)家數(shù)據(jù)局將定期圍繞高質(zhì)量數(shù)據(jù)集組織相關(guān)技術(shù)交流及主題研討等活動(dòng)?,F(xiàn)將案例名單公布如下。(按推薦單位排序,排名不分先后)
附:“高質(zhì)量數(shù)據(jù)集典型案例”名單