讓 AI 聽懂臺灣:Taiwan Tongues 語料計劃啓動

讓 AI 聽懂臺灣:Taiwan Tongues 語料計劃啓動(主辦單位提供)

作家向陽(主辦單位提供)

生成式 AI 正以驚人速度改變全球溝通與知識生產,但目前主流 AI 多以英文和簡體中文爲訓練主軸,臺灣的華語、臺語、客語與原住民族語嚴重缺席,導致 AI 難以理解臺灣語言和文化,也加劇數位落差與文化邊緣化。

爲改變現況,資訊經理人協會(IMA)推動「Taiwan Tongues 臺灣通用語料庫計劃」,希望讓臺灣語言成爲全球 AI 學習的重要素材,讓世界真正「聽懂」臺灣。

Taiwan Tongues 語料計劃啓動記者會(劉伊珊/攝)

IMA 理事長蔡祈巖強調:「語言是文化的根。唯有打造自主、開放、可信的語料庫,臺灣才能在全球 AI 發展中被理解。」

而要達到目標, Taiwan Tongues 計劃的第一步,即是擴大臺灣語料庫(包含臺灣華語、臺灣台語、臺灣客語及原住民語),讓臺灣的聲音被全球 AI 所理解。今年由臺語文學作家暨 IMA 委員的胡長鬆帶頭,無償釋出 150 萬字文學作品,並號召更多創作者共襄盛舉,至今已有向陽等數十位作家授權,累計超過 500 萬字高品質語料,並已陸續上架 Hugging Face 平臺,開放各界非商業使用,可供 AI 訓練與研究使用的開放資料庫。

此外還須打造「模型語境訓練框架」,及進行「臺灣語境評測」。IMA 表示,如果把 AI 當作學生,Taiwan Tongues 提供的不只是課本(語料),更有教案(模型語境訓練框架)與考卷(語境評測),三者結合,才能讓 AI 真正懂臺灣。

IMA 也強調,AI 不只是科技,更是文化實踐。Taiwan Tongues 將持續集結作家、學界、產業的力量,讓臺灣語言融入全球 AI 生態;計劃也將推動「Wiki Taiwan」行動,鼓勵民衆補齊繁體中文與臺語的維基百科條目,快速提升臺灣語言在網路世界的能見度和數位內容量。

數位發展部次長林宜敬則表示,AI 正重塑全球語言與價值流動,政府推動「主權 AI」是技術與文化自主的戰略。將提供相關協助,讓臺灣語言站上世界舞臺。

-