IMA協會啓動Taiwan Tongues計劃 打造臺灣AI語料庫
生成式AI正以前所未有的速度改變全球,然目前主流AI模型多以英文與簡體中文爲主要訓練基礎,臺灣華語、臺語、客語與原住民語在數位語料中嚴重缺席。
蔡祈巖表示,Taiwan Tongues 計劃的第一步,即是擴大臺灣語料庫,讓臺灣的聲音被全球 AI所理解,IMA委員胡長鬆帶頭,已無償釋出150萬字文學作品,並號召多位創作者共襄盛舉,至今已有數十位作家授權,累計超過500萬字語料陸續上架 Hugging Face平臺,開放各界非商業使用,支援語音助理、機器翻譯、語言教學與數位文化推廣等應用。
羣聯電子身爲Taiwan Tongues計劃執行委員會一員,已整合Reward Model及RL微調技術,開發一套具備多元觀點辨識與區域語意調適能力,可作爲企業訓練本地化AI的訓練框架。
數發部次長林宜敬表示,臺灣語言在數位世界的能見度,是未來推動「主權 AI」所要面臨的嚴峻挑戰,未來政府與民間將合作推動語料開放、模型建構等領域,讓臺灣語言成爲全球AI生態系中不可或缺的一部分。