讓世界的 AI「懂臺灣」 IMA 攜手文化人推動「Taiwan Tongues」
在全球生成式 AI 蓬勃發展的時代,大型語言模型(LLM)已成爲驅動智慧應用的關鍵引擎,但全球主流語言模型多數以「英文」或「簡體中文」爲主,AI 難以理解臺灣語言與文化,恐形成新一波數位落差與文化邊緣化。爲讓世界的AI「懂臺灣」,IMA資訊經理人協會攜手文化人,推動「Taiwan Tongues臺灣通用與料庫」。
IMATaiwan Tongues 4日舉行「Taiwan Tongues」記者會,數發部次長林宜敬出席,已經授權其作品的文學作家胡長鬆、向陽、曾貴海代表人曾澤民,共同暢談語料釋出的文化初衷與願景,同時亦邀請文訊雜誌社社長兼總編輯封德屏代表文學界對本計劃的期待。
此外,交大教授廖元甫與羣聯電子技術長林緯,也分享運用Taiwan Tongues語料進行LLM訓練的成果與未來潛力。各界齊聚,共同開啓臺灣語言在 AI 時代的新篇章。
IMA資訊經理人協會理事長暨臺灣大資訊長蔡祈巖表示,「我們不得不正視一個現實,當主流語言模型以英文及簡體中文爲訓練基礎,臺灣的通用語言在資料量與辨識度上嚴重不足,導致我們的語言、文化與價值觀在數位世界中逐漸被邊緣化」。
蔡祈巖指出,IMA攜手臺灣作家及文化人,推動「Taiwan Tongues臺灣通用與料庫」,目標要讓全世界的AI服務(ChatGPT、Perplexity等)可以「懂臺灣」,目標是讓臺灣語言不只是被保存,更成爲全球 AI 模型學習的核心語料,讓世界真正「聽懂」與「理解」臺灣。
蔡祈巖指出,語言是文化的根基,唯有打造自主、開放、可信的語料體系,臺灣才能在全球 AI 發展中不缺席,讓世界不只看見臺灣語言,更能理解臺灣語言,懂臺灣慣用華語、臺語、客語、繁體字、思維及價值觀,透過蒐集各種語料及發音,串起全世界AI,提供他們訓練材料,同時希望打造Taiwan Tongues AI評測以工具協助優化。
「Taiwan Tongues 臺灣通用語料庫」計劃,要打造涵蓋臺灣華語、臺語、客語、原住民族語等多元語言的開放語料庫。不僅爲臺灣自主訓練語言模型奠定基礎,更期盼讓全球開源LLM模型真正學會臺灣的語言、文化與價值觀,實踐語言平權與資料主體性。
在臺語文學作家、吳三連獎得主同時也是 IMA委員的胡長鬆號召下,已有超過數十位作家無償授權珍貴文學作品,累積逾 500 萬字高品質語料,並已陸續上架至 Hugging Face 平臺供各界開放使用。初步實測亦顯示,以「Taiwan Tongues」臺語語料訓練的模型,其錯誤率有顯著下降。
IMA發起「Taiwan Tongues 臺灣通用語料庫計劃」有三大核心計劃,包含三大步驟,打造AI的臺灣老師;從作家到 AI,文化跨界串連;未來展望是讓世界不只看見,更能理解臺灣語言。
IMA指出,要透過三大步驟,打造AI的臺灣老師,第一步擴大臺灣語料庫(包含臺灣華語、臺灣台語、臺灣客語及原住民語),讓臺灣的聲音被全球 AI所理解。目前已有數十位作家授權,累計超過 500 萬字高品質語料,並已陸續上架 Hugging Face 平臺,開放各界非商業使用,支援語音助理、機器翻譯、語言教學與數位文化推廣等應用,邁向打造跨語種、可供 AI 訓練與研究使用的開放資料庫。
第二步則是「模型語境訓練框架」,羣聯電子是AI時代驅動儲存與運算創新的關鍵推手,加上身爲Taiwan Tongues計劃執行委員會一員,整合 Reward Model 及 RL 微調技術,開發一套具備多元觀點辨識與區域語意調適能力,可作爲企業訓練本地化 AI 的訓練框架。透過此訓練框架,可避免單一模型觀點帶來的偏差風險,並加速模型落地應用,推動產業 AI 能力鏈的建立。
最後是「臺灣語境評測」,「Taiwan Tongues」亦設計專屬測試集,由IMA提供語境與語言能力評測標準,並與陽明交通大學教授廖元甫合作,進行模型實證測試。廖教授團隊將 Taiwan Tongues 作家語料結合教育部臺語辭典等公用語料庫,對模型進行持續預訓練(CPT)與監督式微調(SFT),結果顯示臺語 AI 模型的正確率顯著提升,顯著提升臺語語意理解與書信生成能力,證實語料品質與語境評測對模型表現的關鍵影響。
臺灣語境評測
現在「Taiwan Tongues」已經從作家到 AI,文化跨界串連,更獲得政府支持,更是主權AI與文化自主的戰略實踐。
IMA表示,未來要讓世界不只看見,更能理解臺灣語言,「Taiwan Tongues」 未來將持續募集臺灣華語、臺語、客語與原住民族語等多語種語料,並與國際大型語言模型平臺合作,讓臺灣語言成爲全球 AI 生態系中不可或缺的一部分。
同時,「Taiwan Tongues」並預計開啓Wiki Taiwan 工作項目,擴增臺灣語言在網路世界的能見度。對於臺灣華語,將號召有志人士優先補齊維基百科中「只有英文(或其他主流語言)但尚缺繁體中文」的條目,補足語言差集;而針對臺語,第一階段則將先直接翻譯目前維基百科約 140 萬筆繁體中文條目爲臺語內容,第二階段再進行與英文條目的差集翻譯。此舉不僅可快速大幅增加臺灣通用語言的數位內容與 AI 訓練語料,也將進一步實現數位平權與語言文化自主。
IMA 協會指出,AI 的發展不僅是科技力的展現,更是文化主體性的實踐。「Taiwan Tongues」計劃象徵着臺灣在語言數位化上的自我覺醒,未來將持續結合作家、學界與產業界的力量,擴大語料庫建置與應用場域,推動語言成爲 AI 世代中臺灣最鮮明的文化印記,唯有集結更多跨界資源與社會參與,才能讓臺灣語言在全球 AI 浪潮中,真正擁有被理解與被尊重的位置。