APMIC攜手Twinkle AI 推手機3B繁中模型「Formosa-1」
企業自主AI解決方案領導品牌APMIC 8日宣佈與繁體中文語言模型研究社羣Twinkle AI攜手合作,正式推出臺灣首個可於手機端運行的3B參數繁體中文推理模型「Formosa-1」,雙方並聯手開源高效評測框架「Twinkle Eval」,共同推動臺灣AI技術發展與本地化應用。
APMIC透過企業私有化AI解決方案「PrivAI」,支援從1B到500B規模的地端AI模型,滿足不同產業需求,協助企業打造專屬AI大腦,進一步降低AI部署成本並提升運算效能。
Formosa-1由APMIC與Twinkle AI社羣研發,在國家高速網路與計算中心(國網中心)研發團隊的技術支持與經驗分享下開發,是臺灣首款可於手機端運行的3B參數大型語言模型。該模型透過基於輝達(NVIDIA)NeMo端對端平臺的APMIC PrivAI產品模型蒸餾技術進行訓練,以MIT授權方式完全開放模型權重,推動臺灣繁體中文開源AI的發展。
爲了提升模型推理能力,Formosa-1使用了貼合臺灣本地思維鏈(Taiwan Chain of Thought, TCoT)的資料,並搭配NVIDIA NeMo Data Curator加速資料管理服務,確保在法律推理、邏輯思辨與數學推演方面展現卓越表現。語言資料建構方面,Formosa-1的訓練數據涵蓋100B規模的高品質繁體中文Tokens,包含新聞、法律、論文、社會討論等多元文本,以確保AI對繁體中文語境的精準理解與應用。
APMIC與Twinkle AI社羣共同開發專爲大型推理模型設計的開源評測框架「Twinkle Eval」。該評測工具與NVIDIA NeMo Evaluator評估模型進行深度整合,支援大規模並行測試,確保模型在多領域的穩定性與準確性。Twinkle Eval透過隨機化選項排序來確保測試公平性,避免模型記憶固定選項順序,並引入重複測試機制,透過多次獨立推論來驗證模型的穩定性。該工具內建臺灣通識與專業能力混合題庫(TMMLU+)、臺灣法律語料測試集(tw-legal-benchmark-v1)及MMLU基準測試集,確保測試範圍的廣度與準確性。透過格式精控與錯誤修復機制,Twinkle Eval能夠有效確保答案格式的統一性,並降低測試錯誤率。
在MMLU(Massive Multitask Language Understanding)語言理解挑戰中,Formosa-1透過Twinkle Eval進行評測,獲得52分的成績,相較於原生Llama-3.2-3B-Instruct提升了6分,展現其在推理能力上的優勢。這項成果證明,透過在地語言技術的強化與精準數據訓練,臺灣AI技術已與國際標準接軌,能夠進一步爲產業應用提供更高效的解決方案。