小米聲音理解大模型MiDashengLM-7B 全面開源

小米自研聲音理解大模型 MiDashengLM-7B 8月4日正式發佈,並全量開源。(圖/取自小米官網)

《IT之家》4日消息,小米自研聲音理解大模型「MiDashengLM-7B」今天正式發佈,並全量開源。小米表示,,MiDashengLM-7B速度精度上實現雙突破:單樣本首Token延遲僅爲同類模型1/4、同顯存下併發超20倍,在22個公開評測集上刷新多模態大模型最佳成績(SOTA)。

報導稱,MiDashengLM-7B基於Xiaomi Dasheng作爲音訊編碼器和Qwen2.5-Omni-7B Thinker作爲自迴歸解碼器,透過創新的通用音訊描述訓練策略,實現對語音、環境聲音和音樂的統一理解。

2024年,小米發佈的Xiaomi Dasheng聲音基座模型,據稱是國際上首次突破AudioSet 50+ mAP,在HEAR Benchmark環境聲、語音、音樂三大領域建立領先優勢並保持至今。

Xiaomi Dasheng在小米的智慧家庭和汽車座艙等場景有超過30個落地應用。業界首發的車外喚醒防禦、手機音箱全天候監控異常聲音、「打個響指」環境音關聯IoT控制能力,以及小米YU7上搭載的增強哨兵模式劃車檢測等,背後都有Xiaomi Dasheng作爲核心演算法的賦能。

MiDashengLM的訓練資料由100%的公開資料構成,模型以寬鬆的Apache License 2.0發佈,同時支援學術和商業應用。

小米表示,不同於Qwen2.5-Omni等未公開訓練資料細節的模型,MiDashengLM完整公開了77個資料來源的詳細配比,技術報告中詳細介紹了從音訊編碼器預訓練到指令微調的全流程。

作爲小米「人車家全生態」策略的關鍵技術,MiDashengLM透過統一理解語音、環境聲與音樂的跨領域能力,不僅能聽懂用戶周圍發生了什麼事情,還能分析發現這些事情的隱藏含義,提高用戶場景理解的泛化性。

基於MiDashengLM的模型透過自然語言和用戶交互,爲用戶提更人性化的溝通和反饋,例如在用戶練習唱歌或練習外語時提供發音回饋並制定針對性提升方案,又例如在用戶駕駛車輛時實時對用戶關於環境聲音的提問做出解答。

MiDashengLM以Xiaomi Dasheng音訊編碼器爲核心元件,是Xiaomi Dasheng系列模型的重要升級。在目前版本的基礎上,小米已着手對該模型做運算效率的進一步升級,尋求終端設備上可離線部署,並完善基於使用者自然語言提示的聲音編輯等更全面的功能。