☰

豆包實時語音大模型和大模型1.5線，美政府聯手科技巨頭啓動“星際之門”

華鑫證券近日發佈計算機行業週報：豆包實時語音大模型和大模型1.5線，美政府聯手科技巨頭啓動“星際之門”。

以下爲研究報告摘要：

算力：恆源雲13核+128G算力緊張

本週恆源雲13核+128G算力緊張。具體來看，顯卡配置爲A100-40G中，騰訊雲16核+96G價格爲28.64元/時，阿里雲12核+94GiB價格爲31.58元/時；顯卡配置爲A100-80G中，恆源雲13核+128G算力緊張;阿里雲16核+125GiB價格爲34.74元/時；顯卡配置爲A800-80G中，恆源雲16+256G價格爲9.00元/時。

AI應用：豆包團隊發佈最新實時語音大模型和大模型1.5Pro版本

1月20日，字節跳動旗下的豆包團隊正式發佈了豆包實時語音大模型，這是一款語音理解和生成一體化的模型，實現了端到端的語音對話。與傳統的級聯模式相比，該模型在語音表現力、控制力、情緒承接方面表現出色，具備低時延、對話中可隨時打斷等特性。這些特性使得模型在實際應用中更加靈活和高效，能夠更好地滿足用戶在不同場景下的需求。在架構方面，豆包團隊研發了端到端的框架，深度融合語音與文本模態，面向語音生成和理解進行統一聯合建模，實現多模態輸入和輸出效果。模型支持多種模式，包括語音到語音（S2S）、語音到文本（S2T）、文本到語音（T2S）、文本到文本（T2T）等。在聲音控制方面，模型不僅能依照基礎指令輸出，還可遵循複雜的指令，展現出較強的聲音控制能力。在聲音扮演方面，模型能夠模仿多種方言和口音。

此外，豆包實時語音大模型還支持實時聯網功能，能夠根據問題動態獲取最新信息，確保問題回答的時效性。從測評結果來看，豆包實時語音大模型在情緒理解和情感表達方面具有顯著優勢。在整體滿意度方面，豆包實時語音大模型的評分爲4.36，而GPT-4o的評分爲3.18。目前，豆包App全新實時語音通話功能已全量上線。

2025年1月22日豆包大模型1.5Pro版本正式發佈。模型使用MoE架構，並通過訓練-推理一體化設計，追求模型性能和推理性能的平衡。Doubao-1.5-pro僅用較小激活參數，即可超過一流超大稠密預訓練模型的性能，並在多個評測基準上取得優異成績。具體亮點如下：

1）綜合能力領先：豆包大模型1.5Pro在知識(MMLU_PRO、GPQA)、代碼(McEval、FullStackBench)、推理(DROP)、中文(CMMLU、C-Eval)等多項公開測評基準上成績全球領先。

2）高效模型結構和超低成本：豆包大模型1.5Pro使用較小的激活參數進行預訓練，訓練成本極低的同時保持性能優越，採用大規模稀疏MoE架構，等效7倍激活參數的Dense模型性能，遠超業內MoE架構約3倍槓桿的常規效率；憑藉自研服務器集羣方案，靈活支持低成本芯片，硬件成本比行業方案大幅度降低；自研網卡和網絡協議，顯著優化小包通訊效率，算子層計算與通信的高效交疊，保證了多機分佈式推理的穩定和高效；通過精細量化和PD分離等方案，靈活使用算力和多任務混合調度，實現更高效算力利用。

3）多模態能力全面提升：視覺方面，相比於上一版本，Doubao-1.5-pro在多模態數據合成、動態分辨率、多模態對齊、混合訓練上進行了全面的技術提升，進一步增強了模型在視覺推理、文字文檔識別、細粒度信息理解、指令遵循等方面的能力，並讓模型的回覆模式變得更加精簡、友好；在語音多模態上，提出新的Speech2Speech的端到端框架，不僅通過原生方法將語音和文本模態進行深度融合，同時實現了語音對話中真正意義上的語音理解生成端到端，相比傳統的ASR+LLM+TTS的級聯方式，在對話效果上有質的飛躍。4）更強的深度思考能力：基於豆包1.5基座模型，通過RL算法的突破和工程優化，在未使用其他模型數據的情況下，研發豆包深度思考模型。階段性進展Doubao-1.5-Pro-AS1-Preview在AIME上已取得了業內領先的成績。

值得關注的是，豆包在所有模型訓練過程中未使用任何其他模型生成的數據。豆包大模型構建自主的數據生產體系，以標註團隊與模型self play技術相結合，高效優化數據質量，提升數據標註多樣性和難度，確保數據來源的獨立性和可靠性。

AI融資動向:美國政府與OpenAI、軟銀、甲骨文聯合啓動“星際之門”項目，四年內計劃投資額達5000億美元

美國政府與OpenAI、軟銀、甲骨文聯合啓動“星際之門”項目，四年內計劃投資額達5000億美元。北京時間1月22日，美國新任總統特朗普宣佈，將與OpenAI、甲骨文和軟銀合作，共同投資5000億美元用於支持美國的人工智能基礎設施建設，該項目名爲“星際之門”（Stargate）。按照計劃，“星際之門”項目參與各方將成立合資公司，初期投資爲1000億美元，未來四年內總投資額可能高達5000億美元。甲骨文聯合創始人拉里·埃裡森表示，首個合作項目將安排在美國得克薩斯州建設數據中心，相關工作已經啓動。OpenAI表示，該項目不僅將支持美國的再工業化，還將爲保護美國及其盟友的國家安全提供戰略支持。根據OpenAI的聲明，孫正義將擔任合資公司的董事會主席，軟銀和OpenAI是該項目的主要合作伙伴，軟銀負責資金支持，OpenAI負責運營管理。而半導體公司Arm、微軟、英偉達、甲骨文以及OpenAI將成爲關鍵技術合作夥伴。

投資建議

1月27日，蘋果App Store中國區免費榜顯示，DeepSeek成爲中國區第一，成爲國產大模型彎道超車的里程碑事件。DeepSeek R1沒有使用業內普遍使用的監督微調（SFT）訓練範式，而是直接通過強化學習讓模型自主進化出複雜的推理能力，包括反思和長鏈思考等能力。與OpenAI的o1相比，DeepSeek模型的百萬token輸入成本從15美元銳減到0.55美元，輸出成本則從60美元降低到2美元。開源疊加高性價比的雙重屬性，DeepSeek將推動AI發展加速從訓練進入推理時代，進一步促進AI軟硬件發展。

我們堅定持續看好AI軟硬件機會，建議關注以AI爲核心的龍頭廠商科大訊飛（002230.SZ）、芯片技術有望創新突破的寒武紀（688256.SH）、高速通信連接器業務或顯著受益於GB200放量的鼎通科技（688668.SH）、已與Rokid等多家知名AI眼鏡廠商建立緊密合作的億道信息（001314.SZ）等。

風險提示

1）AI底層技術迭代速度不及預期。2）政策監管及版權風險。3）AI應用落地效果不及預期。4）推薦公司業績不及預期風險。（華鑫證券寶幼琛）

免責聲明：本文內容與數據僅供參考，不構成投資建議，使用前請覈實。據此操作，風險自擔。

豆包實時語音大模型和大模型1.5線，美政府聯手科技巨頭啓動“星際之門”

相關資訊