微軟研究院重磅發佈:AI智能助手學會爲大模型"調配數據菜譜"
這項由英國曼徹斯特大學的楊凱來和李昊,以及微軟研究院的劉曉、紀磊、龔業雲、程鵬和楊毛共同完成的突破性研究,於2025年7月發表在arXiv預印本平臺上。想要深入瞭解這項研究的讀者,可以通過arXiv:2507.15640v1標識符找到完整論文。
說到底,訓練一個AI大模型就像培養一個博學的學生。你需要給它提供各種各樣的學習資料,就像給學生準備不同學科的教科書一樣。但這裡有個問題:當這個"學生"已經掌握了基礎知識後,你想讓它在某個專業領域變得更加精通,比如數學或編程,你該如何安排它的學習計劃呢?
傳統的做法就像讓學生突然完全專注於數學課本,結果可能是數學成績確實提高了,但之前學過的語文、歷史等知識卻開始遺忘。這在AI領域被稱爲"災難性遺忘"。爲了避免這種情況,研究人員通常會混合不同類型的數據來訓練模型,就像給學生制定一個平衡的學習計劃,既要學新的專業知識,也要複習之前的基礎課程。
然而,如何找到最佳的數據混合比例一直是個大難題。以往的方法主要靠人工經驗和啓發式規則,就像老師憑藉多年教學經驗來安排學生的學習時間分配。但每個學生的情況不同,同樣的學習計劃對不同學生的效果也會有很大差異。
正是在這樣的背景下,微軟研究院的團隊提出了一個革命性的解決方案:讓AI來學習如何爲AI調配最佳的數據配方。他們開發的"數據混合代理"(Data Mixing Agent)就像一位經驗豐富的營養師,能夠根據不同模型的"體質"和學習目標,智能地調配最適合的"營養餐"。
這個AI助手的工作原理頗爲巧妙。研究團隊首先讓它觀察了大量不同的數據混合方案和對應的訓練效果,就像讓營養師研究不同飲食搭配對不同體質人羣的影響。通過分析成千上萬個案例,這個AI助手逐漸學會了識別哪些數據組合能夠帶來最好的學習效果。
更令人印象深刻的是,這個系統具有強大的適應能力。一旦訓練完成,它就能夠應用到完全不同的場景中,爲從未見過的模型提供數據配方建議。這就像一位經驗豐富的營養師,不僅能爲運動員制定飲食計劃,也能爲學生、上班族等不同人羣提供合適的營養方案。
在實際測試中,這個AI助手的表現令人刮目相看。當研究團隊讓它幫助大模型學習數學推理能力時,使用AI助手指導的模型在保持原有綜合能力的同時,數學能力獲得了顯著提升。更重要的是,這個系統不需要針對每個新任務重新訓練,大大節省了計算資源和時間成本。
這項研究的意義遠不止於技術層面的進步。它爲AI訓練效率的提升開闢了新路徑,可能會讓未來的大模型訓練變得更加高效和經濟。對普通用戶而言,這意味着我們可能很快就能用到性能更強、訓練成本更低的AI助手。
**一、從"死記硬背"到"智能調配":AI訓練的新思路**
要理解這項研究的突破性意義,我們需要先了解AI大模型的訓練過程。每個大模型的誕生都需要消耗大量的文本數據,這些數據來自互聯網的各個角落:新聞文章、學術論文、小說故事、技術文檔等等。訓練過程就像讓一個孩子同時閱讀圖書館裡所有的書籍,通過大量閱讀來獲得理解和運用語言的能力。
不過,這種"博覽羣書"的訓練方式雖然讓模型具備了廣泛的知識基礎,但在某些專業領域的表現可能並不夠出色。比如,一個通用的語言模型可能能夠回答一般的科學問題,但在解決複雜的數學證明或編寫高質量代碼時就顯得力不從心。
爲了讓模型在特定領域更加出色,研究人員通常會進行"持續預訓練"。這個過程就像讓已經具備基礎知識的學生進入專業訓練班,專門學習某個特定領域的知識。比如,如果想讓模型在數學方面更強,就會給它喂大量的數學題目、證明過程和相關資料。
然而,這種專門化訓練帶來了一個意想不到的問題:模型在學習新知識的同時,可能會逐漸"忘記"之前學過的內容。這種現象被研究人員稱爲"災難性遺忘",就像一個人專心學習數學後,卻發現自己的語文和歷史知識變得模糊了。
爲了解決這個問題,研究人員想出了一個看似簡單的解決方案:在專業訓練期間,同時混合一些通用數據。這樣既能讓模型學習新的專業知識,又能幫它保持對原有知識的記憶。這種做法就像在專業課程中穿插一些綜合複習課,確保學生不會偏科太嚴重。
但這裡出現了一個新的挑戰:如何確定最佳的數據混合比例?是70%的專業數據配30%的通用數據?還是50%對50%?或者需要在訓練過程中動態調整這個比例?這些問題困擾了研究人員很長時間。
傳統的解決方法主要依靠人工經驗和大量的試驗。研究人員會嘗試不同的混合比例,觀察訓練效果,然後根據結果調整策略。這個過程既耗時又耗力,而且很難保證找到的就是最優解。更麻煩的是,對一個模型有效的數據配方,對另一個模型可能就不適用了。
微軟研究院的團隊意識到,這個問題的根本在於缺乏一個能夠自動化、智能化的數據混合策略。他們提出了一個大膽的想法:既然AI已經能夠在很多領域超越人類的判斷能力,爲什麼不讓AI來學習如何爲AI調配最佳的數據配方呢?
這就是"數據混合代理"概念的由來。這個AI助手的任務不是直接學習語言或知識,而是學習如何爲其他AI模型制定最佳的訓練計劃。它就像一位經驗豐富的教育顧問,能夠根據學生的特點和學習目標,制定個性化的課程安排。
**二、AI營養師的誕生:數據混合代理的工作原理**
要讓AI學會爲其他AI調配"營養餐",研究團隊面臨的第一個挑戰就是如何讓這個AI助手獲得足夠的經驗。在現實世界中,一位營養師需要通過多年的學習和實踐才能掌握不同食物搭配的效果。對於數據混合代理來說,它需要的是大量關於不同數據搭配方案及其效果的案例。
研究團隊設計了一個頗爲巧妙的訓練策略。他們首先創建了一個"數據混合軌跡"的概念,這就像記錄一個學生完整學習過程的日記。每個軌跡都詳細記錄了在不同時間點使用了什麼樣的數據組合,以及模型在每個階段的表現如何。
爲了收集足夠多樣化的訓練數據,研究團隊採用了隨機採樣的方法生成大量不同的混合軌跡。這個過程就像讓無數個"虛擬學生"嘗試不同的學習計劃,有些計劃效果很好,有些則表現平平,還有一些可能導致學習效果變差。通過觀察這些不同案例的結果,AI助手逐漸學會了識別哪些策略有效,哪些應該避免。
在生成這些訓練軌跡時,研究團隊還加入了一些啓發式的指導原則。比如,數據混合的變化不應該太突然,就像學習計劃不應該從一個極端突然跳到另一個極端。同時,隨着訓練的進行,應該逐漸向目標領域的數據傾斜,但也要保持一定的多樣性。
爲了評估每個數據混合方案的效果,研究團隊設計了一個輕量級但準確的評估環境。他們選擇了一些代表性的任務和數據集來衡量模型的表現。對於通用能力,他們使用了MMLU數據集,這個數據集包含了各種學科的問題,可以很好地反映模型的綜合知識水平。對於數學推理能力,他們選擇了MATH數據集,其中包含了各種難度的數學問題。
有了這些評估標準,研究團隊就能夠爲每個數據混合軌跡打分。就像給不同的學習計劃評分一樣,效果好的方案得高分,效果差的得低分。這些評分信息成爲了訓練AI助手的重要反饋信號。
在收集了大量的軌跡數據和對應的效果評分後,研究團隊開始訓練他們的數據混合代理。這個AI助手的架構相對簡單但高效:它基於Transformer結構,這是目前最成功的深度學習架構之一。但與普通的語言模型不同,這個AI助手的輸入是之前的數據混合歷史和模型表現,輸出則是下一步應該使用的數據混合方案。
訓練過程分爲兩個階段。第一階段採用監督學習,讓AI助手學習模仿那些效果最好的混合策略。這就像讓學生先學習優秀同學的學習方法。第二階段則使用了更高級的強化學習技術,讓AI助手通過試錯來進一步優化自己的策略。
強化學習的引入是這項研究的一個重要創新點。傳統的監督學習只能讓AI學會模仿已有的成功案例,但強化學習能讓它探索更好的策略。這就像讓學生不僅要學習別人的成功經驗,還要有勇氣嘗試新的學習方法,並從中發現更有效的途徑。
研究團隊採用了保守Q學習(Conservative Q-Learning)算法,這是一種特別適合離線數據訓練的強化學習方法。這種方法的優勢在於它能夠避免AI助手做出過於激進或不可靠的決策,確保推薦的數據混合方案都是相對安全和有效的。
**三、實戰檢驗:AI助手如何幫助大模型學數學**
爲了驗證數據混合代理的實際效果,研究團隊進行了大規模的實驗。他們選擇了數學推理作爲主要的測試領域,因爲數學能力對大語言模型來說既重要又具有挑戰性。許多日常應用都需要模型具備一定的數學推理能力,比如回答科學問題、解決實際計算問題等。
實驗設計頗爲周全。研究團隊從頭開始訓練了幾個基礎模型,這些模型具備一般的語言理解能力,但在數學方面還比較薄弱。然後,他們讓數據混合代理爲這些模型制定個性化的數學能力提升計劃。
在數據準備方面,研究團隊使用了兩類主要數據源。作爲通用數據,他們選擇了DCLM數據集,這是一個包含1000億個詞彙的大規模文本集合,涵蓋了互聯網上各種類型的文章和內容。作爲專業數學數據,他們使用了Dolmino數學數據集,其中包含了大量的數學問題、解答過程和相關理論。
實驗過程就像讓AI助手擔任多個學生的學習顧問。對於每個需要提升數學能力的模型,AI助手會根據模型當前的知識水平和表現,實時調整數據混合比例。在訓練初期,它可能會建議使用更多的通用數據來穩定訓練過程。隨着訓練的進行,它會逐漸增加數學數據的比重。到了後期,它又會重新平衡兩類數據的比例,確保模型既能掌握數學知識,又不會遺忘其他能力。
實驗結果令人印象深刻。使用AI助手指導的模型在數學推理測試中的平均成績提升了3.02%,這在大模型訓練中算是相當顯著的提升。更重要的是,這些模型在保持數學能力提升的同時,在通用語言任務上的表現也沒有明顯下降,成功避免了災難性遺忘的問題。
爲了驗證AI助手的通用性,研究團隊還進行了一系列泛化實驗。他們發現,在一個數據集上訓練的AI助手,可以成功地應用到完全不同的數據集和模型上。這就像一位經驗豐富的教育顧問,不僅能爲理科生制定學習計劃,也能爲文科生提供有效的指導。
特別有趣的是,研究團隊還測試了AI助手在完全不同領域的表現。他們將原本爲數學訓練而設計的AI助手直接應用到代碼生成任務上,結果發現它仍然能夠提供有效的數據混合建議。雖然效果不如在數學領域那麼顯著,但仍然超過了傳統方法的表現。這說明AI助手學到的不僅僅是針對特定任務的策略,而是一些更通用的數據混合原理。
在與傳統方法的對比中,AI助手的優勢更加明顯。傳統的RegMix方法需要訓練數百個小型代理模型來探索不同的數據混合策略,計算成本非常高。而數據混合代理一旦訓練完成,就可以直接應用到新的任務中,無需重新訓練,大大節省了計算資源和時間。
研究團隊還深入分析了AI助手的決策過程,發現它學到的策略與人類專家的直覺高度一致。比如,在訓練數學模型時,AI助手會優先選擇那些已被證明對數學推理有幫助的數據領域,如科學技術、健康醫療等。同時,它也會避免使用那些可能對模型性能產生負面影響的數據類型。
**四、智能策略背後的科學原理**
要深入理解數據混合代理的工作機制,我們需要從技術層面剖析它是如何做出智能決策的。這個過程就像解開一位優秀教練制定訓練計劃背後的思考邏輯。
首先,研究團隊將數據混合問題重新定義爲一個馬爾可夫決策過程。這聽起來很複雜,但實際概念相當直觀。想象你在玩一個策略遊戲,每一步的行動都會影響下一步的選擇和最終結果。在數據混合的情境下,當前的數據配方選擇會影響模型的學習效果,而模型的學習效果又會指導下一步的數據配方調整。
在這個框架中,"狀態"代表的是模型當前的訓練歷史和表現情況。就像醫生需要了解病人的病史和當前症狀才能開出合適的藥方一樣,AI助手需要知道模型之前接受了什麼樣的訓練,目前在各項任務上的表現如何。"動作"則是AI助手需要決定的下一步數據混合方案,相當於醫生要開出的處方。
爲了讓AI助手能夠準確評估不同動作的價值,研究團隊設計了一個精巧的獎勵機制。這個機制不僅考慮模型在目標任務(如數學推理)上的表現提升,也權衡了在其他任務上的表現變化。這樣做的目的是確保AI助手追求的不是單一能力的極致提升,而是整體性能的平衡優化。
在具體實現上,AI助手使用了一個相對輕量級的神經網絡架構。它只有約210萬個參數,相比動輒數十億參數的大語言模型來說非常小巧。這種設計既保證了推理速度,也降低了部署成本。在實際應用中,AI助手可以在幾秒鐘內爲大模型推薦下一階段的數據配方,完全不會影響訓練流程的效率。
訓練數據的構建是整個系統的關鍵環節。研究團隊生成了384個不同的數據混合軌跡,每個軌跡包含80個時間步,相當於記錄了數萬個不同的數據混合決策及其效果。這些軌跡涵蓋了從保守穩健到激進冒險的各種策略風格,爲AI助手提供了豐富的學習素材。
特別值得注意的是,研究團隊在軌跡生成過程中加入了一些啓發式的引導機制。這些機制基於人類專家的經驗,比如避免數據配方的劇烈變化、逐步向目標領域傾斜等。這種人機結合的方法既保證了探索的多樣性,又避免了完全隨機策略可能帶來的低效問題。
在評估環節,研究團隊選擇了一種平衡效率和準確性的方案。他們使用了相對較小的代理模型(5000萬參數)來快速驗證不同數據混合策略的效果,然後將成功的策略應用到更大的目標模型上。這種方法大大減少了實驗的計算成本,同時保證了結果的可靠性。
AI助手的學習過程採用了兩階段策略。第一階段的監督學習讓它掌握了基本的數據混合原則,就像學生先通過教科書學習理論知識。第二階段的強化學習則讓它有機會探索和優化這些原則,就像在實踐中不斷改進技能。
強化學習部分使用的保守Q學習算法是一個精心的選擇。這種算法特別適合從歷史數據中學習,避免了在線探索可能帶來的風險。在數據混合的場景下,錯誤的策略可能導致模型性能嚴重下降,因此保守穩健的學習方法比激進的探索更爲合適。
**五、實驗數據背後的精彩故事**
當我們深入挖掘實驗數據時,會發現一些非常有趣的現象,這些現象揭示了AI助手學習到的深層智慧。
在數學推理能力的提升實驗中,AI助手展現出了令人印象深刻的精細化調節能力。以LLaMA-3B-DCLM-100B模型爲例,使用AI助手指導的訓練不僅將平均數學推理能力從8.85%提升到了33.02%,更重要的是在一般能力測試中的表現也從52.8%提升到了54.04%。這意味着AI助手成功實現了"既要又要"的目標:既要提升專業能力,又要保持綜合素質。
更令人驚喜的是AI助手在不同模型上的一致性表現。無論是基於DCLM數據預訓練的模型、FineWeb-Edu數據訓練的模型,還是Nemotron數據集訓練的模型,AI助手都能提供有效的指導。這就像一位經驗豐富的教練,無論面對什麼樣背景的學生,都能因材施教制定合適的訓練方案。
在跨領域應用的測試中,AI助手的適應能力更是讓人刮目相看。當研究團隊將原本爲數學訓練設計的AI助手直接用於代碼生成任務時,它仍然能夠帶來顯著的性能提升。在LLaMA-3B-DCLM-100B模型上,代碼生成能力從11.4%提升到了28.05%,同時一般能力也有所增強。
特別有意思的是AI助手的"學習軌跡"分析。研究團隊發現,AI助手傾向於採用一種三階段的策略。在訓練初期,它會相對保守,主要使用通用數據來穩定模型狀態。進入中期後,它會大膽增加目標領域數據的比重,快速提升專業能力。到了後期,它又會重新平衡數據配比,既鞏固已獲得的專業能力,又確保不會過度遺忘其他知識。
這種策略模式與人類學習的規律高度吻合。就像我們學習一門新技能時,通常也會經歷基礎鞏固、集中突破、綜合平衡這樣的階段。AI助手能夠自主發現並運用這種規律,說明它確實學到了深層的學習原理。
在數據效率方面,AI助手的表現同樣出色。實驗顯示,使用AI助手指導的訓練平均能夠節省約10%的訓練數據量,同時達到更好的效果。這種效率提升在實際應用中意義重大,因爲高質量的訓練數據往往獲取成本很高,任何數據使用效率的提升都能直接轉化爲經濟效益。
研究團隊還進行了一個特別的"消融實驗",分別測試了AI助手的不同組成部分對最終效果的貢獻。結果發現,強化學習階段的訓練對性能提升貢獻最大。僅使用監督學習訓練的版本雖然也能超過傳統方法,但效果明顯不如完整版本。這證實了研究團隊在技術路線選擇上的正確性。
更有趣的是,當研究團隊分析AI助手的決策模式時,發現它學到的啓發式規則與人類專家的經驗高度一致。比如,在提升數學能力的訓練中,AI助手會偏好選擇科學技術、健康醫療等與數學相關性較高的領域數據,同時避免使用時尚美容等相關性較低的數據。這種選擇策略完全符合人類專家的直覺判斷。
在實際部署效率方面,AI助手展現出了優秀的實用性。整個推理過程只需要幾秒鐘,完全不會成爲大模型訓練流程的瓶頸。而傳統的RegMix方法每次應用都需要訓練數百個代理模型,計算成本高昂且耗時很長。
**六、技術突破的更深層意義**
這項研究的價值遠遠超出了技術層面的創新,它代表了AI發展思路的一個重要轉變:從讓AI學習特定技能,轉向讓AI學習如何學習。
傳統的AI開發模式主要關注如何讓模型在特定任務上表現更好。無論是圖像識別、語言翻譯還是遊戲對弈,研究人員都是直接針對任務目標設計算法和訓練策略。這種方法雖然在許多領域取得了巨大成功,但也存在一個根本性限制:每當面臨新任務時,都需要重新設計和調優整個系統。
數據混合代理的出現標誌着一種新範式的誕生:元學習(meta-learning)在大模型訓練中的應用。元學習的核心思想是"學習如何學習",即訓練一個系統來優化其他系統的學習過程。在這個框架下,AI不再只是學習任務本身,而是學習如何更好地學習任務。
這種思路的轉變帶來了多重好處。首先是通用性的大幅提升。一旦訓練完成,數據混合代理就能應用到各種不同的模型和任務中,無需重新訓練。這就像培養了一位通用的教育專家,能夠爲不同類型的學生制定個性化的學習方案。
其次是效率的顯著提升。傳統方法需要爲每個新任務重新探索最佳的訓練策略,這個過程既耗時又耗資源。而有了數據混合代理,這種探索過程大部分可以省略,直接應用已學到的優化策略即可。
更重要的是,這種方法降低了AI開發的門檻。在傳統模式下,優化大模型訓練需要大量的專業知識和經驗,只有少數專家能夠勝任。而數據混合代理將這些專業知識編碼到了系統中,讓更多的研究者和開發者能夠受益。
從更宏觀的角度看,這項研究也體現了AI向自主性和智能化程度更高的方向發展的趨勢。未來的AI系統不僅要能夠完成人類交給它的任務,更要能夠自主優化自己的學習和工作方式。數據混合代理正是朝着這個方向邁出的重要一步。
這種發展趨勢對整個AI產業的影響可能是深遠的。隨着AI系統變得更加自主和智能,AI的開發和部署成本有望顯著降低,應用門檻也會相應下降。這將推動AI技術更快地普及到各行各業,讓更多的人和組織能夠享受到AI帶來的便利。
同時,這項研究也爲解決當前AI發展中的一些重要挑戰提供了新思路。比如,大模型訓練的計算成本問題、數據使用效率問題、模型適應性問題等,都有可能通過類似的元學習方法得到緩解。
當然,這種技術進步也帶來了新的思考。如果AI能夠學習如何優化其他AI的學習過程,那麼未來是否會出現AI優化AI優化AI的多層嵌套結構?這種遞歸的優化過程又會帶來什麼樣的機遇和挑戰?這些問題值得我們持續關注和研究。
**七、實用價值與未來展望**
從實際應用的角度來看,數據混合代理的價值主要體現在三個方面:成本節約、效果提升和使用簡便。
在成本節約方面,這項技術的貢獻是顯著的。大模型的訓練成本主要來自兩個方面:計算資源消耗和數據獲取成本。AI助手通過提高數據使用效率,能夠在不增加計算量的情況下獲得更好的訓練效果,這直接降低了單位性能的訓練成本。更重要的是,由於AI助手的通用性,同一個助手可以爲多個不同的項目服務,進一步攤薄了開發成本。
在效果提升方面,實驗數據已經充分證明了AI助手的價值。無論是在數學推理還是代碼生成任務上,使用AI助手指導的模型都能獲得顯著的性能提升。這種提升不僅體現在目標任務上,在保持原有能力方面也表現出色,真正實現了"既要又要"的目標。
在使用簡便方面,AI助手的設計充分考慮了實際部署的需要。它的推理速度很快,集成到現有訓練流程中非常容易,不需要對現有系統進行大幅修改。對於AI開發團隊來說,使用AI助手就像添加了一個智能插件,能夠自動優化訓練過程。
展望未來,這項技術的發展潛力巨大。首先,隨着更多領域數據和應用場景的加入,AI助手的能力範圍將進一步擴大。目前的研究主要集中在語言模型的文本數據混合上,未來可以擴展到圖像、音頻、視頻等多模態數據的混合優化。
其次,AI助手的智能程度還有很大的提升空間。目前的系統主要基於預定義的評估指標來做決策,未來可以集成更多的上下文信息,比如具體的應用場景、用戶需求、資源約束等,做出更加個性化和精準的優化建議。
在技術架構方面,也有多個值得探索的方向。比如,可以研究分層的AI助手系統,不同層級的助手負責不同粒度的優化決策。也可以探索自適應的AI助手,能夠根據任務的進展動態調整自己的策略。
從產業應用的角度看,這項技術很快就會在實際項目中得到應用。對於大型科技公司來說,擁有專門的數據混合代理能夠顯著提升他們的AI開發效率。對於中小企業和研究機構來說,共享的數據混合代理服務可能會成爲一種新的商業模式。
當然,這項技術的推廣也面臨一些挑戰。主要的挑戰在於如何處理不同應用場景的個性化需求。雖然AI助手展現出了良好的通用性,但對於某些特殊的應用場景,可能還需要進行定製化的調優。如何在通用性和個性化之間找到平衡,將是未來研究的重要方向。
另一個挑戰是如何確保AI助手的可解釋性和可控性。雖然實驗顯示AI助手學到的策略與人類專家的直覺一致,但隨着系統複雜度的提升,理解和控制AI助手的行爲可能會變得更加困難。這對於需要高可靠性的應用場景來說是一個需要認真對待的問題。
說到底,這項研究開啓了一個新的技術方向,它的真正價值可能要在未來幾年的發展中才能完全顯現。但從目前的研究成果來看,讓AI學習如何爲AI制定最佳的訓練方案,確實是一個充滿前景的思路。隨着技術的不斷完善和應用的逐步推廣,我們有理由期待看到更加高效、智能的AI開發工具和方法的出現。
Q&A
Q1:數據混合代理是什麼?它能做什麼? A:數據混合代理是一個AI助手,專門負責爲其他AI大模型制定最佳的訓練數據配方。它能夠智能地調配不同類型數據的混合比例,讓AI模型在學習新技能(如數學、編程)時既能快速提升專業能力,又不會遺忘原有的知識,有效避免"災難性遺忘"問題。
Q2:這個AI助手會不會取代人工調優? A:部分會,但不是完全取代。AI助手主要解決的是繁重的數據配比優化工作,大大減少了人工試錯的時間和成本。但在具體應用場景的需求分析、評估標準的設定等方面,仍需要人類專家的經驗和判斷。它更像是一個智能工具,讓專家們能把精力集中在更高層次的決策上。
Q3:普通開發者如何使用這項技術?有什麼要求? A:目前這項技術還處於研究階段,尚未商業化。但從技術特點來看,未來的應用門檻不會太高。開發者只需要準備好訓練數據,定義好目標任務,AI助手就能自動給出數據混合建議。預計會以雲服務或開源工具包的形式提供,就像現在使用其他AI開發工具一樣方便。