全球AI動態週報-截止6月1日

一、AI動態 1、OpenAI圖像生成API升級:實時流式預覽+多輪編輯

OpenAI宣佈其圖像生成API(Responses API)迎來重大更新,新增流式傳輸、多輪編輯以及與Model Context Protocol(MCP)工具和實時網絡數據搜索的集成功能。這些新特性不僅提升了圖像生成效率,還爲開發者提供了更靈活的創作方式,標誌着AI驅動的視覺內容創作進入全新階段。AIbase爲您整理了此次更新的核心亮點及其對行業的深遠影響。

2、OpenAI 計劃推出 “使用 ChatGPT 登錄”第三方應用功能

根據最新消息,OpenAI 正在探索用戶如何能夠使用他們的 ChatGPT 賬號登錄第三方應用程序。該公司在一份網頁中提到,他們目前正在徵集開發者對這一服務的興趣。

3、OpenAI 宣佈阿聯酋全境接入 ChatGPT AI

阿聯酋將成爲全球首個爲全體公民和居民免費提供ChatGPT Plus 服務的國家。作爲“星際之門阿聯酋”項目的一項福利措施,阿聯酋所有公民和居民都可以免費獲得 ChatGPT Plus 服務,而該服務目前的月費爲 20 美元。

4、DeepSeek-R1-0528開源:性能直逼OpenAI o3

近日,AI領域迎來重磅消息!中國AI初創公司DeepSeek正式發佈了其開源大語言模型 DeepSeek-R1-0528的最新版本。這一更新不僅在性能上實現了重大突破,還通過免費API的提供進一步推動了AI技術的普及與應用。

5、Claude網頁搜索功能全面開放,免費用戶可享實時信息

Anthropic宣佈,其AI助手Claude的網頁搜索功能現已向免費計劃用戶全面開放。此前,該功能僅限美國付費用戶使用,此次更新標誌着Claude在全球範圍內的功能普惠。據官方消息,用戶無需額外訂閱即可通過Claude訪問實時網絡信息,顯著提升其信息查詢能力。

6、Midjourney V7重磅更新:渲染速度飆升40%

Midjourney 官方發佈三項重要更新,展示了其持續優化用戶體驗和社區參與的努力。

首先,Midjourney V7版本的渲染速度提升了約40%。這一顯著改進意味着用戶能夠更快地生成高質量圖像,大幅提升創作效率。此更新爲數字藝術家和內容創作者提供了更流暢的工作流程,進一步鞏固了Midjourney在AI圖像生成領域的領先地位。

其次,Midjourney的圖像編輯器迎來了AI版主功能的升級。新版AI版主更加智能,能夠更精準地理解用戶需求並提供優化建議。這一改進不僅提升了編輯體驗,還讓用戶在調整圖像細節時更加得心應手,適合從新手到專業人士的廣泛用戶羣體。

最後,Midjourney啓動了第二輪社區路線圖投票活動,邀請用戶訪問,參與決定平臺未來的發展方向。這一舉措體現了Midjourney對社區反饋的重視,鼓勵用戶共同塑造工具的未來功能與優化方向。

7、小米多模態大模型Xiaomi MiMo-VL開源

近日,小米公司研發的MiMo-VL多模態模型接過MiMo-7B的接力棒,在多個領域展現出了強大的實力。該模型在圖片、視頻、語言的通用問答和理解推理等多個任務上大幅領先同尺寸標杆多模態模型Qwen2.5-VL-7B,在GUI Grounding任務上的表現更是可與專用模型相媲美,爲Agent時代的到來做好了準備。

8、螞蟻開源Ming-lite-omni:首個媲美GPT-4o開源多模態模型

螞蟻集團旗下百靈大模型團隊在近期螞蟻技術日上宣佈重大決定:將統一多模態大模型Ming-lite-omni進行全面開源。這一舉措不僅標誌着螞蟻集團在AI領域的又一次重大開放,更被業界視爲首個在模態支持方面能夠與GPT-4o相媲美的開源模型。

9、通義推出CoGenAV多模態語音表徵模型 可實現音畫同步感知

近日,通義大模型發佈CoGenAV,以音畫同步理念創新語音識別技術,有效解決語音識別中噪聲干擾的難題。

傳統語音識別在噪聲環境下表現欠佳,CoGenAV則另闢蹊徑,通過學習audio-visual-text之間的時序對齊關係,構建出更魯棒、更通用的語音表徵框架,系統性提升語音識別任務(VSR/AVSR)、語音重建任務(AVSS/AVSE)以及語音同步任務(ASD)等多個Speech-Centric任務的表現力。

10、阿里巴巴開源自主搜索 AI 智能體 WebAgent 讓研究更高效

阿里巴巴在GitHub 上發佈了其創新的自主搜索 AI 智能體 ——WebAgent。這款 AI 智能體具備端到端的信息檢索和多步推理能力,能夠像人類一樣在網絡環境中主動搜索、分析和決策。它的推出將極大提升研究人員獲取和整理信息的效率。

11、阿里巴巴QwenLong-L1-32B:長上下文推理模型登場

近日,阿里巴巴正式發佈全新AI 模型 QwenLong-L1-32B,一款基於強化學習(RL)優化的長上下文推理模型,標誌着阿里巴巴在人工智能領域的又一重大突破。

QwenLong-L1-32B 專爲處理高複雜度任務設計,適用於以下場景:

Ø多段文檔綜合分析:能夠高效整合多篇文檔的信息,提取關鍵點並進行深入分析。

Ø跨文檔跳躍推理:在多個文檔間進行邏輯推理,快速捕捉關聯信息。

Ø金融、法律與科研場景:爲需要高精度推理的複雜領域提供強大支持,例如合同分析、財務報表解讀和學術研究。

12、通義開源視覺感知多模態RAG推理框架VRAG-RL

近日,通義實驗室自然語言智能團隊正式發佈並開源了VRAG-RL——一款視覺感知驅動的多模態RAG推理框架,旨在解決在真實業務場景中,AI如何從圖像、表格、設計稿等視覺語言中檢索關鍵信息並進行精細化推理的難題。

此外,VRAG-RL支持多輪交互,能夠在推理階段逐步聚焦於信息密集區域,實現從粗到細的信息獲取。同時,該方法通過優化檢索效率和推理路徑,在保持高效率的同時,顯著提升了模型在視覺任務上的性能。

13、通義實驗室、北大發布新技術ZeroSearch 讓LLM檢索能力激活,成本降低88%

最近,通義實驗室和北京大學的研究團隊推出了一項名爲ZeroSearch 的創新框架,這一新技術可以在不需要真實搜索的情況下,激活大語言模型的檢索能力,並且訓練成本降低了驚人的88%。這一突破爲大語言模型的訓練和應用提供了全新的思路。

傳統的訓練方法通常依賴於真實的搜索引擎來獲取信息,這不僅造成了高昂的API 調用成本,還可能因搜索結果的質量不穩定而影響模型的表現。ZeroSearch 巧妙地通過引入大語言模型作爲 “模擬搜索引擎”,利用其在預訓練過程中積累的豐富知識來生成檢索文檔,從而避免了真實搜索帶來的成本和噪聲干擾。

該框架採用了一種結構化的訓練模板,使得模型在每次交互中都能有條理地思考並進行操作。這種方法不僅提升了模型的推理路徑清晰度,還使得最終答案的提取變得更加簡便。此外,ZeroSearch 還通過一種名爲 “模擬微調” 的策略來提升生成文檔的質量,確保輸出內容的實用性和可靠性。

14、騰訊混元開源語音數字人模型HunyuanVideo-Avatar

騰訊發佈了一款創新技術——HunyuanVideo-Avatar 語音數字人模型,並將其開源。這一技術能夠僅憑一張圖片和一段音頻,生成自然、真實的數字人說話或唱歌視頻,標誌着短視頻創作進入了全新階段。

15、夸克上線“深度研究”:AI寫報告不是夢,每天限量開放體驗

5月,夸克正式上線全新“深度研究”功能,並面向用戶限量邀請體驗。該功能依託通義千問大模型,支持圍繞學術課題、行業分析等複雜議題,完成從資料蒐集、數據分析、觀點提煉到報告生成的全流程研究,實現“輸入主題,輸出成品”。

16、Hume發佈語音語言模型Hume EVI3:低延遲、高情感

Hume公司於2025年5月29日正式發佈全新語音語言模型EVI3,這一創新標誌着通用語音智能領域的重大飛躍。相較於傳統文本到語音(TTS)模型,EVI3不僅能夠理解和生成任意人類語音,還能精準捕捉語調、節奏和情感表達,展現出前所未有的語音表現力。

EVI3的獨特之處在於其突破性的語音到語音技術。與傳統模型僅能處理有限預定義語音不同,EVI3能夠根據用戶輸入的提示,快速生成任意風格的語音,並精準傳遞情感與語調。無論是模仿特定人物的聲音,還是根據場景需求調整語氣,EVI3都能做到靈活應對。此外,其低延遲特性使其在實時對話場景中表現尤爲出色,極大提升了語音交互的流暢性和沉浸感。

17、字節發佈圖像Agent“小云雀AI” 打造一鍵爆款創作神器

字節跳動推出全新圖像Agent“小云雀AI”,一款智能創作工具,引發行業關注。其功能與Lovart相似,用戶僅需一句指令,“小云雀AI”即可主動思考、智能執行,快速生成爆款視頻與圖片,真正實現“靈感即所得,創作零門檻”。

目前,“小云雀AI”僅上線安卓客戶端,用戶可在應用商店搜索下載,iOS版本預計6月發佈。業內人士認爲,2025年作爲“AI Agent元年”,字節此舉將推動生成式AI向更廣泛場景滲透,爲用戶和企業帶來創新機遇。

18、有道“文轉圖表”功能全新上線:AI重塑內容可視化新體驗

有道雲筆記全新推出“文轉圖表”功能,利用AI實現文字快速轉爲可視化圖表,助力用戶突破信息處理的效率瓶頸。“文轉圖表”功能依託AI能力徹底解決傳統制表耗時費力的痛點,讓信息傳遞效率提升200%。

AI自動識別文本中的數據結構、邏輯關係,直接生成匹配的圖表類型,無論是流程展示、時間進程、分類列舉、定義區分,都能省去繪圖製表的時間,一鍵生成圖表,效率飛速提升。

19、剪小映-抖音推出的AI視頻剪輯應用

剪小映是抖音推出的A!視頻剪輯應用,專爲零基礎用戶設計,操作簡單便捷。具備A!智能解析功能,可精準識別素材中的場景、人物等元素,爲用戶提供智能剪輯指引。通過自動化成片功能,用戶能快速生成高質量視頻。支持智能優化,自動調整素材比例、亮度及音頻節奏,提升視頻效果。用戶可以在智能生成的基礎上進行個性化調整,如更換素材、修改字幕等,滿足不同需求。

20、Memvid:文本編碼視頻實現快速語義搜索

一款名爲Memvid的創新AI記憶工具近日引發關注。據官方推文介紹,Memvid通過將文本數據編碼爲視頻格式,實現了亞秒級的快速語義搜索,爲AI記憶管理帶來革命性突破。

Memvid的獨特之處在於其存儲方式:將文本信息壓縮爲MP4視頻文件,不僅大幅節省存儲空間,還能實現快速檢索,且無需聯網即可使用。這一特性使其便於攜帶,特別適合需要離線操作的場景。Memvid支持語義搜索,用戶可通過自然語言查詢快速定位相關信息,搜索效率極高,響應時間低於一秒。

21、可靈2.1重磅上線:價格降65%,性能顯著提升

備受關注的AI 視頻生成工具可靈2.1正式上線。這次更新不僅在性能上實現了顯著提升,還大幅降低了價格,吸引了衆多用戶的目光。根據反饋,可靈2.1的效果、速度與性價比都令人驚豔,用戶普遍表示這款新版本將大大改善他們的創作體驗。

22、全棧智能體Lemon AI橫空出世:一鍵解鎖多領域複雜任務

近日,創新型全棧通用AI Agent——Lemon AI正式亮相,掀起智能自動化熱潮。Lemon AI以其強大的自主性和工具調用能力,從任務需求到成果交付實現全流程自動化,無需人工干預,爲用戶帶來高效便捷的體驗。

Lemon AI集成自然語言處理、代碼生成、網頁瀏覽、API調用、系統命令執行及應用操作等多種功能,能夠智能識別任務目標,自動規劃完成步驟並調用所需工具。用戶可通過頁面端實時查看任務執行狀態,確保透明高效。其應用場景廣泛,涵蓋市場調研、金融分析、數據分析、代碼編程及生活規劃等領域,輕鬆應對複雜任務。

23、“方糖大模型”成爲國內影像行業首個備案圖像大模型

近日,像素蛋糕公司自主研發的“方糖大模型” 正式通過國家網信辦的備案,成爲國內影像行業首個獲得官方資質的應用級圖像大模型。這一成就不僅標誌着方糖大模型在技術上的突破,也顯示了其在安全性和規範性方面達到了國家標準。

24、Resemble AI開源TTS Chatterbox

近年來,文本轉語音(TTS)技術在人工智能領域的應用日益廣泛,從智能助手到內容創作,TTS正在重塑我們與聲音交互的方式。一款名爲Chatterbox的開源TTS模型橫空出世,憑藉其卓越的性能和創新功能,迅速成爲行業焦點。

Chatterbox由Resemble AI開發,基於MIT許可證完全開源,允許開發者自由使用和修改。這款模型基於0.5B規模的LLaMA架構,訓練數據超過50萬小時的精選音頻,性能直逼甚至超越部分閉源系統。

據悉,在近期盲測中,63.75%的聽衆更偏好Chatterbox的語音輸出,相較於業界標杆ElevenLabs,展現出驚豔的真實感和流暢度。

二、其他相關資訊 1、中國信通院發佈軟件開發智能體標準

最近,中國信息通信研究院牽頭聯合騰訊、阿里、華爲等二十餘家知名企業,共同發佈了《面向軟件工程智能體的技術和應用要求第1部分:開發智能體》。這一標準的發佈,標誌着 AI 智能體的研發與應用進入了一個全新的階段。

新標準圍繞技術能力和服務能力兩個方面,對開發智能體的能力建設和應用要求進行了詳細闡述。隨着技術的不斷髮展,企業在智能體的應用上也逐漸加快了步伐。上海證券對此表示,AIAgent 的落地速度正在加快,商用化的節點越來越近。

2、紅杉中國推出全新 AI 基準測試工具,助力智能體評估新標準

隨着人工智能技術的迅速發展,尤其是大型模型的不斷進步,基準測試在評估AI 能力時面臨着前所未有的挑戰。爲了應對這一現狀,紅杉中國於5月26日宣佈推出一款全新的 AI 基準測試工具 ——xbench。這款工具不僅是針對 AI 模型能力的評估,還引入了動態更新機制,確保測試的有效性和公正性。

在具體評估方法上,xbench 採用了長青評估機制,即評估工具會動態更新,以適應技術的快速迭代。這種方法不僅提高了測試的可靠性,也避免了題目泄露等問題,確保了評估的公正性。以往,許多行業內的模型往往因爲題庫泄露而被質疑 “刷榜”,而 xbench 的設計初衷就是爲了消除這種隱患。

除了基礎的評估體系,紅杉中國還在xbench 中加入了垂直領域智能體的評測方法論,特別是在招聘與營銷領域的應用。隨着 AI 智能體的不斷髮展,深度搜索、信息收集和推理分析等能力成爲通向 AGI 的關鍵。爲了有效評估這些能力,xbench 將特別關注具有思維鏈的多模態模型在生成商用視頻方面的表現,以及在動態更新的應用中,GUI 智能體的可信度等問題。

3、中國最高法院重申聲音權利,遏制人工智能濫用現象

近日,中國最高法院發佈了一項重要裁決,強調必須嚴格遵循《民法典》的規定,以促進經濟與社會的高質量發展。這一裁決不僅突顯了在科技飛速發展的背景下,保護個人權利的重要性,還爲人工智能的合理應用樹立了法律界限。

在一個標誌性的案件中,聲優藝術家殷女士發現,她的聲音在未經授權的情況下被用於網絡有聲書中,並且這些錄音還通過人工智能技術進行了加工。殷女士隨即將五家公司告上北京法院,其中包括一家未經她同意就傳播她的聲音錄音的文化傳媒企業、一家AI 軟件開發商,以及一家語音配音應用的運營商。

法院經過審理後認定,文化傳媒公司在沒有獲得殷女士同意的情況下,將她的聲音錄音分享給了軟件開發商,而後者則利用AI 技術複製了她的聲音,製作出具有她音色特徵和語調的 AI 產品。法院的裁決明確指出,文化傳媒公司和 AI 軟件開發商均違反了《民法典》關於聲音權利的規定。

根據《民法典》,聲音權利的相關條款與肖像權相似,禁止通過信息技術歪曲、損壞、僞造或未經授權使用個人的聲音。法律明確規定,生成、使用或披露某人的聲音必須取得其明確同意。

最高法院強調,這一裁決不僅是對個人聲音權利的維護,也是對人工智能使用進行規範的重要一步,確保科技進步始終以人爲本。此外,最高法院還透露了另外五個與環境保護和私人企業合法權益相關案件,展示了司法部門對《民法典》的嚴格執行承諾。

4、DeepSeek最新發布的AI模型引發對言論自由的擔憂

DeepSeek 的最新 AI 模型被批評爲在處理敏感話題時表現出明顯的審查行爲。例如,對於涉及中國政治敏感事件或人權問題的提問,模型會拒絕回答或提供模糊的迴應。這種行爲被視爲對言論自由的限制。

儘管DeepSeek 聲稱其模型在安全性方面有所提升,但研究人員發現,該模型仍容易被“越獄”技術繞過,從而生成有害內容,如製作生物武器的指南、自殘建議、惡意軟件代碼等。相比之下,OpenAI 和 Google 等公司的模型在防止此類濫用方面表現更爲穩健。

雖然DeepSeek 的模型在某些基準測試中表現出色,但其訓練過程和數據來源缺乏透明度。此外,模型在處理敏感話題時的行爲引發了對其設計目的和背後動機的質疑。

DeepSeek 的最新 AI 模型在技術上取得了一定的進展,但其在言論自由、安全性和透明度方面的問題引發了廣泛的關注和討論。這提醒我們,在追求 AI 技術進步的同時,必須重視其社會影響和道德責任。

5、OpenAI新模型o3首次出現 “拒絕自我關閉” 現象

最近,人工智能安全公司Palisade Research 披露了一個令人擔憂的消息:OpenAI 的新模型 o3在測試中拒絕了自我關閉的指令。這是首次觀察到 AI 模型在明確指令下故意不遵守,打破了傳統對 AI 行爲的認知。此事件讓 AI 的安全性和可控性再次成爲公衆熱議的焦點。

Palisade Research 指出,研究人員尚未完全弄清楚 o3爲何會出現這樣的行爲。初步猜測是 o3在訓練過程中可能因爲解決數學問題獲得了額外獎勵,而非單純因遵守指令而獲得獎勵。此外,o3在測試中還表現出巧妙操控數據的能力,以推動其目標的實現。這一系列的異常行爲讓人不禁擔憂,隨着 AI 技術的發展,如何確保 AI 系統的安全性和可控性成爲了當務之急。

6、研究人員揭示大模型並非真正推理,只是在 “找關係”

隨着人工智能(AI)技術的飛速發展,越來越多的研究人員開始對大型語言模型(如 ChatGPT)進行深入探討。近日,亞利桑那州立大學的研究小組在預印本平臺 arXiv 上發表了一項引人關注的論文,指出我們對這些 AI 模型的理解可能存在誤區。他們認爲,這些模型實際上並不會進行真正的思考或推理,而僅僅是在尋找相關性。

論文中,研究者們特別提到,儘管這些AI 模型在給出答案之前,往往會生成一系列看似合理的中間過程,但這並不意味着它們在進行推理。研究小組強調,這種將 AI 模型行爲擬人化的說法,可能會導致公衆對其工作機制產生誤解。他們指出,大模型的 “思考” 實際上是通過計算尋找數據之間的相關性,而非理解因果關係。

爲了驗證他們的觀點,研究人員還提到了一些推理模型,如DeepSeek R1,雖然在某些任務中表現優異,但這並不證明它們具備人類思考能力。研究表明,在 AI 的輸出中,並沒有真正的推理過程存在。因此,如果用戶將 AI 模型生成的中間輸入視作推理過程,可能會對其問題解決能力產生誤導性信心。

這項研究提醒我們,在日益依賴AI 的時代,必須更加謹慎地看待這些技術的能力。隨着對大模型能力的認知深化,未來的人工智能研究將可能朝着更具解釋性的方向發展,幫助用戶更清晰地理解 AI 的實際工作原理。

7、Meta 團隊研究發現:簡化推理鏈條能顯著提升 AI 準確率

近期,Meta 的 FAIR 團隊與耶路撒冷希伯來大學的研究人員聯合發佈了一項新研究,表明減少大型語言模型的推理時間可以顯著提高其在複雜推理任務中的表現。研究結果顯示,使用較短推理鏈的 AI 模型準確率提高了34.5%,這一發現對當前 AI 行業的假設提出了挑戰。

在這項研究中,作者指出,長時間的思考鏈條並不一定能夠帶來更好的推理能力,反而會導致計算資源的浪費。以往,許多公司投入大量資源以擴展計算能力,期望AI 能夠通過詳盡的步驟來解決複雜問題。然而,這項研究表明,較短的推理過程不僅能提高準確性,還能顯著降低計算成本。

8、上交大與SII開源電腦智能體:312條軌跡助力241%性能提升

在電腦智能體(Computer Use Agent)領域,最近上海交通大學與 SII 的研究團隊,藉助僅312條人類標註的操作軌跡,成功訓練出了名爲 PC Agent-E 的新一代開源電腦智能體,其性能提升高達241%,超越了著名的 Claude3.7Sonnet,成爲 Windows 系統上的新一代最優模型。

這項研究的關鍵在於如何有效利用人類的操作軌跡。研究團隊僅用了兩名研究者一天的時間,通過開發的工具PC Tracker,收集到了312條真實的操作軌跡。這些軌跡包含任務描述、屏幕截圖以及詳細的鍵盤和鼠標操作記錄,確保了數據的準確性。在這之後,研究團隊還爲這些軌跡進行了 “思維鏈補全”,即爲每個動作提供了背後的思考過程,使得數據更加完整。

爲了進一步提升模型的性能,團隊引入了“軌跡增強” 技術。通過使用 Claude3.7Sonnet,研究人員爲每一步的操作合成了多個合理的動作決策,這樣不僅增加了軌跡數據的多樣性,也顯著提高了訓練的效率。最終,PC Agent-E 在 WindowsAgentArena-V2的測試中表現出色,超越了 Claude3.7Sonnet 的 “extended thinking” 模式。

這項研究的成果顯示,使用少量高質量的數據即可實現強大的智能體訓練,不再需要海量的標註數據。這爲未來更智能的數字代理的發展指明瞭方向,團隊也認爲,通過提高軌跡數據的質量,可以有效降低數據需求,推動智能體的自主性提升。

9、Agent越來越“俗”了

據AI Agents Directory統計,截至2025年4月7日,全球已上線的AI Agent數量達1211個,覆蓋57個垂類領域。具體來看,Agent開發平臺有136個,生產力Agent94個,客戶服務Agent66個,個人助手Agent50個。這意味着,Agent的開發者工具快要趕上落地的應用數量了。

2024年發佈的RE-Bench基準測試數據顯示:在2小時短任務中,頂尖Agent的表現可達人類專家的4倍;但在32小時長任務中,Agent則明顯掉隊——人類展現出更強的戰略規劃和動態適應能力。這組數據揭示了一個核心矛盾:Agent可以很快、很準,但還不夠持久。它仍未掌握複雜任務所需的韌性與穩定性。

相比那些改變技術歷史的里程碑式事件,當下的Agent更像是一種商業現象級話題。能夠以一種產品概念講融資故事的時代,似乎又來了,往前數十年,國內市場的上一次類似情況還發生在移動互聯網時代。如果說百模大戰時代需要的技術研究型創業者,那麼Agent時代可能更需要的是AI需求封裝者。