AI早知道|Kimi開源音頻基礎模型;階躍星辰開源圖像編輯模型
1.Moonshot AI最近推出的Kimi-Audio是一款開源音頻基礎模型,旨在推動音頻理解、生成和交互技術的發展。該模型基於Qwen2.5-7B架構,結合Whisper技術,支持多種音頻任務,如語音識別和音頻問答。
2.百度發佈文心快碼Coding智能體Zulu,是國內首個多模態Al程序員。Zulu支持多模態交互,可上傳圖片一鍵生成代碼,具備自動搭建開發環境、啓動服務等功能,適配主流IDE,能實現代碼效果實時預覽。
3.階躍星辰正式開源圖像編輯大模型Step1X-Edit,總參數量達19B,融合了7B多模態大語言模型(MLLM)和12B擴散模型(DiT),具備語義精準解析、身份一致性保持和高精度區域級控制三大核心能力。
4.清華系智譜與生數科技宣佈達成戰略合作,聚焦大模型聯合創新。雙方將在聯合研發、產品聯動、解決方案整合及行業協同等多方面合作,重點聚焦政企服務、泛互聯網、文化旅遊等垂直領域。
5.阿里巴巴旗下的夸克AI超級框推出了“拍照問夸克”功能,這一創新利用視覺理解和推理模型,能夠快速識別和理解用戶在現實生活中遇到的各種問題。
6.LemonAI 最近推出了其創新產品 Slice Live,這是一款全球首創的實時音視頻 AI 模型。用戶只需上傳一張照片,即可與虛擬角色進行實時視頻通話。
想要了解更多AI 行業資訊以及ChatGPT和AI繪畫實戰案例,歡迎加入我們的「互聯網AI早讀課」知識星球!
在這個星球,你可以更加系統的學習AIGC相關知識:
1. ChatGPT和AI繪畫(Midjourney+Stable Diffusion+Photoshop beta)基礎+進階全攻略;
2. ChatGPT和AI繪畫最直接變現案例;
3. 與200+行業先行者鏈接,積累你的專屬人脈資源;
4. 社羣保姆級一站式服務,包教包會包討論;
現在加入,立享99元早鳥價優惠,星球用戶每漲100人,價格上調100元,直到恢復499元原價!
這個風口抓不抓的住,就看你願不願意邁出第一步了!
越晚加入成本越貴!最後兩個名額又要漲價了!