繼微軟、亞馬遜和華爲之後,阿里巴巴在雲上推出DeepSeek
鞭牛士報道,2月3日消息,據南華早報報道,阿里巴巴集團控股的雲計算服務部門週一在其平臺上推出了DeepSeek的人工智能(AI) 模型,此前其他大型科技公司也紛紛將這家中國初創公司的開源系統提供給客戶。
阿里雲在微信上發佈的聲明中表示:在我們的平臺上,用戶可以實現從訓練到部署再到推理的全過程,無需任何編碼。
該公司表示,該平臺簡化了模型開發流程,爲開發者和企業用戶帶來更快捷、更高效、更便捷的人工智能開發和應用體驗。
聲明稱,阿里雲用戶可以登錄其 PAI 模型庫(一組開源大型語言模型 (LLM)),在那裡他們可以選擇 DeepSeek 的 AI 模型並部署它們來支持他們自己的推理和文本生成應用程序。
該圖庫包含這家總部位於杭州的初創公司最先進的人工智能模型DeepSeek-V3和DeepSeek-R1,據稱其開發成本和計算能力僅爲主要人工智能技術公司構建 LLM 所花費成本的一小部分。它還提供這些模型的所謂精簡版本,例如 DeepSeek-R1-Distill-Qwen-7B。
LLM 是OpenAI的ChatGPT等生成式 AI 服務背後的技術。開源讓公衆可以訪問軟件程序的源代碼,從而允許第三方開發人員修改或共享其設計、修復損壞的鏈接或擴展其功能。
蒸餾是一種訓練較小模型以模仿較大、更復雜模型行爲的方法,同時顯著降低計算成本。這種做法在許多希望縮小模型規模同時爲用戶提供類似性能的公司中很常見。
阿里雲上個月發佈了可與 DeepSeek-V3 相媲美的全新 Qwen 2.5-Max 模型,這一最新舉措反映出各大科技公司爲了自身客戶的利益而支持這家初創公司的模型的趨勢日益增長。
例如,華爲技術有限公司的雲計算部門在農曆新年假期期間加班加點地與人工智能基礎設施初創公司 SiliconFlow 合作,使 DeepSeek 的 V3 和 R1 模型能夠在該公司的 Ascend 平臺上供用戶使用。
華爲雲週六在一份聲明中表示,該平臺的性能與DeepSeek 模型在全球高端圖形處理單元上的運行情況相匹配。
雲計算技術使企業能夠通過互聯網管理或分發一系列軟件和其他數字資源,就像電網中的電力一樣,是一種按需服務。這些資源存儲在數據中心內。
中國社交媒體和視頻遊戲巨頭騰訊控股也已開始在其雲計算平臺上支持 DeepSeek 的 R1 推理模型,用戶可以在該平臺上執行一個簡單的三分鐘設置過程,該公司週日表示。
頂級 AI 芯片設計師Nvidia自週四起向其 NIM 微服務的用戶開放DeepSeek-R1 ,稱該模型爲需要邏輯推理、推理、數學、編碼和語言理解的任務提供了最先進的推理能力、高推理效率以及領先的準確性。
OpenAI 投資者微軟上週早些時候在其 Azure 雲計算平臺和開發者平臺 GitHub 上推出了 R1 支持,允許客戶構建在Copilot+ 個人電腦上本地運行的 AI 應用程序。電子商務巨頭亞馬遜已允許開發人員通過亞馬遜網絡服務使用 R1 創建應用程序。
與此同時,一些專家質疑DeepSeek高性價比AI模型突破的意義是否被誇大了。
復旦大學計算機科學系教授鄭小青表示,DeepSeek 技術報告中的 V3 模型的訓練費用不包括與架構、算法或數據的前期研究和實驗相關的成本。
鄭先生在接受中國《每日經濟新聞》採訪時表示,DeepSeek 的成功源於工程優化,不會對芯片購買或出貨產生巨大影響。