☰

火山引擎總裁譚待：AI對話很基礎，視覺能解鎖更多複雜任務

圖片來源：企業官方

藍鯨新聞12月19日訊（記者朱儁熹）字節跳動再卷AI模型價格。在12月18日舉辦的火山引擎Force大會上，字節跳動正式發佈豆包視覺理解模型，輸入價格爲0.003元/千tokens。繼通用大模型後，多模態模型也由以分計價邁入以釐計價的階段。

據字節旗下雲服務平臺火山引擎介紹，豆包視覺理解模型的定價比行業價格低85%，相當於一元錢就可以處理284張720P的圖片。與國內外其他具備多模態能力的大模型相比，OpenAI GPT-4o的輸入價格爲0.0175元/千tokens，Anthropic的Claude 3.5 Sonnet定價爲0.021元/千tokens，阿里Qwen-Vl-Max爲0.02元/千tokens。

今年5月，字節跳動在正式對外發布豆包大模型時，就曾因定價比同行低99.3%而掀起波瀾。阿里雲、百度、騰訊等頭部廠商很快緊隨其後，紛紛宣佈跟進降價，燃起了國內大模型價格戰。在低價的驅動下，大模型的應用也開始加速。火山引擎數據顯示，截至目前，豆包通用模型的日均tokens使用量已超過4萬億，較首次發佈時增長了33倍。

火山引擎總裁譚待在接受媒體羣訪時提到，隨着模型成本大幅降低、效果得到提升，近半年來市場上對於模型使用的反饋纔多了起來，開始更關心模型調用量、token數。他在演講時表示，"我們希望用一個合理的、可持續的，關鍵是一步到位的價格，讓企業和開發者可以放心大膽地去使用，去做多模態。"

新推出的豆包視覺理解模型能夠精準識別視覺內容，同時具備理解和推理、視覺描述等能力。在現場示例中，該模型可以識別動物的影子輪廓、雜誌內頁的星雲、體檢報告的某項具體指標。其應用場景可能包括教育方面的判卷指導、作文批改，或旅遊、電商營銷等領域。

譚待稱，字節跳動在類o1的推理模型領域同樣有所佈局。在解答數學、物理、代碼問題上，豆包視覺理解模型已具備此類能力的雛形。完整版推理模型會在進一步完善後推出，"不會太久"。

除字節外，國內也有大模型公司在視覺方向取得新進展。12月16日，獨角獸月之暗面發佈視覺思考模型k1，主推既能通過視覺精準識別，又能分佈推理思考，在數學、物理、化學等評測中表現領先。上週，私募巨頭幻方量化旗下的AI公司DeepSeek開源全新視覺模型VL2。該公司稱，視覺是人類獲取外界信息的主要來源，在大模型方面的進展卻遠遠落後於語言模型，提升模型視覺能力的意義更在於全方位提升其感知和認知能力。

在此次火山引擎活動中，字節跳動還發布了豆包3D生成模型，多款產品迎來更新。其中，豆包通用模型pro已全面對齊GPT-4o，使用價格爲後者的1/8。音樂模型的支持時長從60秒升級至3分鐘，文生圖模型2.1版本能夠實現精準生成漢字、一句話P圖等產品化能力。字節預計，明年春季將推出具備更長視頻生成能力的豆包視頻生成模1.5版，並很快上線端到端實時語音模型。

談及對大模型未來落地場景的判斷時，譚待稱AI對話是一個通用的場景，但大模型在生產力、商業化場景中的增速並不慢。以近3個月爲例，豆包大模型在信息處理場景的調用量增長了39倍，客服與銷售場景增長16倍。"聊天功能是一個很基礎的功能，得加上深度推理、視覺理解等功能才能處理更復雜的任務。而這纔是模型之後發展空間越來越大的前提，視覺對大模型的調用量和場景會帶來很大的幫助。"譚待表示。

在譚待看來，市場仍處於早期，比起競爭會更關注用戶對複雜語言場景、視覺等方面的需求。與互聯網時代C端先於B端崛起不同，大模型的這兩個方面並不是割裂的，其背後都基於同樣的模型能力。因此，字節對大模型的判斷是To B和To C齊頭並進。

對火山引擎這一對外開放字節技術工具的雲廠商而言，AI成爲了新的增長機會。譚待表示，拉昇火山引擎市場份額的關鍵在於兩點。一是規模優勢，做到規模大、彈性高、成本便宜，企業會自然而然地遷移過來或作出選擇。而火山引擎的優勢是從初期起，就將字節旗下抖音、今日頭條的內部規模與外部規模統一起來建設。其次，要把握住AI大模型這一技術變革，通過豆包獲得更多關注和新的合作機會。

譚待並未透露雲收入受大模型帶動的具體數據，僅對使用大模型的客戶數量、使用程度給予了肯定的評價。"從雲原生到AI雲原生，火山希望做成這塊的領軍企業。"他表示。

火山引擎總裁譚待：AI對話很基礎，視覺能解鎖更多複雜任務

相關資訊