火山引擎總裁譚待:AI對話很基礎,視覺能解鎖更多複雜任務

圖片來源:企業官方

藍鯨新聞12月19日訊(記者 朱儁熹)字節跳動再卷AI模型價格。在12月18日舉辦的火山引擎Force大會上,字節跳動正式發佈豆包視覺理解模型,輸入價格爲0.003元/千tokens。繼通用大模型後,多模態模型也由以分計價邁入以釐計價的階段。

據字節旗下雲服務平臺火山引擎介紹,豆包視覺理解模型的定價比行業價格低85%,相當於一元錢就可以處理284張720P的圖片。與國內外其他具備多模態能力的大模型相比,OpenAI GPT-4o的輸入價格爲0.0175元/千tokens,Anthropic的Claude 3.5 Sonnet定價爲0.021元/千tokens,阿里Qwen-Vl-Max爲0.02元/千tokens。

今年5月,字節跳動在正式對外發布豆包大模型時,就曾因定價比同行低99.3%而掀起波瀾。阿里雲、百度、騰訊等頭部廠商很快緊隨其後,紛紛宣佈跟進降價,燃起了國內大模型價格戰。在低價的驅動下,大模型的應用也開始加速。火山引擎數據顯示,截至目前,豆包通用模型的日均tokens使用量已超過4萬億,較首次發佈時增長了33倍。

火山引擎總裁譚待在接受媒體羣訪時提到,隨着模型成本大幅降低、效果得到提升,近半年來市場上對於模型使用的反饋纔多了起來,開始更關心模型調用量、token數。他在演講時表示,"我們希望用一個合理的、可持續的,關鍵是一步到位的價格,讓企業和開發者可以放心大膽地去使用,去做多模態。"

新推出的豆包視覺理解模型能夠精準識別視覺內容,同時具備理解和推理、視覺描述等能力。在現場示例中,該模型可以識別動物的影子輪廓、雜誌內頁的星雲、體檢報告的某項具體指標。其應用場景可能包括教育方面的判卷指導、作文批改,或旅遊、電商營銷等領域。

譚待稱,字節跳動在類o1的推理模型領域同樣有所佈局。在解答數學、物理、代碼問題上,豆包視覺理解模型已具備此類能力的雛形。完整版推理模型會在進一步完善後推出,"不會太久"。

除字節外,國內也有大模型公司在視覺方向取得新進展。12月16日,獨角獸月之暗面發佈視覺思考模型k1,主推既能通過視覺精準識別,又能分佈推理思考,在數學、物理、化學等評測中表現領先。上週,私募巨頭幻方量化旗下的AI公司DeepSeek開源全新視覺模型VL2。該公司稱,視覺是人類獲取外界信息的主要來源,在大模型方面的進展卻遠遠落後於語言模型,提升模型視覺能力的意義更在於全方位提升其感知和認知能力。

在此次火山引擎活動中,字節跳動還發布了豆包3D生成模型,多款產品迎來更新。其中,豆包通用模型pro已全面對齊GPT-4o,使用價格爲後者的1/8。音樂模型的支持時長從60秒升級至3分鐘,文生圖模型2.1版本能夠實現精準生成漢字、一句話P圖等產品化能力。字節預計,明年春季將推出具備更長視頻生成能力的豆包視頻生成模1.5版,並很快上線端到端實時語音模型。

談及對大模型未來落地場景的判斷時,譚待稱AI對話是一個通用的場景,但大模型在生產力、商業化場景中的增速並不慢。以近3個月爲例,豆包大模型在信息處理場景的調用量增長了39倍,客服與銷售場景增長16倍。"聊天功能是一個很基礎的功能,得加上深度推理、視覺理解等功能才能處理更復雜的任務。而這纔是模型之後發展空間越來越大的前提,視覺對大模型的調用量和場景會帶來很大的幫助。"譚待表示。

在譚待看來,市場仍處於早期,比起競爭會更關注用戶對複雜語言場景、視覺等方面的需求。與互聯網時代C端先於B端崛起不同,大模型的這兩個方面並不是割裂的,其背後都基於同樣的模型能力。因此,字節對大模型的判斷是To B和To C齊頭並進。

對火山引擎這一對外開放字節技術工具的雲廠商而言,AI成爲了新的增長機會。譚待表示,拉昇火山引擎市場份額的關鍵在於兩點。一是規模優勢,做到規模大、彈性高、成本便宜,企業會自然而然地遷移過來或作出選擇。而火山引擎的優勢是從初期起,就將字節旗下抖音、今日頭條的內部規模與外部規模統一起來建設。其次,要把握住AI大模型這一技術變革,通過豆包獲得更多關注和新的合作機會。

譚待並未透露雲收入受大模型帶動的具體數據,僅對使用大模型的客戶數量、使用程度給予了肯定的評價。"從雲原生到AI雲原生,火山希望做成這塊的領軍企業。"他表示。