☰

ChatGPT 4o圖像生成功能重大升級，免費開放基礎功能使用

當地時間3月25日，美國開放人工智能研究中心（OpenAI）宣佈推出4o圖像生成功能，OpenAI的CEO奧特曼稱GPT-4o爲“有史以來最好的模型”，並宣佈將全面免費開放基礎功能，API調用價格下調50%。

奧特曼當地時間週二直播活動中宣佈，正式推出基於 GPT-4o 模型的原生圖像生成功能，不再調用獨立的 DALL-E 文生圖模型。利用GPT-4o的多模態能力，ChatGPT在圖像生成時能更加精確地遵循指示、更精確地渲染圖像上的文字，同時支持多輪迭代優化圖像時保持角色形象一致。

從官方給出的示例來看，不管是生成黑板板書，還是印刷體、展示科學常識的繪圖，ChatGPT在生成圖像文字領域終於從完全不能用，達到接近商用的程度。

不過，OpenAI承認新圖像生成器還存在侷限性，會受到模型幻覺影響，在密集文字和非拉丁語文字圖像生成方面易出問題。

ChatGPT在2022年底上線，最初只能生成和編輯文本，不能生成圖像。大約一年後，OpenAI發佈第三代圖像生成模型DALL-E 3，並集成到ChatGPT，但兩者一直是互相獨立的系統，AI圖像生成器“理解提示詞能力差”。

此次推出基於 GPT-4o 模型的原生圖像生成功能的舉措，被視爲應對谷歌Gemini等競品的技術壓力。

今年阿里巴巴、谷歌先後推出能準確生成文字的文生圖模型。其中，谷歌其旗艦模型之一的 Gemini 2.0 Flash 推出實驗性原生圖像輸出功能之後，在社交媒體上迅速傳播。但Gemini 2.0 Flash 的圖像組件幾乎沒有防護措施，人們可以去除水印並創建描繪受版權保護角色的圖像。

OpenAI 首席運營官布拉德・萊特卡普在一份聲明中表示：“在輸出方面，我們尊重藝術家的權利，並且我們有相應的政策來防止我們生成直接模仿任何在世藝術家作品的圖像。”

即日起，所有Plus、Pro、Team及免費用戶將陸續在ChatGPT和Sora中體驗該功能，企業版與教育版即將接入，Sora平臺同步啓用。開發者即將通過API調用GPT-4o圖像生成功能，接口權限將於未來數週內開放。

相關資訊