☰

剛剛，OpenAI最強圖像生成API上線，一張圖1毛5！

新智元報道

編輯：桃子好睏

【新智元導讀】GPT-4o之後，OpenAI原生多模態圖像生成模型API正式推出了，一張圖低至0.02美元。新模型能夠結合世界知識，生成更加符合上下文圖像，質量更高，還支持多種功能自定義。

昨夜，OpenAI發佈全新圖像生成模型gpt-image-1，API向所有開發者開放。

這一次，他們直接把每張圖的成本打到幾美分。

對於低、中、高質量的方形圖像，生成大約花費0.02美元、0.07美元、0.19美元。

gpt-image-1集成了三大核心功能：圖像生成、圖像編輯、圖像變體（僅限DALL·E 2）。

與GPT-4o圖像生成不同，gpt-image-1最大的特點，在於支持各種高級功能的定製。

比如，自定義輸出圖像的質量、尺寸、格式、壓縮程度，甚至可選擇是否需要透明背景，能夠滿足多樣化創意需求。

它具備了強大的通用能力，不僅能夠創作多種風格圖片，還能精準遵循自定義需求。通過結合世界知識，生成更符合上下文的圖像。

現在，你就可以在playground中使用gpt-image-1來快速迭代提示詞和圖像：

GPT-4o上線掀起全網吉卜力風潮，並在發佈首周全球1.3億用戶，創作了超7億圖片。

gpt-image-1作爲OpenAI全新一個原生多模態圖像模型，隨着API開放，將會在未來極大地釋放人們創意。

效果一覽

在官方API文檔「探索」區，OpenAI放出了許多gpt-image-1生成圖片的demo，效果非常驚豔。

接下來，就一睹爲快吧。

一句話，讓gpt-image-1展示出創建鱷梨醬所需的所有食材。

下面這張夢幻之境，可是用了一個「小作文」提示詞才完成的。

再來看它創作的外星人Glorptak，有着凝膠狀身體，半透明發光，非常可愛。

對於模特、電商行業來說，gpt-image-1將重塑創作方式。上傳一張衣服圖、一張人的照片，就能看到衣服上身的效果了。

橄欖油宣傳圖，也只需找一張背景圖，gpt-image-1瞬間完成P圖。

更神奇的是，上傳一張房屋設計平面圖，gpt-image-1就能將其變爲3D效果，更加直觀。

番茄醬廣告，非常有視覺衝擊力。

設計礦泉水的瓶身，也是多種風格拿捏。

生成超寫實的3D圖標，看着非常有質感。

gpt-image-1還能生成粗線條手繪風格圖解，爲回針縫製法每一步配上了簡潔的說明文字。

上傳一張CD模板圖，讓gpt-image-1生成金屬樂隊黑膠唱片。

還有各種紋理的防止圖案，也是非常有創意。

還有動畫分鏡腳本——馬匹跳躍循環序列，gpt-image-1可做到逐幀解剖要點。

上傳獨立流行音樂人的照片，一張演唱會門票直接設計好了。

自定義圖像輸出，精準創意

目前，OpenAI GPT Image API提供了豐富的自定義選項，讓開發者完全掌控輸出效果。

尺寸：支持多種分辨率，比如1024x1024, 1024x1536

質量：可選low，medium，high三種渲染質量

格式：文件輸出格式

壓縮：針對JPEG和WebP格式，可設置0-100%級別的壓縮

背景：透明或不透明

生成圖像

通過圖像生成端點，僅憑一段文本提示，即可生成令人驚歎的圖像。

可設置參數n ，一次可生成多張圖像（默認情況下，API返回單張圖片）。

圖像編輯

而圖像編輯功能，可以讓創意更進一步。通過圖像編輯端點，你可以：

直接編輯現有圖片

參考圖像生成新圖片：上傳多張參考圖像，然後生成新圖

局部編輯（inpainting）：通過上傳圖像和蒙版，精準替換指定的區域

參考圖像生成新圖片

比如，上傳四張禮品圖片，生成一個包含所有禮品的精美禮物籃的圖像。

使用蒙版編輯圖像（局部編輯）

你可以上傳一個蒙版來編輯圖像，蒙版中的透明區域將被替換，而黑色區域保持不變。

OpenAI建議，你可以使用提示來描述整個新圖像，而不僅僅是被擦除的區域。

蒙版要求：

1. 圖像和蒙版需要格式一致，尺寸相同，大小不超過25MB。

2. 蒙版需包含Alpha通道，在圖像編輯工具中保存蒙版時，務必勾選「保存Alpha通道」。

在自定義中，還需要注意的包括：

方形圖片以標準質量生成的速度最快，默認大小是1024x1024。

Image API返回base64編碼的圖像數據，默認格式是png ，但你也可以請求jpeg或webp。

如果使用jpeg或webp，還可以指定output_compression參數來控制壓縮級別（0-100%）。例如， output_compression=50就是把圖像壓縮50%。

此外，gpt-image-1支持透明背景。要啓用透明度，需將background參數設置爲transparent。

模型對比

雖然gpt-image-1是目前OpenAI最強大的多模態模型，此前推出的DALL·E 2和DALL·E 3則是專爲圖像生成設計的模型，各有所長。

根據不同需求和場景，開發者可靈活從中選用這些模型API。

gpt-image-1使用同樣是按Token計費，文本和圖像的Token各有不同的價格：

文本輸入Token：5美元/百萬token

圖像輸入Token：10美元/百萬token

圖像輸出Token：40美元/百萬token

如前所述，在實際應用中，對於低、中和高質量的方形圖片，每生成一張圖像的費用大約分別爲0.02美元、0.07美元和0.19美元。

從創意到商業無限可能

OpenAI全新Image API的推出，將爲各行各業解鎖更多創意魔法。

目前，創意工具、電商、教育、企業軟件、遊戲等行業的領先企業和初創公司，已經將圖像生成集成到他們的產品和服務中。

Adobe的創意工具，包括Firefly和Express，將通過gpt-image-1爲創作者提供選擇和靈活性，方便他們實驗不同的美學風格。

Figma正在利用gpt-image-1從簡單的提示詞生成和編輯圖像，使設計師能夠快速探索創意並直接在Figma中進行視覺迭代。

HeyGen正在使用gpt-image-1來增強頭像創建，特別是在平臺內改善頭像編輯。

Photoroom正在使用gpt-image-1幫助在線賣家從單一產品照片中瞬間創建工作室級別的視覺效果、生活場景和模特展示圖。

此外，Canva已將gpt-image-1集成到Canva AI和Magic Studio工具中，進一步擴展設計生成和編輯能力。

簡單的草圖，gpt-image-1即可將其轉化爲精美圖形元素。與此同時，它還支持高保真的視覺編輯，讓2.3億用戶能夠用全新方式將創意變爲現實。

專爲設計logo而生的GoDaddy，通過集成gpt-image-1，可以輕鬆創建編輯Logo，去除背景並生成專業字體設計。

藉助GoDaddy Airo，創意者通過提示即可生成原創產品和品牌內容，並打造體現自身品牌個性的社交媒體和營銷素材。

還有HubSpot通過OpenAI圖像新模型，有望徹底革新客戶製作高質量社交媒體、郵件營銷以及落地頁圖片的方式，無需專業設計經驗也能輕鬆實現。

Instacart正在測試如何利用API生成用於菜譜和購物清單的圖片，以提升用戶體驗。

創作個性化視頻invideo，在集成gpt-image-1後，將支持更強大的文本生成、精細化編輯控制和高級風格指導，進一步豐富了用戶的視頻創作體驗。

參考資料：

https://openai.com/index/image-generation-api/

剛剛，OpenAI最強圖像生成API上線，一張圖1毛5！

相關資訊