阿里雲通義千問最新模型Qwen-Image亮相 可生成吉卜力風格圖片

資料顯示,模型主要可生成寫實、動漫、賽博朋克、科幻、極簡、復古、超現實、水墨等幾十種類型的圖片,就連吉卜力風格都可以生成。阿里巴巴提到,新模型旨在促進圖像生成的發展,降低視覺內容創作的技術門檻,並激發創新應用。

阿里巴巴表示,Qwen-Image在複雜文字渲染方面,支援多行佈局、段落層級文字生成以及細粒度細節呈現,無論是英文或中文,均能達到高保真輸出。而且透過增強的多任務訓練範式,在編輯過程中能保持編輯的一致性。

通義千問團隊也在多個公開基準上對Qwen-Image進行全面評估,包括用於通用影像生成的GenEval、DPG 和OneIG-Bench,以及用於影像編輯的GEdit、ImgEdit和GSO。新模型在所有基準測試中都取得了最先進的效能。

此外,在用於文字渲染的LongText-Bench、ChineseWord 和TextCraft上的結果表明,Qwen-Image 在文字渲染方面表現尤爲出色,特別是在中文文字渲染上。