開啟公測的 Stable Diffusion-XL 達到 Midjourney 水準:會畫手、能寫字,再也不用寫長 prompt 了

開啟公測的 Stable Diffusion-XL 達到 Midjourney 水準:會畫手、能寫字,再也不用寫長 prompt 了

自從 Midjourney 發佈 v5 之後,在生成圖像的人物真實水平、手指細節等方面都有了顯著改善,並且在 prompt 理解的精準性、審美多樣性和語言理解方面也都取得了進步。

相比之下,Stable Diffusion 雖然免費、開源,但每次都要寫一大長串的 prompt,想生成高品質的圖像全靠多次抽卡。

先前 Stability AI?預告過正在研發的 Stable Diffusion XL?已經開放公眾測試,目前可以在 Clipdrop 平台免費試用。

開啟公測的 Stable Diffusion-XL 達到 Midjourney 水準:會畫手、能寫字,再也不用寫長 prompt 了

试用连结:https://clipdrop.co/stable-diffusion

Stability AI 的創始人兼首席執行長 Emad Mostaque 体现,目前該模型仍然處於訓練階段,等參數穩定後將會開源;SD-XL 在「握手」等圖像細節方面會表現更好,幾乎完全可控。

開啟公測的 Stable Diffusion-XL 達到 Midjourney 水準:會畫手、能寫字,再也不用寫長 prompt 了

Stable Diffusion XL 也並不是最終發佈版的名字,並且也並非是 v3,因為 SD-XL 的架構和 SD-v2 系列的模型架構很是相似。

開啟公測的 Stable Diffusion-XL 達到 Midjourney 水準:會畫手、能寫字,再也不用寫長 prompt 了

Minimalistic home gym with rubber flooring, wall-mounted TV, weight bench, medicine ball, dumbbells, yoga mats, high-tech equipment, high detail, organized and efficient.

簡約的家庭健身房,橡膠地板,壁掛式电视,舉重凳,藥球,啞鈴,瑜伽墊,高和记裝置,高細節,組織和效率

下面幾張 SD-XL 官方發佈的例圖,可以看出圖像的品質已經很是不錯了。

開啟公測的 Stable Diffusion-XL 達到 Midjourney 水準:會畫手、能寫字,再也不用寫長 prompt 了

開啟公測的 Stable Diffusion-XL 達到 Midjourney 水準:會畫手、能寫字,再也不用寫長 prompt 了

開啟公測的 Stable Diffusion-XL 達到 Midjourney 水準:會畫手、能寫字,再也不用寫長 prompt 了

開啟公測的 Stable Diffusion-XL 達到 Midjourney 水準:會畫手、能寫字,再也不用寫長 prompt 了

不過有時候 less 並不代表 more,有網友認為 SD-XL 為了擺脫「糟糕的品味」,設定了太多的規則,定製化空間越來越小,不切合大多數人的喜好。目前 v1.5 的 Stable Diffusion 仍然是社區內最流行的基座模型。

開啟公測的 Stable Diffusion-XL 達到 Midjourney 水準:會畫手、能寫字,再也不用寫長 prompt 了

網友体现希望新版 SD 能夠和 SD 2.1 版本的嵌入、hypernetworkds 和 Lora 模型保持相容,再從零開始重訓的話就太難受了。

開啟公測的 Stable Diffusion-XL 達到 Midjourney 水準:會畫手、能寫字,再也不用寫長 prompt 了

也有網友認為,SD-XL 的表現和 civit 網站上網友分享的模型差不多,新模型的效果也並不是特別驚豔,也就是平均水平。

開啟公測的 Stable Diffusion-XL 達到 Midjourney 水準:會畫手、能寫字,再也不用寫長 prompt 了

SD-XL:開源版 Midjourney

關於 Stable Diffusion XL 模型的具體資訊,官方並沒有透露太多,目前只知道是一個與 v2 模型架構相似、但規模和參數量更大的模型。

SD-v2.1 包罗 9 億參數,SD-XL 大約有 23 億參數,Emad 体现正式版可能會額外發佈一個更小的蒸餾版本。

SD-XL 相比之前版本的改進如下:

  • 使用較短的描述性 prompt 即可生成高品質圖像

  • 可以生成更貼合 prompt 的圖像

  • 图像中的人体结构更合理

  • 與 v2.1 和 v1.5 版本 (水平較輕) 相比,SD-XL 生成的圖片更切合福斯審美

  • 負面提示詞(negative prompt)是可選項

  • 生成的肖像图更传神

  • 图像中的文字更清晰

需要注意的是,SD-XL 可能與之前版本的外掛不相容。

清晰可读的文字

在 v1 系列和 v2.1 版本的 Stable Diffusion 模型中,並不具備在圖片中生成可讀文字的能力。

雖然 SD-XL 生成的文字資訊並不總是精準,但確實获得了巨大的提升。

開啟公測的 Stable Diffusion-XL 達到 Midjourney 水準:會畫手、能寫字,再也不用寫長 prompt 了

Photo of a woman sitting in a restaurant holding a menu that says “Menu”

一个女人坐在餐馆里拿着写着「惭别苍耻」的菜单

開啟公測的 Stable Diffusion-XL 達到 Midjourney 水準:會畫手、能寫字,再也不用寫長 prompt 了

Photo of a man holding a sign that says “Stable Diffusion”

一個男人舉著寫著「Stable Diffusion」的牌子

開啟公測的 Stable Diffusion-XL 達到 Midjourney 水準:會畫手、能寫字,再也不用寫長 prompt 了

a young female holding a sign that says “Stable Diffusion”,highlights in hair, sitting outside restaurant, brown eyes, wearing a dress, side light

一個年輕的女性舉著一個牌子,上面寫著「Stable Diffusion」,頭髮高亮,坐在餐廳外面,棕色的眼睛,穿著裙子,側燈。

更好的人体结构

Stable Diffusion 在生成人體解剖結構方面一直存在諸多問題,多幾條腿、少個胳膊實在是太常見不過的問題,通常需要使用 inpaint 功效進一步對圖像細節進行修正;或者是使用 ControlNet 的 Open Pose 功效從參考圖像中複製人體的姿態。

好比說 SD-v1.5 生成瑜伽的圖像,經常會出現扭曲的人體。

開啟公測的 Stable Diffusion-XL 達到 Midjourney 水準:會畫手、能寫字,再也不用寫長 prompt 了

Photo of a woman in yoga outfit, triangle pose, beach in evening, rim lighting

一个女人的照片在瑜伽服装,叁角形的姿势,海滩在晚上,边缘照明

SD-XL 雖然生成的圖像並不完美,不過在人體姿態方面已經有了顯著的進步。

開啟公測的 Stable Diffusion-XL 達到 Midjourney 水準:會畫手、能寫字,再也不用寫長 prompt 了

更有美感(more aesthetic)

好比同樣以屋子為主題,SD-XL 可以生成更對稱、視覺效果更好的照片。

開啟公測的 Stable Diffusion-XL 達到 Midjourney 水準:會畫手、能寫字,再也不用寫長 prompt 了

SD-XL 在肖像照片上也有顯著改進。

開啟公測的 Stable Diffusion-XL 達到 Midjourney 水準:會畫手、能寫字,再也不用寫長 prompt 了

photo shot of a woman

一个女人的照片

更貼合 prompt 的圖像

SD-XL 可以更好地理解輸入的 prompt,並生成更精確的圖像。

好比以 duotone(雙色)為例,SD-v1.5 隻會生成黑白圖像,而 SD-XL 則可以生成具有多種顏色的雙色調圖像。

與 v1 模型相比,理解提示符的能力有所提高。

開啟公測的 Stable Diffusion-XL 達到 Midjourney 水準:會畫手、能寫字,再也不用寫長 prompt 了

duotone portrait of a woman

一个女人的双色调肖像

因為 SD-XL 同屬 v2 系列模型,所以文字模型尺寸更大,可以比 v1 模型更好地理解提示詞。

開啟公測的 Stable Diffusion-XL 達到 Midjourney 水準:會畫手、能寫字,再也不用寫長 prompt 了

好比下面的例子中,v1.5 模型始終無法理解圖像中的兩個主題(機器人和人類),但 SD-XL 模型可以生成正常的圖像(雖然機器人還是不夠 big)。

開啟公測的 Stable Diffusion-XL 達到 Midjourney 水準:會畫手、能寫字,再也不用寫長 prompt 了

big robot friend sitting next to a human, ghost in the shell style, anime wallpaper

大机械人朋友坐在人类旁边攻壳机动队气势派头的动漫壁纸

開啟公測的 Stable Diffusion-XL 達到 Midjourney 水準:會畫手、能寫字,再也不用寫長 prompt 了

a young man, highlights in hair, brown eyes, in white shirt and blue jean on a beach with a volcano in background

一个年轻人,头髮染得很亮,棕色眼睛,穿着白衬衫和蓝色牛仔裤,站在海滩上,配景是一座火山

艺术气势派头

在艺术气势派头上,SD-XL 並沒有顯著改進,和之前的版本各有千秋。

好比兩個模型以差异的角度生成了 Edward Hopper 風格的圖像。

開啟公測的 Stable Diffusion-XL 達到 Midjourney 水準:會畫手、能寫字,再也不用寫長 prompt 了

New York city by Edward Hopper

Edward Hopper 繪製的紐約

Leonid Afmov 的風格中,SD-v1.5 更準確,SD-XL 缺少了差异顏色的筆刷(unmistakable colorful board brushstrokes)。

開啟公測的 Stable Diffusion-XL 達到 Midjourney 水準:會畫手、能寫字,再也不用寫長 prompt 了

New York city by Leonid Afremov

Leonid Afemov 繪製的紐約

William-Adolphe Bouguereau 風格中,V1.5 和 SDXL 都可以生成一些類似的內容,其中 SD-XL 更接近 Bouguereau 創作的經典學院派繪畫,並且面部細節更多。

開啟公測的 Stable Diffusion-XL 達到 Midjourney 水準:會畫手、能寫字,再也不用寫長 prompt 了

Portrait of beautiful woman by William-Adolphe Bouguereau

William-Adolphe Bouguereau 繪製的美女肖像

气势派头转变问题

在新增一些无关紧要的要害字后,模型的气势派头可能会突然转变。

好比先生成一张照片气势派头的图像。

開啟公測的 Stable Diffusion-XL 達到 Midjourney 水準:會畫手、能寫字,再也不用寫長 prompt 了

a young man, highlights in hair, brown eyes, in white shirt and blue jean on a beach with a volcano in background

一个年轻人,头髮染得很亮,棕色眼睛,穿着白衬衫和蓝色牛仔裤,站在海滩上,配景是一座火山

再新增一条黄色的围巾后,图像气势派头就酿成了卡通气势派头。

開啟公測的 Stable Diffusion-XL 達到 Midjourney 水準:會畫手、能寫字,再也不用寫長 prompt 了

a young man, highlights in hair, brown eyes, wearing a yellow scarf, in white shirt and blue jean on a beach with a volcano in background

一个年轻人,头髮染得很亮,棕色的眼睛,围着黄色的围巾,穿着白衬衫和蓝色牛仔裤,站在一个火山為配景的海滩上

问题的故障可能源於预览问题,在正式发佈后该问题不知能否获得解决。

参考资料:

  • https://clipdrop.co/stable-diffusion

?

Facebook LINE

使用 Facebook 留言

发表回应

谨慎讲话,尊重相互。按此展开留言规则