推 SaberMyWifi: 新手調的AI幾乎都預設出來的不耐看,高手調的就很棒11/03 10:21
推 uohZemllac: 因為有在認真專研做出變化的的ai繪師少之又少11/03 10:25
→ uohZemllac: 一堆一看就是直接用sd洗版的能不膩ㄇ11/03 10:25
其實和大家想的剛好相反,
那些「看起來很膩」的AI圖其實才是許多不同的模型分別生出來的。
而所謂「風格比較多變」、「不是預設畫風」的AI圖,
生那些圖的人搞不好換模型的頻率還沒「看起來很膩」的多。
首先要說明一件事,除非你用的是線上生成網站如midjourney,
否則大家用的大多都是SD stable diffusion,或是其模型或技術本身的衍生產物。
另外,AI沒有預設的畫風或模型。
真的要講預設,如果你用的工具是最入門的automatic1111 webui懶人安裝包的話,
他的確是會預設幫你下載一個模型叫SD15NewVAEpruned。
但假設我想用這個模型生一個穿著洋裝的少女走在海邊的日式ACG風格圖片,
那這個模型生出來的東西可能長這樣:
https://iili.io/2xCWcNe.png
或這樣:
https://iili.io/2xCW6JI.png
上下取決於你要用咒文式提詞或自然語言提詞,但結果都是不可名狀之物。
這其實就是早期被認為能實用的圖片生成模型stable diffusion1.5。
基本上,陽春版的stable diffusion1.5並沒有針對日式ACG風格訓練,
因此生成不可名狀之物是注定的結果。
第一個嘗試讓AI學習ACG畫風,模型基於SD訓練的是Waifu Diffusion,
早期的WD生出來的圖片大概是長這樣:
https://iili.io/2xCvzxI.png
另一方面,原本主打線上AI小說生成的網站novelai則是以SD為基底訓練,
推出了在宅圖生成方面相當卓越的線上生圖服務。
novelai生成的圖片大概長這樣(有沒有開始膩了):
https://iili.io/2xCStln.png
novelai不知道是公司內部本身的愛好,還是基於市場策略,
在當時主流都在研究真人圖片或照片的時候,他們主打宅圖這招算是確立了市場獨特性。
至於他們成功的秘訣其實也很粗暴簡單,
就是直接把網路上最大的宅圖盜圖網站當訓練集給AI學習。
而無心插柳柳橙汁,他們在訓練時把網站的分類tag也一起讓AI學了,
這讓novelai的模型對於標籤式的提詞有相當的理解能力,
取代自然語言的「咒文」也開始流行。
(附帶一提,最新的Flux模型主打自然語言,但是那個自然語言有時候寫起來更像咒文 ==)
如果你提詞打得夠全,那它甚至能生出某些在訓練集中佔比較高的熱門角色,像這樣:
https://iili.io/2xCs3Is.png
這件事的爭議其實很大,畢竟它訓練集來源是盜圖網站,而它也沒經過對方允許,
等於是盜上加盜。
然後呢,相當戲劇性的,novelai的模型某一天就突然被人幹出來了。
這個外洩的模型一般通稱為NAI,很快就被各路人馬抓來進行各種調整訓練。
事實上,前年至去年的ACG風格的AI圖可能有九成以上都是基於NAI的衍伸產物。
再加上微調模型Lora解決了AI無法生成冷門和新角色的短版,
AI群魔亂舞的時代時代也隨之開啟。
這時代的模型生成的圖片大致上長這樣,像是熱門模型hassaku:
https://iili.io/2xCyl3b.png
(這張圖應該最膩,沒錯吧?)
同樣也很熱門,眩光效果突出的Cetus-Mix則是長這樣:
https://iili.io/2xnd6b4.png
(應該也很膩吧,這模型是當時很多推特AI仔的首選)
又或是我認為最傑出,擅長把背景搞得異常豐富(雜亂)的agelesnate:
https://iili.io/2xn95RR.png
(這張應該沒那麼膩,因為這模型比較沒有名氣)
各位仔細瞧的話應該會發現,這三張圖片乍看之下畫風不同,
但是其實都可以看出來是原始NAI的衍伸產物。
SD1.5由於設備需求較低,當時的AI仔社群比現在活躍許多,
很多人用自家顯卡,以NAI為底搞出各種不同的混合模型。
但由於原始模型SD1.5的上限,當時的AI圖除非加上風格強烈的畫風lora,
否則都很難完全脫出NAI的既成風格。
所以那個時代的圖片大家看得最膩,但實際上模型種類卻是最多的。
至今SD1.5還是有不少使用者,因為它需求的設備較低,能用4GB的顯存勉強跑。
另外也有不少人是覺得SD1.5選擇多、變化多,
或是單純喜歡這種風格因此留在1.5時代。
下個時代則是stable diffusion XL的時代,簡稱SDXL。
stable diffusion的母公司在stable diffusion 2遭遇了滑鐵盧等級的慘敗,
SD2相比SD1.5並沒有顯著的成果提升,而且還刪除了色情圖片的生成能力。
沒有色情的開源模型價值可想而知的是低到不行,結果當然是直接被大多數AI仔蛋雕。
雖然他們有搞個SD2.1補救,但為時已晚。
之後推出的SDXL則是一開始沒在AI宅圖圈引起太多波瀾,
但是數個月後隨後基於SDXL調整訓練的模型則是徹底改變了AI仔的生態。
第一個是Pony,這也算是一個無心插柳柳橙汁的模型。
如同名稱,Pony主要的學習目標是彩虹小馬,
但是最終的成果是則是一個泛用性高,在各方面都有及格水準的模型。
原始的Pony生成的結果較接近歐美審美,最熱門的衍伸模型AutismMix生成結果則是這樣:
https://iili.io/2xord8X.png
這結果一路看下來應該很多人會覺得人物立像沒有進度,可能還退步了。
是的,Pony系的模型的缺點不少。
最明顯的就是整體生成結果偏暗,用色偏髒。
另外由於訓練流程中出錯,pony在生圖時必須打上審美分級標籤作為提詞和負面提詞,
這點也讓部分使用者頗為詬病。
最麻煩的一點則是Pony的Lora必須為它專屬,不僅是以前SD1.5不通用,
連其他以SDXL為基底的LORA也無法完全適用於Pony模型。
但是以下這張圖可以清楚地告知為何缺點雖多,它仍成為目前最流行的開源宅圖模型。
https://iili.io/2xobwFa.png
對,Pony系模型對於提詞的理解遠高於過往的SD1.5、NAI模型。
特別是在「多人互動」方面,坦白講就是:「色圖」。
基於SDXL的Pony本身對於提詞的理解力遠高於SD1.5數倍,
像上面那張圖片在SD1.5時代抽了亂數幾百張,掛了好幾個外掛尿袋,
用inpaint塗塗抹抹了大半天可能都不一定生不出來。
但是在Pony時代,這類圖片卻只要不到一分鐘的時間輸入提詞,
並且調整一下分區外掛就能快速生成,節省的時間可能有數百倍之多。
這張綾波零明日香我甚至沒有抽亂數,是直接拿第一張生成的圖片。
Pony出現的時機也和最大的AI模型網站civitai開始線上生成服務相應,
civitai對於Pony的推廣在當時也算是不遺餘力,促成了現今Pony一統天下的局面。
另外一個熱門模型則是Animagine XL,其生成的圖片如下:
https://iili.io/2xzlDwg.png
平心而論,個人覺得Animagine XL生的圖其實比pony好看,
它的Lora能與其他SDXL模型互通也是其優勢。
Animagine XL和pony孰優孰劣其實一直是AI仔的熱門論戰。
不少幫Animagine抱屈的人會覺得它只是敗在Pony的色圖攻勢,
反方也有人認為Pony並不是真的只靠色圖,而是單純在理解提詞方面勝出。
總之,這個模型也是有其愛好者。
雖然在色圖方面較為不足,但是在非多人運動圖片,特別是單人角色圖方面有其優勢所在。
那就回到開頭了,那些「風格比較多變」的AI仔用的模型最有可能是什麼呢?
是Pony還是Animagine XL?
答案是:復仇歸來的novelai的SDXL新模型novelai3,俗稱NAI3。
平心而論,在色圖方面NAI3仍是略遜Pony一籌,但是它有自己的三個獨特優勢:
1.認識的角色多且完成度高,特別是當時的熱門手遊角色如:檔案、馬娘或原神。
2.認識的畫師畫風多且再現率極高。
3.擅長把以上兩者混合。
以檔案角色舉例來講,大概就這樣:
https://iili.io/2xTBG0G.png
然後1+2玩久了之後,就有人開始嘗試2+2,也就是將不同的畫師風格混合,
甚至是1+2+2。
一樣以檔案角色舉例來講,大概就這樣:
https://iili.io/2xTNGt4.png
或這樣:
https://iili.io/2xTSnSI.png
又或者這樣:
https://iili.io/2xTPTD7.png
是的,大部分的AI仔達成「風格比較多變」這個前提其實不是他們自己有練模型,
也不是他們經常換模型。
而是他們使用的模型本身就能以提詞去拼、去疊、去組合、去接龍,
以不同畫師的畫風組合達成風格多變,甚至是「沒有AI味的效果」。
要達成這種效果,其實也就是在提詞寫上角色名字+畫師名字+畫師名字一直往下疊。
單以圖片生成來講,這有很難嗎?
一開始接觸如果你平常沒在追畫師可能確實有點難度,
但是熟了,或者從別人那邊要到提詞,單純疊畫師也是幾分鐘內的事情。
以現在來講,由於SD1.5和Pony都是以清潔的線條與均勻上色的風格為主。
所以AI仔在疊畫師通常會選擇那些線條筆觸強烈(或者相反沒什麼線條),
上色色塊明顯,但是臉部特色又沒有太獨特的畫風為主。
甚至有些人為了加強筆觸,會把以前通常放在負面提詞的sketch(素描)拉到正面提詞。
最衰,最常被拿來疊的大概就以下幾位:
TrNyteal(我感覺幾乎每張都有他 ==)、
藤ちょこ、にんげんまめ、rei_17、DSマイル、ヒトこもる等等。
然後疊完可能還會再追加幾個畫風比較強烈的來修補。
例如覺得圖片太平沒立體和光影就疊個as109、
不夠美少女畫風就疊個YD試試、想要偏寫實一點就疊個wlop、
想要特別一點的風格就加上ratatatat74等等。
對了,有些畫師的名字建議別在公開場合估狗,社會性死亡機率很高 ==
所以真的是風格多變就是所謂的「用心的咒術師」嗎,也不一定,
在電腦前的他其實搞不好其實只是一直在玩畫風疊疊樂,然後拉長圖片放出時間而已。
甚至我都在懷疑某些說自己有加筆的根本沒加,
不然就是只修最容易看出破綻的眼睛和手。
至於之後嗎?
novelai我記得很久以前就說在弄NAI4了,只不過目前還沒消息。
開源部分,
其實Kohaku(這位是台灣高材生)在今年初弄出來的模型Kohaku-XL系列,
在角色認知和疊畫風方面已經可以有和NAI3互角的本錢。
只可惜他本人似乎沒有足夠的設備($$)提供算力讓模型精益求精。
我手上的Kohaku-XL Epsilon用疊疊樂生圖的結果大概長這樣:
https://iili.io/2xAUJJp.png
前月推出的開源模型Illustrious XL則是以Kohaku-XL為基礎,
而它本身和衍伸的各模型實質上已經在各方面超越了Pony和NAI3。
寫到這邊我懶得再切模型讀取了,直接貼今天和前幾天測試的疊疊樂 ==
https://iili.io/2xAtcJe.png
https://iili.io/2xREcml.png
https://iili.io/2xAtAs2.png
https://iili.io/2xAtzbf.png
https://iili.io/2xAt5fS.png
https://iili.io/2xAtuWl.png
(角色方面除了小孤獨其它有套角色Lora)
這些疊疊類有些是我自己亂湊,有些是照抄別人的,
總之大部分脫離不開上面的提及的可憐畫師。
雖然不是同一個模型生的圖,但是原理基本上大同小異,
也都是Illustrious XL的衍伸產物。
我以前說過Illustrious XL在色圖方面沒Pony強,
但過了一個月一些優秀的微調模型問世之後在色圖上Illustrious XL也確實超越了Pony。
至於為什麼現在Illustrious XL還沒有非常熱門?還是一堆人留在Pony?
真正的原因大概是civitai正在全力推廣那個又肥又貴,
寫自然語言能寫到比標籤提詞更像咒文的flux吧 ==
回標題,那些AI圖看不膩?
對AI仔我來講,
只要是願意公布自己的生成提詞和參數的圖片,不管它是什麼風格什麼模型,
我看再多都不會膩。
而那些想賺熱度,對生成細節和技術一個字不提,
只寫個「AI生成」、「AI加筆」的推特AI仔的圖倒是真的膩。
(因為用了蘿莉相關提詞怕被搞的不公布不算,這點我可以理解 ==)
甚至還有那種明明就自己加了一堆尿袋外掛,提詞寫得天花亂墜去千方百計去引導AI,
尿袋裡的尿都快滿出來了,卻硬要說成「AI想的」那種更是膩上加膩 ==
至於那種明明是AI圖卻不標註的也沒啥好講,就是想騙熱度而已 ==
啊對了,別問我為什麼不公布參數和提詞。
我沒寫出來是因為這個圖床有保留PNG INFO,想要的可以直接自取 ==
--
(と・てノ) 翼龍欸
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.163.128.113 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1730732828.A.70C.html
留言