搭建屬于你自己的中文AI作畫師
《Stable Diffusion AI中文(機畫師)》是Stability AI開源的一個text-to-image的擴散模型,旨在激發人類的潛能,提供了多種工具和模型,讓用戶可以利用AI技術創造新穎和獨特的設計、音樂、視頻、文本等內容,完成專屬于自身的內容創作,并向所有公眾用戶展現!
Stable Diffusion AI中文是由CompVis、Stability AI和LAION共同開發的一個文本轉圖像模型,通過LAION-5B子集大量的512x512圖文模型進行訓練。只要輸入一段簡單的文本,Stable Diffusion就可以快速將其轉換為圖像,也可以導入圖像或者視頻,配合文本對其進行處理。
目前,Stable Diffusion代碼開源了,已經在Hugging Face上線,無需擁有強大的硬件,也沒有復雜的本地安裝,只需輸入你想要的文字內容(僅支持英文),就可以在線一鍵生成AI圖像。
1、Stable Diffusion是國外開發的繪圖AI助手,讓AI幫助用戶快速繪圖
2、AI可以識別的繪畫風格非常多,卡通的、寫實的、油畫的都可以快速繪制
3、自動完成繪圖上色,并且可以添加風格效果,一分鐘內完成高質量繪圖作品
4、個人用戶可以通過AI快速繪圖,可以為自己設計草圖,方便后期自由優化
5、Stable Diffusion提供的繪圖AI構圖能力還是非常專業的,可以滿足大部分繪圖場景需求
6、無論是古典的繪圖作品還是現代風格的繪圖作品都可以輕松完成
7、Stable Diffusion AI也可以對局部圖像內容做簡單的修改
8、無論是設計美術作品還是設計草圖、設計插畫、設計原畫都可以通過Stable Diffusion AI執行
Midjourney對語句的訓練更精準,圖片存留更友好;圖片跑出來后調整空間不大,只能通過墊圖繼續“精準”一點,建議ps會更快。
Stable Diffusion跑小圖會更快,目前一次最多可以跑出9張圖,墊圖的時候可以使用畫筆涂抹區域,更人性化;生成大圖很肉痛,并且圖片也略小。
這是一個通用的指南,內容是基本通用的,可能有例外情況,請讀對應的章節了解不同應用的特性。
提示詞是提示而不是判定依據,比如你輸入質量判定詞匯的時候,其實是在限制數據的范圍,而不是 “要求” AI 出一張很好的圖片。
單詞標簽#
對于在標簽單詞上特化訓練的模型,建議使用逗號隔開的單詞作為提示詞。
普通常見的單詞,例如是可以在數據集來源站點找到的著名標簽(比如 Danbooru)。單詞的風格要和圖像的整體風格搭配,否則會出現混雜的風格或噪點。
避免出現拼寫錯誤。NLP 模型可能將拼寫錯誤的單詞拆分為字母處理。
自然語言#
對于在自然語言上特化訓練的模型,建議使用描述物體的句子作為提示詞。
取決于訓練時使用的數據集,可以使用英文,日文,特殊符號或一些中文。大多數情況下英文較為有效。
避免 with 之類的連接詞或復雜的語法,大多數情況下 NLP 模型只會進行最簡單的處理。
避免使用重音符(如 é 和 è)和德語 umlauts(如 ä 和 ö),它們可能無法被映射到正確的語義中。
不建議隨意套用現成模板,尤其是無法經過人類理解的模板。
Emoji#
Emoji (💰,💶,💷,💴,💵,🎊,🪅🪄,🎀,👩🚀) 表情符號也是可以使用并且 非常準確 的。
Emoji 因為只有一個字符,所以在語義準確度上表現良好。
Emoji 在構圖上有影響,比如 💐☺️💐。
表情符號參考
顏文字#
對于使用 Danbooru 數據的模型來說,可以使用顏文字在一定程度上控制出圖的表情。
例如:
:-) 微笑 :-( 不悅 ;-) 使眼色 :-D 開心 :-P 吐舌頭 :-C 很悲傷 :-O 驚訝 張大口 :-/ 懷疑
僅支持西方顏文字,詳細內容請見 Danbooru 顏文字部分 或 維基百科
空格#
逗號前后的少量空格并不影響實際效果。
開頭和結尾的額外空格會被直接丟棄。詞與詞之間的額外空格也會被丟棄。
標點符號#
用逗號、句號、甚至是空字符(\0)來分隔關鍵詞,可以提高圖像質量。目前還不清楚哪種類型的標點符號或哪種組合效果最好。當有疑問時,只要以一種使提示更容易被閱讀的方式來做。
對于部分模型,建議將下劃線(_)轉換為空格。
藝術風格詞#
可以通過指定風格關鍵詞來創作帶有特效或指定畫風的圖片。
提示詞長度#
避免過長的提示詞。
提示詞放入的順序就是優先級。由于提示詞的權重值從前向后遞減,放置在特別靠后的提示詞已經對圖片的實際生成影響甚微。
不堆疊提示詞是一個好習慣,但是如果你確實有很多內容要寫,可以適當提高生成步數,以便在生成過程中更好地利用提示詞。
SD-WebUI 突破最多 75 個詞組限制的方式是將每 20 + 55 個詞分為一組。選項 Increase coherency by padding from the last comma within n tokens when using more than 75 tokens 讓程序試圖通過查找最后 N 個標記中是否有最后一個逗號來緩解這種情況,如果有,則將所有經過該逗號的內容一起移動到下一個集合中。該策略可適當緩解提示詞過多無法處理的問題,但可能破壞提示詞之間的權重關系。
除了 WebUI 對此情況進行了特殊處理外,由于 GPT-3 模型限制,提示詞處理空間并不是無限的,大多在在 75-80 之間,75 字符后的內容會被截斷。
特異性#
問題體現在語義偏移上。對于神經網絡的訓練來說,特征的質量很重要:輸入和輸出之間的聯系越強,神經網絡就越容易學習這種聯系。
換句話說,如果一個關鍵詞有非常具體的含義,那么學習它與圖像之間的聯系要比一個關鍵詞有非常廣泛的含義容易得多。
這樣一來,即使是像 "Zettai Ryouiki" 這樣很少使用的關鍵詞也能產生非常好的結果,因為它只在非常具體的情況下使用。另一方面,"動漫" 即使是一個比較常見的詞,也不會產生很好的結果,這可能是因為它被用于許多不同的情況,即使是沒有字面意思的動漫。如果你想控制你的圖片的內容,選擇具體的關鍵詞尤其重要。另外:你的措辭越不抽象越好。如果可能的話,避免留下解釋空間的措辭,或需要 "理解" 不屬于圖像的東西。甚至像 "大" 或 "小" 這樣的概念也是有問題的,因為它們與物體離相機近或遠是無法區分的。理想情況下,使用有很大可能逐字出現在你想要的圖像標題上的措辭。
語義失衡#
每一個提示詞就像染料一樣,它們的 “親和性“ 不同,如果更常見的提示詞,比如 loli (和其他提示詞并列放置)的影響就大于其他提示詞。
比如,如果你想生成動漫圖片,使用了 星空 startrail 標簽,相比你期望出現的動漫星空,會有更多來自真實照片的星空元素。
否定提示詞#
SD-WebUI 網頁應用會在生成時 避免生成否定提示詞提及的內容。
否定提示是一種使用 Stable-Diffusion 的方式,允許用戶指定他不想看到的內容,而不對模型本身做額外的要求。
通過指定 unconditional_conditioning 參數,在生成中采樣器會查看去噪后符合提示的圖像(城堡)和去噪后看起來符合負面提示的圖像(顆粒狀、霧狀)之間的差異,并嘗試將最終結果遠離否定提示詞。
比如使用以下提示詞避免生成水印和文字內容:
lowres, bad anatomy, bad hands, text, error, missing fingers,
extra digit, fewer digits, cropped, worst quality, low quality,
normal quality, jpeg artifacts, signature, watermark, username, blurry
還如這個例子:
ugly, fat, obese, chubby, (((deformed))), [blurry], bad anatomy,
disfigured, poorly drawn face, mutation, mutated, (extra_limb),
(ugly), (poorly drawn hands fingers), messy drawing, morbid,
mutilated, tranny, trans, trannsexual, [out of frame], (bad proportions),
(poorly drawn body), (poorly drawn legs), worst quality, low quality,
normal quality, text, censored, gown, latex, pencil
Stable Diffusion AI是當下一款強大的AI圖片生成器。它不僅支持文本描述生成圖片,還能以圖生圖,利用各種模型得到AI繪畫作品,還能訓練個人的圖片模型,為大家提供的是最新2.2版本的下載方式,很多老司機懂的功能也將回歸,歡迎各位來本站安裝詳細了解哦。
熱門評論
最新評論
支持( 0 ) 蓋樓(回復)