[樂游網導讀]《stable diffusion》是2022年發布的深度學習文字到圖像生成模型。它主要用于根據文字的描述產生詳細圖像,能夠在幾秒鐘內創作出令人驚嘆的藝術作品,不過它是收費的,每個用戶大約只能生成200張圖片,額度用完之后需要充值才能使用。
《stable diffusion》是2022年發布的深度學習文字到圖像生成模型。它主要用于根據文字的描述產生詳細圖像,能夠在幾秒鐘內創作出令人驚嘆的藝術作品,不過它是收費的,每個用戶大約只能生成200張圖片,額度用完之后需要充值才能使用。
stable diffusion手機版下載:點擊下載
stable diffusion官網地址:點擊進入
stable diffusion安裝使用教程
一、前言介紹
目前市面上比較權威,并能用于工作中的AI繪畫軟件其實就兩款。一個叫Midjourney(下文簡稱MJ),另一個叫stable-diffusion(下文簡稱SD)。
MJ目前不免費,想要使用必須充值,一個月10美元。普通人想玩玩AI繪畫,并不劃算。而SD開源免費,但是上手難度高,學習成本大,單就一個安裝就能難倒一大片人。并且非常吃電腦配置(顯卡、內存)。
如果能解決安裝問題、學習問題、電腦性能,那你會慢慢發現,SD的可玩性真的太高了,最直接的優點:不用花錢還不受網絡限制😆。
由于開源屬性,SD 有很多免費高質量的外接預訓練模型(fine-tune)和插件,比如可以提取物體輪廓、人體姿勢骨架、畫面深度信息、進行語義分割的插件 Controlnet,使用它可以讓我們在繪畫過程中精準控制人物的動作姿勢、手勢和畫面構圖等細節
插件 Mov2Mov 可以將真人視頻進行風格化轉換;SD 還擁有 Inpainting 和 Outpainting 功能,可以對圖像進行智能局部修改和外延,這些都是目前 Midjourney 無法做到的。
比如推特@Toyxyz3 通過分別渲染手部網格深度和開放姿勢骨骼的方式,在 SD 內實現對人物手指和姿勢的精準控制
還可以用SD LORA 或者 Dreambooth 將自己喜歡的人物形象或者畫風訓練生成模型,打造自己的專屬 AI 繪畫工具,也有畫師和設計師用自己的原創作品訓練模型,之后有靈感了就之后用文字描述出來,讓 SD 幫自己快速出各種概念草圖。
SD開源地址
https://github.com/Stability-AI/stablediffusion
二、電腦要求
電腦配置最核心的關鍵點:看顯卡、看內存、看硬盤、看CPU。其中最重要的是看顯卡。
顯卡N卡(英偉達Nvida顯卡,A卡用不了),最低10系起步,顯存最低4G,6G及格,上不封頂;內存最低8G,16G及格,上不封頂;硬盤可用空間最好有個500G朝上,固態最佳,機械硬盤也沒多大問題。CPU其實沒太大要求,有好顯卡的,CPU一般不會很差。
如何看自己的電腦顯卡?
打開任務管理器。性能 - GPU ,即可看到顯存。只要大于4G都可以玩一玩。右邊有個驅動日期,最近一年的驅動版本和日期都行,只要別太遠古就行,更新到最新更好。
如何看自己的電腦內存?
還是在任務管理器,點擊內存,右上角即可看到內存容量。
三、安裝教程
如果按照上面那個開源地址安裝,沒接觸過代碼的人,得花一兩天時間才能搞定,甚至一兩天你都搞不定。
真要寫小白級別的手把手教成,我感覺得分好幾篇文章,Python安裝、Git安裝、顯卡更新驅動以及CUDA、webui.........😂😂直接勸退。
好在有大佬做了一鍵啟動程序,國內的秋葉,國外的A1111,極大的降低了安裝門檻。本篇基礎教程,我們先使用一鍵啟動包上手,快速體驗到SD的樂趣。一鍵啟動包只是封裝了可視化的一鍵界面,不會影響出圖效果,它只是省去了本地部署的門檻。
我們使用秋葉大佬 (bilibili:秋葉aaaki) 的一鍵啟動包:
https://pan.baidu.com/s/1qWggi0qMMTdMpqCNCRcjoQ?pwd=a241
轉存防止失效:
https://pan.baidu.com/s/1_oY7lqRqWn330yEjIIhTxg?pwd=6666
官方論壇討論地址:
https://support.qq.com/product/488228
01
下載后解壓
02
點擊啟動器,點擊一鍵啟動
03
首次啟動,彈出txt文本,按照要求,復制粘貼 我已閱讀并同意用戶協議 ,保存txt
重新一鍵啟動
04
啟動成功,就是這么簡單😂😂
05
小試牛刀一下,大家可以輸入這一串指令,然后點擊生成,右下角即可出圖,看看效果。
oil painting with heavy impasto of a pirate ship and its captain, cosmic horror painting, elegant intricate artstation concept art by craig mullins detailed
四、安裝模型
默認只有一個模型,在啟動器模型管理頁面可以看到,本地打勾代表才能使用,其他的模型需要下載才能使用。我們在webui也可以看到,只有這一個模型可選。
如何導入呢,在下載安裝包的時候,里面就有一個 可選-animefull-latest模型,以這個為例,演示下導入模型
01
點右上角添加模型,在彈出的文件管理器中選中模型,后綴為 .ckpt ,點擊打開
02
成功導入
03
關閉控制臺重新啟動,webui就可以看到新添加的模型了
stable diffusion2.2本地部署配置要求 stable diffusion a卡能裝嗎
Stable Diffusion 是以文本生成圖像的 AI 工具,也是唯一一款能部署在家用電腦上的 AI 繪圖工具,可以在 RTX 2060 顯卡等 6GB 顯存(及以上)顯卡下運行,并在幾秒鐘內生成圖像,無需預處理和后處理。當然,如果只是想體驗 Stable Diffusion,也可以使用在線工具 Hugging Face 和 DreamStudio。與本地部署相比,Hugging Face 需排隊,生成一張圖約 5 分鐘;DreamStudio 可免費生成 200 張圖片,之后需要繳費。更重要的是,這類在線工具對圖片的調教功能偏弱,無法批量生成圖片,只能用于測試體驗。
如果想大批量使用,可以像我一樣,使用 Docker Desktop 將 Stable Diffusion WebUI Docker 部署在 Windows 系統,從而利用電腦顯卡免費實現 AI 文字繪畫,不再被在線工具所限制。Mac 同樣適用于該方法,并可省略下方的環境配置步驟。
stable diffusion 提示詞列表
這是一個通用的指南,內容是基本通用的,可能有例外情況,請讀對應的章節了解不同應用的特性。
提示詞是提示而不是判定依據,比如你輸入質量判定詞匯的時候,其實是在限制數據的范圍,而不是 “要求” AI 出一張很好的圖片。
單詞標簽#
對于在標簽單詞上特化訓練的模型,建議使用逗號隔開的單詞作為提示詞。
普通常見的單詞,例如是可以在數據集來源站點找到的著名標簽(比如 Danbooru)。單詞的風格要和圖像的整體風格搭配,否則會出現混雜的風格或噪點。
避免出現拼寫錯誤。NLP 模型可能將拼寫錯誤的單詞拆分為字母處理。
自然語言#
對于在自然語言上特化訓練的模型,建議使用描述物體的句子作為提示詞。
取決于訓練時使用的數據集,可以使用英文,日文,特殊符號或一些中文。大多數情況下英文較為有效。
避免 with 之類的連接詞或復雜的語法,大多數情況下 NLP 模型只會進行最簡單的處理。
避免使用重音符(如 é 和 è)和德語 umlauts(如 ä 和 ö),它們可能無法被映射到正確的語義中。
不建議隨意套用現成模板,尤其是無法經過人類理解的模板。
Emoji#
Emoji (💰,💶,💷,💴,💵,🎊,🪅🪄,🎀,👩🚀) 表情符號也是可以使用并且 非常準確 的。
Emoji 因為只有一個字符,所以在語義準確度上表現良好。
Emoji 在構圖上有影響,比如 💐☺️💐。
表情符號參考
顏文字#
對于使用 Danbooru 數據的模型來說,可以使用顏文字在一定程度上控制出圖的表情。
例如:
:-) 微笑 :-( 不悅 ;-) 使眼色 :-D 開心 :-P 吐舌頭 :-C 很悲傷 :-O 驚訝 張大口 :-/ 懷疑
僅支持西方顏文字,詳細內容請見 Danbooru 顏文字部分 或 維基百科
空格#
逗號前后的少量空格并不影響實際效果。
開頭和結尾的額外空格會被直接丟棄。詞與詞之間的額外空格也會被丟棄。
標點符號#
用逗號、句號、甚至是空字符(\0)來分隔關鍵詞,可以提高圖像質量。目前還不清楚哪種類型的標點符號或哪種組合效果最好。當有疑問時,只要以一種使提示更容易被閱讀的方式來做。
對于部分模型,建議將下劃線(_)轉換為空格。
藝術風格詞#
可以通過指定風格關鍵詞來創作帶有特效或指定畫風的圖片。
提示詞長度# 提示詞放入的順序就是優先級。由于提示詞的權重值從前向后遞減,放置在特別靠后的提示詞已經對圖片的實際生成影響甚微。
不堆疊提示詞是一個好習慣,但是如果你確實有很多內容要寫,可以適當提高生成步數,以便在生成過程中更好地利用提示詞。
SD-WebUI 突破最多 75 個詞組限制的方式是將每 20 + 55 個詞分為一組。選項 Increase coherency by padding from the last comma within n tokens when using more than 75 tokens 讓程序試圖通過查找最后 N 個標記中是否有最后一個逗號來緩解這種情況,如果有,則將所有經過該逗號的內容一起移動到下一個集合中。該策略可適當緩解提示詞過多無法處理的問題,但可能破壞提示詞之間的權重關系。
除了 WebUI 對此情況進行了特殊處理外,由于 GPT-3 模型限制,提示詞處理空間并不是無限的,大多在在 75-80 之間,75 字符后的內容會被截斷。
特異性#
問題體現在語義偏移上。對于神經網絡的訓練來說,特征的質量很重要:輸入和輸出之間的聯系越強,神經網絡就越容易學習這種聯系。
換句話說,如果一個關鍵詞有非常具體的含義,那么學習它與圖像之間的聯系要比一個關鍵詞有非常廣泛的含義容易得多。
這樣一來,即使是像 ,Zettai Ryouiki, 這樣很少使用的關鍵詞也能產生非常好的結果,因為它只在非常具體的情況下使用。另一方面,,動漫, 即使是一個比較常見的詞,也不會產生很好的結果,這可能是因為它被用于許多不同的情況,即使是沒有字面意思的動漫。如果你想控制你的圖片的內容,選擇具體的關鍵詞尤其重要。另外:你的措辭越不抽象越好。如果可能的話,避免留下解釋空間的措辭,或需要 ,理解, 不屬于圖像的東西。甚至像 ,大, 或 ,小, 這樣的概念也是有問題的,因為它們與物體離相機近或遠是無法區分的。理想情況下,使用有很大可能逐字出現在你想要的圖像標題上的措辭。
語義失衡#
每一個提示詞就像染料一樣,它們的 “親和性“ 不同,如果更常見的提示詞,比如 loli (和其他提示詞并列放置)的影響就大于其他提示詞。 比如,如果你想生成動漫圖片,使用了 星空 startrail 標簽,相比你期望出現的動漫星空,會有更多來自真實照片的星空元素。
否定提示詞#
SD-WebUI 網頁應用會在生成時 避免生成否定提示詞提及的內容。
否定提示是一種使用 Stable-Diffusion 的方式,允許用戶指定他不想看到的內容,而不對模型本身做額外的要求。
通過指定 unconditional_conditioning 參數,在生成中采樣器會查看去噪后符合提示的圖像(城堡)和去噪后看起來符合負面提示的圖像(顆粒狀、霧狀)之間的差異,并嘗試將最終結果遠離否定提示詞。
比如使用以下提示詞避免生成水印和文字內容:
lowres, bad anatomy, bad hands, text, error, missing fingers,
extra digit, fewer digits, cropped, worst quality, low quality,
normal quality, jpeg artifacts, signature, watermark, username, blurry 還如這個例子:
ugly, fat, obese, chubby, (((deformed))), [blurry], bad anatomy,
disfigured, poorly drawn face, mutation, mutated, (extra_limb),
(ugly), (poorly drawn hands fingers), messy drawing, morbid,
mutilated, tranny, trans, trannsexual, [out of frame], (bad proportions),
(poorly drawn body), (poorly drawn legs), worst quality, low quality,
normal quality, text, censored, gown, latex, pencil
熱門評論
最新評論