Штучны інтэлект больш не завязаны на электронных табліцах. Ён малюе, малюе, стварае калажы — часам неверагодна добра. Калі вы калі-небудзь садзіліся і думалі: добра, але як мне насамрэч сказаць штучнаму інтэлекту, што маляваць? — вось тут і ўзнікае ідэя «стыляў мастацтва для штучнага інтэлекту».
Ніжэй мы разгледзім, якія стылі найлепш працуюць з сістэмамі пераўтварэння тэксту ў выяву, чаму гэта так і як вы можаце кіраваць імі, не губляючы ўласнай іскры. Я дадам некалькі практычных заўваг з практычнага тэсціравання (у тым ліку тое, што сапраўды вытрымала некалькі прагонаў), а таксама некаторыя тэхнічныя дэталі, каб працэс быў крыху менш падобны на кіданне кубікаў [1][2][3][4][5].
Артыкулы, якія вам могуць спадабацца пасля гэтага:
🔗 Як ствараць мастацтва са штучным інтэлектам: поўнае кіраўніцтва для пачаткоўцаў
Падрабязнае кіраўніцтва для пачаткоўцаў па стварэнні лічбавых твораў мастацтва, згенераваных штучным інтэлектам.
🔗 Світанак мастацтва, створанага штучным інтэлектам: вызваленне творчасці ці распальванне спрэчак
Даследаванне творчасці, этыкі і дыскусій вакол мастацтва, створанага штучным інтэлектам.
🔗 Найлепшыя інструменты штучнага інтэлекту для графічнага дызайну: лепшае праграмнае забеспячэнне для дызайну на базе штучнага інтэлекту
Адкрыйце для сябе магутныя інструменты штучнага інтэлекту, якія трансфармуюць сучасныя працоўныя працэсы графічнага дызайну.
Што робіць стылі мастацтва для штучнага інтэлекту сапраўды добрымі? ✨
Выбар стыляў — гэта не проста пагоня за трэндамі. Некаторыя стылі мадэлям проста лягчэй прытрымлівацца. Вось некалькі прычын:
-
Выразнасць — стылі з сапраўды выразнымі «правіламі» (раздробненая геаметрыя кубізму; панэлі з вялікай колькасцю ліній мангі) больш паўтаральныя, таму што мэтавыя візуальныя элементы не так моцна зрушваюцца [3][4].
-
Гнуткасць — стылі, зручныя для спалучэння (напрыклад, «кіберпанк + рэалізм»), дазваляюць сучасным мадэлям дыфузіі абапірацца на перакрыжаваную ўвагу для акуратнага змешвання [1].
-
Пазнавальнасць — стылі, якія трэніровачныя дадзеныя бачылі тысячу разоў (анімэ, імпрэсіянізм, фотарэалізм), адлюстроўваюцца больш дакладна [2].
-
Настрой/атмасфера — такія словы, як «меланхалічны», «спакойны» або «неонавы», надзейна змяняюць асвятленне, палітру і кампазіцыю такім чынам, што гэта адчуваецца наўмысным [5].
Мэта не ў нейкай клінічнай «дакладнасці». Мэта — стыль як кантэйнер для вашага настрою ці гісторыі, а таксама навучанне таму, як падказваць мадэлі, каб яна зноў і зноў трапляла ў гэты кантэйнер.
Як штучны інтэлект «бачыць» стыль (простая версія, без лішняй тэрміналогіі)
Сучасныя мадэлі пераўтварэння тэксту ў выяву спалучаюць тры рэчы:
-
Супастаўленне тэксту і выявы — сістэмы, падобныя да CLIP, вывучаюць, «якія словы падыходзяць да якіх вобразаў». Такім чынам, калі вы кажаце «gritty ink wash» («зярністы чарнільны мазок»), сістэма суадносіць гэту фразу з візуальнымі элементамі [3].
-
Дыфузія ў латэнтнай прасторы — схаваная дыфузія паступова ўзмацняе зашумлены вобраз у бок вашага апісання. Такім чынам, яна дасягае як эфектыўнасці, так і кантролю [1].
-
Мадыфікатары падказак — невялікія «хакі супольнасці» — кінематаграфічнае асвятленне, аблямоўка, высокакантрастнае зерне плёнкі — падобныя на рэгуляваныя цыферблаты, якія можна складаць адзін на адзін [5].
Чаму гэта важна: калі стыль выразна існуе ў навучальных дадзеных , і вы апісваеце яго з дапамогай правільных дапаўненняў, вы хутка атрымаеце стабільныя вынікі [1][2][5].
Параўнальная табліца: Папулярныя стылі мастацтва для штучнага інтэлекту 🖌️
Брудная, але карысная шпаргалка:
| Мастацкі стыль | Аўдыторыя | Кошт (інструменты штучнага інтэлекту) | Чаму гэта працуе |
|---|---|---|---|
| Рэалізм | Фатографы, брэнды | Бясплатна – $$$ | Выглядае вытанчана і надзейна |
| Анімэ/манга | Маладзейшыя фанаты, геймеры | Бясплатна – сярэдні кошт | Моцная структура ліній; імгненна чытэльная |
| Сюррэалізм | Творцы, летуценнікі | Вольна | Дзіўныя мэшапы добра падыходзяць для дыфузіі |
| Кіберпанк | Аматары тэхналогій, футурысты | Часта бясплатныя дапаўненні | Неон + кантраст = імгненны ваў-фактар ⚡ |
| Імпрэсіянізм | Аматары мастацтва | Сярэдні кошт | Лёгкія і пэндзляпадобныя тэкстуры зручныя для мадэляў |
| Нізкапалігональная 3D | Дызайнеры, распрацоўшчыкі | Разнастайны | Простая геаметрыя дазваляе дасягнуць згоднасці вынікаў |
| Піксельнае мастацтва | Геймеры, аматары настальгіі | Бясплатна (пераважна) | Жорсткія абмежаванні кіруюць складам |
Палявыя малюнкі: У кіберпанку спалучэнне «мяккага аблямовага святла + аб'ёмнага туману» робіць аб'екты больш выразнымі. Для піксель-арта абмяжуйце яго «8-біт, 32×32, абмежаваная палітра», каб пазбегнуць празмернай чысціні вынікаў.
Глыбокае апусканне: рэалізм супраць сюррэалізму 🎭
Рэалізм — гэта прапорцыі і дэталі, ідэальна падыходзіць для маркетынгавых кампазіцый або дызайну прадукту, дзе важная праўдападобнасць. Такія падказкі, як фотарэалістычнасць, невялікая глыбіня рэзкасці, студыйнае асвятленне, аб'ектыў 85 мм, даюць штучнаму інтэлекту выразныя тэхнічныя арыенціры.
Сюррэалізм, з іншага боку, схіляецца да дзіўнага. Тут сапраўды бліскучыя дыфузійныя мадэлі: «слімак з гадзіннікаў», «горад са скрыпічных струн» — рэчы, якія людзі не могуць рацыяналізаваць, але мадэль можа візуальна сшыць разам. Гэта перакрыжаваная ўвага ціха робіць сваю магію [1]. Добрыя тэгі: казачны, немагчымая геаметрыя, у стылі Эшэра .
Анімэ і манга: Улюбёнец штучнага інтэлекту 🌸
Анімэ/манга амаль несправядліва эфектыўныя. Вызначаная лінейная графіка, зацяненне ячэек і знамянальныя прапорцыі надаюць мадэлі зафіксаваны шаблон, акрамя таго, гэта неверагодна часта сустракаецца ў навучальных дадзеных [2]. А гібрыды? Залаты выбар. Паспрабуйце кіберпанк-анімэ-самурая або стымпанк-манга-дэтэктыва .
Падкажыце апоры, на якія можна абаперціся:
-
«Ключавая візуальная складка анімэ, дынамічная поза, чысты лінейны малюнак, цэлевае ценяванне, выразныя вочы, дэталізаваны фон»
-
«панэль манга, цені экраннага тону, галандскі кут, акцэнт чарнілам»
Заўвага для сябе: калі вынікі выглядаюць неакуратна, дадайце «чысты лінейны малюнак, плоскае ценяванне» або абмяжуйце колеры з дапамогай «абмежаванай палітры».
Кіберпанк і футурыстычныя стылі ⚡
Неонавыя шыльды, храмаваныя адлюстраванні, дажджлівыя ночы — мадэль выдатна спраўляецца з гэтым. Diffusion выдатна спраўляецца з высокакантрасным асвятленнем і адбівальнымі матэрыяламі . Такія падказкі, як «неонавая алея, аб'ёмны туман, адлюстраванні лужын», часта выглядаюць як плакат.
Парада па выпраўленні: падобныя на воск твары? Дадайце ў запыт «падпавярхоўнае рассейванне, плёначную градацыю»
Імпрэсіянізм і жывапісныя тэкстуры 🎨
Тут дэталі не галоўныя. Імпрэсіянізм квітнее на мяккіх краях, размытым колеры і гульні святла. Такія падказкі, як бачныя мазкі, пленэрнае асвятленне, залатая гадзіна, добра працуюць. Мадэль прапануе дэталі без празмернага рэндэрынгу, што, як ні дзіўна, з'яўляецца і аўтэнтычным, і простым у вылічэннях [4].
Мінімалізм, піксель-арт і рэтра 🕹️
Абмежаванні спрашчаюцца. Лоўпаліканская графіка абапіраецца на выразнасць геаметрыі; піксельная графіка блакуецца дазволам + палітрай.
Карысныя рамкі падказак:
-
«нізкапалігональная дыярама, рэзкія краі, плоскае ценяванне, амбіентная аклюзія»
-
«піксельная графіка, спрайт 32×32, стыль NES, абмежаванае згладжванне»
Заўвага: калі піксельная графіка выглядае занадта гладкай, дадайце «лініі сканавання ЭЛТ, размытыя цені» для атрымання аналагавай зерністасці.
Гібрыдныя мэшапы: дзе ззяе штучны інтэлект ✨
Дзікая карта: перакрыжаванае апыленне. Дыфузія дазваляе аб'ядноўваць уплывы, да якіх большасць мастакоў нават не дакранулася б — кіберпанк Ван Гога , кубізм у стылі анімэ-нуар , меха-анёл эпохі Адраджэння. Гэта падобна на нейронны перанос стылю 2.0, але значна больш кіраваны [1][4].
Фармат рэцэпту:
[Тэма] + [Эпоха/Рух] + [Асвятленне] + [Матэрыял/Сродак] + [Кампазіцыя] + [Палітра/Настрой]
Напрыклад: «скрыпач на даху — імпрэсіянісцкі жывапіс алеем — залатая гадзіна падсветкі — не ў цэнтры — настальгічная палітра».
Шаблоны падказак, якія сапраўды змяняюць вынікі 🛠️
З паўторных выпрабаванняў:
-
Спалучэнне матэрыялу і стылю ўдакладняе межы/тэкстуры: алейны сюррэалізм, лічбавая манга [5].
-
«Асвятленне спачатку» змяняе рэалізм больш, чым простае накладанне слоў.
-
Мова камеры (вуглы, даўжыня аб'ектыва) забяспечвае імгненную прадказальнасць.
-
Абмежаванні маюць значэнне — відавочна прымусовае выкарыстанне дазволу/палітры для мінімалізму або піксель-арта.
-
Невялікія рэдагаванні > Вялікія перапісы . Замена «неона» на «натрыевыя пары» часта больш эфектыўная, чым поўная пераробка [5].
Хуткая праверка рэальнасці 🔍
-
Зрушэнне — стылі, распаўсюджаныя ў інтэрнэце (анімэ, фотарэалізм), дамінуюць у выніках; рэдкія стылі патрабуюць спасылкі або дапрацоўкі [2].
-
Чаму сюррэалізм працуе — свабоднасць дыфузіі хавае анатомічныя недахопы, прымушаючы дзіўныя рэчы выглядаць наўмыснымі [1].
-
Хуткае адхіленне — калі ўсе вынікі выглядаюць аднолькава, падкарэктуйце мадыфікатары перад тым, як перапрацоўваць змест [5].
-
Правы/этыка — шырока збіраць дадзеныя; выкарыстоўваць вынікі адказна, асабліва ў камерцыйных мэтах [2].
Міні-нататкі да справы (з маёй пясочніцы) 🧪
-
Кіберпанк-партрэт — «партрэт, бірузова-пурпурны неон, дажджлівы завулак, аблямоўкавае святло, 85 мм, кінематаграфічнае боке».
Працавала, таму што: аб'ектыў + асвятленне добра аддзялілі аб'ект ад фону. -
Імпрэсіянісцкі пейзаж — «бераг ракі ў залатую гадзіну, імпрэсіянісцкі жывапіс алеем, бачныя мазкі».
Падышоў, таму што: сярэдняя тэкстура, асвятленне перадавала цяпло. -
Істота ў стылі піксель-арт — «цмок 32×32 пікселяў, абмежаванае згладжванне, контур 1 піксель, ізаметрыя».
Працавала, таму што: абмежаванні перасталі згладжвацца.
Кароткія даведачныя падказкі (капіяваць/уставіць)
-
Рэалізм (прадукт): «студыйнае фота прадукту, асвятленне софтбокса, аб'ектыў 50 мм, глянцавая кераміка, чысты размах»
-
Анімэ-экшн: «візуалізацыя ключавога анімэ, скарочаная дынамічная поза, цэлевае ценяванне, лініі хуткасці»
-
Сюррэалістычны калаж: «пейзаж мары, немагчымая геаметрыя, лунаючыя лесвіцы, мяккі туман, светлае зерне залатой гадзіны»
-
Нізкапалігональная сцэна: «ізаметрычны нізкапалігональны горад, плоскае ценяванне, амбіентная аклюзія, пастэльная палітра»
-
Імпрэсіянісцкі партрэт: «алей на палатне, свабодны мазок пэндзля, святло аблямоўкі, імпаста-блікі»
Падвядзенне вынікаў 🖼️
«Мастацкія стылі для штучнага інтэлекту» — гэта не зборнікі правілаў, а гульнявыя пляцоўкі. Рэалізм працуе, калі важны давер; сюррэалізм, калі вы хочаце парушыць рэальнасць; анімэ/манга, калі вам патрэбна яснасць з прасторай для спалучэння стыляў. Пераможная стратэгія — гэта структураваная гульня: выберыце стыль, асвятленне + асяроддзе, дадайце некалькі мадыфікатараў, а затым паўтарыце. Калі гэта выклікае ў вас нейкія пачуцці, нават калі яны дзіўна недасканалыя, вы ў зоне.
Спасылкі
[1] Ромбах, Р. і інш. (2022). Сінтэз малюнкаў высокага разрознення з дапамогай мадэляў латэнтнай дыфузіі (CVPR). PDF
[2] Шуман, К. і інш. (2022). LAION-5B: Адкрыты маштабны набор дадзеных для навучання мадэляў выява-тэкст наступнага пакалення. PDF
[3] Рэдфард, А. і інш. (2021). Навучанне пераносным візуальным мадэлям з дапамогай кантролю натуральнай мовы (CLIP). PDF
[4] Гэтіс, Л. і інш. (2016). Перадача стылю выявы з выкарыстаннем згорткавых нейронных сетак (CVPR). PDF
[5] Опенлендэр, Дж. (2024). Таксанамія мадыфікатараў падказак для стварэння тэксту ў выяву. Паводзіны і інфармацыйныя тэхналогіі. Артыкул