Як працуе маштабаванне штучнага інтэлекту

Як працуе маштабаванне з дапамогай штучнага інтэлекту?

Кароткі адказ: маштабаванне з дапамогай штучнага інтэлекту працуе шляхам навучання мадэлі на парных выявах нізкага і высокага разрознення, а затым выкарыстання гэтага метаду для прагназавання праўдападобных дадатковых пікселяў падчас маштабавання. Калі мадэль бачыла падобныя тэкстуры або твары падчас навучання, яна можа дадаць пераканаўчыя дэталі; калі не, яна можа «галюцынаваць» артэфакты, такія як гало, васковая скура або мігценне ў відэа.

Асноўныя высновы:

Прагноз : мадэль генеруе праўдападобныя дэталі, а не гарантаваную рэканструкцыю рэальнасці.

Выбар мадэлі : CNN, як правіла, больш стабільныя; GAN могуць выглядаць больш выразна, але рызыкуюць вынайсці новыя функцыі.

Праверка артэфактаў : сачыце за гало, паўтаральнымі тэкстурамі, «амаль літарамі» і пластыкавымі тварамі.

Стабільнасць відэа : выкарыстоўвайце часавыя метады, інакш вы будзеце назіраць мігценне і дрэйф ад кадра да кадра.

Выкарыстанне з высокімі стаўкамі : калі дакладнасць мае значэнне, раскрыйце апрацоўку і разглядайце вынікі як ілюстрацыю.

Як працуе маштабаванне штучнага інтэлекту? Інфаграфіка.

Вы, напэўна, бачылі гэта: маленькая, хрумсткая выява ператвараецца ў нешта дастаткова выразнае, каб яе можна было раздрукаваць, паглядзець у струменевай трансляцыі або ўставіць у прэзентацыю без ваганняў. Гэта падобна на падман. І — у лепшым сэнсе — так яно і ёсць 😅

Такім чынам, як працуе маштабаванне з дапамогай штучнага інтэлекту, зводзіцца да чагосьці больш канкрэтнага, чым «камп'ютар паляпшае дэталі» (хвалістая рука), і бліжэй да «мадэль прадказвае праўдападобную структуру з высокім разрозненнем на аснове заканамернасцей, якія яна вывучыла з мноства прыкладаў» ( Глыбокае навучанне для звышразрознення малюнкаў: апытанне ). Гэты крок прагназавання — гэта ўся гульня, і менавіта таму маштабаванне з дапамогай штучнага інтэлекту можа выглядаць ашаламляльна... або трохі пластыкава... або як у вашага ката выраслі дадатковыя вусы.

Артыкулы, якія вам могуць спадабацца пасля гэтага:

🔗 Як працуе штучны інтэлект
Вывучыце асновы мадэляў, дадзеных і высноў у штучным інтэлекце.

🔗 Як вучыцца штучны інтэлект
Паглядзіце, як навучальныя дадзеныя і зваротная сувязь паляпшаюць прадукцыйнасць мадэлі з цягам часу.

🔗 Як штучны інтэлект выяўляе анамаліі
Зразумейце базавыя заканамернасці і тое, як штучны інтэлект хутка пазначае незвычайную паводзіны.

🔗 Як штучны інтэлект прадказвае тэндэнцыі
Вывучыце метады прагназавання, якія выяўляюць сігналы і прадбачаць будучы попыт.

Як працуе маштабаванне штучнага інтэлекту: асноўная ідэя, кажучы паўсядзённымі словамі 🧩

Маштабаванне азначае павелічэнне разрознення: больш пікселяў, большая выява. Традыцыйнае маштабаванне (напрыклад, бікубічнае) у асноўным расцягвае пікселі і згладжвае пераходы ( бікубічная інтэрпаляцыя ). Гэта нармальна, але яно не можа стварыць новыя дэталі — яно проста інтэрпалюе.

Пашырэнне штучнага інтэлекту спрабуе нешта больш смелае (г.зн. «суперразрознасць» у свеце даследаванняў) ( Глыбокае навучанне для выяваў з суперразрознасцю: апытанне ):

Ён глядзіць на ўваходны сігнал з нізкім разрозненнем
Распазнае ўзоры (краі, тэкстуры, рысы твару, мазкі тэксту, перапляценне тканіны...)
павінна выглядаць версія з больш высокім разрозненнем
Генеруе дадатковыя піксельныя дадзеныя, якія адпавядаюць гэтым шаблонам

Не «ідэальна аднавіць рэальнасць», а хутчэй «зрабіць вельмі праўдападобнае здагадку» ( Звышразрознасць малюнкаў з выкарыстаннем глыбокіх згортачных сетак (SRCNN) ). Калі гэта гучыць крыху падазрона, вы не памыляецеся — але менавіта таму гэта так добра працуе 😄

І так, гэта азначае, што маштабаванне з дапамогай штучнага інтэлекту — гэта ў асноўным кантраляваная галюцынацыя... але прадуктыўны спосаб з павагай да пікселяў.

Што робіць маштабаванне штучнага інтэлекту добрай версіяй? ✅🛠️

Калі вы ацэньваеце апскейлер са штучным інтэлектам (ці прэсет налад), вось што, як правіла, мае найбольшае значэнне:

Аднаўленне дэталяў без перасмажвання.
Добрае маштабаванне дадае хрумсткасці і структуры, а не хрумсткага шуму або фальшывых пор.
Дысцыпліна па краях
Чыстыя лініі застаюцца чыстымі. Дрэнныя мадэлі прымушаюць краю хістацца або з'яўляюцца гало.
Рэалізм тэкстуры.
Валасы не павінны ператварацца ў мазок пэндзля. Цагліна не павінна ператварацца ў паўтаральны ўзор-штамп.
Апрацоўка шуму і сціскання
Шмат штодзённых малюнкаў перапрацоўваецца ў JPEG да непрыстойнасці. Добры апскейлер не ўзмацняе гэтую шкоду ( Real-ESRGAN ).
Усведамленне твараў і тэксту.
Твары і тэкст — гэта месцы, дзе лягчэй за ўсё заўважыць памылкі. Добрыя мадэлі ставяцца да іх акуратна (або маюць спецыяльныя рэжымы).
Паслядоўнасць паміж кадрамі (для відэа).
Калі дэталі мігцяць ад кадра да кадра, вашы вочы будуць крычаць. Маштабаванне відэа залежыць ад часовай стабільнасці ( BasicVSR (CVPR 2021) ).
Элементы кіравання, якія маюць сэнс.
Вам патрэбныя паўзункі, якія адлюстроўваюць рэальныя вынікі: шумапрыглушэнне, выдаленне размыцця, выдаленне артэфактаў, захаванне зерня, павышэнне рэзкасці... практычныя рэчы.

Ціхае правіла, якое застаецца ў сіле: «лепшае» маштабаванне часта бывае ледзь заўважным. Здаецца, што ў вас спачатку была лепшая камера 📷✨

Параўнальная табліца: папулярныя варыянты маштабавання штучнага інтэлекту (і для чаго яны добрыя) 📊🙂

Ніжэй прыведзена практычнае параўнанне. Цэны наўмысна размытыя, бо інструменты адрозніваюцца ў залежнасці ад ліцэнзіі, пакетаў, выдаткаў на вылічэнні і ўсіх іншых цікавых рэчаў.

Інструмент / Падыход	Лепш за ўсё падыходзіць для	Цэнавая атмасфера	Чаму гэта працуе (прыкладна)
Павялічвальнікі маштабавання настольных кампутараў у стылі Topaz ( фота Topaz , відэа Topaz )	Фота, відэа, лёгкі працоўны працэс	Платнае	Моцныя агульныя мадэлі + шмат налад, у асноўным "проста працуюць"..
Функцыі тыпу Adobe «Super Resolution» ( Adobe Enhance > Super Resolution )	Фатографы, якія ўжо знаходзяцца ў гэтай экасістэме	Падпіска	Дэталізаваная рэканструкцыя, звычайна кансерватыўная (менш драматычная)
Real-ESRGAN / варыянты ESRGAN ( Real-ESRGAN , ESRGAN )	Зрабі сам, распрацоўшчыкі, пакетныя заданні	Бясплатна (але патрабуе вялікіх выдаткаў па часе)	Выдатна перадае тэкстуры, можа быць пікантным на твары, калі не быць асцярожным
Рэжымы маштабавання на аснове дыфузіі ( SR3 )	Крэатыўная праца, стылізаваныя вынікі	Змешаная	Можа ствараць цудоўныя дэталі — а таксама можа выдумляць глупствы, дык вось… так
Гульнявыя апскейлеры (у стылі DLSS/FSR) ( NVIDIA DLSS , AMD FSR 2 )	Гульні і рэндэрынг у рэжыме рэальнага часу	У камплекце	Выкарыстоўвае дадзеныя аб руху і вывучаныя апрыёрныя хібы - плаўная перамога ў прадукцыйнасці 🕹️
Паслугі маштабавання воблачных рэсурсаў	Зручнасць, хуткія перамогі	Аплата за выкарыстанне	Хутка + маштабуецца, але вы ахвяруеце кантролем, а часам і тонкасцю
Відэаарыентаваныя мадэлі штучнага інтэлекту для паляпшэння маштабавання ( BasicVSR , Topaz Video )	Старыя кадры, анімэ, архівы	Платнае	Часовыя хітрасці для памяншэння мігацення + спецыялізаваныя відэамадэлі
Павялічэнне маштабу для «смартфона»/галерэі	Выпадковае выкарыстанне	Уключана	Лёгкія мадэлі, настроеныя на прыемны вынік, а не на дасканаласць (усё яшчэ зручныя)

Прызнанне ў асаблівасці фарматавання: «Платны» варыянт выконвае шмат працы ў гэтай табліцы. Але вы зразумелі ідэю 😅

Вялікі сакрэт: мадэлі вучацца пераўтвараць выявы з нізкага разрознення ў высокае 🧠➡️🖼️

У аснове большасці мадэрнізацыі штучнага інтэлекту ляжыць сістэма навучання з кантролем ( звышразрознасць малюнкаў з выкарыстаннем глыбокіх згортачных сетак (SRCNN) ):

Пачніце з малюнкаў высокага разрознення («праўда»)
Знізіць іх разрозненне да версій з нізкім разрозненнем («уваходныя дадзеныя»)
Навучыць мадэль для рэканструкцыі зыходнага высокага разрознення з нізкага разрознення

З часам мадэль вывучае карэляцыі, такія як:

«Такія размытыя плямы вакол вачэй звычайна належаць павек»
«Гэты кластар пікселяў часта паказвае на тэкст з засечкамі»
«Гэты градыент па краях выглядае як лінія даху, а не як выпадковы шум»

Гэта не запамінанне канкрэтных малюнкаў (у простым сэнсе), гэта вывучэнне статыстычнай структуры ( Глыбокае навучанне для звышвыразрознасці малюнкаў: апытанне ). Уявіце сабе гэта як вывучэнне граматыкі тэкстур і краёў. Не паэтычная граматыка, хутчэй... граматыка кіраўніцтва IKEA 🪑📦 (нязграбная метафара, але дастаткова блізкая).

Асноўныя моманты: што адбываецца падчас вываду (пры маштабаванні) ⚙️✨

Калі вы падаеце выяву ў апскейлер штучнага інтэлекту, звычайна існуе такі канвеер:

Папярэдняя апрацоўка
- Пераўтварыць каляровую прастору (часам)
- Нармалізаваць значэнні пікселяў
- Разбіце выяву на кавалкі, калі яна вялікая (праверка рэальнасці VRAM 😭) ( рэпазітар Real-ESRGAN (параметры плітак) )
Вылучэнне прыкмет
- Раннія пласты выяўляюць краю, куты, градыенты
- Глыбейшыя пласты выяўляюць заканамернасці: тэкстуры, формы, кампаненты твару
Рэканструкцыя
- Мадэль стварае карту прыкмет больш высокага разрознення
- Затым пераўтварае гэта ў рэальны піксельны выхад
Пасляапрацоўка
- Дадатковая завострыванне
- Дадатковае падаўленне шуму
- Дадатковае падаўленне артэфактаў (звон, гало, блокавасць)

Адна тонкая дэталь: многія інструменты павялічваюць маштаб плітак, а потым змешваюць швы. Выдатныя інструменты хаваюць межы плітак. Але ж інструменты пакідаюць ледзь прыкметныя сляды сеткі, калі прыжмурыцца. І так, вы прыжмурыцеся, бо людзі любяць разглядаць дробныя недахопы пры павелічэнні 300%, як маленькія грэмліны 🧌

Асноўныя сямействы мадэляў, якія выкарыстоўваюцца для маштабавання штучнага інтэлекту (і чаму яны адрозніваюцца) 🤖📚

1) Звышвыразрознасць на аснове CNN (класічная рабочая конік)

Згорткавыя нейронныя сеткі выдатна спраўляюцца з лакальнымі шаблонамі: краямі, тэкстурамі, невялікімі структурамі ( Звышдазвол малюнкаў з выкарыстаннем глыбокіх згорткавых сетак (SRCNN) ).

Плюсы: даволі хуткі, стабільны, менш сюрпрызаў
Мінусы: пры моцным націску можа выглядаць крыху «апрацаваным»

2) Маштабаванне на аснове GAN (у стылі ESRGAN) 🎭

GAN (генератыўна-спаборніцкія сеткі) навучаюць генератар ствараць выявы высокага разрознення, якія дыскрымінатар не можа адрозніць ад рэальных ( генератыўна-спаборніцкія сеткі ).

Плюсы: выразныя дэталі, уражлівая тэкстура
Мінусы: можна прыдумаць дэталі, якіх не было — часам няправільна, часам дзіўна ( SRGAN , ESRGAN )

GAN можа даць вам такую рэзкасць, што прымушае вас ахапіць вока. Ён таксама можа дадаць вашаму аб'екту партрэта дадатковае брыво. Таму... выбірайце свае бітвы 😬

3) Маштабаванне на аснове дыфузіі (крэатыўны падстаноўны знак) 🌫️➡️🖼️

Дыфузійныя мадэлі паэтапна выдаляюць шум і могуць кіравацца атрыманнем дэталяў высокай раздзяляльнасці ( SR3 ).

Плюсы: можа быць неверагодна добрым у падборы праўдападобных дэталяў, асабліва для творчай працы
Мінусы: можа адысці ад першапачатковай ідэнтычнасці/структуры, калі налады агрэсіўныя ( SR3 )

Вось тут «маштабаванне» пачынае злівацца з «пераасэнсаваннем». Часам гэта менавіта тое, чаго вы хочаце. Часам — не.

4) Павялічэнне маштабу відэа з часовай паслядоўнасцю 🎞️

Павялічэнне маштабу відэа часта дадае логіку ўлічвання руху:

Выкарыстоўвае суседнія кадры для стабілізацыі дэталяў ( BasicVSR (CVPR 2021) )
Стараецца пазбегнуць мігацення і поўзаючых артэфактаў
Часта спалучае суперразрознасць з падаўленнем шуму і дэінтэрлейсінгам ( Topaz Video )

Калі маштабаванне выявы падобнае да аднаўлення адной карціны, то маштабаванне відэа падобнае да аднаўлення фліпбука без змены формы носа персанажа на кожнай старонцы. Што… складаней, чым здаецца.

Чаму маштабаванне з дапамогай штучнага інтэлекту часам выглядае фальшыва (і як гэта распазнаць) 👀🚩

Пашырэнне штучнага інтэлекту дае няўдачы ў вядомых выпадках. Як толькі вы вывучыце заканамернасці, вы будзеце бачыць іх усюды, напрыклад, купляеце новую машыну і раптам заўважаеце гэтую мадэль на кожнай вуліцы 😵💫

Агульныя распавяданні:

Дэпіляцыя твараў воскам (занадта шмат шуму + згладжвання)
Занадта завостраныя гало па краях (класічная тэрыторыя «перарэгулявання») ( бікубічная інтэрпаляцыя )
Паўтаральныя тэкстуры (цагляныя сцены ператвараюцца ў шаблоны, скапіяваныя і ўстаўленыя)
Хрумсткі мікракантраст , які крычыць пра «алгарытм»
Скажэнне тэксту, пры якім літары становяцца амаль літарамі (найгоршы від)
Зрушэнне дэталяў, пры якім невялікія асаблівасці ледзь прыкметна змяняюцца, асабліва ў дыфузійных працоўных працэсах ( SR3 )

Складанасць у тым, што часам гэтыя артэфакты выглядаюць «лепш» на першы погляд. Вашаму мозгу падабаецца рэзкасць. Але праз імгненне гэта здаецца… дзіўным.

Добрая тактыка — паменшыць маштаб і праверыць, ці выглядае яно натуральна на звычайнай адлегласці прагляду. Калі яно добра выглядае толькі пры 400% павелічэнні, гэта не перамога, гэта проста хобі 😅

Як працуе маштабаванне штучнага інтэлекту: навучальны бок без матэматычнага галаўнога болю 📉🙂

Навучанне мадэляў з высокім разрозненнем звычайна ўключае ў сябе:

Парныя наборы даных (уваходныя даныя з нізкім разрозненнем, мэта з высокім разрозненнем) ( Звышразрозненне выявы з выкарыстаннем глыбокіх згортачных сетак (SRCNN) )
Функцыі страт , якія пакараюць няправільныя рэканструкцыі ( SRGAN )

Тыповыя тыпы страт:

Страта пікселяў (L1/L2)
Павышае дакладнасць. Можа прывесці да крыху размытых вынікаў.
Страта ўспрымання
Параўноўвае больш глыбокія асаблівасці (напрыклад, «ці падобна гэта » ), а не дакладныя пікселі ( Страты ўспрымання (Johnson et al., 2016) ).
Супрацьлеглая параза (GAN)
заахвочвае рэалізм, часам коштам літаральнай дакладнасці ( SRGAN , генератыўныя суперніцкія сеткі ).

Ідзе пастаяннае перацягванне каната:

Зрабіць верным арыгіналу
супраць
Зрабіце гэта візуальна прыемным

Розныя інструменты займаюць розныя месцы ў гэтым спектры. І вы можаце аддаць перавагу аднаму з іх у залежнасці ад таго, рэстаўруеце вы сямейныя фатаграфіі ці рыхтуеце плакат, дзе «прыгожы выгляд» мае значэнне, а не дакладнасць экспертызы.

Практычныя працоўныя працэсы: фота, старыя сканы, анімэ і відэа 📸🧾🎥

Фотаздымкі (партрэты, пейзажы, здымкі прадуктаў)

Найлепшая практыка звычайна такая:

Спачатку лёгкае падаўленне шуму (пры неабходнасці)
Высакаякасны з кансерватыўнымі ўмовамі
Дадайце зярністасць назад, калі рэчы здаюцца занадта гладкімі (так, сапраўды)

Збожжа як соль. Занадта шмат сапсуе вячэру, але ніводнае з іх не будзе мець крыху прэснага смаку 🍟

Старыя сканы і моцна сціснутыя выявы

Гэта складаней, бо мадэль можа апрацоўваць блокі сціскання як «тэкстуру».
Паспрабуйце:

Выдаленне артэфактаў або дэблакіроўка
Затым павышайце клас
Затым лёгкае павелічэнне рэзкасці (не занадта моцна... я ведаю, усе так кажуць, але ўсё ж)

Анімэ і лінейны малюнак

Перавагі лінейнага мастацтва:

Мадэлі, якія захоўваюць чыстыя краю
Зніжэнне галюцынацый тэкстур
. Павялічэнне маштабу ў анімэ часта выглядае выдатна, таму што формы прасцейшыя і паслядоўныя. (Шчасліўчык.)

Відэа

Відэа дадае дадатковыя крокі:

Падаўленне шуму
Дэінтэрлейсінг (для некаторых крыніц)
Высакаякасны
Часовае згладжванне або стабілізацыя ( BasicVSR (CVPR 2021) )
Дадатковае паўторнае ўвядзенне збожжа для згуртавання

Калі прапусціць часовую паслядоўнасць, атрымаецца гэтае мігаценне дэталяў. Як толькі вы яго заўважыце, вы не зможаце яго перастаць бачыць. Як рыпучае крэсла ў ціхім пакоі 😖

Выбар налад без лішніх здагадак (невялікая шпаргалка) 🎛️😵💫

Вось нядрэнны стартавы настрой:

Калі твары выглядаюць пластычнымі,
паменшыце шумапрыглушэнне, паменшыце рэзкасць, паспрабуйце мадэль або рэжым з захаваннем твараў.
Калі тэкстуры выглядаюць занадта інтэнсіўнымі,
паменшыце паўзункі «паляпшэнне дэталізацыі» або «аднаўленне дэталізацыі», пасля чаго дадайце ледзь прыкметную зерністасць.
Калі краю свецяцца,
зменшце рэзкасць, праверце параметры падаўлення гало.
Калі выява выглядае занадта «штучнай»,
будзьце больш кансерватыўнымі. Часам лепшы крок — гэта проста… менш.

Акрамя таго: не павялічвайце маштаб у 8 разоў толькі таму, што можаце. Чысты 2x ці 4x часта з'яўляецца аптымальным варыянтам. Пасля гэтага вы просіце мадэль напісаць фанфік пра вашы пікселі 📖😂

Этыка, сапраўднасць і няёмкае пытанне «праўды» 🧭😬

Пашырэнне штучнага інтэлекту размывае мяжу:

Рэстаўрацыя азначае аднаўленне таго, што было
Паляпшэнне азначае даданне таго, чаго не было

З асабістымі фотаздымкамі звычайна ўсё добра (і цудоўна). З журналістыкай, юрыдычнымі доказамі, медыцынскай візуалізацыяй ці чым заўгодна, дзе важная дакладнасць... трэба быць асцярожным ( OSAC/NIST: Стандартнае кіраўніцтва па кіраванні лічбавымі выявамі ў судовай практыцы , Рэкамендацыі SWGDE па аналізе судовай практыкі выяў ).

Простае правіла:

Калі стаўкі высокія, разглядайце маштабаванне штучнага інтэлекту як ілюстрацыю , а не канчатковы вынік.

Акрамя таго, раскрыццё інфармацыі мае значэнне ў прафесійным кантэксце. Не таму, што штучны інтэлект — гэта зло, а таму, што аўдыторыя заслугоўвае ведаць, ці былі дэталі рэканструяваны ці захаваны. Гэта проста… паважліва.

Заключныя нататкі і кароткі агляд 🧡✅

Такім чынам, маштабаванне з дапамогай штучнага інтэлекту працуе наступным чынам: мадэлі вывучаюць, як дэталі высокага разрознення звычайна суадносяцца з шаблонамі нізкага разрознення, а затым прадказваюць праўдападобныя дадатковыя пікселі падчас маштабавання ( Глыбокае навучанне для звышразрознасці малюнкаў: апытанне ). У залежнасці ад сямейства мадэляў (CNN, GAN, дыфузія, відэа-часавая), гэты прагноз можа быць кансерватыўным і дакладным... або смелым і часам неабдуманым 😅

Кароткі агляд

Традыцыйнае маштабаванне расцягвае пікселі ( бікубічная інтэрпаляцыя )
Пашырэнне штучнага інтэлекту прадказвае адсутнасць дэталяў з дапамогай вывучаных шаблонаў ( Звышдазвол выявы з выкарыстаннем глыбокіх згортачных сетак (SRCNN) )
Выдатныя вынікі дасягаюцца з правільнай мадэллю + стрыманасцю
Звярніце ўвагу на гало, васковыя твары, паўтаральныя тэкстуры і мігценне ў відэа ( BasicVSR (CVPR 2021) )
Павялічэнне маштабу часта з'яўляецца «праўдападобнай рэканструкцыяй», а не ідэальнай праўдай ( SRGAN , ESRGAN )

Калі хочаце, раскажыце мне, што вы маштабуеце (твары, старыя фотаздымкі, відэа, анімэ, сканы тэксту), і я прапаную стратэгію налад, якая дапаможа пазбегнуць распаўсюджаных памылак «штучнага выгляду» 🎯🙂

Часта задаваныя пытанні

Маштабаванне штучнага інтэлекту і як яно працуе

Маштабаванне з дапамогай штучнага інтэлекту (часта называецца «суперразрознасцю») павялічвае разрозненне выявы, прагназуючы адсутнасць дэталяў высокага разрознення з шаблонаў, вывучаных падчас навучання. Замест простага расцяжэння пікселяў, як пры бікубічнай інтэрпаляцыі, мадэль вывучае краю, тэкстуры, грані і тэкставыя штрыхі, а затым генеруе новыя піксельныя дадзеныя, якія адпавядаюць гэтым вывучаным шаблонам. Гэта менш «аднаўленне рэальнасці» і больш «стварэнне праўдападобнай здагадкі», якая чытаецца як натуральная.

Маштабаванне з дапамогай штучнага інтэлекту ў параўнанні з бікубічнай або традыцыйнай зменай памеру

Традыцыйныя метады маштабавання (напрыклад, бікубічны) у асноўным інтэрпалююць паміж існуючымі пікселямі, згладжваючы пераходы без стварэння сапраўды новых дэталяў. Маштабаванне з дапамогай штучнага інтэлекту накіравана на рэканструкцыю праўдападобнай структуры шляхам распазнавання візуальных падказак і прагназавання таго, як будуць выглядаць версіі гэтых падказак у высокім разрозненні. Вось чаму вынікі штучнага інтэлекту могуць адчувацца значна больш выразнымі, а таксама таму яны могуць уводзіць артэфакты або «вынаходзіць» дэталі, якіх не было ў зыходным дакуменце.

Чаму твары могуць выглядаць васковымі або занадта гладкімі

Васковыя твары звычайна атрымліваюцца ў выніку агрэсіўнага шумапрыглушэння і згладжвання ў спалучэнні з павышэннем рэзкасці, якія выдаляюць натуральную тэкстуру скуры. Многія інструменты аднолькава апрацоўваюць шум і дробную тэкстуру, таму «ачыстка» выявы можа сцерці пары і тонкія дэталі. Распаўсюджаны падыход — паменшыць шумапрыглушэнне і павышэнне рэзкасці, выкарыстоўваць рэжым захавання твару, калі ён даступны, а затым зноў дадаць трохі зярністасці, каб вынік адчуваўся менш пластычным і больш фатаграфічным.

Распаўсюджаныя артэфакты маштабавання штучнага інтэлекту, на якія варта звярнуць увагу

Тыповыя прыкметы ўключаюць гало па краях, паўтаральныя тэкстурныя ўзоры (напрыклад, цагліны, якія скапіруюцца і ўстаўляюцца), хрумсткі мікракантраст і тэкст, які ператвараецца ў «амаль літары». У працоўных працэсах на аснове дыфузіі таксама можна заўважыць дрэйф дэталяў, калі дробныя элементы ледзь прыкметна змяняюцца. Для відэа мігценне і паўзокія дэталяў па кадрах з'яўляюцца сур'ёзнымі трывожнымі сігналамі. Калі відэа добра выглядае толькі пры экстрэмальным павелічэнні, налады, верагодна, занадта агрэсіўныя.

Чым адрозніваюцца вынікі апскейлераў GAN, CNN і дыфузійных метадаў

Звышвыразрознасць на аснове CNN звычайна больш стабільная і прадказальная, але пры моцным націску можа выглядаць «апрацаванай». Варыянты на аснове GAN (у стылі ESRGAN) часта ствараюць больш выразную тэкстуру і ўспрыманую рэзкасць, але могуць ствараць галюцынацыі няправільных дэталяў, асабліва на тварах. Маштабаванне на аснове дыфузіі можа ствараць прыгожыя, праўдападобныя дэталі, але яны могуць адхіляцца ад зыходнай структуры, калі налады кіраўніцтва або інтэнсіўнасці занадта моцныя.

Практычная стратэгія налад, каб пазбегнуць выгляду «занадта штучнага інтэлекту»

Пачніце з кансерватыўнага рэжыму: павялічце маштаб у 2 ці 4 разы, перш чым звяртацца да экстрэмальных каэфіцыентаў. Калі твары выглядаюць пластычнымі, зменшце шумапрыглушэнне і рэзкасць і паспрабуйце рэжым з улікам твараў. Калі тэкстуры становяцца занадта інтэнсіўнымі, паменшыце паляпшэнне дэталізацыі і пасля гэтага падумайце аб даданні ледзь прыкметнай зярністасці. Калі краю свецяцца, паменшыце рэзкасць і праверце падаўленне гало або артэфактаў. У многіх канвеерах перамагае «менш», таму што гэта захоўвае праўдападобны рэалізм.

Апрацоўка старых сканаў або моцна сціснутых малюнкаў JPEG перад маштабаваннем

Сціснутыя выявы складаныя, бо мадэлі могуць апрацоўваць блочныя артэфакты як рэальную тэкстуру і ўзмацняць іх. Звычайны працоўны працэс — спачатку выдаленне або дэблочнасць артэфактаў, затым маштабаванне, і толькі пры неабходнасці лёгкае павелічэнне рэзкасці. Пры сканаванні акуратная ачыстка можа дапамагчы мадэлі засяродзіцца на рэальнай структуры, а не на пашкоджаннях. Мэта складаецца ў тым, каб паменшыць колькасць «падказкаў падробкі тэкстуры», каб спецыяліст па маштабаванні не быў вымушаны рабіць упэўненыя здагадкі на падставе шумных уваходных дадзеных.

Чаму маштабаванне відэа складанейшае, чым маштабаванне фота

Маштабаванне відэа павінна быць паслядоўным ва ўсіх кадрах, а не толькі для аднаго статычнага малюнка. Калі дэталі мігцяць ад кадра да кадра, вынік хутка пачынае адцягваць увагу. Падыходы, арыентаваныя на відэа, выкарыстоўваюць часовую інфармацыю з суседніх кадраў для стабілізацыі рэканструкцыі і пазбягання мігатлівых артэфактаў. Многія працоўныя працэсы таксама ўключаюць шумапрыглушэнне, дэінтэрлейсінг для пэўных крыніц і дадатковае паўторнае ўвядзенне зярністасці, каб уся паслядоўнасць выглядала цэласнай, а не штучна рэзкай.

Калі маштабаванне штучнага інтэлекту недарэчнае або рызыкоўнае

Пашырэнне з дапамогай штучнага інтэлекту лепш разглядаць як паляпшэнне, а не як доказ. У кантэкстах з высокімі стаўкамі, такіх як журналістыка, юрыдычныя доказы, медыцынская візуалізацыя або судова-медыцынская экспертыза, стварэнне «праўдападобных» пікселяў можа ўводзіць у зман, бо можа дадаваць дэталі, якія не былі захоплены. Больш бяспечнае афармленне — выкарыстоўваць яго ў ілюстрацыйным сэнсе і паказваць, што штучны інтэлект апрацаваў дэталь. Калі дакладнасць мае вырашальнае значэнне, захавайце арыгіналы і задакументуйце кожны этап апрацоўкі і налады.

Спасылкі

arXiv - Глыбокае навучанне для атрымання выяваў звышвыразрознасці: апытанне - arxiv.org
arXiv - Звышразрознасць выяваў з выкарыстаннем глыбокіх згортачных сетак (SRCNN) - arxiv.org
arXiv - Real-ESRGAN - arxiv.org
arXiv - ESRGAN - arxiv.org
arXiv - SR3 - arxiv.org
Распрацоўшчык NVIDIA - NVIDIA DLSS - developer.nvidia.com
AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com
Адкрыты доступ Фонду камп'ютэрнага зроку (CVF) - BasicVSR: Пошук неабходных кампанентаў у відэа з высокім разрозненнем (CVPR 2021) - openaccess.thecvf.com
arXiv - Генератыўныя спаборніцкія сеткі - arxiv.org
arXiv - SRGAN - arxiv.org
arXiv - Страты ўспрымання (Джонсан і інш., 2016) - arxiv.org
GitHub - Рэпазітар Real-ESRGAN (варыянты плітак) - github.com
Вікіпедыя - Бікубічная інтэрпаляцыя - wikipedia.org
Topaz Labs - Фота Topaz - topazlabs.com
Topaz Labs - Відэа пра Topaz - topazlabs.com
Цэнтр дапамогі Adobe - Adobe Enhance > Звышвысокае разрозненне - helpx.adobe.com
NIST / OSAC - Стандартнае кіраўніцтва па кіраванні лічбавымі выявамі ў судовай медыцыне (версія 1.0) - nist.gov
SWGDE - Рэкамендацыі па судова-медыцынскім аналізе малюнкаў - swgde.org

Знайдзіце найноўшы штучны інтэлект у афіцыйнай краме памочнікаў штучнага інтэлекту

Пра нас

Назад да блога

Краіна/рэгіён