Што такое нейронная сетка ў штучным інтэлекце?

Што такое нейронная сетка ў штучным інтэлекце?

Нейронныя сеткі гучаць загадкава, пакуль не перастануць быць загадкавымі. Калі вы калі-небудзь задаваліся пытаннем, што такое нейронная сетка ў штучным інтэлекце і ці з'яўляецца гэта проста матэматыкай у мудрагелістым капелюшы, вы ў патрэбным месцы. Мы будзем прытрымлівацца практычнага падыходу, дадамо невялікія адхіленні ад тэмы і, так, некалькі эмодзі. Вы даведаецеся, што гэта за сістэмы, чаму яны працуюць, дзе яны даюць збой і як пра іх казаць, не махаючы рукой.

Артыкулы, якія вам могуць спадабацца пасля гэтага:

🔗 Што такое прадузятасць штучнага інтэлекту
Разуменне прадузятасці ў сістэмах штучнага інтэлекту і стратэгіі забеспячэння справядлівасці.

🔗 Што такое прагназуючы штучны інтэлект
Як прагназуючы штучны інтэлект выкарыстоўвае заканамернасці для прагназавання будучых вынікаў.

🔗 Што такое трэнер па штучным інтэлекце
Вывучэнне ролі і абавязкаў спецыялістаў, якія навучаюць штучны інтэлект.

🔗 Што такое камп'ютэрны зрок у штучным інтэлекце
Як штучны інтэлект інтэрпрэтуе і аналізуе візуальныя дадзеныя з дапамогай камп'ютэрнага зроку.


Што такое нейронная сетка ў штучным інтэлекце? Адказ за 10 секунд ⏱️

Нейронная сетка — гэта набор простых вылічальных адзінак, якія называюцца нейронамі, якія перадаюць лікі наперад, карэктуюць сваю трываласць злучэнняў падчас навучання і паступова вывучаюць заканамернасці ў дадзеных. Калі вы чуеце пра глыбокае навучанне , гэта звычайна азначае нейронную сетку з мноствам шматслаёвых слаёў, якая аўтаматычна вывучае функцыі, а не кадуе іх уручную. Іншымі словамі: мноства дробных матэматычных элементаў, разумна размешчаных, навучаных на дадзеных, пакуль яны не стануць карыснымі [1].


Што робіць нейронную сетку карыснай? ✅

  • Магутнасць прадстаўлення : пры правільнай архітэктуры і памеры сеткі могуць апраксімаваць надзвычай складаныя функцыі (гл. тэарэму універсальнага прыбліжэння) [4].

  • Сквознае навучанне : замест ручной распрацоўкі асаблівасцей мадэль іх выяўляе [1].

  • Абагульненне : добра рэгулярызаваная сетка не проста запамінае — яна працуе з новымі, нябачнымі дадзенымі [1].

  • Маштабаванасць : большыя наборы дадзеных і больш маштабныя мадэлі часта паляпшаюць вынікі… да практычных абмежаванняў, такіх як якасць вылічэнняў і дадзеных [1].

  • Пераноснасць : магчымасці, атрыманыя ў адной задачы, могуць дапамагчы іншай (пераноснае навучанне і тонкая налада) [1].

Маленькая палявая нататка (прыклад сцэнарыя): Невялікая каманда па класіфікацыі прадуктаў замяняе ўручную створаныя функцыі на кампактную CNN, дадае простыя дапаўненні (перавароты/абрэзкі) і назірае, як памылкі праверкі змяншаюцца — не таму, што сетка «магічная», а таму, што яна навучылася больш карысным функцыям непасрэдна з пікселяў.


«Што такое нейронная сетка ў штучным інтэлекце?» — простай мовай, з недарэчнай метафарай 🍞

Уявіце сабе пякарню. Інгрэдыенты паступаюць, рабочыя карэктуюць рэцэпт, дэгустатары скардзяцца, і каманда зноў абнаўляе рэцэпт. У сетцы ўваходныя дадзеныя праходзяць праз пласты, функцыя страт ацэньвае вынік, а градыенты падштурхоўваюць вагі, каб наступным разам атрымаць лепшыя вынікі. Не ідэальна як метафара — хлеб не дыферэнцыявальны — але ён трымаецца [1].


Анатомія нейроннай сеткі 🧩

  • Нейроны : малюсенькія калькулятары, якія прымяняюць узважаную суму і функцыю актывацыі.

  • Вагі і зрушэнні : рэгуляваныя ручкі, якія вызначаюць, як сігналы аб'ядноўваюцца.

  • Слаі : уваходны слой атрымлівае дадзеныя, схаваныя слоі пераўтвараюць іх, выходны слой робіць прагноз.

  • Функцыі актывацыі : нелінейныя павароты, такія як ReLU, сігмападобная, tanh і softmax, робяць навучанне гнуткім.

  • Функцыя страт : паказчык таго, наколькі няправільны прагноз (перакрыжаваная энтрапія для класіфікацыі, MSE для рэгрэсіі).

  • Аптымізатар : алгарытмы, такія як SGD або Adam, выкарыстоўваюць градыенты для абнаўлення ваг.

  • Рэгулярызацыя : такія метады, як адсеў або зніжэнне вагі, каб прадухіліць перанавучанне мадэлі.

Калі вам патрэбна фармальная апрацоўка (але ўсё яшчэ чытэльная), адкрыты падручнік «Глыбокае навучанне» ахоплівае ўвесь стэк: асновы матэматыкі, аптымізацыю і абагульненне [1].


Функцыі актывацыі, коратка, але карысна ⚡

  • ReLU : Нуль для адмоўных значэнняў, лінейны для станоўчых. Просты, хуткі, эфектыўны.

  • Сігмападобная : Зводзіць значэнні паміж 0 і 1 — карысна, але можа насычаць.

  • Танх : Падобны да сігмападобнай, але сіметрычны вакол нуля.

  • Softmax : Ператварае неапрацаваныя балы ў верагоднасці для розных класаў.

Вам не трэба запамінаць кожную форму крывой — проста ведайце кампрамісы і распаўсюджаныя значэнні па змаўчанні [1, 2].


Як насамрэч адбываецца навучанне: з падтрымкай, але не страшна 🔁

  1. Прамая перадача : дадзеныя перадаюцца пласт за пластом для стварэння прагнозу.

  2. Вылічыць страты : параўнаць прагноз з праўдай.

  3. Зваротнае распаўсюджванне : вылічыце градыенты страт адносна кожнай вагі, выкарыстоўваючы правіла ланцуга.

  4. Абнаўленне : Аптымізатар трохі змяняе вагі.

  5. Паўтарэнне : Шмат эпох. Мадэль паступова вучыцца.

Для практычнага разумення з візуальнымі элементамі і тлумачэннямі, прылеглымі да кода, глядзіце класічныя нататкі CS231n па зваротнай аптымізацыі і аптымізацыі [2].


Асноўныя сямействы нейронных сетак, кароткі агляд 🏡

  • Сеткі прамой сувязі (MLP) : найпрасцейшы тып. Дадзеныя перадаюцца толькі наперад.

  • Згорткавыя нейронныя сеткі (ЗНС) : выдатна падыходзяць для малюнкаў дзякуючы прасторавым фільтрам, якія выяўляюць краю, тэкстуры, формы [2].

  • Рэкурэнтныя нейронныя сеткі (RNN) і іх варыянты : створаны для паслядоўнасцей, такіх як тэкст або часовыя шэрагі, з захаваннем парадку [1].

  • Трансформеры : звяртайце ўвагу на мадэляванне адносін паміж пазіцыямі ў паслядоўнасці адначасова; дамінуюць у мове і не толькі [3].

  • Графавыя нейронныя сеткі (ГНС) : працуюць з вузламі і рэбрамі графа — карысныя для малекул, сацыяльных сетак, рэкамендацый [1].

  • Аўтаэнкадэры і VAE : вывучэнне сціснутых прадстаўленняў і стварэнне варыяцый [1].

  • Генератыўныя мадэлі : ад GAN да дыфузійных мадэляў, якія выкарыстоўваюцца для малюнкаў, аўдыё і нават кода [1].

Нататкі CS231n асабліва зручныя для CNN, у той час як праца Transformer з'яўляецца асноўнай крыніцай для мадэляў, заснаваных на ўвазе [2, 3].


Параўнальная табліца: распаўсюджаныя тыпы нейронных сетак, для каго яны прызначаны, коштавыя вібрацыі і чаму яны працуюць 📊

Інструмент / Тып Аўдыторыя Прыблізная цана Чаму гэта працуе
Прамая сувязь (MLP) Пачаткоўцы, аналітыкі Нізкі-сярэдні Простыя, гнуткія, прыстойныя базавыя лініі
Сі-Эн-Эн Каманды па бачанні Сярэдні Лакальныя шаблоны + сумеснае выкарыстанне параметраў
РНН / LSTM / ГРУ Паслядоўнасць людзей Сярэдні Часавая памяць... фіксуе парадак
Трансфарматар НЛП, мультымадальны Сярэдне-высокі Увага сканцэнтравана на адпаведных адносінах
ГНН Навукоўцы, recsys Сярэдні Перадача паведамленняў па графах раскрывае структуру
Аўтаэнкадэр / VAE Даследчыкі Нізкі-сярэдні Вывучае сціснутыя прадстаўленні
GAN / Дыфузія Творчыя лабараторыі Сярэдне-высокі Змагальная або ітэрацыйная магія шумапрыглушэння

Заўвагі: цана залежыць ад вылічэнняў і часу; ваш прабег можа адрознівацца. Адзін ці два мабільныя наўмысна балбатлівыя.


«Што такое нейронная сетка ў штучным інтэлекце?» супраць класічных алгарытмаў машыннага навучання ⚖️

  • Распрацоўка прыкмет : класічнае машыннае навучанне часта абапіраецца на ручную распрацоўку прыкмет. Нейронныя сеткі вывучаюць прыкметы аўтаматычна — вялікая перамога для складаных дадзеных [1].

  • Патрэба ў дадзеных : сеткі часта маюць вялікую колькасць дадзеных; невялікія аб'ёмы дадзеных могуць спрыяць больш простым мадэлям [1].

  • Вылічэнні : Сеткі любяць паскаральнікі, такія як графічныя працэсары [1].

  • Максімальная прадукцыйнасць : для неструктураваных дадзеных (малюнкаў, аўдыё, тэксту) глыбокія сеткі, як правіла, дамінуюць [1, 2].


Працэс навучання, які рэальна працуе на практыцы 🛠️

  1. Вызначце мэту : класіфікацыя, рэгрэсія, ранжыраванне, генерацыя - выберыце страту, якая адпавядае.

  2. Апрацоўка дадзеных : Падзяліць на навучанне/праверку/тэставанне. Нармалізаваць прыкметы. Збалансаваць класы. Для малюнкаў разгледзьце магчымасці пашырэння, такія як перавароты, кадраванне, невялікі шум.

  3. Выбар архітэктуры : пачніце з простага. Дадавайце магутнасці толькі пры неабходнасці.

  4. Навучальны цыкл : Пакетная апрацоўка дадзеных. Прамы праход. Вылічэнне страт. Зваротнае прасоўванне. Абнаўленне. Запіс метрык.

  5. Рэгулярызацыя : адсеў, зніжэнне вагі, ранні спыненне заняткаў.

  6. Ацэнка : Выкарыстоўвайце набор праверак для гіперпараметраў. Падрыхтуйце набор тэстаў для канчатковай праверкі.

  7. Адпраўляйце асцярожна : кантралюйце дрэйф, правярайце на наяўнасць зрушэння, плануйце адкаты.

Для комплексных, арыентаваных на код падручнікаў з грунтоўнай тэорыяй адкрыты падручнік і нататкі па CS231n з'яўляюцца надзейнай апорай [1, 2].


Перанавучанне, абагульненне і іншыя грэхліны 👀

  • Перанавучанне : мадэль запамінае асаблівасці навучання. Выпраўце іх, выкарыстоўваючы больш дадзеных, больш моцную рэгулярызацыю або больш простыя архітэктуры.

  • Недастатковая падрыхтоўка : мадэль занадта простая або трэніроўкі занадта баязлівыя. Павялічце магутнасць або трэніруйцеся даўжэй.

  • Уцечка дадзеных : інфармацыя з тэставага набору пранікае ў навучальны працэс. Тройчы праверце свае падзелы.

  • Дрэнная каліброўка : мадэль, якая ўпэўненая, але памылковая, небяспечная. Падумайце пра каліброўку або іншы метад узважвання страт.

  • Зрух у размеркаванні : рэальныя дадзеныя рухаюцца. Кантралюйце і адаптуйцеся.

Што да тэорыі абагульнення і рэгулярызацыі, выкарыстоўвайце стандартныя спасылкі [1, 2].


Бяспека, інтэрпрэтабельнасць і адказнае разгортванне 🧭

Нейронавыя сеткі могуць прымаць рашэнні з высокімі стаўкамі. Недастаткова, каб яны добра паказвалі вынікі ў табліцы лідэраў. Патрэбныя этапы кіравання, вымярэння і змякчэння наступстваў на працягу ўсяго жыццёвага цыклу. Структура кіравання рызыкамі NIST AI акрэслівае практычныя функцыі - КІРАВАННЕ, КАРТАГРАФІКАЦЫЯ, ВЫМЯРЭННЕ, КІРАВАННЕ - каб дапамагчы камандам інтэграваць кіраванне рызыкамі ў праектаванне і разгортванне [5].

Некалькі хуткіх падказак:

  • Праверка на прадузятасць : ацэньвайце па дэмаграфічных зрэзах, дзе гэта мэтазгодна і законна.

  • Інтэрпрэтабельнасць : выкарыстоўвайце такія метады, як вылучэнне або атрыбуцыя рыс. Яны недасканалыя, але карысныя.

  • Маніторынг : Усталёўвайце абвесткі аб раптоўным падзенні паказчыкаў або дрэйфе дадзеных.

  • Чалавечы кантроль : Трымайце людзей у курсе важных рашэнняў. Ніякага геройства, толькі гігіена.


Часта задаваныя пытанні, якія ў вас таемна ўзнікалі 🙋

Ці з'яўляецца нейронная сетка па сутнасці мозгам?

Натхнёны мозгам, так, але спрошчана. Нейроны ў сетках — гэта матэматычныя функцыі; біялагічныя нейроны — гэта жывыя клеткі са складанай дынамікай. Падобныя вібрацыі, зусім іншая фізіка [1].

Колькі слаёў мне трэба?

Пачніце з малога. Калі вы недастаткова аптымізаваны, дадайце шырыню або глыбіню. Калі вы занадта аптымізаваны, рэгулярызуйце або паменшыце ёмістасць. Няма магічнага ліку; ёсць толькі крывыя праверкі і цярпенне [1].

Ці заўсёды мне патрэбны графічны працэсар?

Не заўсёды. Невялікія мадэлі на невялікіх дадзеных могуць навучацца на працэсарах, але для малюнкаў, вялікіх тэкставых мадэляў або вялікіх набораў дадзеных паскаральнікі эканомяць кучу часу [1].

Чаму людзі кажуць, што ўвага — гэта магутная сіла?

Паколькі ўвага дазваляе мадэлям засяродзіцца на найбольш важных частках уваходных дадзеных, не рухаючыся строга па парадку. Гэта фіксуе глабальныя сувязі, што вельмі важна для моўных і мультымадальных задач [3].

Ці адрозніваецца «Што такое нейронная сетка ў штучным інтэлекце?» ад «што такое глыбокае навучанне»?

Глыбокае навучанне — гэта больш шырокі падыход, які выкарыстоўвае глыбокія нейронныя сеткі. Таму пытанне «Што такое нейронная сетка ў штучным інтэлекце?» падобнае да пытання пра галоўнага героя; глыбокае навучанне — гэта ўвесь фільм [1].


Практычныя, крыху суб'ектыўныя парады 💡

  • Аддавайце перавагу простым базавым лініям . Нават невялікі шматслаёвы персептрон можа сказаць вам, ці можна вывучаць дадзеныя.

  • Забяспечце ўзнаўляльнасць вашага канвеера дадзеных . Калі вы не можаце яго паўтарыць, вы не можаце яму давяраць.

  • Хуткасць навучання важнейшая, чым вы думаеце. Паспрабуйце расклад. Размінка можа дапамагчы.

  • кампрамісы з памерам партыі . Большыя партыі стабілізуюць градыенты, але могуць абагульняць па-рознаму.

  • Калі вы блытаеце, пабудуйце крывыя страты і нормы вагі . Вы здзівіцеся, як часта адказ знаходзіцца на графіках.

  • Дакументуйце здагадкі. Будучыня — вы хутка забываеце рэчы [1, 2].


Глыбокае апусканне ў тэму: роля дадзеных, або чаму смецце на ўваходзе ўсё яшчэ азначае смецце на выхадзе 🗑️➡️✨

Нейронныя сеткі не выпраўляюць памылковыя дадзеныя чароўным чынам. Скажоныя пазнакі, памылкі ў анатацыях або вузкая выбарка — усё гэта будзе адбівацца на мадэлі. Курыруйце, аўдытуйце і дапаўняйце. А калі вы не ўпэўненыя, што вам патрэбна больш дадзеных ці лепшая мадэль, адказ часта раздражняльна просты: і тое, і другое — але пачніце з якасці дадзеных [1].


«Што такое нейронная сетка ў штучным інтэлекце?» — кароткія азначэнні, якія можна выкарыстоўваць паўторна 🧾

  • Нейронная сетка — гэта шматслаёвы апраксіматар функцый, які вывучае складаныя заканамернасці, карэктуючы вагі з дапамогай градыентных сігналаў [1, 2].

  • Гэта сістэма, якая пераўтварае ўваходныя дадзеныя ў выхадныя праз паслядоўныя нелінейныя крокі, навучаная мінімізаваць страты [1].

  • Гэта гнуткі падыход да мадэлявання, які патрабуе вялікіх аб'ёмаў дадзеных і працуе на неструктураваных уваходных дадзеных, такіх як выявы, тэкст і аўдыё [1, 2, 3].


Занадта доўга, не чытаў і заключныя заўвагі 🎯

Калі хтосьці спытае вас: «Што такое нейронная сетка ў штучным інтэлекце?» , вось краткая фраза: нейронная сетка — гэта набор простых адзінак, якія крок за крокам пераўтвараюць дадзеныя, навучаючыся пераўтварэнню, мінімізуючы страты і прытрымліваючыся градыентаў. Яны магутныя, таму што маштабуюцца, аўтаматычна вывучаюць функцыі і могуць прадстаўляць вельмі складаныя функцыі [1, 4]. Яны рызыкоўныя, калі ігнараваць якасць дадзеных, кіраванне або маніторынг [5]. І гэта не магія. Проста матэматыка, вылічэнні і добрая інжынерыя — з ноткай густу.


Дадатковая літаратура, старанна адабраная (дадатковыя матэрыялы без цытавання)


Спасылкі

[1] Гудфелаў, І., Бенджыа, Ю. і Курвіль, А. Глыбокае навучанне . MIT Press. Бясплатная анлайн-версія: чытаць далей

[2] Стэнфард CS231n. Згортачныя нейронныя сеткі для візуальнага распазнавання (канспекты курса): чытаць далей

[3] Васвані, А., Шазір, Н., Пармар, Н. і інш. (2017). Увага — гэта ўсё, што вам трэба . NeurIPS. arXiv: чытаць далей

[4] Цыбенка, Г. (1989). Апраксімацыя суперпазіцыямі сігмапаіднай функцыі . Матэматыка кіравання, сігналаў і сістэм , 2, 303–314. Springer: чытаць далей

[5] NIST. Структура кіравання рызыкамі штучнага інтэлекту (AI RMF) : чытаць далей


Знайдзіце найноўшы штучны інтэлект у афіцыйнай краме памочнікаў штучнага інтэлекту

Пра нас

Назад да блога