«Як вучыцца штучны інтэлект?» — гэта кіраўніцтва раскрывае асноўныя ідэі простай мовай — з прыкладамі, невялікімі адхіленнямі ад тэмы і некалькімі недасканалымі метафарамі, якія ўсё ж такі дапамагаюць. Давайце разгледзім гэта. 🙂
Артыкулы, якія вам могуць спадабацца прачытаць пасля гэтага:
🔗 Што такое прагназуючы штучны інтэлект
Як прагнастычныя мадэлі прагназуюць вынікі, выкарыстоўваючы гістарычныя дадзеныя і дадзеныя ў рэжыме рэальнага часу.
🔗 Якія галіны прамысловасці зменіць штучны інтэлект
Сектары, хутчэй за ўсё, трансфармаваліся дзякуючы аўтаматызацыі, аналітыцы і агентам.
🔗 Што азначае GPT
Зразумелае тлумачэнне абрэвіятуры GPT і яе паходжання.
🔗 Што такое навыкі штучнага інтэлекту
Асноўныя кампетэнцыі для стварэння, разгортвання і кіравання сістэмамі штучнага інтэлекту.
Дык як жа гэта атрымліваецца? ✅
Калі людзі пытаюцца, як вучыцца штучны інтэлект?, яны звычайна маюць на ўвазе: як мадэлі становяцца карыснымі, а не проста мудрагелістымі матэматычнымі цацкамі. Адказ — гэта рэцэпт:
-
Выразная мэта — функцыя страт, якая вызначае, што азначае «добра». [1]
-
Якасныя дадзеныя — разнастайныя, зразумелыя і актуальныя. Колькасць дапамагае, разнастайнасць дапамагае яшчэ больш. [1]
-
Стабільная аптымізацыя — градыентны спуск з хітрасцямі, каб пазбегнуць хістання з абрыву. [1], [2]
-
Абагульненне - поспех на новых дадзеных, а не толькі на навучальным наборы. [1]
-
Цыклы зваротнай сувязі - ацэнка, аналіз памылак і ітэрацыя. [2], [3]
-
Бяспека і надзейнасць — агароджы, тэсціраванне і дакументацыя, каб не было хаосу. [4]
Для даступнага базавага навучання класічны тэкст па глыбокім навучанні, візуальна зразумелыя нататкі і практычны паскораны курс ахопліваюць асновы, не перагружаючы вас сімваламі. [1]–[3]
Як вучыцца штучны інтэлект? Кароткі адказ простай мовай ✍️
Мадэль штучнага інтэлекту пачынаецца з выпадковых значэнняў параметраў. Яна робіць прагноз. Вы ацэньваеце гэты прагноз стратай . Затым вы падштурхоўваеце гэтыя параметры, каб паменшыць страту, выкарыстоўваючы градыенты . Паўтарайце гэты цыкл для многіх прыкладаў, пакуль мадэль не перастане паляпшацца (або ў вас не скончацца закускі). Гэта цыкл навучання на адным дыханні. [1], [2]
Калі вам патрэбна большая дакладнасць, глядзіце раздзелы пра градыентны спуск і зваротнае распаўсюджванне ніжэй. Для хуткага і зразумелага азнаямлення шырока даступныя кароткія лекцыі і лабараторныя заняткі. [2], [3]
Асновы: дадзеныя, мэты, аптымізацыя 🧩
-
Дадзеныя : Уваходныя дадзеныя (x) і мэты (y). Чым шырэйшыя і чысцейшыя дадзеныя, тым больш шанцаў на абагульненне. Курыраванне дадзеных — гэта не гламур, але гэта неапечаны герой. [1]
-
Мадэль : Функцыя (f_\theta(x)) з параметрамі (\theta). Нейронавыя сеткі — гэта наборы простых адзінак, якія спалучаюцца складанымі спосабамі — цаглінкі Lego, але больш мяккія. [1]
-
Мэта : Страта (L(f_\theta(x), y)), якая вымярае памылку. Прыклады: сярэднеквадратычная памылка (рэгрэсія) і перакрыжаваная энтрапія (класіфікацыя). [1]
-
Аптымізацыя : выкарыстоўвайце (стахастычны) градыентны спуск для абнаўлення параметраў: (\theta \leftarrow \theta - \eta \nabla_\theta L). Хуткасць навучання (\eta): занадта вялікая — і вы будзеце падскокваць; занадта маленькая — і вы будзеце дрэмлець вечна. [2]
Для азнаямлення з функцыямі страт і аптымізацыяй выдатна падыдуць класічныя нататкі пра хітрасці і памылкі навучання. [2]
Навучанне пад кіраўніцтвам: вучыцеся на пазначаных прыкладах 🎯
Ідэя : паказаць пары ўводу і правільнага адказу для мадэлі. Мадэль засвоіць адлюстраванне (x \rightarrow y).
-
Звычайныя задачы : класіфікацыя малюнкаў, аналіз настрояў, таблічнае прагназаванне, распазнаванне маўлення.
-
Тыповыя страты : перакрыжаваная энтрапія для класіфікацыі, сярэднеквадратычная памылка для рэгрэсіі. [1]
-
Пасткі : шум пазнак, дысбаланс класаў, уцечка дадзеных.
-
Выпраўленні : стратыфікаваная выбарка, устойлівыя страты, рэгулярызацыя і больш разнастайны збор дадзеных. [1], [2]
Зыходзячы з дзесяцігоддзяў эталонных даследаванняў і вытворчай практыкі, кантраляванае навучанне застаецца рабочай машынай, таму што вынікі прадказальныя, а паказчыкі зразумелыя. [1], [3]
Навучанне без настаўніка і з саманаглядам: вывучыце структуру дадзеных 🔍
Без нагляду чалавек засвойвае заканамернасці без пазнак.
-
Кластэрызацыя : групаванне падобных кропак — k-сярэдніх — гэта проста і нечакана карысна.
-
Зніжэнне памернасці : сцісканне дадзеных да асноўных напрамкаў — PCA з'яўляецца інструментам шлюза.
-
Мадэляванне шчыльнасці/генератыўнае мадэляванне : вывучэнне размеркавання дадзеных. [1]
Саманавучанне — гэта сучасны рухавік: мадэлі ствараюць свой уласны кантроль (маскаванае прагназаванне, кантрастыўнае навучанне), што дазваляе вам папярэдне навучацца на акіянах немаркаваных дадзеных і пазней рабіць дакладную наладу. [1]
Навучанне з падмацаваннем: вучыцеся праз дзеянне і атрыманне зваротнай сувязі 🕹️
Агент узаемадзейнічае з асяроддзем , атрымлівае ўзнагароды і засвойвае палітыку , якая максімізуе доўгатэрміновую ўзнагароду.
-
Асноўныя элементы : стан, дзеянне, узнагарода, палітыка, функцыя каштоўнасці.
-
Алгарытмы : Q-навучанне, градыенты палітыкі, актар-крытык.
-
Даследаванне супраць эксплуатацыі : спрабаваць нешта новае або выкарыстоўваць тое, што працуе.
-
Залік : якое дзеянне прывяло да якога выніку?
Зваротная сувязь з людзьмі можа кіраваць навучаннем, калі ўзнагароды складаныя — рэйтынг або перавагі дапамагаюць фармаваць паводзіны без ручнога кадавання ідэальнай узнагароды. [5]
Глыбокае навучанне, зваротная прапампоўка і градыентны спуск - б'ючаеся сэрца 🫀
Нейронныя сеткі — гэта камбінацыі простых функцый. Для навучання яны абапіраюцца на зваротнае распаўсюджванне :
-
Прахад наперад : вылічваць прагнозы з уваходных дадзеных.
-
Страта : вымярэнне памылкі паміж прагнозамі і мэтавымі паказчыкамі.
-
Зваротны праход : ужываецца правіла ланцуга для вылічэння градыентаў страт адносна кожнага параметра.
-
Абнаўленне : зрушыць параметры з градыенту з дапамогай аптымізатара.
Такія варыянты, як momentum, RMSProp і Adam, робяць навучанне менш тэмпераментным. Метады рэгулярызацыі, такія як dropout , weight decay і ранняе прыпыненне, дапамагаюць мадэлям абагульняць, а не запамінаць. [1], [2]
Трансформеры і ўвага: чаму сучасныя мадэлі адчуваюць сябе разумнымі 🧠✨
Трансфарматары замянілі многія паўтаральныя налады ў мове і зроку. Ключавы прыём — гэта ўвага да сябе , якая дазваляе мадэлі ўзважваць розныя часткі ўваходных дадзеных у залежнасці ад кантэксту. Пазіцыйнае кадаванне апрацоўвае парадак, а ўвага некалькіх галоў дазваляе мадэлі засяродзіцца на розных адносінах адначасова. Маштабаванне — больш разнастайныя дадзеныя, больш параметраў, больш працяглае навучанне — часта дапамагае, але пры гэтым аддача змяншаецца, а выдаткі растуць. [1], [2]
Абагульненне, перападрыхтоўка і танец зрушэння і дысперсіі 🩰
Мадэль можа выдатна справіцца з навучальным наборам і ўсё роўна праваліцца ў рэальным свеце.
-
Перанавучанне : запамінае шум. Памылка навучання зніжаецца, памылка тэсту павялічваецца.
-
Недападрыхтоўка : занадта простая; прапускае сігнал.
-
Кампраміс паміж зрушэннем і дысперсіяй : складанасць памяншае зрушэнне, але можа павялічыць дысперсію.
Як лепш абагульняць:
-
Больш разнастайныя дадзеныя — розныя крыніцы, вобласці і памежныя выпадкі.
-
Рэгулярызацыя - выбыванне, зніжэнне вагі, павелічэнне дадзеных.
-
Правільная праверка - чыстыя тэставыя наборы, перакрыжаваная праверка для невялікіх дадзеных.
-
Маніторынг дрэйфу - размеркаванне вашых дадзеных будзе змяняцца з цягам часу.
Практыка, якая ўсведамляе рызыкі, разглядае іх як дзейнасць жыццёвага цыклу — кіраванне, картаграфаванне, вымярэнне і кіраванне, — а не як аднаразовыя кантрольныя спісы. [4]
Важныя паказчыкі: як мы ведаем, што навучанне адбылося 📈
-
Класіфікацыя : дакладнасць, прэцызійнасць, поўнасць, F1, ROC AUC. Незбалансаваныя дадзеныя патрабуюць крывых дакладнасці і поўнасці. [3]
-
Рэгрэсія : MSE, MAE, (R^2). [1]
-
Ранжыраванне/пошук : MAP, NDCG, recall@K. [1]
-
Генератыўныя мадэлі : разгубленасць (мова), BLEU/ROUGE/CIDEr (тэкст), ацэнкі на аснове CLIP (мультымадальныя) і, што асабліва важна, ацэнкі, зробленыя чалавекам. [1], [3]
Выбірайце паказчыкі, якія адпавядаюць уздзеянню на карыстальніка. Невялікае павышэнне дакладнасці можа быць неістотным, калі рэальнай цаной з'яўляюцца ілжываспрацоўчыя вынікі. [3]
Працоўны працэс навучання ў рэальным свеце: просты план 🛠️
-
Сфармулюйце праблему — вызначце ўваходныя дадзеныя, выхадныя дадзеныя, абмежаванні і крытэрыі поспеху.
-
Канвеер дадзеных - збор, маркіроўка, ачыстка, падзел, дапаўненне.
-
Базавая лінія — пачніце з простага; лінейныя або дрэвападобныя базавыя лініі надзвычай канкурэнтаздольныя.
-
Мадэляванне — паспрабуйце некалькі сямействаў: дрэвы з градыентным узмацненнем (таблічныя), CNN (малюнкі), трансфарматары (тэкст).
-
Навучанне - графік, стратэгіі хуткасці навучання, кантрольныя пункты, змешаная дакладнасць пры неабходнасці.
-
Ацэнка - абляцыі і аналіз памылак. Звяртайце ўвагу на памылкі, а не толькі на сярэдні паказчык.
-
Разгортванне - канвеер вываду, маніторынг, рэгістрацыя, план адкату.
-
Ітэрацыя — паляпшэнне дадзеных, тонкая налада або карэкціроўка архітэктуры.
Міні-кейс : праект па класіфікацыі электроннай пошты пачаўся з простай лінейнай базавай лініі, затым быў дапрацаваны папярэдне навучаны трансфарматар. Найбольшым выйгрышам была не мадэль, а ўдакладненне рубрыкі маркіроўкі і даданне недастаткова прадстаўленых «гранавых» катэгорый. Пасля таго, як яны былі ўлічаны, валідацыя F1 нарэшце адсачыла рэальную прадукцыйнасць. (Ваша будучае «я»: вельмі ўдзячна.)
Якасць дадзеных, маркіроўка і тонкае мастацтва не хлусіць сабе 🧼
Смецце на ўваходзе, шкадаванне на выхадзе. Рэкамендацыі па маркіроўцы павінны быць паслядоўнымі, вымернымі і пераглядацца. Пагадненне паміж анататарамі мае значэнне.
-
Напішыце рубрыкі з прыкладамі, ключавымі справамі і высновамі.
-
Праверце наборы дадзеных на наяўнасць дублікатаў і амаль дублікатаў.
-
Адсочвайце паходжанне — адкуль узяты кожны прыклад і чаму ён уключаны.
-
Вымярайце ахоп дадзеных у параўнанні з рэальнымі сцэнарыямі карыстальнікаў, а не проста з акуратным эталонам.
Яны выдатна ўпісваюцца ў больш шырокія структуры забеспячэння бяспекі і кіравання, якія вы можаце рэальна ўкараніць. [4]
Перанос навучання, тонкая налада і адаптары — паўторна выкарыстоўвайце цяжкую працу ♻️
Папярэдне навучаныя мадэлі засвойваюць агульныя прадстаўленні; тонкая налада адаптуе іх да вашай задачы з меншай колькасцю дадзеных.
-
Вылучэнне прыкмет : замарозіць хрыбетнік, навучыць маленькую галаву.
-
Поўная тонкая налада : абнавіць усе параметры для максімальнай магутнасці.
-
Параметраэфектыўныя метады : адаптары, абнаўленні нізкага рангу ў стылі LoRA — добра, калі вылічэнні абмежаваныя.
-
Адаптацыя дамена : выраўноўванне ўбудаванняў паміж даменамі; невялікія змены, вялікія выгады. [1], [2]
Дзякуючы такой схеме паўторнага выкарыстання сучасныя праекты могуць хутка развівацца без гераічных бюджэтаў.
Бяспека, надзейнасць і выраўноўванне - абавязковыя дэталі 🧯
Навучанне — гэта не толькі дакладнасць. Вам таксама патрэбныя мадэлі, якія з'яўляюцца надзейнымі, справядлівымі і адпавядаюць меркаванаму выкарыстанню.
-
Устойлівасць да супярэчнасцей : невялікія збурэнні могуць падмануць мадэлі.
-
Прадузятасць і справядлівасць : вымярайце прадукцыйнасць падгруп, а не толькі агульныя сярэднія паказчыкі.
-
Інтэрпрэтабельнасць : атрыбуцыя і даследаванне прыкмет дапамогуць вам зразумець, чаму .
-
Чалавек у цыкле : шляхі эскалацыі для неадназначных або вельмі ўплывовых рашэнняў. [4], [5]
Навучанне на аснове пераваг — адзін з прагматычных спосабаў уліку чалавечага меркавання, калі мэты невыразныя. [5]
Часта задаваныя пытанні за адну хвіліну - хуткі агонь ⚡
-
Дык як жа насамрэч вучыцца штучны інтэлект? Праз ітэратыўную аптымізацыю супраць страт, з градыентамі, якія накіроўваюць параметры да лепшых прагнозаў. [1], [2]
-
Ці заўсёды больш дадзеных дапамагае? Звычайна, пакуль не пачнецца змяншэнне аддачы. Разнастайнасць часта пераўзыходзіць аб'ём. [1]
-
Што рабіць, калі пазнакі бязладныя? Выкарыстоўвайце метады, устойлівыя да шуму, лепшыя рубрыкі і разгледзьце магчымасць самастойнага папярэдняга навучання. [1]
-
Чаму дамінуюць трансфарматары? Увага добра маштабуецца і ахоплівае доўгатэрміновыя залежнасці; інструменты дастаткова развітыя. [1], [2]
-
Як даведацца, што навучанне скончылася? Страты праверкі стабілізуюцца, паказчыкі стабілізуюцца, а новыя дадзеныя паводзяць сябе належным чынам — затым трэба сачыць за зрухам. [3], [4]
Параўнальная табліца - інструменты, якімі вы сапраўды можаце карыстацца сёння 🧰
Трохі дзіўнавата наўмысна. Цэны паказаны для асноўных бібліятэк — навучанне ў вялікіх маштабах, відавочна, патрабуе выдаткаў на інфраструктуру.
| Інструмент | Лепш за ўсё падыходзіць для | Кошт | Чаму гэта добра працуе |
|---|---|---|---|
| PyTorch | Даследчыкі, будаўнікі | Бясплатна - адкрыты src | Дынамічныя графікі, моцная экасістэма, выдатныя падручнікі. |
| TensorFlow | Вытворчыя каманды | Бясплатна - адкрыты src | Дарослая версія, TF Lite для мабільных прылад; вялікая супольнасць. |
| scikit-learn | Таблічныя дадзеныя, базавыя паказчыкі | Бясплатна | Зразумелы API, хуткая ітэрацыя, выдатная дакументацыя. |
| Керас | Хуткія прататыпы | Бясплатна | Высокаўзроўневы API паверх TF, чытэльныя пласты. |
| JAX | Дасведчаныя карыстальнікі, даследаванні | Бясплатна | Аўтаматычная вектарызацыя, хуткасць XLA, элегантныя матэматычныя вібрацыі. |
| Трансформеры з абдымкамі | НЛП, зрок, аўдыё | Бясплатна | Папярэдне навучаныя мадэлі, простая тонкая налада, выдатныя хабы. |
| Маланка | Працоўныя працэсы навучання | Бясплатнае ядро | Структура, рэгістрацыя, шматпрацэсарныя батарэі ўключаны. |
| XGBoost | Таблічная канкурэнтная | Бясплатна | Моцныя базавыя лініі, часта перамагаюць на структураваных дадзеных. |
| Вагі і прадузятасці | Адсочванне эксперыментаў | Бясплатны ўзровень | Узнаўляльнасць, параўнанне прагонаў, больш хуткія цыклы навучання. |
Аўтарытэтная дакументацыя для пачатку: PyTorch, TensorFlow і кіраўніцтва карыстальніка scikit-learn. (Выберыце адну, стварыце нешта маленькае, паўтарыце.)
Глыбокае апусканне: практычныя парады, якія зэканомяць вам рэальны час 🧭
-
Графік хуткасці навучання : косінусны спад або аднацыкл могуць стабілізаваць навучанне.
-
Памер партыі : большы не заўсёды лепшы — сачыце за паказчыкамі праверкі, а не толькі за прапускной здольнасцю.
-
Вага ініцыялізацыі : сучасныя значэнні па змаўчанні падыдуць; калі навучанне затармазіцца, перагледзьце ініцыялізацыю або нармалізуйце раннія пласты.
-
Нармалізацыя : пакетная норма або норма пласта можа значна згладзіць аптымізацыю.
-
Дапаўненне дадзеных : перавароты/абрэзкі/ваганні колераў для малюнкаў; маскіроўка/перамешванне токенаў для тэксту.
-
Аналіз памылак : групаванне памылак па адным крайнім выпадку зрэзу можа пагоршыць усё.
-
Рэпрадукцыя : усталёўваць пачатковыя значэнні, запісваць гіперпараметры, захоўваць кантрольныя кропкі. Абяцаю, што ў будучыні вы будзеце ўдзячныя. [2], [3]
Калі сумняваецеся, вярніцеся да асноў. Аснова застаецца компасам. [1], [2]
Маленькая метафара, якая амаль працуе 🪴
Навучанне мадэлі падобнае да паліву расліны дзіўнай фарсункай. Занадта шмат вады — лужына занадта моцная. Занадта мала вады — засуха недастатковая. Правільная частата, сонечнае святло з добрых дадзеных і пажыўныя рэчывы з чыстых аб'ектываў, і вы атрымаеце рост. Так, трохі банальна, але гэта трымаецца.
Як вучыцца штучны інтэлект? Аб'яднанне ўсяго 🧾
Мадэль пачынаецца выпадковым чынам. Праз градыентныя абнаўленні, кіруючыся стратай, яна ўзгадняе свае параметры з заканамернасцямі ў дадзеных. Узнікаюць прадстаўленні, якія спрашчаюць прагназаванне. Ацэнка паказвае, ці з'яўляецца навучанне рэальным, а не выпадковым. А ітэрацыя — з агароджамі для бяспекі — ператварае дэманстрацыю ў надзейную сістэму. Вось і ўся гісторыя, з меншай колькасцю таямнічых вібрацый, чым здавалася спачатку. [1]–[4]
Заключныя заўвагі - занадта доўга, не чытаў 🎁
-
Як вучыцца штучны інтэлект? Мінімізуючы страты з дапамогай градыентаў на вялікай колькасці прыкладаў. [1], [2]
-
Добрыя дадзеныя, выразна акрэсленыя мэты і стабільная аптымізацыя спрыяюць замацаванню ведаў. [1]–[3]
-
Абагульненне заўсёды пераўзыходзіць запамінанне. [1]
-
Бяспека, ацэнка і ітэрацыя ператвараюць разумныя ідэі ў надзейныя прадукты. [3], [4]
-
Пачніце з простага, добра вымярайце і ўдасканальвайце дадзеныя, перш чым гнацца за экзатычнымі архітэктурамі. [2], [3]
Спасылкі
-
Гудфелаў, Бенджыа, Курвіль - Глыбокае навучанне (бясплатны онлайн-тэкст). Спасылка
-
Стэнфард CS231n - Згортачныя нейронныя сеткі для візуальнага распазнавання (канспекты курса і заданні). Спасылка
-
Google - Кароткі курс па машынным навучанні: паказчыкі класіфікацыі (дакладнасць, прэцызійнасць, паўтаральнасць, ROC/AUC) . Спасылка
-
NIST - Структура кіравання рызыкамі штучнага інтэлекту (AI RMF 1.0) . Спасылка
-
OpenAI — Навучанне на аснове пераваг чалавека (агляд навучання на аснове пераваг). Спасылка