Як штучны інтэлект выяўляе анамаліі?

Як штучны інтэлект выяўляе анамаліі?

Выяўленне анамалій — гэта ціхі герой аперацый з дадзенымі — пажарная сігналізацыя, якая шапоча, перш чым нешта загарэцца.

Простымі словамі: штучны інтэлект вывучае, як выглядае «прыкладна нармальнае», прысвойвае новым падзеям ацэнку анамаліі , а затым вырашае, ці варта выклікаць чалавека (ці аўтаматычна блакіраваць рэч) на аснове парога . Праблема ў тым, як вы вызначаеце «прыкладна нармальнае», калі вашы дадзеныя сезонныя, бязладныя, дрэйфуюць і часам хлусяць. [1]

Артыкулы, якія вам могуць спадабацца пасля гэтага:

🔗 Чаму штучны інтэлект можа быць шкодным для грамадства.
Разглядаюцца этычныя, эканамічныя і сацыяльныя рызыкі шырокага ўкаранення штучнага інтэлекту.

🔗 Колькі вады насамрэч выкарыстоўваюць сістэмы штучнага інтэлекту.
Тлумачыць астуджэнне цэнтраў апрацоўкі дадзеных, патрабаванні да навучання і ўплыў вады на навакольнае асяроддзе.

🔗 Што такое набор даных штучнага інтэлекту і чаму ён важны.
Вызначае наборы даных, маркіроўку, крыніцы і іх ролю ў прадукцыйнасці мадэлі.

🔗 Як штучны інтэлект прадказвае тэндэнцыі на аснове складаных дадзеных.
Ахоплівае распазнаванне вобразаў, мадэлі машыннага навучання і прагназаванне ў рэальным свеце.


«Як штучны інтэлект выяўляе анамаліі?» 

Добры адказ павінен рабіць нешта большае, чым проста пералічваць алгарытмы. Ён павінен тлумачыць механіку і тое, як яна выглядае, калі прымяніць яе да рэальных, недасканалых дадзеных. Найлепшыя тлумачэнні:

  • Пакажыце асноўныя інгрэдыенты: характарыстыкі , базавыя ўзроўні , балы і парогі . [1]

  • Кантрастныя практычныя сямействы: адлегласць, шчыльнасць, аднакласавы, ізаляваны, імавернасны, рэканструкцыя. [1]

  • Улічвайце асаблівасці часовых шэрагаў: «нармальны» залежыць ад часу сутак, дня тыдня, рэлізаў і святочных дзён. [1]

  • Ставіцеся да ацэнкі як да рэальнага абмежавання: ілжывыя трывогі не толькі раздражняюць — яны падпальваюць давер. [4]

  • Уключыце інтэрпрэтабельнасць + уплыў чалавека на працэс, бо «гэта дзіўна» не з'яўляецца першапрычынай. [5]


Асноўныя механікі: базавыя ўзроўні, балы, парогі 🧠

Большасць анамальных сістэм — мудрагелістых ці не — зводзяцца да трох рухомых частак:

бачыць мадэль )

Неапрацаваных сігналаў рэдка бывае дастаткова. Вы альбо распрацоўваеце характарыстыкі (статыстыку, суадносіны, затрымкі, сезонныя дэльты), альбо вывучаеце прадстаўленні (ўбудаванні, падпрасторы, рэканструкцыі). [1]

2) Падлік ачкоў (г.зн.: наколькі гэта «дзіўна»?)

Распаўсюджаныя ідэі для падліку ачкоў ўключаюць:

  • На аснове адлегласці : далёка ад суседзяў = падазрона. [1]

  • На аснове шчыльнасці : нізкая лакальная шчыльнасць = падазронасць (LOF — тыповы прыклад). [1]

  • Межы аднаго класа : вывучыце «нармальнае», пазначце тое, што выходзіць за яго межы. [1]

  • Імавернасны : нізкая верагоднасць пры падабранай мадэлі = падазрона. [1]

  • Памылка рэканструкцыі : калі мадэль, навучаная на звычайным узроўні, не можа яе перабудаваць, верагодна, яна памылковая. [1]

3) Парог (г.зн.: калі званіць у званок)

Парогавыя значэнні могуць быць фіксаванымі, квантыльнымі, сегментнымі або эканамічна ўлічанымі, але яны павінны быць адкалібраваны ў адпаведнасці з бюджэтамі папярэджанняў і выдаткамі на наступных этапах, а не з вібрацыямі. [4]

Адна вельмі практычная дэталь: дэтэктары выкідаў/навізны scikit-learn выяўляюць неапрацаваныя балы , а затым прымяняюць парог (часта кантраляваны з дапамогай здагадкі аб забруджванні), каб пераўтварыць балы ў рашэнні аб выкідах/выкідах. [2]


Хуткія вызначэнні, якія прадухіляюць боль пазней 🧯

Два адрозненні, якія ратуюць вас ад нязначных памылак:

  • Выяўленне выкідаў : вашы навучальныя дадзеныя могуць ужо ўтрымліваць выкіды; алгарытм усё роўна спрабуе мадэляваць «шчыльную нармальную вобласць».

  • Выяўленне навізны : навучальныя дадзеныя мяркуюцца чыстымі; вы ацэньваеце, ці новыя назіранні вывучанаму нармальнаму шаблону. [2]

Акрамя таго: выяўленне навізны часта разглядаецца як аднакласавая класіфікацыя — мадэляванне нармальнасці, таму што анамальныя прыклады рэдкія або неакрэсленыя. [1]

 

Збоі ў анамаліях штучнага інтэлекту

Ненаглядныя працоўныя конікі, якія вам сапраўды спатрэбяцца 🧰

Калі пазнак мала (што ў асноўным заўсёды здараецца), у рэальных канвеерах з'яўляюцца наступныя інструменты:

  • Ізаляцыйны лес : моцнае значэнне па змаўчанні ў многіх таблічных выпадках, шырока выкарыстоўваецца на практыцы і рэалізуецца ў scikit-learn. [2]

  • Аднакласавая SVM : можа быць эфектыўнай, але адчувальнай да налады і здагадак; scikit-learn відавочна звяртае ўвагу на неабходнасць стараннай налады гіперпараметраў. [2]

  • Лакальны фактар ​​выкідаў (LOF) : класічная ацэнка на аснове шчыльнасці; выдатна падыходзіць, калі «нармальны» не з'яўляецца акуратнай плямай. [1]

Практычны прыём, які каманды адкрываюць для сябе штотыдзень: LOF паводзіць сябе па-рознаму ў залежнасці ад таго, ці вы выконваеце выяўленне выкідаў на навучальным наборы, ці выяўленне навізны на новых дадзеных — scikit-learn нават патрабуе novelty=True , каб бяспечна набіраць балы за нябачныя даныя. [2]


Надзейная база, якая працуе, нават калі дадзеныя недакладныя 🪓

Калі вы знаходзіцеся ў рэжыме «нам проста патрэбна нешта, што не адкіне нас у забыццё», то надзейная статыстыка недаацэньваецца.

Мадыфікаваны z-паказчык выкарыстоўвае медыяну і MAD (медыяна абсалютнага адхілення) для зніжэння адчувальнасці да экстрэмальных значэнняў. Даведнік EDA NIST дакументуе мадыфікаваную форму z-паказчыка і адзначае шырока выкарыстоўванае эмпірычнае правіла «патэнцыйнага выкіду» пры абсалютным значэнні вышэй за 3,5 . [3]

Гэта не вырашыць усе праблемы з анамаліямі, але часта з'яўляецца моцнай першай лініяй абароны, асабліва для шумных паказчыкаў і маніторынгу на ранніх стадыях. [3]


Рэальнасць часовых шэрагаў: «Нармальнасць» залежыць ад таго, калі ⏱️📈

Анамаліі часовых шэрагаў складаныя, бо галоўнае — гэта кантэкст: можна чакаць рэзкага ўсплёску апоўдні; такі ж рэзкі ўсплёск а 3-й гадзіне ночы можа азначаць, што нешта гарыць. Таму многія практычныя сістэмы мадэлююць нармальнасць, выкарыстоўваючы асаблівасці, якія ўлічваюць час (лагі, сезонныя дэльты, рухомыя вокны), і ацэньваюць адхіленні адносна чаканай заканамернасці. [1]

Калі вы памятаеце толькі адно правіла: сегментуйце базавую інфармацыю (гадзіна/дзень/рэгіён/узровень абслугоўвання), перш чым абвясціць палову трафіку «анамальнай». [1]


Ацэнка: Пастка рэдкіх падзей 🧪

Выяўленне анамалій часта падобнае на пошук іголкі ў стозе сена, што робіць ацэнку дзіўнай:

  • Крывыя ROC могуць выглядаць падманліва добра, калі станоўчыя значэнні рэдкія.

  • Выгляды з дакладнасцю да ўспаміну часта больш інфарматыўныя для незбалансаваных налад, паколькі яны сканцэнтраваны на прадукцыйнасці ў станоўчым класе. [4]

  • У аператыўным плане вам таксама патрэбен бюджэт на папярэджанні : колькі папярэджанняў у гадзіну людзі могуць рэальна правесці трыяж, не суцішыўшы гнеў? [4]

Тэставанне на бэк-старонках з рознымі перыядамі часу дапамагае выявіць класічны тып збою: «ён выдатна працуе… на размеркаванні мінулага месяца». [1]


Інтэрпрэтабельнасць і першапрычына: пакажыце сваю працу 🪄

Абвестка без тлумачэння прычын — гэта як атрымаць таямнічую паштоўку. Карысная, але раздражняльная.

Інструменты інтэрпрэтацыі могуць дапамагчы, паказваючы, якія асаблівасці найбольш спрыялі ацэнцы анамаліі, або даючы тлумачэнні ў стылі «што трэба змяніць, каб гэта выглядала нармальна?». Інтэрпрэтаванае машыннае навучанне » — гэта грунтоўны, крытычны даведнік па распаўсюджаных метадах (у тым ліку атрыбуцыі ў стылі SHAP) і іх абмежаваннях. [5]

Мэта не толькі камфорт зацікаўленых бакоў, але і хутчэйшая трыяж і меншая колькасць паўторных інцыдэнтаў.


Разгортванне, дрэйф і цыклы зваротнай сувязі 🚀

Мадэлі не жывуць у слайдах. Яны жывуць у канвеерах.

Тыповая гісторыя «першага месяца ў вытворчасці»: дэтэктар у асноўным пазначае разгортванні, пакетныя заданні і адсутныя дадзеныя... што ўсё яшчэ карысна , бо прымушае вас аддзяляць «інцыдэнты якасці дадзеных» ад «бізнес-анамалій».

На практыцы:

  • Кантралюйце дрэйф і перавучвайце/перакалібруйце па меры змены паводзін. [1]

  • Зафіксуйце ўваходныя дадзеныя ацэнкі + версію мадэлі , каб вы маглі ўзнавіць, чаму нешта падпампавана. [5]

  • Збірайце зваротную сувязь ад чалавека (карысныя супраць шумных абвестак) для налады парогаў і сегментаў з цягам часу. [4]


Кут бяспекі: IDS і паводніцкая аналітыка 🛡️

Каманды бяспекі часта спалучаюць ідэі анамалій з выяўленнем на аснове правілаў: базавыя ўзроўні для «нармальнай паводзін хоста», а таксама сігнатуры і палітыкі для вядомых дрэнных шаблонаў. NIST SP 800-94 (канчатковая версія) застаецца шырока цытаванай асновай для разгляду сістэм выяўлення і прадухілення ўварванняў; у ёй таксама адзначаецца, што чарнавік 2012 года «Rev. 1» так і не стаў канчатковым і пазней быў адхілены. [3]

Пераклад: выкарыстоўвайце машыннае навучанне там, дзе гэта дапамагае, але не адкідайце сумныя правілы — яны сумныя, таму што працуюць.


Параўнальная табліца: кароткі агляд папулярных метадаў 📊

Інструмент / Метад Лепш за ўсё падыходзіць для Чаму гэта працуе (на практыцы)
Надзейныя / мадыфікаваныя z-паказчыкі Простыя паказчыкі, хуткія базавыя паказчыкі Моцны першы праход, калі вам патрэбны «дастаткова добры» і менш ілжывых трывог. [3]
Ізаляваны лес Таблічныя, змешаныя функцыі Надзейная рэалізацыя па змаўчанні, шырока выкарыстоўваецца на практыцы. [2]
Аднакласная SVM Кампактныя «нармальныя» вобласці Выяўленне навізны на аснове межаў; налада мае вялікае значэнне. [2]
Лакальны фактар ​​выкідаў Нармалі, падобныя на шматстайныя Кантраст шчыльнасці ў параўнанні з суседзямі выяўляе лакальную дзівацтва. [1]
Памылка рэканструкцыі (напрыклад, у стылі аўтаэнкадэра) Высокамерныя ўзоры Трэніруйцеся ў звычайным рэжыме; вялікія памылкі рэканструкцыі могуць сведчыць аб адхіленнях. [1]

Чыт-код: пачніце з надзейных базавых узроўняў + сумнага некантраляванага метаду, а затым дадавайце складанасць толькі там, дзе гэта акупляецца.


Міні-дапаможнік: ад нуля да абвестак 🧭

  1. Дайце азначэнне «дзіўнаму» з аперацыйнага пункту гледжання (затрымка, рызыка махлярства, збой працэсара, рызыка небяспекі запасаў).

  2. Пачніце з базавай лініі (надзейная статыстыка або сегментаваныя парогі). [3]

  3. Выберыце адну мадэль без нагляду ў якасці першага праходу (ізаляцыйны лес / LOF / аднакласавая SVM). [2]

  4. Усталюйце парогі з бюджэтам папярэджання і ацэньвайце з выкарыстаннем PR-стылю, калі станоўчыя вынікі рэдкія. [4]

  5. Дадайце тлумачэнні + рэгістрацыю , каб кожнае папярэджанне было прайгравальным і адладжвальным. [5]

  6. Тэставанне на бэкграўндзе, адгрузка, навучанне, перакаліброўка — дрэйф з'яўляецца нармальнай з'явай. [1]

Вы цалкам можаце зрабіць гэта за тыдзень... калі вашы часовыя меткі не будуць змацаваныя скотчам і не будуць спадзявацца. 😅


Заключныя заўвагі - Занадта доўга, я не чытаў 🧾

Штучны інтэлект выяўляе анамаліі, вывучаючы практычную карціну «нармальнасці», ацэньваючы адхіленні і пазначаючы тое, што перасякае парог. Найлепшыя сістэмы перамагаюць не дзякуючы сваёй яркай бачнасці, а дзякуючы адкаліброўцы : сегментаваныя базавыя лініі, бюджэты папярэджанняў, інтэрпрэтуемыя выхады і цыкл зваротнай сувязі, які ператварае шумныя сігналы трывогі ў надзейны сігнал. [1]


Спасылкі

  1. Піментэль і інш. (2014) - Агляд выяўлення навізны (PDF, Оксфардскі ўніверсітэт) чытаць далей

  2. Дакументацыя scikit-learn - выяўленне навізны і выкідаў чытаць далей

  3. Электронны дапаможнік NIST/SEMATECH — Выяўленне выкідаў чытаць далей і NIST CSRC — SP 800-94 (канчатковая версія): Кіраўніцтва па сістэмах выяўлення і прадухілення ўварванняў (IDPS) чытаць далей

  4. Сайта і Рэмсмайер (2015) - Графік дакладнасці і поўнага ўспрымання больш інфарматыўны, чым ROC-графік пры ацэнцы бінарных класіфікатараў на незбалансаваных наборах дадзеных (PLOS ONE) чытаць далей

  5. Молнар - Інтэрпрэтаванае машыннае навучанне (вэб-кніга) чытаць далей

Знайдзіце найноўшы штучны інтэлект у афіцыйнай краме памочнікаў штучнага інтэлекту

Пра нас

Назад да блога