«Вытлумачальны штучны інтэлект» — адна з тых фраз, якія гучаць цудоўна за вячэрай і становяцца абсалютна неабходнымі ў той момант, калі алгарытм падштурхоўвае да медыцынскага дыягназу, ухваляе крэдыт або пазначае адпраўку. Калі вы калі-небудзь думалі: «Добра, але чаму мадэль так зрабіла...» вы ўжо на тэрыторыі «Вытлумачальнага штучнага інтэлекту». Давайце разбярэм ідэю простай мовай — ніякай магіі, толькі метады, кампрамісы і некалькі цяжкіх праўдаў.
Артыкулы, якія вам могуць спадабацца пасля гэтага:
🔗 Што такое прадузятасць штучнага інтэлекту?
Зразумець прадузятасць штучнага інтэлекту, яе крыніцы, наступствы і стратэгіі змякчэння наступстваў.
🔗 Што такое прагназуючы штучны інтэлект?
Даследуйце прагназуемы штучны інтэлект, яго распаўсюджаныя спосабы выкарыстання, перавагі і практычныя абмежаванні.
🔗 Што такое штучны інтэлект гуманоіднага робата?
Даведайцеся, як штучны інтэлект забяспечвае працу гуманоідных робатаў, магчымасці, прыклады і праблемы.
🔗 Што такое трэнер па штучным інтэлекце?
Даведайцеся, чым займаюцца трэнеры па штучным інтэлекце, якія навыкі неабходныя і якія кар'ерныя шляхі.
Што насамрэч азначае «Тлумачальны штучны інтэлект»
Тлумачальны штучны інтэлект — гэта практыка праектавання і выкарыстання сістэм штучнага інтэлекту такім чынам, каб іх вынікі маглі быць зразумелыя людзям — канкрэтным людзям, на якіх уплываюць рашэнні або якія адказваюць за іх, а не толькі матэматычным чараўнікам. NIST сфармуляваў чатыры прынцыпы: даць тлумачэнне , зрабіць яго змястоўным для аўдыторыі, забяспечыць дакладнасць тлумачэння (вернасць мадэлі) і паважаць абмежаванні ведаў (не перабольшваць тое, што ведае сістэма) [1].
Кароткі гістарычны экскурс: крытычна важныя для бяспекі сферы раней імкнуліся да гэтага, імкнучыся да мадэляў, якія застаюцца дакладнымі, але дастаткова інтэрпрэтабельнымі, каб давяраць ім «у цыкле». Палярная зорка не змянілася — зручныя тлумачэнні не пагаршаюць прадукцыйнасць.
Чаму вытлумачальны штучны інтэлект важнейшы, чым вы думаеце 💡
-
Давер і прыняцце — людзі прымаюць сістэмы, якія яны могуць запытваць, сумнявацца і выпраўляць.
-
Рызыка і бяспека - тлумачэнні тыпаў пашкоджанняў паверхні, перш чым яны здзівяць вас у маштабе.
-
Рэгулятыўныя чаканні — у ЕС Закон аб штучным інтэлекце ўстанаўлівае выразныя абавязкі па празрыстасці, напрыклад, паведамляць людзям, калі яны ўзаемадзейнічаюць са штучным інтэлектам у пэўных кантэкстах, і адпаведна маркіраваць кантэнт, створаны або маніпуляваны штучным інтэлектам [2].
Будзем шчырымі — прыгожыя панэлі кіравання — гэта не тлумачэнні. Добрае тлумачэнне дапамагае чалавеку вырашыць, што рабіць далей.
Што робіць Explainable AI карысным ✅
Пры ацэнцы любога метаду XAI спытайце ў:
-
Дакладнасць — ці адлюстроўвае тлумачэнне паводзіны мадэлі, ці проста распавядае суцяшальную гісторыю?
-
Карыснасць для аўдыторыі — спецыялісты па апрацоўцы дадзеных хочуць градыентаў; клініцысты хочуць контрфактычных тлумачэнняў або правілаў; кліенты хочуць простых аргументаў і наступных крокаў.
-
Стабільнасць — нязначныя змены ўводу не павінны пераварочваць гісторыю з А ў Я.
-
Дзейнасць — калі вынік непажаданы, што магло б змяніцца?
-
Шчырасць адносна нявызначанасці — тлумачэнні павінны выяўляць абмежаванні, а не зафарбоўваць іх.
-
Яснасць аб'ёму - гэта лакальнае тлумачэнне аднаго прагнозу ці глабальны погляд на паводзіны мадэлі?
Калі вы памятаеце толькі адно: карыснае тлумачэнне змяняе чыёсьці рашэнне, а не толькі яго настрой.
Ключавыя паняцці, якія вы будзеце часта чуць 🧩
-
Інтэрпрэтабельнасць супраць тлумачальнасці - Інтэрпрэтабельнасць: мадэль дастаткова простая для чытання (напрыклад, невялікае дрэва). Тлумачнасць: дадаць метад зверху, каб зрабіць складаную мадэль чытэльнай.
-
Лакальнае супраць глабальнага — лакальнае тлумачыць адно рашэнне; глабальнае абагульняе паводзіны ў цэлым.
-
Post-hoc супраць intrinsic - Post-hoc тлумачыць навучаную чорную скрыню; intrinsic выкарыстоўвае ўласціва інтэрпрэтаваныя мадэлі.
Так, гэтыя межы размываюцца. Гэта нармальна; мова развіваецца; ваш рэестр рызык не.
Папулярныя метады штучнага інтэлекту, якія можна растлумачыць - тур 🎡
Вось захапляльная экскурсія з атмасферай музейнага аўдыягіда, але карацейшая.
1) Адытыўная атрыбуцыя прыкмет
-
SHAP — Прысвойвае кожнай прыкмете ўклад у канкрэтны прагноз з дапамогай ідэй тэорыі гульняў. Цэніцца за зразумелыя адытыўныя тлумачэнні і аб'ядноўваючы погляд на розныя мадэлі [3].
2) Лакальныя мадэлі сурагатных маці
-
LIME — Навучае простую лакальную мадэль вакол экзэмпляра, які трэба растлумачыць. Хуткія, зразумелыя чалавеку зводкі таго, якія функцыі маюць значэнне побач. Выдатна падыходзіць для дэманстрацый, карысны для стабільнасці падчас практыкі [4].
3) Градыентныя метады для глыбокіх сетак
-
Інтэграваныя градыенты — надаюць важнасць шляхам інтэграцыі градыентаў ад базавай лініі да ўваходных дадзеных; часта выкарыстоўваюцца для візуальнага і тэкставага аналізу. Разумныя аксіёмы; неабходна быць асцярожнымі з базавымі лініямі і шумам [1].
4) Тлумачэнні на аснове прыкладаў
-
Контрфактычныя варыянты — «Якая мінімальная змена магла б змяніць вынік?» Ідэальна падыходзіць для прыняцця рашэнняў, бо гэта натуральна прымушае да дзеяння — зрабіце X, каб атрымаць Y [1].
5) Прататыпы, правілы і частковая залежнасць
-
Прататыпы паказваюць тыповыя прыклады; правілы фіксуюць заканамернасці, напрыклад, калі даход > X і гісторыя = чысціня, то ўхваляецца ; частковая залежнасць паказвае сярэдні эфект функцыі ў дыяпазоне. Простыя ідэі, часта недаацэненыя.
6) Для моўных мадэляў
-
Атрыбуцыі токенаў/прамежкаў, атрыманыя прыклады і структураваныя абгрунтаванні. Карысна, з звычайнай агаворкай: акуратныя цеплавыя карты не гарантуюць прычынна-выніковага мыслення [5].
Кароткі (зборны) выпадак з поля 🧪
Крэдытор сярэдняга памеру прапануе мадэль з градыентным узмацненнем для прыняцця крэдытных рашэнняў. Лакальны SHAP дапамагае агентам растлумачыць неспрыяльны вынік («Суадносіны запазычанасці да даходу і нядаўняе выкарыстанне крэдыту былі ключавымі фактарамі.») [3]. Контрфактычны пласт прапануе магчымыя варыянты рэгрэсу («Знізьце выкарыстанне аднаўляльных рэсурсаў прыкладна на 10% або дадайце 1500 фунтаў стэрлінгаў правераных дэпазітаў, каб змяніць рашэнне.») [1]. Унутры каманды праводзіцца рандомізацыя візуальных элементаў у стылі значнасці, якія яны выкарыстоўваюць у кантролі якасці, каб пераканацца, што асноўныя моманты не з'яўляюцца проста замаскіраванымі дэтэктарамі на мяжы [5]. Адна і тая ж мадэль, розныя тлумачэнні для розных аўдыторый - кліентаў, аперацый і аўдытараў.
Няёмка: тлумачэнні могуць увесці ў зман 🙃
Некаторыя метады ацэнкі значнасці выглядаюць пераканаўча, нават калі яны не прывязаныя да навучанай мадэлі або дадзеных. Праверкі на надзейнасць паказалі, што пэўныя метады могуць не праходзіць базавыя тэсты, ствараючы ілжывае ўражанне разумення. Пераклад: прыгожыя малюнкі могуць быць сапраўдным тэатрам. Убудуйце праверку для вашых метадаў тлумачэння [5].
Акрамя таго, рэдкасць ≠ сумленнасць. Адносказавая прычына можа хаваць важныя ўзаемадзеянні. Нязначныя супярэчнасці ў тлумачэнні могуць сведчыць пра рэальную нявызначанасць мадэлі — або проста пра шум. Ваша задача — вызначыць, што ёсць што.
Кіраванне, палітыка і павышэнне планкі празрыстасці 🏛️
Палітыкі чакаюць празрыстасці, якая адпавядае кантэксту. У ЕС Закон аб штучным інтэлекце вызначае такія абавязкі, як інфармаванне людзей аб іх узаемадзеянні са штучным інтэлектам у пэўных выпадках і маркіроўка кантэнту, створанага або маніпуляванага штучным інтэлектам, адпаведнымі паведамленнямі і тэхнічнымі сродкамі, за выключэннем выпадкаў (напрыклад, законнае выкарыстанне або абароненае выказванне меркаванняў) [2]. Што тычыцца інжынернага боку, NIST прадастаўляе арыентаваныя на прынцыпы рэкамендацыі, якія дапамагаюць камандам распрацоўваць тлумачэнні, якія людзі могуць рэальна выкарыстоўваць [1].
Як выбраць падыход да штучнага інтэлекту з вытлумачальным падыходам - кароткая карта 🗺️
-
Пачніце з рашэння — каму патрэбныя тлумачэнні і для якіх дзеянняў?
-
Супастаўце метад з мадэллю і асяроддзем
-
Градыентныя метады для глыбокіх сетак у зроку або НЛП [1].
-
SHAP або LIME для таблічных мадэляў, калі вам патрэбна атрыбуцыя прыкмет [3][4].
-
Контрфактычныя варыянты для выпраўлення праблем і апеляцый, з якімі сутыкаюцца кліенты [1].
-
-
Усталюйце кантрольныя паказчыкі якасці — праверкі дакладнасці, тэсты стабільнасці і праверкі з удзелам чалавека [5].
-
Плануйце маштабаванне — тлумачэнні павінны быць такімі, каб іх можна было запісваць у журнал, правяраць і аўдытаваць.
-
Абмежаванні дакументавання — ні адзін метад не ідэальны; запішыце вядомыя рэжымы адмоваў.
Невялікі намёк — калі вы не можаце праверыць тлумачэнні гэтак жа, як і мадэлі, у вас можа не быць тлумачэнняў, а толькі адчуванні.
Параўнальная табліца - распаўсюджаныя варыянты штучнага інтэлекту, якія можна растлумачыць 🧮
Трохі дзіўнавата наўмысна; рэальнае жыццё бруднае.
| Інструмент / Метад | Найлепшая аўдыторыя | Кошт | Чаму гэта працуе для іх |
|---|---|---|---|
| ШАП | Навукоўцы па апрацоўцы дадзеных, аўдытары | Бясплатна/адкрыта | Адытыўныя атрыбуцыі — паслядоўныя, параўнальныя [3]. |
| ЛАЙМ | Каманды па прадуктах, аналітыкі | Бясплатна/адкрыта | Хуткія лакальныя сурагаты; лёгка паддаецца гроку; часам шумныя [4]. |
| Інтэграваныя градыенты | Інжынеры машыннага навучання ў глыбокіх сетках | Бясплатна/адкрыта | Градыентныя атрыбуцыі з разумнымі аксіёмамі [1]. |
| Контрфактычныя факты | Канчатковыя карыстальнікі, адпаведнасць патрабаванням, аперацыі | Змешаная | Прама адказвае на пытанні, якія трэба змяніць; вельмі практычна [1]. |
| Спісы правілаў / Дрэвы | Уладальнікі рызык, менеджэры рызык | Бясплатна/адкрыта | Унутраная інтэрпрэтабельнасць; глабальныя рэзюмэ. |
| Частковая залежнасць | Распрацоўшчыкі мадэляў, кантроль якасці | Бясплатна/адкрыта | Візуалізуе сярэднія эфекты ў розных дыяпазонах. |
| Прататыпы і ўзоры | Дызайнеры, рэцэнзенты | Бясплатна/адкрыта | Канкрэтныя, зразумелыя для чалавека прыклады; блізкія да сутнасці. |
| Інструментальныя платформы | Каманды платформы, кіраванне | Камерцыйны | Маніторынг + тлумачэнне + аўдыт у адным месцы. |
Так, клеткі нераўнамерныя. Гэта жыццё.
Просты працоўны працэс для вытлумачальнага штучнага інтэлекту ў вытворчасці 🛠️
Крок 1 — Вызначце пытанне.
Вызначце, чые патрэбы найбольш важныя. Тлумачнасць для спецыяліста па апрацоўцы дадзеных — гэта не тое ж самае, што ліст-зварот для кліента.
Крок 2 - Выберыце метад у залежнасці ад кантэксту.
-
Таблічная мадэль рызыкі для пазык - пачніце з SHAP для лакальных і глабальных; дадайце контрфактычныя фактары для рэгрэсу [3][1].
-
Класіфікатар зроку - выкарыстоўвайце інтэграваныя градыенты або падобныя метады; дадайце праверкі на надзейнасць, каб пазбегнуць памылак, звязаных з выяўленасцю [1][5].
Крок 3 — Праверце тлумачэнні.
Правядзіце тэсты на адпаведнасць тлумачэнняў; змяшайце ўваходныя дадзеныя; праверце, ці адпавядаюць важныя характарыстыкі ведам аб прадметнай вобласці. Калі вашы галоўныя характарыстыкі рэзка змяняюцца пры кожным перападрыхтоўцы, зрабіце паўзу.
Крок 4 — Зрабіце тлумачэнні зручнымі.
Прыводзьце іх простай мовай разам з дыяграмамі. Уключыце наступныя найлепшыя дзеянні. Прапануйце спасылкі для аспрэчвання вынікаў, дзе гэта мэтазгодна — менавіта гэта і маюць на мэце падтрымліваць правілы празрыстасці [2].
Крок 5 — Маніторынг і рэгістрацыя.
Адсочвайце стабільнасць тлумачэнняў з цягам часу. Ілжывыя тлумачэнні — гэта сігнал рызыкі, а не касметычная памылка.
Паглыбленае апусканне 1: Лакальныя супраць глабальных тлумачэнняў на практыцы 🔍
-
Лакальныя рэсурсы дапамагаюць чалавеку зразумець, чаму яго справа стала вырашальнай у далікатных кантэкстах.
-
Глабальны падыход дапамагае вашай камандзе гарантаваць, што вывучаныя паводзіны мадэлі адпавядаюць палітыцы і ведам аб прадметнай вобласці.
Зрабіце абодва. Вы можаце пачаць лакальна для аперацый па абслугоўванні, а затым дадаць глабальны маніторынг для зрушэння і праверкі справядлівасці.
Паглыбленае агляданне 2: Контрфактычныя аргументы для зваротаў і апеляцый 🔄
Людзі хочуць ведаць мінімальныя змены, каб атрымаць лепшы вынік. Контрфактычныя тлумачэнні робяць менавіта гэта — змяняюць гэтыя канкрэтныя фактары, і вынік змяняецца на адваротны [1]. Увага: контрфактычныя тлумачэнні павінны паважаць магчымасць і справядлівасць . Загад камусьці змяніць нязменны атрыбут — гэта не план, а чырвоны сцяжок.
Паглыбленае апусканне 3: Праверка на разумнасць 🧪
Калі вы выкарыстоўваеце карты значнасці або градыенты, правядзіце праверкі на надзейнасць. Некаторыя метады ствараюць амаль ідэнтычныя карты, нават калі вы рандомізуеце параметры мадэлі, гэта значыць, яны могуць вылучаць краю і тэкстуры, а не вывучаныя доказы. Цудоўныя цеплавыя карты, зманлівая гісторыя. Убудуйце аўтаматызаваныя праверкі ў CI/CD [5].
Часта задаваныя пытанні, якія ўзнікаюць на кожнай сустрэчы 🤓
Пытанне: Ці з'яўляецца вытлумачальны штучны інтэлект тым жа самым, што і справядлівасць?
Адказ: Не. Тлумачэнні дапамагаюць бачыць паводзіны; справядлівасць — гэта ўласцівасць, якую трэба праверыць і забяспечыць . Звязана, але не ідэнтычна.
Пытанне: Ці заўсёды прасцейшыя мадэлі лепшыя?
Адказ: Часам. Але простае і няправільнае — гэта ўсё роўна няправільна. Выберыце найпрасцейшую мадэль, якая адпавядае патрабаванням да прадукцыйнасці і кіравання.
Пытанне: Ці будуць тлумачэнні ўцечкай інтэлектуальнай уласнасці?
Адказ: Могуць. Калібруйце дэталі ў залежнасці ад аўдыторыі і рызыкі; дакументуйце, што вы раскрываеце і чаму.
Пытанне: Ці можам мы проста паказаць важнасць функцый і сказаць, што гэта зроблена?
Адказ: Не зусім. Палоскі важнасці без кантэксту або спасылак — гэта дэкарацыя.
Занадта доўга, не чытаў версію і заключныя заўвагі 🌯
Тлумачальны штучны інтэлект — гэта дысцыпліна, якая робіць паводзіны мадэлі зразумелымі і карыснымі для людзей, якія на іх абапіраюцца. Найлепшыя тлумачэнні маюць дакладнасць, стабільнасць і зразумелую аўдыторыю. Такія метады, як SHAP, LIME, інтэграваныя градыенты і контрфактычныя варыянты, маюць свае моцныя бакі — выкарыстоўвайце іх свядома, старанна правярайце і прадстаўляйце мовай, на якой людзі могуць рэагаваць. І памятайце, што гладкая візуальная складка можа быць тэатральнай; патрабуйце доказаў таго, што вашы тлумачэнні адлюстроўваюць сапраўдныя паводзіны мадэлі. Убудуйце тлумачальнасць у жыццёвы цыкл вашай мадэлі — гэта не глянцавае дадатак, а частка таго, як вы адказна пастаўляеце сваю мадэль.
Шчыра кажучы, гэта трохі падобна на тое, як даць вашай мадэлі голас. Часам яна мармыча; часам перабольшвае тлумачэнні; часам кажа менавіта тое, што вам трэба было пачуць. Ваша задача — дапамагчы ёй сказаць патрэбную рэч, патрэбнаму чалавеку, у патрэбны момант. І дадайце адну-дзве добрыя этыкеткі. 🎯
Спасылкі
[1] NIST IR 8312 - Чатыры прынцыпы вытлумачальнага штучнага інтэлекту . Нацыянальны інстытут стандартаў і тэхналогій. чытаць далей
[2] Рэгламент (ЕС) 2024/1689 — Закон аб штучным інтэлекце (Афіцыйны часопіс/EUR-Lex) . чытаць далей
[3] Лундберг і Лі (2017) - «Адзіны падыход да інтэрпрэтацыі прагнозаў мадэляў». arXiv. чытаць далей
[4] Рыбейра, Сінгх і Гестрын (2016) - «Чаму я павінен вам давяраць?» Тлумачэнне прагнозаў любога класіфікатара. arXiv. чытаць далей
[5] Адэбаё і інш. (2018) - «Праверкі на надзейнасць карт значнасці». NeurIPS (папяровы PDF). чытаць далей