Наколькі дакладны штучны інтэлект?

Наколькі дакладны штучны інтэлект?

«Дакладнасць» залежыць ад таго, які тып штучнага інтэлекту вы маеце на ўвазе, што вы просіце яго зрабіць, якія дадзеныя ён бачыць і як вы вымяраеце поспех

Ніжэй прыведзены практычны аналіз дакладнасці штучнага інтэлекту — той, які вы можаце выкарыстоўваць для ацэнкі інструментаў, пастаўшчыкоў або вашай уласнай сістэмы.

Артыкулы, якія вам могуць спадабацца пасля гэтага:

🔗 Як крок за крокам вывучыць штучны інтэлект
Зручны для пачаткоўцаў план, каб пачаць упэўнена вывучаць штучны інтэлект.

🔗 Як штучны інтэлект выяўляе анамаліі ў дадзеных
Тлумачыць метады, якія штучны інтэлект выкарыстоўвае для аўтаматычнага выяўлення незвычайных заканамернасцей.

🔗 Чаму штучны інтэлект можа быць шкодным для грамадства
Ахоплівае такія рызыкі, як прадузятасць, уплыў на працоўныя месцы і праблемы з прыватнасцю.

🔗 Што такое набор дадзеных штучнага інтэлекту і чаму ён важны
Вызначае наборы дадзеных і тое, як яны навучаюць і ацэньваюць мадэлі штучнага інтэлекту.


1) Дык… Наколькі дакладны штучны інтэлект? 🧠✅

Штучны інтэлект можа быць надзвычай дакладным у вузкіх, добра акрэсленых задачах, асабліва калі «правільны адказ» адназначны і яго лёгка ацаніць.

Але ў задачах з адкрытым канцом (асабліва ў генератыўным штучным інтэлекце, такім як чат-боты), «дакладнасць» хутка пагаршаецца, таму што:

  • можа быць некалькі прымальных адказаў

  • вынік можа быць плаўным, але не грунтуецца на фактах

  • мадэль можа быць настроена на вібрацыі «карыснасці», а не на строгую карэктнасць

  • свет змяняецца, і сістэмы могуць адставаць ад рэальнасці

Карысная ментальная мадэль: дакладнасць — гэта не ўласцівасць, якой вы «маеце». Гэта ўласцівасць, якую вы «зарабляеце» для выканання канкрэтнай задачы, у канкрэтным асяроддзі, з канкрэтнай устаноўкай вымярэнняў . Вось чаму сур'ёзныя рэкамендацыі разглядаюць ацэнку як дзейнасць жыццёвага цыклу, а не як аднаразовы момант на табло. [1]

 

Дакладнасць штучнага інтэлекту

2) Дакладнасць — гэта не адна рэч — гэта цэлая стракатая сям'я 👨👩👧👦📏

Калі людзі кажуць «дакладнасць», яны могуць мець на ўвазе што-небудзь з гэтага (і часта яны маюць на ўвазе адразу два з іх, не ўсведамляючы гэтага):

  • Правільнасць : ці атрымалася правільная метка / адказ?

  • Дакладнасць супраць поўнай адзнакі : ці ўдалося пазбегнуць ілжывых трывог ці ўсё злавіць?

  • Каліброўка : калі напісана «Я ўпэўнены на 90%, ці сапраўды гэта правільна прыкладна ў 90% выпадкаў? [3]

  • Надзейнасць : ці працуе праграма, калі ўваходныя дадзеныя крыху змяняюцца (шум, новая фраза, новыя крыніцы, новыя дэмаграфічныя дадзеныя)?

  • Надзейнасць : ці паводзіць сябе яно паслядоўна ў чаканых умовах?

  • Праўдзівасць / факталогічнасць (генератыўны штучны інтэлект): ці гэта выдумкі (галюцынацыі) упэўненым тонам? [2]

Вось чаму фрэймворкі, арыентаваныя на давер, не разглядаюць «дакладнасць» як адзіны паказчык. Яны абмяркоўваюць валіднасць, надзейнасць, бяспеку, празрыстасць, устойлівасць, справядлівасць і іншае як адзіны комплекс — таму што можна «аптымізаваць» адно і выпадкова парушыць іншае. [1]


3) Што робіць версію вымярэння «Наколькі дакладны штучны інтэлект» добрай? 🧪🔍

Вось спіс «добрай версіі» (той, якую людзі прапускаюць... а потым шкадуюць):

✅ Зразумелае вызначэнне задачы (г.зн.: зрабіць яе тэставальнай)

  • «Рэзюмэ» — гэта расплывістае слова.

  • «Рэзюмуйце ў 5 пунктах, уключыце 3 канкрэтныя лічбы з крыніцы і не выдумляйце спасылкі» — гэта можна праверыць.

✅ Тыповыя тэставыя дадзеныя (г.зн.: спыніць ацэньванне ў лёгкім рэжыме)

Калі ваш тэставы набор занадта чысты, дакладнасць будзе выглядаць фальшыва добрай. Рэальныя карыстальнікі прыносяць памылкі друку, дзіўныя памежныя выпадкі і энергію тыпу «я напісаў гэта на сваім тэлефоне а 2-й гадзіне ночы».

✅ Паказчык, які адпавядае рызыцы

Няправільная класіфікацыя мема — гэта не тое ж самае, што няправільная класіфікацыя медыцынскага папярэджання. Вы не выбіраеце паказчыкі, зыходзячы з традыцый — вы выбіраеце іх, зыходзячы з наступстваў. [1]

✅ Тэставанне пасля распаўсюджвання (г. зн.: «што адбудзецца, калі рэальнасць стане відавочнай?»)

Паспрабуйце дзіўныя фармулёўкі, неадназначныя ўваходныя дадзеныя, супярэчлівыя падказкі, новыя катэгорыі, новыя перыяды часу. Гэта важна, таму што зрух размеркавання — гэта класічны спосаб мадэлявання ў прадукцыйнай вытворчасці. [4]

✅ Пастаянная ацэнка (г.зн.: дакладнасць — гэта не функцыя «наладзіў і забыўся»)

Сістэмы дрэйфуюць. Карыстальнікі мяняюцца. Дадзеныя мяняюцца. Ваша «выдатная» мадэль ціха дэградуе — калі вы не вымяраеце яе пастаянна. [1]

Невялікая рэальная заканамернасць, якую вы пазнаеце: каманды часта працуюць з высокай «дэманстрацыйнай дакладнасцю», а потым выяўляюць, што іх сапраўдным спосабам няўдачы з'яўляюцца не «няправільныя адказы»... а «няправільныя адказы, прадстаўленыя ўпэўнена і ў маштабе». Гэта праблема дызайну ацэнкі, а не проста праблема мадэлі.


4) Дзе штучны інтэлект звычайна вельмі дакладны (і чаму) 📈🛠️

Штучны інтэлект звычайна праяўляецца, калі праблема ў наступным:

  • вузкі

  • добра пазначаны

  • стабільны з цягам часу

  • падобна размеркаванню навучання

  • лёгка аўтаматычна набіраць балы

Прыклады:

  • Фільтрацыя спаму

  • Выманне дакументаў у адпаведнасці з макетамі

  • Цыклы ранжыравання/рэкамендацый з вялікай колькасцю сігналаў зваротнай сувязі

  • Шмат задач па класіфікацыі зроку ў кантраляваных умовах

Сумная звышздольнасць, якая стаіць за многімі з гэтых перамог: ясная праўда + мноства адпаведных прыкладаў . Не гламурна — надзвычай эфектыўна.


5) Дзе дакладнасць штучнага інтэлекту часта пагаршаецца 😬🧯

Гэта тое, што людзі адчуваюць да мозгу касцей.

Галюцынацыі ў генератыўным штучным інтэлекце 🗣️🌪️

Магістр права (LLM) можа ствараць праўдападобны, але не адпавядае фактам кантэнту, і менавіта «праўдападобная» частка з'яўляецца прычынай яго небяспекі. Гэта адна з прычын, чаму генератыўныя рэкамендацыі па рызыках штучнага інтэлекту надаюць такую ​​вялікую ўвагу абгрунтаванню, дакументацыі і вымярэнню, а не дэманстрацыям, заснаваным на вібрацыях. [2]

Змена размеркавання 🧳➡️🏠

Мадэль, навучаная ў адным асяроддзі, можа спатыкнуцца ў іншым: іншая мова карыстальніка, іншы каталог прадуктаў, іншыя рэгіянальныя нормы, іншы перыяд часу. Такія бенчмаркі, як WILDS, існуюць у асноўным для таго, каб крычаць: «прадукцыйнасць у дыстрыбуцыі можа значна перавышаць рэальную прадукцыйнасць». [4]

Стымулы, якія ўзнагароджваюць упэўненыя здагадкі 🏆🤥

У некаторых сістэмах выпадкова ўзнагароджваецца паводзіна «заўсёды адказвай» замест «адказвай толькі тады, калі ведаеш адказ». Такім чынам, сістэмы вучацца гучаць правільна, а не быць правільнымі. Вось чаму ацэнка павінна ўключаць паводзіны ўстрымання/нявызначанасці, а не толькі працэнт неапрацаваных адказаў. [2]

Рэальныя здарэнні і аперацыйныя збоі 🚨

Нават моцная мадэль можа даць збой як сістэма: дрэннае атрыманне дадзеных, састарэлыя дадзеныя, парушаныя агароджы або працоўны працэс, які ціха накіроўвае мадэль у абыход праверак бяспекі. Сучасныя рэкамендацыі разглядаюць дакладнасць як частку больш шырокай надзейнасці сістэмы , а не толькі як ацэнку мадэлі. [1]


6) Недаацэненая звышздольнасць: каліброўка (г.зн. «веданне таго, чаго ты не ведаеш») 🎚️🧠

Нават калі дзве мадэлі маюць аднолькавую «дакладнасць», адна з іх можа быць значна бяспечнейшай, таму што яна:

  • належным чынам выказвае нявызначанасць

  • пазбягае празмерна ўпэўненых няправільных адказаў

  • дае верагоднасці, якія адпавядаюць рэальнасці

Каліброўка — гэта не толькі акадэмічная тэма, але і тое, што робіць упэўненасць практычнай . Класічнай адкрыццём у сучасных нейронных сетках з'яўляецца тое, што паказчык упэўненасці можа не супадаць з сапраўднай правільнасцю, калі вы не адкалібруеце або не вымераеце яго відавочна. [3]

Калі ў вашым канвееры выкарыстоўваюцца парогі, такія як «аўтаматычнае зацвярджэнне вышэй за 0,9», каліброўка — гэта розніца паміж «аўтаматызацыяй» і «аўтаматызаваным хаосам»


7) Як ацэньваецца дакладнасць штучнага інтэлекту для розных тыпаў штучнага інтэлекту 🧩📚

Для класічных мадэляў прагназавання (класіфікацыя/рэгрэсія) 📊

Агульныя паказчыкі:

  • Дакладнасць, прэцызійнасць, запамінанне, F1

  • ROC-AUC / PR-AUC (часта лепш падыходзіць для праблем з незбалансаванасцю)

  • Калібровачныя праверкі (крывыя надзейнасці, меркаванні ў стылі чаканай памылкі каліброўкі) [3]

Для моўных мадэляў і памочнікаў 💬

Ацэнка становіцца шматмернай:

  • правільнасць (калі задача мае ўмову праўдзівасці)

  • выкананне інструкцый

  • бяспека і паводзіны пры адмове (добрыя адмовы дзіўна складаныя)

  • факталагічнае абгрунтаванне / цытаванне (калі гэта патрабуецца ў вашым выпадку выкарыстання)

  • надзейнасць у розных падказках і стылях карыстальнікаў

Адзін з галоўных унёскаў «цэласнага» ацэначнага мыслення — гэта выразнае выкладанне пункту гледжання: вам патрэбныя некалькі паказчыкаў па розных сцэнарыях, таму што кампрамісы рэальныя. [5]

Для сістэм, пабудаваных на LLM (працоўныя працэсы, агенты, пошук) 🧰

Цяпер вы ацэньваеце ўвесь канвеер:

  • якасць пошуку (ці атрымана правільная інфармацыя?)

  • логіка інструмента (ці адпавядала яно працэсу?)

  • якасць вываду (ці правільна і карысна?)

  • агароджы (ці ўдалося пазбегнуць рызыкоўных паводзін?)

  • маніторынг (ці выяўлялі вы збоі ў рэальных умовах?) [1]

Слабое звяно ў любым месцы можа зрабіць усю сістэму «недакладнай», нават калі базавая мадэль прыстойная.


8) Параўнальная табліца: практычныя спосабы ацаніць «Наколькі дакладны штучны інтэлект?» 🧾⚖️

Інструмент / падыход Лепш за ўсё падыходзіць для Кошт атмасферы Чаму гэта працуе
Наборы тэстаў для розных выпадкаў выкарыстання Прыкладанні LLM + індывідуальныя крытэрыі поспеху Вольна Вы тэстуеце свой працоўны працэс, а не выпадковую табліцу лідэраў.
Шматмернае, сцэнарнае ахопліванне Адказнае параўнанне мадэляў Вольна Вы атрымліваеце «профіль» здольнасцей, а не адзіную магічную лічбу. [5]
Рызыка жыццёвага цыклу + ацэначны падыход Высокарызыкоўныя сістэмы, якія патрабуюць строгасці Вольна Падштурхоўвае вас да пастаяннага вызначэння, вымярэння, кіравання і маніторынгу. [1]
Праверка каліброўкі Любая сістэма, якая выкарыстоўвае парогі даверу Вольна Правярае, ці азначае што-небудзь «90% упэўнены». [3]
Панэлі па праглядзе людзьмі Бяспека, тон, нюансы, «ці здаецца гэта шкодным?» $$ Людзі ўлоўліваюць кантэкст і шкоду, якія прапускаюць аўтаматызаваныя метрыкі.
Маніторынг інцыдэнтаў + цыклы зваротнай сувязі Вучымся на рэальных няўдачах Вольна Рэальнасць мае рэцэпты — і дадзеныя аб вытворчасці вучаць хутчэй, чым меркаванні. [1]

Прызнанне ў асаблівасці фарматавання: «Бясплатнасць» тут вельмі важная, бо рэальны кошт часта складае чалавека-гадзіны, а не ліцэнзіі 😅


9) Як зрабіць штучны інтэлект больш дакладным (практычныя рычагі) 🔧✨

Лепшыя дадзеныя і лепшыя тэсты 📦🧪

  • Разгарнуць памежныя выпадкі

  • Збалансуйце рэдкія, але крытычныя сцэнарыі

  • Захоўвайце «залаты набор», які адлюстроўвае рэальны боль карыстальніка (і пастаянна яго абнаўляйце)

Падрыхтоўка да факталагічных задач 📚🔍

Калі вам патрэбна фактычная надзейнасць, выкарыстоўвайце сістэмы, якія атрымліваюць інфармацыю з надзейных дакументаў і адказваюць на іх аснове. Шмат якія рэкамендацыі па кіраванні рызыкамі, звязанымі з генератыўным штучным інтэлектам, сканцэнтраваны на дакументацыі, паходжанні і наладах ацэнкі, якія скарачаюць колькасць выдуманага кантэнту , а не проста спадзяюцца, што мадэль «павядзе сябе належным чынам». [2]

Больш моцныя цыклы ацэнкі 🔁

  • Выконваць ацэнкі для кожнага значнага змянення

  • Сачыце за рэгрэсіямі

  • Стрэс-тэст на наяўнасць дзіўных падказак і шкоднасных уводаў

Заахвочвайце адкалібраваную паводзіны 🙏

  • Не карайце занадта моцна за «Я не ведаю»

  • Ацаніце якасць устрымання, а не толькі ўзровень адказаў

  • Ставіцеся да ўпэўненасці як да чагосьці, што вы вымяраеце і правяраеце , а не як да чагосьці, што прымаеце па вібрацыях [3]


10) Кароткая праверка інтуіцыі: калі варта давяраць дакладнасці штучнага інтэлекту? 🧭🤔

Больш давярайце, калі:

  • задача вузкая і паўтаральная

  • выхады можна праверыць аўтаматычна

  • сістэма кантралюецца і абнаўляецца

  • упэўненасць калібруецца, і яна можа ўстрымлівацца [3]

Менш давярайце, калі:

  • стаўкі высокія, а наступствы рэальныя

  • тэма адкрытая («раскажы мне ўсё пра…») 😵💫

  • няма зазямлення, няма этапу праверкі, няма праверкі чалавекам

  • сістэма паводзіць сябе ўпэўнена па змаўчанні [2]

Трохі няўдалая метафара: спадзявацца на неправераны штучны інтэлект для прыняцця важных рашэнняў — гэта як есці сушы, якія ляжалі на сонцы... усё можа быць добра, але ваш страўнік рызыкуе, на што вы не падпісваліся.


11) Заключныя нататкі і кароткі змест 🧃✅

Дык наколькі дакладны штучны інтэлект?
ШІ можа быць неверагодна дакладным, але толькі адносна вызначанай задачы, метаду вымярэння і асяроддзя, у якім ён разгортваецца . А для генератыўнага штучнага інтэлекту «дакладнасць» часта тычыцца не столькі аднаго бала, колькі надзейнай канструкцыі сістэмы : зазямлення, каліброўкі, ахопу, маніторынгу і сумленнай ацэнкі. [1][2][5]

Кароткі змест 🎯

  • «Дакладнасць» — гэта не адзін паказчык, а правільнасць, каліброўка, надзейнасць, стабільнасць і (для генератыўнага штучнага інтэлекту) праўдзівасць. [1][2][3]

  • Бенчмаркі дапамагаюць, але ацэнка выпадкаў выкарыстання дапамагае заставацца сумленным. [5]

  • Калі вам патрэбна фактычная надзейнасць, дадайце абгрунтаванне + этапы праверкі + ацэнку ўстрымання. [2]

  • Ацэнка жыццёвага цыклу — гэта дарослы падыход... нават калі ён менш захапляльны, чым скрыншот табліцы лідэраў. [1]


Спасылкі

[1] NIST AI RMF 1.0 (NIST AI 100-1): Практычная структура для выяўлення, ацэнкі і кіравання рызыкамі штучнага інтэлекту на працягу ўсяго жыццёвага цыклу. чытаць далей
[2] NIST Generative AI Profile (NIST AI 600-1): Дадатковы профіль да AI RMF, арыентаваны на меркаванні рызык, спецыфічных для генератыўных сістэм штучнага інтэлекту. чытаць далей
[3] Guo et al. (2017) - Каліброўка сучасных нейронных сетак: фундаментальны дакумент, які паказвае, як сучасныя нейронныя сеткі могуць быць няправільна адкалібраваны і як каліброўка можа быць палепшана. чытаць далей
[4] Koh et al. (2021) - WILDS benchmark: набор бенчмаркаў, прызначаны для праверкі прадукцыйнасці мадэлі ва ўмовах рэальных змен размеркавання. чытаць далей
[5] Liang et al. (2023) - HELM (Holistic Evaluation of Language Models): структура для ацэнкі моўных мадэляў у розных сцэнарыях і метрыках для выяўлення рэальных кампрамісаў. чытаць далей

Знайдзіце найноўшы штучны інтэлект у афіцыйнай краме памочнікаў штучнага інтэлекту

Пра нас

Назад да блога