Наколькі дакладны штучны інтэлект?

Кароткі адказ: штучны інтэлект можа быць вельмі дакладным у вузкіх, добра акрэсленых задачах з выразна акрэсленымі дадзенымі, але «дакладнасць» — гэта не адзіны паказчык, якому можна ўніверсальна давяраць. Ён мае сілу толькі тады, калі задача, дадзеныя і паказчыкі адпавядаюць аперацыйным умовам; калі ўваходныя дадзеныя зрушваюцца або задачы становяцца некантраляванымі, памылкі і галюцынацыі ўпэўненасці растуць.

Асноўныя высновы:

Адпаведнасць задачы : дакладна вызначце задачу, каб можна было праверыць «правільнае» і «няправільнае».

Выбар метрыкі : супастаўце метрыкі ацэнкі з рэальнымі наступствамі, а не з традыцыяй ці зручнасцю.

Тэставанне рэальнасці : выкарыстоўвайце прадстаўнічыя, зашумленыя дадзеныя і стрэс-тэсты па-за размеркаваннем.

Каліброўка : вымяраецца, ці адпавядае ўпэўненасць правільнасці, асабліва для парогавых значэнняў.

Маніторынг жыццёвага цыклу : пастаянна пераацэньвайце, паколькі карыстальнікі, дадзеныя і асяроддзі змяняюцца з цягам часу.

Артыкулы, якія вам могуць спадабацца пасля гэтага:

🔗 Як крок за крокам вывучыць штучны інтэлект
Зручны для пачаткоўцаў план, каб пачаць упэўнена вывучаць штучны інтэлект.

🔗 Як штучны інтэлект выяўляе анамаліі ў дадзеных
Тлумачыць метады, якія штучны інтэлект выкарыстоўвае для аўтаматычнага выяўлення незвычайных заканамернасцей.

🔗 Чаму штучны інтэлект можа быць шкодным для грамадства
Ахоплівае такія рызыкі, як прадузятасць, уплыў на працоўныя месцы і праблемы з прыватнасцю.

🔗 Што такое набор дадзеных штучнага інтэлекту і чаму ён важны
Вызначае наборы дадзеных і тое, як яны навучаюць і ацэньваюць мадэлі штучнага інтэлекту.

1) Дык… Наколькі дакладны штучны інтэлект? 🧠✅

Штучны інтэлект можа быць надзвычай дакладным у вузкіх, добра акрэсленых задачах, асабліва калі «правільны адказ» адназначны і яго лёгка ацаніць.

Але ў задачах з адкрытым канцом (асабліва ў генератыўным штучным інтэлекце, такім як чат-боты), «дакладнасць» хутка пагаршаецца, таму што:

можа быць некалькі прымальных адказаў
вынік можа быць плаўным, але не грунтуецца на фактах
мадэль можа быць настроена на вібрацыі «карыснасці», а не на строгую карэктнасць
свет змяняецца, і сістэмы могуць адставаць ад рэальнасці

Карысная ментальная мадэль: дакладнасць — гэта не ўласцівасць, якой вы «маеце». Гэта ўласцівасць, якую вы «зарабляеце» для выканання канкрэтнай задачы, у канкрэтным асяроддзі, з канкрэтнай устаноўкай вымярэнняў . Вось чаму сур'ёзныя рэкамендацыі разглядаюць ацэнку як дзейнасць жыццёвага цыклу, а не як аднаразовы момант на табло. [1]

2) Дакладнасць — гэта не адна рэч — гэта цэлая стракатая сям'я 👨👩👧👦📏

Калі людзі кажуць «дакладнасць», яны могуць мець на ўвазе што-небудзь з гэтага (і часта яны маюць на ўвазе адразу два з іх, не ўсведамляючы гэтага):

Правільнасць : ці атрымалася правільная метка / адказ?
Дакладнасць супраць поўнай адзнакі : ці ўдалося пазбегнуць ілжывых трывог ці ўсё злавіць?
Каліброўка : калі напісана «Я ўпэўнены на 90%, ці сапраўды гэта правільна прыкладна ў 90% выпадкаў? [3]
Надзейнасць : ці працуе праграма, калі ўваходныя дадзеныя крыху змяняюцца (шум, новая фраза, новыя крыніцы, новыя дэмаграфічныя дадзеныя)?
Надзейнасць : ці паводзіць сябе яно паслядоўна ў чаканых умовах?
Праўдзівасць / факталогічнасць (генератыўны штучны інтэлект): ці гэта выдумкі (галюцынацыі) упэўненым тонам? [2]

Вось чаму фрэймворкі, арыентаваныя на давер, не разглядаюць «дакладнасць» як адзіны паказчык. Яны абмяркоўваюць валіднасць, надзейнасць, бяспеку, празрыстасць, устойлівасць, справядлівасць і іншае як адзіны комплекс — таму што можна «аптымізаваць» адно і выпадкова парушыць іншае. [1]

3) Што робіць версію вымярэння «Наколькі дакладны штучны інтэлект» добрай? 🧪🔍

Вось спіс «добрай версіі» (той, якую людзі прапускаюць... а потым шкадуюць):

✅ Зразумелае вызначэнне задачы (г.зн.: зрабіць яе тэставальнай)

«Рэзюмэ» — гэта расплывістае слова.
«Рэзюмуйце ў 5 пунктах, уключыце 3 канкрэтныя лічбы з крыніцы і не выдумляйце спасылкі» — гэта можна праверыць.

✅ Тыповыя тэставыя дадзеныя (г.зн.: спыніць ацэньванне ў лёгкім рэжыме)

Калі ваш тэставы набор занадта чысты, дакладнасць будзе выглядаць фальшыва добрай. Рэальныя карыстальнікі прыносяць памылкі друку, дзіўныя памежныя выпадкі і энергію тыпу «я напісаў гэта на сваім тэлефоне а 2-й гадзіне ночы».

✅ Паказчык, які адпавядае рызыцы

Няправільная класіфікацыя мема — гэта не тое ж самае, што няправільная класіфікацыя медыцынскага папярэджання. Вы не выбіраеце паказчыкі, зыходзячы з традыцый — вы выбіраеце іх, зыходзячы з наступстваў. [1]

✅ Тэставанне пасля распаўсюджвання (г. зн.: «што адбудзецца, калі рэальнасць стане відавочнай?»)

Паспрабуйце дзіўныя фармулёўкі, неадназначныя ўваходныя дадзеныя, супярэчлівыя падказкі, новыя катэгорыі, новыя перыяды часу. Гэта важна, таму што зрух размеркавання — гэта класічны спосаб мадэлявання ў прадукцыйнай вытворчасці. [4]

✅ Пастаянная ацэнка (г.зн.: дакладнасць — гэта не функцыя «наладзіў і забыўся»)

Сістэмы дрэйфуюць. Карыстальнікі мяняюцца. Дадзеныя мяняюцца. Ваша «выдатная» мадэль ціха дэградуе — калі вы не вымяраеце яе пастаянна. [1]

Невялікая рэальная заканамернасць, якую вы пазнаеце: каманды часта працуюць з высокай «дэманстрацыйнай дакладнасцю», а потым выяўляюць, што іх сапраўдным спосабам няўдачы з'яўляюцца не «няправільныя адказы»... а «няправільныя адказы, прадстаўленыя ўпэўнена і ў маштабе». Гэта праблема дызайну ацэнкі, а не проста праблема мадэлі.

4) Дзе штучны інтэлект звычайна вельмі дакладны (і чаму) 📈🛠️

Штучны інтэлект звычайна праяўляецца, калі праблема ў наступным:

вузкі
добра пазначаны
стабільны з цягам часу
падобна размеркаванню навучання
лёгка аўтаматычна набіраць балы

Прыклады:

Фільтрацыя спаму
Выманне дакументаў у адпаведнасці з макетамі
Цыклы ранжыравання/рэкамендацый з вялікай колькасцю сігналаў зваротнай сувязі
Шмат задач па класіфікацыі зроку ў кантраляваных умовах

Сумная звышздольнасць, якая стаіць за многімі з гэтых перамог: ясная праўда + мноства адпаведных прыкладаў . Не гламурна — надзвычай эфектыўна.

5) Дзе дакладнасць штучнага інтэлекту часта пагаршаецца 😬🧯

Гэта тое, што людзі адчуваюць да мозгу касцей.

Галюцынацыі ў генератыўным штучным інтэлекце 🗣️🌪️

Магістр права (LLM) можа ствараць праўдападобны, але не адпавядае фактам кантэнту, і менавіта «праўдападобная» частка з'яўляецца прычынай яго небяспекі. Гэта адна з прычын, чаму генератыўныя рэкамендацыі па рызыках штучнага інтэлекту надаюць такую вялікую ўвагу абгрунтаванню, дакументацыі і вымярэнню, а не дэманстрацыям, заснаваным на вібрацыях. [2]

Змена размеркавання 🧳➡️🏠

Мадэль, навучаная ў адным асяроддзі, можа спатыкнуцца ў іншым: іншая мова карыстальніка, іншы каталог прадуктаў, іншыя рэгіянальныя нормы, іншы перыяд часу. Такія бенчмаркі, як WILDS, існуюць у асноўным для таго, каб крычаць: «прадукцыйнасць у дыстрыбуцыі можа значна перавышаць рэальную прадукцыйнасць». [4]

Стымулы, якія ўзнагароджваюць упэўненыя здагадкі 🏆🤥

У некаторых сістэмах выпадкова ўзнагароджваецца паводзіна «заўсёды адказвай» замест «адказвай толькі тады, калі ведаеш адказ». Такім чынам, сістэмы вучацца гучаць правільна, а не быць правільнымі. Вось чаму ацэнка павінна ўключаць паводзіны ўстрымання/нявызначанасці, а не толькі працэнт неапрацаваных адказаў. [2]

Рэальныя здарэнні і аперацыйныя збоі 🚨

Нават моцная мадэль можа даць збой як сістэма: дрэннае атрыманне дадзеных, састарэлыя дадзеныя, парушаныя агароджы або працоўны працэс, які ціха накіроўвае мадэль у абыход праверак бяспекі. Сучасныя рэкамендацыі разглядаюць дакладнасць як частку больш шырокай надзейнасці сістэмы , а не толькі як ацэнку мадэлі. [1]

6) Недаацэненая звышздольнасць: каліброўка (г.зн. «веданне таго, чаго ты не ведаеш») 🎚️🧠

Нават калі дзве мадэлі маюць аднолькавую «дакладнасць», адна з іх можа быць значна бяспечнейшай, таму што яна:

належным чынам выказвае нявызначанасць
пазбягае празмерна ўпэўненых няправільных адказаў
дае верагоднасці, якія адпавядаюць рэальнасці

Каліброўка — гэта не толькі акадэмічная тэма, але і тое, што робіць упэўненасць практычнай . Класічнай адкрыццём у сучасных нейронных сетках з'яўляецца тое, што паказчык упэўненасці можа не супадаць з сапраўднай правільнасцю, калі вы не адкалібруеце або не вымераеце яго відавочна. [3]

Калі ў вашым канвееры выкарыстоўваюцца парогі, такія як «аўтаматычнае зацвярджэнне вышэй за 0,9», каліброўка — гэта розніца паміж «аўтаматызацыяй» і «аўтаматызаваным хаосам»

7) Як ацэньваецца дакладнасць штучнага інтэлекту для розных тыпаў штучнага інтэлекту 🧩📚

Для класічных мадэляў прагназавання (класіфікацыя/рэгрэсія) 📊

Агульныя паказчыкі:

Дакладнасць, прэцызійнасць, запамінанне, F1
ROC-AUC / PR-AUC (часта лепш падыходзіць для праблем з незбалансаванасцю)
Калібровачныя праверкі (крывыя надзейнасці, меркаванні ў стылі чаканай памылкі каліброўкі) [3]

Для моўных мадэляў і памочнікаў 💬

Ацэнка становіцца шматмернай:

правільнасць (калі задача мае ўмову праўдзівасці)
выкананне інструкцый
бяспека і паводзіны пры адмове (добрыя адмовы дзіўна складаныя)
факталагічнае абгрунтаванне / цытаванне (калі гэта патрабуецца ў вашым выпадку выкарыстання)
надзейнасць у розных падказках і стылях карыстальнікаў

Адзін з галоўных унёскаў «цэласнага» ацэначнага мыслення — гэта выразнае выкладанне пункту гледжання: вам патрэбныя некалькі паказчыкаў па розных сцэнарыях, таму што кампрамісы рэальныя. [5]

Для сістэм, пабудаваных на LLM (працоўныя працэсы, агенты, пошук) 🧰

Цяпер вы ацэньваеце ўвесь канвеер:

якасць пошуку (ці атрымана правільная інфармацыя?)
логіка інструмента (ці адпавядала яно працэсу?)
якасць вываду (ці правільна і карысна?)
агароджы (ці ўдалося пазбегнуць рызыкоўных паводзін?)
маніторынг (ці выяўлялі вы збоі ў рэальных умовах?) [1]

Слабое звяно ў любым месцы можа зрабіць усю сістэму «недакладнай», нават калі базавая мадэль прыстойная.

8) Параўнальная табліца: практычныя спосабы ацаніць «Наколькі дакладны штучны інтэлект?» 🧾⚖️

Інструмент / падыход	Лепш за ўсё падыходзіць для	Кошт атмасферы	Чаму гэта працуе
Наборы тэстаў для розных выпадкаў выкарыстання	Прыкладанні LLM + індывідуальныя крытэрыі поспеху	Вольна	Вы тэстуеце свой працоўны працэс, а не выпадковую табліцу лідэраў.
Шматмернае, сцэнарнае ахопліванне	Адказнае параўнанне мадэляў	Вольна	Вы атрымліваеце «профіль» здольнасцей, а не адзіную магічную лічбу. [5]
Рызыка жыццёвага цыклу + ацэначны падыход	Высокарызыкоўныя сістэмы, якія патрабуюць строгасці	Вольна	Падштурхоўвае вас да пастаяннага вызначэння, вымярэння, кіравання і маніторынгу. [1]
Праверка каліброўкі	Любая сістэма, якая выкарыстоўвае парогі даверу	Вольна	Правярае, ці азначае што-небудзь «90% упэўнены». [3]
Панэлі па праглядзе людзьмі	Бяспека, тон, нюансы, «ці здаецца гэта шкодным?»	$$	Людзі ўлоўліваюць кантэкст і шкоду, якія прапускаюць аўтаматызаваныя метрыкі.
Маніторынг інцыдэнтаў + цыклы зваротнай сувязі	Вучымся на рэальных няўдачах	Вольна	Рэальнасць мае рэцэпты — і дадзеныя аб вытворчасці вучаць хутчэй, чым меркаванні. [1]

Прызнанне ў асаблівасці фарматавання: «Бясплатнасць» тут вельмі важная, бо рэальны кошт часта складае чалавека-гадзіны, а не ліцэнзіі 😅

9) Як зрабіць штучны інтэлект больш дакладным (практычныя рычагі) 🔧✨

Лепшыя дадзеныя і лепшыя тэсты 📦🧪

Разгарнуць памежныя выпадкі
Збалансуйце рэдкія, але крытычныя сцэнарыі
Захоўвайце «залаты набор», які адлюстроўвае рэальны боль карыстальніка (і пастаянна яго абнаўляйце)

Падрыхтоўка да факталагічных задач 📚🔍

Калі вам патрэбна фактычная надзейнасць, выкарыстоўвайце сістэмы, якія атрымліваюць інфармацыю з надзейных дакументаў і адказваюць на іх аснове. Шмат якія рэкамендацыі па кіраванні рызыкамі, звязанымі з генератыўным штучным інтэлектам, сканцэнтраваны на дакументацыі, паходжанні і наладах ацэнкі, якія скарачаюць колькасць выдуманага кантэнту , а не проста спадзяюцца, што мадэль «павядзе сябе належным чынам». [2]

Больш моцныя цыклы ацэнкі 🔁

Выконваць ацэнкі для кожнага значнага змянення
Сачыце за рэгрэсіямі
Стрэс-тэст на наяўнасць дзіўных падказак і шкоднасных уводаў

Заахвочвайце адкалібраваную паводзіны 🙏

Не карайце занадта моцна за «Я не ведаю»
Ацаніце якасць устрымання, а не толькі ўзровень адказаў
Ставіцеся да ўпэўненасці як да чагосьці, што вы вымяраеце і правяраеце , а не як да чагосьці, што прымаеце па вібрацыях [3]

10) Кароткая праверка інтуіцыі: калі варта давяраць дакладнасці штучнага інтэлекту? 🧭🤔

Больш давярайце, калі:

задача вузкая і паўтаральная
выхады можна праверыць аўтаматычна
сістэма кантралюецца і абнаўляецца
упэўненасць калібруецца, і яна можа ўстрымлівацца [3]

Менш давярайце, калі:

стаўкі высокія, а наступствы рэальныя
тэма адкрытая («раскажы мне ўсё пра…») 😵💫
няма зазямлення, няма этапу праверкі, няма праверкі чалавекам
сістэма паводзіць сябе ўпэўнена па змаўчанні [2]

Трохі няўдалая метафара: спадзявацца на неправераны штучны інтэлект для прыняцця важных рашэнняў — гэта як есці сушы, якія ляжалі на сонцы... усё можа быць добра, але ваш страўнік рызыкуе, на што вы не падпісваліся.

11) Заключныя нататкі і кароткі змест 🧃✅

Дык наколькі дакладны штучны інтэлект?
ШІ можа быць неверагодна дакладным, але толькі адносна вызначанай задачы, метаду вымярэння і асяроддзя, у якім ён разгортваецца . А для генератыўнага штучнага інтэлекту «дакладнасць» часта тычыцца не столькі аднаго бала, колькі надзейнай канструкцыі сістэмы : зазямлення, каліброўкі, ахопу, маніторынгу і сумленнай ацэнкі. [1][2][5]

Кароткі змест 🎯

«Дакладнасць» — гэта не адзін паказчык, а правільнасць, каліброўка, надзейнасць, стабільнасць і (для генератыўнага штучнага інтэлекту) праўдзівасць. [1][2][3]
Бенчмаркі дапамагаюць, але ацэнка выпадкаў выкарыстання дапамагае заставацца сумленным. [5]
Калі вам патрэбна фактычная надзейнасць, дадайце абгрунтаванне + этапы праверкі + ацэнку ўстрымання. [2]
Ацэнка жыццёвага цыклу — гэта дарослы падыход... нават калі ён менш захапляльны, чым скрыншот табліцы лідэраў. [1]

Часта задаваныя пытанні

Дакладнасць штучнага інтэлекту ў практычным разгортванні

Штучны інтэлект можа быць надзвычай дакладным, калі задача вузкая, добра акрэсленая і звязаная з выразнымі базавымі дадзенымі, якія вы можаце ацаніць. У вытворчых умовах «дакладнасць» залежыць ад таго, ці адлюстроўваюць вашы ацэначныя дадзеныя шумныя ўводы карыстальнікаў і ўмовы, з якімі ваша сістэма сутыкнецца ў палявых умовах. Па меры таго, як задачы становяцца больш адкрытымі (напрыклад, чат-боты), памылкі і галюцынацыі ўпэўненасці з'яўляюцца часцей, калі вы не дадасце зазямленне, праверку і маніторынг.

Чаму «дакладнасць» — гэта не адзін паказчык, якому можна давяраць

Людзі выкарыстоўваюць слова «дакладнасць» у розных значэннех: карэктнасць, прэцызійнасць у параўнанні з поўнасцю, каліброўка, надзейнасць і бездакорнасць. Мадэль можа выдатна выглядаць на чыстым тэставым наборы, а потым спатыкацца пры змене фармулёўкі, зрухе дадзеных або змене ставак. Ацэнка, арыентаваная на давер, выкарыстоўвае некалькі паказчыкаў і сцэнарыяў, а не разглядае адзін лік як універсальны вердыкт.

Найлепшы спосаб вымераць дакладнасць штучнага інтэлекту для канкрэтнай задачы

Пачніце з вызначэння задачы так, каб «правільнае» і «няправільнае» можна было праверыць, а не было расплывістым. Выкарыстоўвайце прадстаўнічыя, зашумленыя тэставыя дадзеныя, якія адлюстроўваюць рэальных карыстальнікаў і памежныя выпадкі. Выбірайце метрыкі, якія адпавядаюць наступствам, асабліва для незбалансаваных або высокарызыкоўных рашэнняў. Затым дадайце стрэс-тэсты па-за размеркаваннем і працягвайце пераацэньваць з цягам часу па меры развіцця вашага асяроддзя.

Як дакладнасць і дакладнасць формы на практыцы

Дакладнасць і поўнае заўважанне адлюстроўваюць розныя выдаткі на адмову: дакладнасць падкрэслівае пазбяганне ілжывых трывог, а поўнае заўважанне — выяўленне ўсяго неабходнага. Калі вы фільтруеце спам, некалькі промахаў могуць быць прымальнымі, але ілжывыя спрацоўванні могуць расчараваць карыстальнікаў. У іншых выпадках прапусканне рэдкіх, але крытычных выпадкаў мае большае значэнне, чым дадатковыя сцяжкі. Правільны баланс залежыць ад таго, якія «няправільныя» выдаткі ўзнікаюць у вашым працоўным працэсе.

Што такое каліброўка і чаму яна важная для дакладнасці

Каліброўка правярае, ці адпавядае ўпэўненасць мадэлі рэальнасці — калі там напісана «90% упэўненасць», ці правільна гэта прыкладна ў 90% выпадкаў? Гэта мае значэнне, калі вы ўстанаўліваеце парогі, такія як аўтаматычнае зацвярджэнне, вышэй за 0,9. Дзве мадэлі могуць мець падобную дакладнасць, але лепш адкалібраваная мадэль больш бяспечная, бо яна памяншае колькасць празмерна ўпэўненых няправільных адказаў і падтрымлівае больш разумную паводзіны ўстрымання.

Дакладнасць генератыўнага штучнага інтэлекту і прычыны ўзнікнення галюцынацый

Генератыўны штучны інтэлект можа ствараць плаўны, праўдападобны тэкст, нават калі ён не заснаваны на фактах. Дакладнасць вызначыць цяжэй, бо многія падказкі дазваляюць некалькі прымальных адказаў, а мадэлі можна аптымізаваць для «карыснасці», а не для строгай карэктнасці. Галюцынацыі становяцца асабліва рызыкоўнымі, калі вынікі паступаюць з высокай упэўненасцю. У выпадках выкарыстання фактаў, абапіраючыся на надзейныя дакументы і этапы праверкі дапамагаюць паменшыць колькасць фальшывага кантэнту.

Тэставанне ўваходных дадзеных на зрушэнне размеркавання і выхады з размеркавання

Тэсты ўнутры размеркаваных сістэм могуць пераацэньваць прадукцыйнасць, калі свет змяняецца. Тэстуйце з незвычайнымі фразамі, памылкамі друку, неадназначнымі ўваходнымі дадзенымі, новымі перыядамі часу і новымі катэгорыямі, каб убачыць, дзе сістэма руйнуецца. Такія тэсты, як WILDS, пабудаваны вакол гэтай ідэі: прадукцыйнасць можа рэзка знізіцца, калі дадзеныя змяняюцца. Разглядайце стрэс-тэставанне як асноўную частку ацэнкі, а не як прыемную рэч.

Павышэнне дакладнасці сістэмы штучнага інтэлекту з цягам часу

Палепшыце дадзеныя і тэсты, пашыраючы памежныя выпадкі, збалансаваўшы рэдкія, але крытычна важныя сцэнарыі і падтрымліваючы «залаты набор», які адлюстроўвае рэальны боль карыстальніка. Для фактычных задач дадайце абгрунтаванне і праверку, а не спадзявайцеся, што мадэль павядзе сябе належным чынам. Выконвайце ацэнку кожнага значнага змянення, сачыце за рэгрэсіямі і кантралюйце дрэйф у прадукцыйнасці. Таксама ацэньвайце ўстрыманне, каб фраза «Я не ведаю» не ператварылася ў упэўненыя здагадкі.

Спасылкі

[1] NIST AI RMF 1.0 (NIST AI 100-1): Практычная структура для выяўлення, ацэнкі і кіравання рызыкамі штучнага інтэлекту на працягу ўсяго жыццёвага цыклу. чытаць далей
[2] NIST Generative AI Profile (NIST AI 600-1): Дадатковы профіль да AI RMF, арыентаваны на меркаванні рызык, спецыфічных для генератыўных сістэм штучнага інтэлекту. чытаць далей
[3] Guo et al. (2017) - Каліброўка сучасных нейронных сетак: фундаментальны дакумент, які паказвае, як сучасныя нейронныя сеткі могуць быць няправільна адкалібраваны і як каліброўка можа быць палепшана. чытаць далей
[4] Koh et al. (2021) - WILDS benchmark: набор бенчмаркаў, прызначаны для праверкі прадукцыйнасці мадэлі ва ўмовах рэальных змен размеркавання. чытаць далей
[5] Liang et al. (2023) - HELM (Holistic Evaluation of Language Models): структура для ацэнкі моўных мадэляў у розных сцэнарыях і метрыках для выяўлення рэальных кампрамісаў. чытаць далей

Знайдзіце найноўшы штучны інтэлект у афіцыйнай краме памочнікаў штучнага інтэлекту

Пра нас

Назад да блога

Краіна/рэгіён