Калі вы ствараеце, купляеце ці нават проста ацэньваеце сістэмы штучнага інтэлекту, вы сутыкнецеся з адным падманліва простым пытаннем: што такое набор дадзеных штучнага інтэлекту і чаму ён так важны? Карацей кажучы: гэта паліва, кулінарная кніга, а часам і компас для вашай мадэлі.
Артыкулы, якія вам могуць спадабацца пасля гэтага:
🔗 Як штучны інтэлект прадказвае тэндэнцыі
Даследуе, як штучны інтэлект аналізуе заканамернасці для прагназавання будучых падзей і паводзін.
🔗 Як вымераць прадукцыйнасць штучнага інтэлекту
Паказчыкі і метады ацэнкі дакладнасці, эфектыўнасці і надзейнасці мадэлі.
🔗 Як размаўляць са штучным інтэлектам
Кіраўніцтва па стварэнні лепшых узаемадзеянняў для паляпшэння рэакцый, згенераваных штучным інтэлектам.
🔗 Што падказвае штучны інтэлект
Агляд таго, як падказкі ўплываюць на вынікі штучнага інтэлекту і агульную якасць камунікацыі.
Што такое набор дадзеных штучнага інтэлекту? Кароткае вызначэнне 🧩
Што такое набор дадзеных штучнага інтэлекту? Гэта набор прыкладаў, з якіх вучыцца ваша мадэль або на якіх яна ацэньваецца. Кожны прыклад мае:
-
Уваходныя дадзеныя — функцыі, якія бачыць мадэль, такія як фрагменты тэксту, выявы, аўдыё, таблічныя радкі, паказанні датчыкаў, графікі.
-
Мэты — гэта пазнакі або вынікі, якія павінна прадказваць мадэль, такія як катэгорыі, лічбы, прамежкі тэксту, дзеянні або часам зусім нічога.
-
Метададзеныя — кантэкст, напрыклад, крыніца, метад збору, часовыя меткі, ліцэнзіі, інфармацыя аб згодзе і заўвагі па якасці.
Уявіце сабе гэта як старанна спакаваны ланч-бокс для вашай мадэлі: інгрэдыенты, этыкеткі, інфармацыя аб харчовай каштоўнасці і, так, нататка з надпісам «не ешце гэтую частку». 🍱
Для задач пад наглядам вы ўбачыце ўваходныя дадзеныя, спараныя з відавочнымі пазнакамі. Для задач без нагляду вы ўбачыце ўваходныя дадзеныя без пазнак. Для навучання з падмацаваннем дадзеныя часта выглядаюць як эпізоды або траекторыі са станамі, дзеяннямі, узнагародамі. Для шматмадальнай працы прыклады могуць спалучаць тэкст + выяву + аўдыё ў адным запісе. Гучыць мудрагеліста; у асноўным гэта сантэхніка.
Карысныя ўводныя рэкамендацыі і практыкі: табліц дадзеных для набораў дадзеных дапамагае камандам растлумачыць, што знаходзіцца ўнутры і як гэта трэба выкарыстоўваць [1], а карты мадэляў дапаўняюць дакументацыю дадзеных на баку мадэлі [2].

Што робіць набор дадзеных штучнага інтэлекту добрым ✅
Будзем шчырымі, шмат мадэляў паспяховыя, таму што набор дадзеных не быў жахлівым. «Добры» набор дадзеных — гэта:
-
Тыповыя для рэальных выпадкаў выкарыстання, а не толькі лабараторных умоў.
-
Дакладна пазначаныя , з выразнымі рэкамендацыямі і перыядычным разглядам. Паказчыкі ўзгаднення (напрыклад, паказчыкі ў стылі каппы) дапамагаюць праверыць наяўнасць разумнага сэнсу і ўзгодненасць.
-
поўны і збалансаваны , каб пазбегнуць ціхага збою на доўгіх хвастах. Дысбаланс — гэта нармальна; халатнасць — не.
-
Выразнае паходжанне , з дакументальна пацверджанай згодай, ліцэнзіяй і дазволамі. Сумная папяровая праца перашкаджае захапляльным судовым працэсам.
-
Добра задакументавана з выкарыстаннем картак дадзеных або табліц дадзеных, у якіх пазначана меркаванае выкарыстанне, абмежаванні і вядомыя рэжымы адмоваў [1]
-
Рэгулюецца версіямі, журналамі змяненняў і зацвярджэннямі. Калі вы не можаце прайграць набор даных, вы не можаце прайграць мадэль. У рэкамендацыях NIST па кіраванні рызыкамі штучнага інтэлекту якасць даных і дакументацыя разглядаюцца як праблемы першай катэгорыі [3].
Тыпы набораў дадзеных штучнага інтэлекту ў залежнасці ад таго, што вы робіце 🧰
Па задачы
-
Класіфікацыя — напрыклад, спам супраць не спаму, катэгорыі малюнкаў.
-
Рэгрэсія - прагназаванне бесперапыннага значэння, напрыклад, цаны або тэмпературы.
-
Паслядоўнасць маркіроўкі - названыя сутнасці, часціны мовы.
-
Генерацыя - рэзюмэ, пераклад, подпісы да малюнкаў.
-
Рэкамендацыя - карыстальнік, элемент, узаемадзеянне, кантэкст.
-
Выяўленне анамалій — рэдкія падзеі ў часовых шэрагах або журналах.
-
Навучанне з падмацаваннем - стан, дзеянне, узнагарода, паслядоўнасці наступнага стану.
-
Пошук - дакументы, запыты, меркаванні аб рэлевантнасці.
Па спосабе
-
Таблічная форма — слупкі накшталт узросту, даходу, адтоку кліентаў. Недаацэньваецца, але надзвычай эфектыўна.
-
Тэкст - дакументы, чаты, код, паведамленні на форуме, апісанні прадуктаў.
-
Выявы — фотаздымкі, медыцынскія сканы, спадарожнікавыя пліткі; з маскамі або без іх, скрынкі, ключавыя кропкі.
-
Аўдыё - формы хвалі, транскрыпцыі, тэгі дынамікаў.
-
Відэа - кадры, часавыя анатацыі, пазнакі дзеянняў.
-
Графы - вузлы, рэбры, атрыбуты.
-
Часовыя шэрагі - датчыкі, фінансы, тэлеметрыя.
Пад наглядам
-
Маркіраваныя (залатыя, сярэбраныя, аўтаматычна маркіраваныя), слаба маркіраваныя , немаркіраваныя , сінтэтычныя . Сумесь для торта, купленая ў краме, можа быць нядрэннай — калі вы прачытаеце інструкцыю на ўпакоўцы.
Унутры скрынкі: структура, падзелы і метададзеныя 📦
Надзейны набор дадзеных звычайна ўключае:
-
Схема - тыпізаваныя палі, адзінкі вымярэння, дазволеныя значэнні, апрацоўка нуляў.
-
Падзяленні - навучанне, праверка, тэст. Захоўвайце тэставыя дадзеныя ў герметычным выглядзе - ставіцеся да іх як да апошняга кавалачка шакаладу.
-
План выбаркі — як вы вылучылі прыклады з папуляцыі; пазбягайце зручных выбарак з аднаго рэгіёна або прылады.
-
Дапаўненні — перавароты, кадраванне, шум, перафразы, маскі. Добрыя, калі сумленныя; шкодныя, калі яны выдумляюць шаблоны, якія ніколі не сустракаюцца ў дзікай прыродзе.
-
Версіяванне — набор даных v0.1, v0.2… з журналамі змяненняў, якія апісваюць адрозненні.
-
Ліцэнзіі і згода — правы выкарыстання, распаўсюджванне і выдаленне. Нацыянальныя рэгулятары абароны дадзеных (напрыклад, ICO Вялікабрытаніі) прадастаўляюць практычныя кантрольныя спісы для законнай апрацоўкі дадзеных [4].
Жыццёвы цыкл набору дадзеных, крок за крокам 🔁
-
Вызначце рашэнне — што вырашыць мадэль і што адбудзецца, калі яно будзе няправільным.
-
Асаблівасці і пазнакі аб'ёму - вымерныя, назіральныя, этычныя для збору.
-
Зыходныя дадзеныя — інструменты, журналы, апытанні, публічныя карпусы, партнёры.
-
Згода і юрыдычныя пытанні — паведамленні аб прыватнасці, адмовы ад рассылкі, мінімізацыя дадзеных. Глядзіце рэкамендацыі рэгулятара, каб даведацца «чаму» і «як» [4].
-
Збірайце і захоўвайце — бяспечнае захоўванне, доступ на аснове роляў, апрацоўка персанальна даных.
-
Пазнака — унутраныя анататары, краўдсорсінг, эксперты; кіраванне якасцю з дапамогай залатых задач, аўдытаў і паказчыкаў пагадненняў.
-
Ачысціць і нармалізаваць — выдаляць дублікаты, апрацоўваць адсутныя элементы, стандартызаваць адзінкі вымярэння, выпраўляць кадаванне. Сумная, гераічная праца.
-
Падзяліце і праверыце — прадухіліце ўцечку; стратыфікуйце, дзе гэта неабходна; аддавайце перавагу падзелам з улікам часу для часавых дадзеных; і выкарыстоўвайце перакрыжаваную праверку для надзейных ацэнак [5].
-
Дакумент - спецыфікацыя або картка дадзеных; меркаванае выкарыстанне, заўвагі, абмежаванні [1].
-
Маніторынг і абнаўленне — выяўленне зруху, рытм абнаўлення, планы закрыцця. Мадэль кіравання штучным інтэлектам NIST адлюстроўвае гэты пастаянны цыкл кіравання [3].
Хуткая парада, якая адлюстроўвае рэальныя факты: каманды часта «перамагаюць у дэманстрацыі», але церпяць недапрацоўкі ў прадукцыйнасці, бо іх набор даных ціха змяняецца — новыя лінейкі прадуктаў, перайменаванае поле або змененая палітыка. Просты журнал змяненняў + перыядычная паўторная анатацыя пазбягаюць большай часткі гэтага болю.
Якасць дадзеных і ацэнка - не так сумна, як здаецца 🧪
Якасць мае шматграннасць:
-
Дакладнасць — ці правільныя этыкеткі? Выкарыстоўвайце метрыкі ўзгаднення і перыядычнае ацэньванне.
-
Паўната — ахапіце тыя вобласці і заняткі, якія вам сапраўды патрэбныя.
-
Паслядоўнасць — пазбягайце супярэчлівых пазнак для падобных уводных дадзеных.
-
Своечасовасць — састарэлыя дадзеныя закасцянеюць здагадкі.
-
Справядлівасць і прадузятасць — ахоп розных дэмаграфічных груп, моў, прылад, асяроддзяў; пачніце з апісальнага аўдыту, а затым стрэс-тэстаў. Практыка, арыентаваная на дакументацыю (інфармацыйныя табліцы, мадэльныя карты), робіць гэтыя праверкі бачнымі [1], а структуры кіравання падкрэсліваюць іх як меры кантролю рызык [3].
Для ацэнкі мадэлі выкарыстоўвайце адпаведныя падзелы і адсочвайце як сярэднія паказчыкі, так і паказчыкі найгоршай групы. За бліскучым сярэднім можа схавацца недахоп. Асновы перакрыжаванай праверкі добра апісаны ў стандартнай дакументацыі па інструментах машыннага навучання [5].
Этыка, прыватнасць і ліцэнзаванне — агароджы 🛡️
Этычныя дадзеныя — гэта не вібрацыя, гэта працэс:
-
Згода і абмежаванне мэты — выразна пазначце спосабы выкарыстання і прававыя падставы [4].
-
Апрацоўка персанальна даных — мінімізацыя, псеўданімізацыя або ананімізацыя па меры неабходнасці; пры высокіх рызыках варта выкарыстоўваць тэхналогіі павышэння прыватнасці.
-
Аўтарства і ліцэнзіі — паважайце абмежаванні на распаўсюджванне на тых жа умовах і камерцыйнае выкарыстанне.
-
Прадузятасць і шкода - аўдыт на наяўнасць ілжывых карэляцый («дзённае святло = бяспечнае» будзе вельмі блытаць уначы).
-
Выпраўленне памылак — ведайце, як выдаляць дадзеныя па запыце і як адкаціць мадэлі, навучаныя на іх (задакументуйце гэта ў сваім апісанні дадзеных) [1].
Наколькі вялікім лічыцца дастаткова вялікім? Памер і суадносіны сігнал/шум 📏
Эмпірычнае правіла: больш прыкладаў звычайна дапамагае, калі яны актуальныя і не з'яўляюцца амаль паўтаральнымі. Але часам лепш мець меншую колькасць больш чыстых і лепш пазначаных узораў, чым горы бязладных.
Сачыце за:
-
Крывыя навучання — пабудуйце графік залежнасці прадукцыйнасці ад памеру выбаркі, каб убачыць, ці абмежаваныя вы дадзенымі, ці мадэллю.
-
Пакрыццё з доўгім хвастом — рэдкія, але крытычна важныя класы часта патрабуюць мэтанакіраванага збору, а не проста большага аб'ёму.
-
Пазначце шум — вымерайце, а потым паменшыце; невялікая колькасць — гэта цярпіма, прыліўная хваля — не.
-
Зрух размеркавання — навучальныя дадзеныя з аднаго рэгіёна або канала могуць не распаўсюджвацца на іншы; праверце на тэставых дадзеных, падобных на мішэні [5].
Калі сумняваецеся, праводзьце невялікія пілотныя праекты і пашырайце іх. Гэта як прыправы — дадайце, паспрабуйце, адкарэктуйце, паўтарыце.
Дзе знайсці і кіраваць наборамі даных 🗂️
Папулярныя рэсурсы і інструменты (зараз не трэба запамінаць URL-адрасы):
-
Наборы дадзеных абдымаючых твараў - праграмная загрузка, апрацоўка, сумеснае выкарыстанне.
-
Пошук па наборах дадзеных Google — метапошук па ўсім інтэрнэце.
-
Рэпазітар UCI ML — адборныя класічныя матэрыялы для базавых тэм і навучання.
-
OpenML - задачы + наборы дадзеных + запускі з паходжаннем.
-
Адкрытыя даныя AWS / Публічныя наборы даных Google Cloud — размешчаныя маштабныя карпусы.
Парада прафесіянала: не проста спампоўвайце. Прачытайце ліцэнзію і спецыфікацыю , а затым задакументуйце сваю ўласную копію з нумарамі версій і паходжаннем [1].
Маркіроўка і анатацыя — дзе праўда абмяркоўваецца ✍️
Анатацыя — гэта тое, дзе ваша тэарэтычнае кіраўніцтва па этыкетках змагаецца з рэальнасцю:
-
Распрацоўка задачы — напішыце зразумелыя інструкцыі з прыкладамі і контрпрыкладамі.
-
Навучанне каментатараў - пачатковыя адказы з залатымі рысамі, правядзенне калібровачных раўндаў.
-
Кантроль якасці — выкарыстанне метрык пагаднення, механізмаў кансенсусу і перыядычных аўдытаў.
-
Інструменты — выбірайце інструменты, якія забяспечваюць праверку схемы і чэргі праверкі; нават электронныя табліцы могуць працаваць з правіламі і праверкамі.
-
Зваротная сувязь — запісвайце нататкі каментатараў і мадэлюйце памылкі для ўдасканалення кіраўніцтва.
Калі гэта падобна на рэдагаванне слоўніка з трыма сябрамі, якія не згодныя наконт коскі... гэта нармальна. 🙃
Дакументаванне дадзеных - ператварэнне няяўных ведаў у відавочныя 📒
Лёгкі ліст дадзеных або картка дадзеных павінны ўключаць:
-
Хто яго збіраў, як і чаму.
-
Меркаванае выкарыстанне і выкарыстанне па-за сферай прымянення.
-
Вядомыя прабелы, прадузятасці і рэжымы адмоваў.
-
Пратакол маркіроўкі, этапы кантролю якасці і статыстыка пагадненняў.
-
Ліцэнзія, згода, кантактная інфармацыя па пытаннях, працэс выдалення.
Шаблоны і прыклады: шырока выкарыстоўваюцца табліцы дадзеных для набораў дадзеных і мадэльныя карты
Пішыце гэта падчас зборкі, а не пасля. Памяць — гэта нестабільны носьбіт інфармацыі.
Параўнальная табліца - месцы для пошуку або размяшчэння набораў дадзеных штучнага інтэлекту 📊
Так, гэта крыху суб'ектыўна. І фармулёўка наўмысна крыху няроўная. Усё ў парадку.
| Інструмент / Рэпазітар | Аўдыторыя | Кошт | Чаму гэта працуе на практыцы |
|---|---|---|---|
| Наборы дадзеных аб абдымках | Даследчыкі, інжынеры | Бясплатны ўзровень | Хуткая загрузка, струменевая перадача, сцэнарыі супольнасці; выдатная дакументацыя; наборы дадзеных з падтрыманнем версій |
| Пошук па наборах дадзеных Google | Усе | Бясплатна | Шырокая паверхня; выдатна падыходзіць для выяўлення; часам непаслядоўныя метададзеныя |
| Рэпазітар UCI ML | Студэнты, выкладчыкі | Бясплатна | Падабраная класіка; невялікі, але акуратны; добра падыходзіць для базавых заданняў і навучання |
| OpenML | Даследчыкі рэпрадукцыі | Бясплатна | Задачы + наборы дадзеных + сумесныя запускі; добрыя сляды паходжання |
| Рэестр адкрытых дадзеных AWS | Інжынеры дадзеных | У асноўным бясплатна | Хостынг у петабайтным маштабе; доступ да воблачных рэсурсаў; выдаткі на назіранне за выхаднымі дадзенымі |
| Наборы дадзеных Kaggle | Практыкуючыя лекары | Бясплатна | Лёгкі абмен, сцэнарыі, конкурсы; сігналы супольнасці дапамагаюць фільтраваць шум |
| Публічныя наборы дадзеных Google Cloud | Аналітыкі, каманды | Бясплатна + воблака | Размешчана побач з вылічальнымі сістэмамі; інтэграцыя з BigQuery; асцярожнасць з аплатай |
| Акадэмічныя парталы, лабараторыі | Нішавыя эксперты | Змяняецца | Вузкаспецыялізаваныя; часам недастаткова дакументаваныя — усё роўна вартыя пошуку |
(Калі клетка выглядае непаслухмянай, гэта зроблена наўмысна.)
Збіраем свой першы — практычны стартавы набор 🛠️
Вы хочаце перайсці ад «што такое набор дадзеных штучнага інтэлекту» да «я стварыў адзін, ён працуе». Паспрабуйце гэты мінімальны шлях:
-
Запішыце рашэнне і метрыку — напрыклад, паменшыце колькасць няправільных маршрутаў уваходнай падтрымкі, прагназуючы патрэбную каманду. Метрыка: макра-F1.
-
Прывядзіце 5 станоўчых і 5 адмоўных прыкладаў — узоры рэальных білетаў; не фальсіфікуйце.
-
Падрыхтуйце кіраўніцтва па этыкетках — адна старонка; выразныя правілы ўключэння/выключэння.
-
Збярыце невялікую рэальную выбарку — некалькі сотняў заявак па розных катэгорыях; выдаліце непатрэбную ідэнтыфікацыйную інфармацыю.
-
Падзел з праверкай на ўцечку - захоўвайце ўсе паведамленні ад аднаго кліента ў адным падзеле; выкарыстоўвайце перакрыжаваную праверку для ацэнкі дысперсіі [5].
-
Рабіць анатацыі з дапамогай кантролю якасці — два анататары на падмностве; вырашаць рознагалоссі; абнаўляць кіраўніцтва.
-
навучыце простую базавую лінію — лагістыку (напрыклад, лінейныя мадэлі або кампактныя трансфарматары). Сэнс у тым, каб праверыць дадзеныя, а не выйграць медалі.
-
Праглядзіце памылкі — дзе і чаму адбываецца збой; абнавіце набор дадзеных, а не толькі мадэль.
-
Дакумент - малюсенькі ліст дадзеных: крыніца, спасылка на кіраўніцтва па этыкетках, падзелы, вядомыя абмежаванні, ліцэнзія [1].
-
Абнаўленне плана — новыя катэгорыі, новы слэнг, новыя дамены; заплануйце невялікія, частыя абнаўленні [3].
З гэтага цыклу вы даведаецеся больш, чым з тысячы гарачых дубляў. Таксама рабіце рэзервовыя копіі. Калі ласка.
Тыповыя памылкі, якія падкрадваюцца ў камандах 🪤
-
Уцечка дадзеных — адказ праслізгвае ў функцыях (напрыклад, выкарыстанне палёў пасля вырашэння праблемы для прагназавання вынікаў). Падобна на падман, бо так яно і ёсць.
-
Невялікая разнастайнасць — адна геаграфічная тэрыторыя або прылада маскіруюцца пад глабальную. Тэсты пакажуць нечаканы паварот сюжэта.
-
Зрушэнне метак — крытэрыі змяняюцца з цягам часу, але кіраўніцтва па метаках не змяняецца. Дакументуйце і стварайце версіі вашай анталогіі.
-
Недастаткова вызначаныя мэты — калі вы не можаце вызначыць дрэнны прагноз, вашы дадзеныя таксама не змогуць.
-
Брудныя ліцэнзіі — выціскаць зараз, а потым прасіць прабачэння — гэта не стратэгія.
-
Залішняе дапаўненне — сінтэтычныя дадзеныя, якія навучаюць нерэальным артэфактам, напрыклад, навучанню кухара на пластыкавых садавіне.
Кароткія часта задаваныя пытанні пра саму фразу ❓
-
Ці з'яўляецца «Што такое набор дадзеных штучнага інтэлекту?» проста пытаннем вызначэння? У асноўным, але гэта таксама сігнал таго, што вам неабыякавыя сумныя моманты, якія робяць мадэлі надзейнымі.
-
Ці заўсёды патрэбныя пазнакі? Не. У некантраляваных, самакантраляваных і RL-канфігурацыях відавочныя пазнакі часта прапускаюцца, але куратарства ўсё роўна мае значэнне.
-
Ці магу я выкарыстоўваць агульнадаступныя дадзеныя для чаго-небудзь? Не. Паважайце ліцэнзіі, умовы платформы і абавязацельствы па прыватнасці [4].
-
Большы ці лепшы? І тое, і другое, у ідэале. Калі вам трэба выбіраць, спачатку выберыце лепшы.
Заключныя заўвагі - Што можна зрабіць скрыншот 📌
Калі хтосьці спытае вас, што такое набор даных штучнага інтэлекту , адкажыце: гэта курыраваны, дакументаваны набор прыкладаў, якія навучаюць і тэстуюць мадэль, ахінуты кіраваннем, каб людзі маглі давяраць вынікам. Найлепшыя наборы даных прадстаўнічыя, добра пазначаныя, юрыдычна чыстыя і пастаянна падтрымліваюцца. Астатняе — гэта дэталі — важныя дэталі — пра структуру, падзелы і ўсе тыя маленькія агароджы, якія не дазваляюць мадэлям блукаць па патоку. Часам працэс нагадвае садоўніцтва з электроннымі табліцамі; часам — выпас пікселяў. У любым выпадку, інвестуйце ў даныя, і вашы мадэлі будуць паводзіць сябе менш дзіўна. 🌱🤖
Спасылкі
[1] Інфармацыйныя табліцы для набораў дадзеных - Gebru і інш., arXiv. Спасылка
[2] Мадэльныя карты для мадэльнай справаздачнасці - Mitchell і інш., arXiv. Спасылка
[3] Структура кіравання рызыкамі ў галіне штучнага інтэлекту NIST (AI RMF 1.0) . Спасылка
[4] Кіраўніцтва і рэсурсы па GDPR у Вялікабрытаніі - Офіс камісара па інфармацыі (ICO). Спасылка
[5] Перакрыжаваная праверка: ацэнка прадукцыйнасці ацэншчыка - Кіраўніцтва карыстальніка scikit-learn. Спасылка