Што такое набор дадзеных штучнага інтэлекту?

Што такое набор дадзеных штучнага інтэлекту?

Калі вы ствараеце, купляеце ці нават проста ацэньваеце сістэмы штучнага інтэлекту, вы сутыкнецеся з адным падманліва простым пытаннем: што такое набор дадзеных штучнага інтэлекту і чаму ён так важны? Карацей кажучы: гэта паліва, кулінарная кніга, а часам і компас для вашай мадэлі. 

Артыкулы, якія вам могуць спадабацца пасля гэтага:

🔗 Як штучны інтэлект прадказвае тэндэнцыі
Даследуе, як штучны інтэлект аналізуе заканамернасці для прагназавання будучых падзей і паводзін.

🔗 Як вымераць прадукцыйнасць штучнага інтэлекту
Паказчыкі і метады ацэнкі дакладнасці, эфектыўнасці і надзейнасці мадэлі.

🔗 Як размаўляць са штучным інтэлектам
Кіраўніцтва па стварэнні лепшых узаемадзеянняў для паляпшэння рэакцый, згенераваных штучным інтэлектам.

🔗 Што падказвае штучны інтэлект
Агляд таго, як падказкі ўплываюць на вынікі штучнага інтэлекту і агульную якасць камунікацыі.


Што такое набор дадзеных штучнага інтэлекту? Кароткае вызначэнне 🧩

Што такое набор дадзеных штучнага інтэлекту? Гэта набор прыкладаў, з якіх вучыцца ваша мадэль або на якіх яна ацэньваецца. Кожны прыклад мае:

  • Уваходныя дадзеныя — функцыі, якія бачыць мадэль, такія як фрагменты тэксту, выявы, аўдыё, таблічныя радкі, паказанні датчыкаў, графікі.

  • Мэты — гэта пазнакі або вынікі, якія павінна прадказваць мадэль, такія як катэгорыі, лічбы, прамежкі тэксту, дзеянні або часам зусім нічога.

  • Метададзеныя — кантэкст, напрыклад, крыніца, метад збору, часовыя меткі, ліцэнзіі, інфармацыя аб згодзе і заўвагі па якасці.

Уявіце сабе гэта як старанна спакаваны ланч-бокс для вашай мадэлі: інгрэдыенты, этыкеткі, інфармацыя аб харчовай каштоўнасці і, так, нататка з надпісам «не ешце гэтую частку». 🍱

Для задач пад наглядам вы ўбачыце ўваходныя дадзеныя, спараныя з відавочнымі пазнакамі. Для задач без нагляду вы ўбачыце ўваходныя дадзеныя без пазнак. Для навучання з падмацаваннем дадзеныя часта выглядаюць як эпізоды або траекторыі са станамі, дзеяннямі, узнагародамі. Для шматмадальнай працы прыклады могуць спалучаць тэкст + выяву + аўдыё ў адным запісе. Гучыць мудрагеліста; у асноўным гэта сантэхніка.

Карысныя ўводныя рэкамендацыі і практыкі: табліц дадзеных для набораў дадзеных дапамагае камандам растлумачыць, што знаходзіцца ўнутры і як гэта трэба выкарыстоўваць [1], а карты мадэляў дапаўняюць дакументацыю дадзеных на баку мадэлі [2].

 

Набор дадзеных штучнага інтэлекту

Што робіць набор дадзеных штучнага інтэлекту добрым ✅

Будзем шчырымі, шмат мадэляў паспяховыя, таму што набор дадзеных не быў жахлівым. «Добры» набор дадзеных — гэта:

  • Тыповыя для рэальных выпадкаў выкарыстання, а не толькі лабараторных умоў.

  • Дакладна пазначаныя , з выразнымі рэкамендацыямі і перыядычным разглядам. Паказчыкі ўзгаднення (напрыклад, паказчыкі ў стылі каппы) дапамагаюць праверыць наяўнасць разумнага сэнсу і ўзгодненасць.

  • поўны і збалансаваны , каб пазбегнуць ціхага збою на доўгіх хвастах. Дысбаланс — гэта нармальна; халатнасць — не.

  • Выразнае паходжанне , з дакументальна пацверджанай згодай, ліцэнзіяй і дазволамі. Сумная папяровая праца перашкаджае захапляльным судовым працэсам.

  • Добра задакументавана з выкарыстаннем картак дадзеных або табліц дадзеных, у якіх пазначана меркаванае выкарыстанне, абмежаванні і вядомыя рэжымы адмоваў [1]

  • Рэгулюецца версіямі, журналамі змяненняў і зацвярджэннямі. Калі вы не можаце прайграць набор даных, вы не можаце прайграць мадэль. У рэкамендацыях NIST па кіраванні рызыкамі штучнага інтэлекту якасць даных і дакументацыя разглядаюцца як праблемы першай катэгорыі [3].


Тыпы набораў дадзеных штучнага інтэлекту ў залежнасці ад таго, што вы робіце 🧰

Па задачы

  • Класіфікацыя — напрыклад, спам супраць не спаму, катэгорыі малюнкаў.

  • Рэгрэсія - прагназаванне бесперапыннага значэння, напрыклад, цаны або тэмпературы.

  • Паслядоўнасць маркіроўкі - названыя сутнасці, часціны мовы.

  • Генерацыя - рэзюмэ, пераклад, подпісы да малюнкаў.

  • Рэкамендацыя - карыстальнік, элемент, узаемадзеянне, кантэкст.

  • Выяўленне анамалій — рэдкія падзеі ў часовых шэрагах або журналах.

  • Навучанне з падмацаваннем - стан, дзеянне, узнагарода, паслядоўнасці наступнага стану.

  • Пошук - дакументы, запыты, меркаванні аб рэлевантнасці.

Па спосабе

  • Таблічная форма — слупкі накшталт узросту, даходу, адтоку кліентаў. Недаацэньваецца, але надзвычай эфектыўна.

  • Тэкст - дакументы, чаты, код, паведамленні на форуме, апісанні прадуктаў.

  • Выявы — фотаздымкі, медыцынскія сканы, спадарожнікавыя пліткі; з маскамі або без іх, скрынкі, ключавыя кропкі.

  • Аўдыё - формы хвалі, транскрыпцыі, тэгі дынамікаў.

  • Відэа - кадры, часавыя анатацыі, пазнакі дзеянняў.

  • Графы - вузлы, рэбры, атрыбуты.

  • Часовыя шэрагі - датчыкі, фінансы, тэлеметрыя.

Пад наглядам

  • Маркіраваныя (залатыя, сярэбраныя, аўтаматычна маркіраваныя), слаба маркіраваныя , немаркіраваныя , сінтэтычныя . Сумесь для торта, купленая ў краме, можа быць нядрэннай — калі вы прачытаеце інструкцыю на ўпакоўцы.


Унутры скрынкі: структура, падзелы і метададзеныя 📦

Надзейны набор дадзеных звычайна ўключае:

  • Схема - тыпізаваныя палі, адзінкі вымярэння, дазволеныя значэнні, апрацоўка нуляў.

  • Падзяленні - навучанне, праверка, тэст. Захоўвайце тэставыя дадзеныя ў герметычным выглядзе - ставіцеся да іх як да апошняга кавалачка шакаладу.

  • План выбаркі — як вы вылучылі прыклады з папуляцыі; пазбягайце зручных выбарак з аднаго рэгіёна або прылады.

  • Дапаўненні — перавароты, кадраванне, шум, перафразы, маскі. Добрыя, калі сумленныя; шкодныя, калі яны выдумляюць шаблоны, якія ніколі не сустракаюцца ў дзікай прыродзе.

  • Версіяванне — набор даных v0.1, v0.2… з журналамі змяненняў, якія апісваюць адрозненні.

  • Ліцэнзіі і згода — правы выкарыстання, распаўсюджванне і выдаленне. Нацыянальныя рэгулятары абароны дадзеных (напрыклад, ICO Вялікабрытаніі) прадастаўляюць практычныя кантрольныя спісы для законнай апрацоўкі дадзеных [4].


Жыццёвы цыкл набору дадзеных, крок за крокам 🔁

  1. Вызначце рашэнне — што вырашыць мадэль і што адбудзецца, калі яно будзе няправільным.

  2. Асаблівасці і пазнакі аб'ёму - вымерныя, назіральныя, этычныя для збору.

  3. Зыходныя дадзеныя — інструменты, журналы, апытанні, публічныя карпусы, партнёры.

  4. Згода і юрыдычныя пытанні — паведамленні аб прыватнасці, адмовы ад рассылкі, мінімізацыя дадзеных. Глядзіце рэкамендацыі рэгулятара, каб даведацца «чаму» і «як» [4].

  5. Збірайце і захоўвайце — бяспечнае захоўванне, доступ на аснове роляў, апрацоўка персанальна даных.

  6. Пазнака — унутраныя анататары, краўдсорсінг, эксперты; кіраванне якасцю з дапамогай залатых задач, аўдытаў і паказчыкаў пагадненняў.

  7. Ачысціць і нармалізаваць — выдаляць дублікаты, апрацоўваць адсутныя элементы, стандартызаваць адзінкі вымярэння, выпраўляць кадаванне. Сумная, гераічная праца.

  8. Падзяліце і праверыце — прадухіліце ўцечку; стратыфікуйце, дзе гэта неабходна; аддавайце перавагу падзелам з улікам часу для часавых дадзеных; і выкарыстоўвайце перакрыжаваную праверку для надзейных ацэнак [5].

  9. Дакумент - спецыфікацыя або картка дадзеных; меркаванае выкарыстанне, заўвагі, абмежаванні [1].

  10. Маніторынг і абнаўленне — выяўленне зруху, рытм абнаўлення, планы закрыцця. Мадэль кіравання штучным інтэлектам NIST адлюстроўвае гэты пастаянны цыкл кіравання [3].

Хуткая парада, якая адлюстроўвае рэальныя факты: каманды часта «перамагаюць у дэманстрацыі», але церпяць недапрацоўкі ў прадукцыйнасці, бо іх набор даных ціха змяняецца — новыя лінейкі прадуктаў, перайменаванае поле або змененая палітыка. Просты журнал змяненняў + перыядычная паўторная анатацыя пазбягаюць большай часткі гэтага болю.


Якасць дадзеных і ацэнка - не так сумна, як здаецца 🧪

Якасць мае шматграннасць:

  • Дакладнасць — ці правільныя этыкеткі? Выкарыстоўвайце метрыкі ўзгаднення і перыядычнае ацэньванне.

  • Паўната — ахапіце тыя вобласці і заняткі, якія вам сапраўды патрэбныя.

  • Паслядоўнасць — пазбягайце супярэчлівых пазнак для падобных уводных дадзеных.

  • Своечасовасць — састарэлыя дадзеныя закасцянеюць здагадкі.

  • Справядлівасць і прадузятасць — ахоп розных дэмаграфічных груп, моў, прылад, асяроддзяў; пачніце з апісальнага аўдыту, а затым стрэс-тэстаў. Практыка, арыентаваная на дакументацыю (інфармацыйныя табліцы, мадэльныя карты), робіць гэтыя праверкі бачнымі [1], а структуры кіравання падкрэсліваюць іх як меры кантролю рызык [3].

Для ацэнкі мадэлі выкарыстоўвайце адпаведныя падзелы і адсочвайце як сярэднія паказчыкі, так і паказчыкі найгоршай групы. За бліскучым сярэднім можа схавацца недахоп. Асновы перакрыжаванай праверкі добра апісаны ў стандартнай дакументацыі па інструментах машыннага навучання [5].


Этыка, прыватнасць і ліцэнзаванне — агароджы 🛡️

Этычныя дадзеныя — гэта не вібрацыя, гэта працэс:

  • Згода і абмежаванне мэты — выразна пазначце спосабы выкарыстання і прававыя падставы [4].

  • Апрацоўка персанальна даных — мінімізацыя, псеўданімізацыя або ананімізацыя па меры неабходнасці; пры высокіх рызыках варта выкарыстоўваць тэхналогіі павышэння прыватнасці.

  • Аўтарства і ліцэнзіі — паважайце абмежаванні на распаўсюджванне на тых жа умовах і камерцыйнае выкарыстанне.

  • Прадузятасць і шкода - аўдыт на наяўнасць ілжывых карэляцый («дзённае святло = бяспечнае» будзе вельмі блытаць уначы).

  • Выпраўленне памылак — ведайце, як выдаляць дадзеныя па запыце і як адкаціць мадэлі, навучаныя на іх (задакументуйце гэта ў сваім апісанні дадзеных) [1].


Наколькі вялікім лічыцца дастаткова вялікім? Памер і суадносіны сігнал/шум 📏

Эмпірычнае правіла: больш прыкладаў звычайна дапамагае, калі яны актуальныя і не з'яўляюцца амаль паўтаральнымі. Але часам лепш мець меншую колькасць больш чыстых і лепш пазначаных узораў, чым горы бязладных.

Сачыце за:

  • Крывыя навучання — пабудуйце графік залежнасці прадукцыйнасці ад памеру выбаркі, каб убачыць, ці абмежаваныя вы дадзенымі, ці мадэллю.

  • Пакрыццё з доўгім хвастом — рэдкія, але крытычна важныя класы часта патрабуюць мэтанакіраванага збору, а не проста большага аб'ёму.

  • Пазначце шум — вымерайце, а потым паменшыце; невялікая колькасць — гэта цярпіма, прыліўная хваля — не.

  • Зрух размеркавання — навучальныя дадзеныя з аднаго рэгіёна або канала могуць не распаўсюджвацца на іншы; праверце на тэставых дадзеных, падобных на мішэні [5].

Калі сумняваецеся, праводзьце невялікія пілотныя праекты і пашырайце іх. Гэта як прыправы — дадайце, паспрабуйце, адкарэктуйце, паўтарыце.


Дзе знайсці і кіраваць наборамі даных 🗂️

Папулярныя рэсурсы і інструменты (зараз не трэба запамінаць URL-адрасы):

  • Наборы дадзеных абдымаючых твараў - праграмная загрузка, апрацоўка, сумеснае выкарыстанне.

  • Пошук па наборах дадзеных Google — метапошук па ўсім інтэрнэце.

  • Рэпазітар UCI ML — адборныя класічныя матэрыялы для базавых тэм і навучання.

  • OpenML - задачы + наборы дадзеных + запускі з паходжаннем.

  • Адкрытыя даныя AWS / Публічныя наборы даных Google Cloud — размешчаныя маштабныя карпусы.

Парада прафесіянала: не проста спампоўвайце. Прачытайце ліцэнзію і спецыфікацыю , а затым задакументуйце сваю ўласную копію з нумарамі версій і паходжаннем [1].


Маркіроўка і анатацыя — дзе праўда абмяркоўваецца ✍️

Анатацыя — гэта тое, дзе ваша тэарэтычнае кіраўніцтва па этыкетках змагаецца з рэальнасцю:

  • Распрацоўка задачы — напішыце зразумелыя інструкцыі з прыкладамі і контрпрыкладамі.

  • Навучанне каментатараў - пачатковыя адказы з залатымі рысамі, правядзенне калібровачных раўндаў.

  • Кантроль якасці — выкарыстанне метрык пагаднення, механізмаў кансенсусу і перыядычных аўдытаў.

  • Інструменты — выбірайце інструменты, якія забяспечваюць праверку схемы і чэргі праверкі; нават электронныя табліцы могуць працаваць з правіламі і праверкамі.

  • Зваротная сувязь — запісвайце нататкі каментатараў і мадэлюйце памылкі для ўдасканалення кіраўніцтва.

Калі гэта падобна на рэдагаванне слоўніка з трыма сябрамі, якія не згодныя наконт коскі... гэта нармальна. 🙃


Дакументаванне дадзеных - ператварэнне няяўных ведаў у відавочныя 📒

Лёгкі ліст дадзеных або картка дадзеных павінны ўключаць:

  • Хто яго збіраў, як і чаму.

  • Меркаванае выкарыстанне і выкарыстанне па-за сферай прымянення.

  • Вядомыя прабелы, прадузятасці і рэжымы адмоваў.

  • Пратакол маркіроўкі, этапы кантролю якасці і статыстыка пагадненняў.

  • Ліцэнзія, згода, кантактная інфармацыя па пытаннях, працэс выдалення.

Шаблоны і прыклады: шырока выкарыстоўваюцца табліцы дадзеных для набораў дадзеных і мадэльныя карты

Пішыце гэта падчас зборкі, а не пасля. Памяць — гэта нестабільны носьбіт інфармацыі.


Параўнальная табліца - месцы для пошуку або размяшчэння набораў дадзеных штучнага інтэлекту 📊

Так, гэта крыху суб'ектыўна. І фармулёўка наўмысна крыху няроўная. Усё ў парадку.

Інструмент / Рэпазітар Аўдыторыя Кошт Чаму гэта працуе на практыцы
Наборы дадзеных аб абдымках Даследчыкі, інжынеры Бясплатны ўзровень Хуткая загрузка, струменевая перадача, сцэнарыі супольнасці; выдатная дакументацыя; наборы дадзеных з падтрыманнем версій
Пошук па наборах дадзеных Google Усе Бясплатна Шырокая паверхня; выдатна падыходзіць для выяўлення; часам непаслядоўныя метададзеныя
Рэпазітар UCI ML Студэнты, выкладчыкі Бясплатна Падабраная класіка; невялікі, але акуратны; добра падыходзіць для базавых заданняў і навучання
OpenML Даследчыкі рэпрадукцыі Бясплатна Задачы + наборы дадзеных + сумесныя запускі; добрыя сляды паходжання
Рэестр адкрытых дадзеных AWS Інжынеры дадзеных У асноўным бясплатна Хостынг у петабайтным маштабе; доступ да воблачных рэсурсаў; выдаткі на назіранне за выхаднымі дадзенымі
Наборы дадзеных Kaggle Практыкуючыя лекары Бясплатна Лёгкі абмен, сцэнарыі, конкурсы; сігналы супольнасці дапамагаюць фільтраваць шум
Публічныя наборы дадзеных Google Cloud Аналітыкі, каманды Бясплатна + воблака Размешчана побач з вылічальнымі сістэмамі; інтэграцыя з BigQuery; асцярожнасць з аплатай
Акадэмічныя парталы, лабараторыі Нішавыя эксперты Змяняецца Вузкаспецыялізаваныя; часам недастаткова дакументаваныя — усё роўна вартыя пошуку

(Калі клетка выглядае непаслухмянай, гэта зроблена наўмысна.)


Збіраем свой першы — практычны стартавы набор 🛠️

Вы хочаце перайсці ад «што такое набор дадзеных штучнага інтэлекту» да «я стварыў адзін, ён працуе». Паспрабуйце гэты мінімальны шлях:

  1. Запішыце рашэнне і метрыку — напрыклад, паменшыце колькасць няправільных маршрутаў уваходнай падтрымкі, прагназуючы патрэбную каманду. Метрыка: макра-F1.

  2. Прывядзіце 5 станоўчых і 5 адмоўных прыкладаў — узоры рэальных білетаў; не фальсіфікуйце.

  3. Падрыхтуйце кіраўніцтва па этыкетках — адна старонка; выразныя правілы ўключэння/выключэння.

  4. Збярыце невялікую рэальную выбарку — некалькі сотняў заявак па розных катэгорыях; выдаліце ​​непатрэбную ідэнтыфікацыйную інфармацыю.

  5. Падзел з праверкай на ўцечку - захоўвайце ўсе паведамленні ад аднаго кліента ў адным падзеле; выкарыстоўвайце перакрыжаваную праверку для ацэнкі дысперсіі [5].

  6. Рабіць анатацыі з дапамогай кантролю якасці — два анататары на падмностве; вырашаць рознагалоссі; абнаўляць кіраўніцтва.

  7. навучыце простую базавую лінію — лагістыку (напрыклад, лінейныя мадэлі або кампактныя трансфарматары). Сэнс у тым, каб праверыць дадзеныя, а не выйграць медалі.

  8. Праглядзіце памылкі — дзе і чаму адбываецца збой; абнавіце набор дадзеных, а не толькі мадэль.

  9. Дакумент - малюсенькі ліст дадзеных: крыніца, спасылка на кіраўніцтва па этыкетках, падзелы, вядомыя абмежаванні, ліцэнзія [1].

  10. Абнаўленне плана — новыя катэгорыі, новы слэнг, новыя дамены; заплануйце невялікія, частыя абнаўленні [3].

З гэтага цыклу вы даведаецеся больш, чым з тысячы гарачых дубляў. Таксама рабіце рэзервовыя копіі. Калі ласка.


Тыповыя памылкі, якія падкрадваюцца ў камандах 🪤

  • Уцечка дадзеных — адказ праслізгвае ў функцыях (напрыклад, выкарыстанне палёў пасля вырашэння праблемы для прагназавання вынікаў). Падобна на падман, бо так яно і ёсць.

  • Невялікая разнастайнасць — адна геаграфічная тэрыторыя або прылада маскіруюцца пад глабальную. Тэсты пакажуць нечаканы паварот сюжэта.

  • Зрушэнне метак — крытэрыі змяняюцца з цягам часу, але кіраўніцтва па метаках не змяняецца. Дакументуйце і стварайце версіі вашай анталогіі.

  • Недастаткова вызначаныя мэты — калі вы не можаце вызначыць дрэнны прагноз, вашы дадзеныя таксама не змогуць.

  • Брудныя ліцэнзіі — выціскаць зараз, а потым прасіць прабачэння — гэта не стратэгія.

  • Залішняе дапаўненне — сінтэтычныя дадзеныя, якія навучаюць нерэальным артэфактам, напрыклад, навучанню кухара на пластыкавых садавіне.


Кароткія часта задаваныя пытанні пра саму фразу ❓

  • Ці з'яўляецца «Што такое набор дадзеных штучнага інтэлекту?» проста пытаннем вызначэння? У асноўным, але гэта таксама сігнал таго, што вам неабыякавыя сумныя моманты, якія робяць мадэлі надзейнымі.

  • Ці заўсёды патрэбныя пазнакі? Не. У некантраляваных, самакантраляваных і RL-канфігурацыях відавочныя пазнакі часта прапускаюцца, але куратарства ўсё роўна мае значэнне.

  • Ці магу я выкарыстоўваць агульнадаступныя дадзеныя для чаго-небудзь? Не. Паважайце ліцэнзіі, умовы платформы і абавязацельствы па прыватнасці [4].

  • Большы ці лепшы? І тое, і другое, у ідэале. Калі вам трэба выбіраць, спачатку выберыце лепшы.


Заключныя заўвагі - Што можна зрабіць скрыншот 📌

Калі хтосьці спытае вас, што такое набор даных штучнага інтэлекту , адкажыце: гэта курыраваны, дакументаваны набор прыкладаў, якія навучаюць і тэстуюць мадэль, ахінуты кіраваннем, каб людзі маглі давяраць вынікам. Найлепшыя наборы даных прадстаўнічыя, добра пазначаныя, юрыдычна чыстыя і пастаянна падтрымліваюцца. Астатняе — гэта дэталі — важныя дэталі — пра структуру, падзелы і ўсе тыя маленькія агароджы, якія не дазваляюць мадэлям блукаць па патоку. Часам працэс нагадвае садоўніцтва з электроннымі табліцамі; часам — выпас пікселяў. У любым выпадку, інвестуйце ў даныя, і вашы мадэлі будуць паводзіць сябе менш дзіўна. 🌱🤖


Спасылкі

[1] Інфармацыйныя табліцы для набораў дадзеных - Gebru і інш., arXiv. Спасылка
[2] Мадэльныя карты для мадэльнай справаздачнасці - Mitchell і інш., arXiv. Спасылка
[3] Структура кіравання рызыкамі ў галіне штучнага інтэлекту NIST (AI RMF 1.0) . Спасылка
[4] Кіраўніцтва і рэсурсы па GDPR у Вялікабрытаніі - Офіс камісара па інфармацыі (ICO). Спасылка
[5] Перакрыжаваная праверка: ацэнка прадукцыйнасці ацэншчыка - Кіраўніцтва карыстальніка scikit-learn. Спасылка


Знайдзіце найноўшы штучны інтэлект у афіцыйнай краме памочнікаў штучнага інтэлекту

Пра нас

Назад да блога