Што такое маркіроўка дадзеных з дапамогай штучнага інтэлекту?

Што такое маркіроўка дадзеных з дапамогай штучнага інтэлекту?

Калі вы ствараеце або ацэньваеце сістэмы машыннага навучання, рана ці позна вы сутыкнецеся з адной і той жа перашкодай: маркіраванымі дадзенымі. Мадэлі не ведаюць чароўным чынам, што ёсць што. Людзі, палітыкі, а часам і праграмы павінны іх гэтаму вучыць. Дык што ж такое маркіроўка дадзеных з дапамогай штучнага інтэлекту? Карацей кажучы, гэта практыка дадання сэнсу неапрацаваным дадзеным, каб алгарытмы маглі вучыцца на іх... 😊

🔗 Што такое этыка штучнага інтэлекту
Агляд этычных прынцыпаў, якімі кіруюцца адказная распрацоўка і ўкараненне штучнага інтэлекту.

🔗 Што такое MCP у штучным інтэлекце
Тлумачыць пратакол кіравання мадэллю і яго ролю ў кіраванні паводзінамі штучнага інтэлекту.

🔗 Што такое перыферыйны штучны інтэлект
Апісвае, як штучны інтэлект апрацоўвае дадзеныя непасрэдна на прыладах на перыферыі.

🔗 Што такое агентычны штучны інтэлект
Прадстаўляе аўтаномных агентаў штучнага інтэлекту, здольных планаваць, разважаць і дзейнічаць самастойна.


Што такое маркіроўка дадзеных з дапамогай штучнага інтэлекту на самой справе? 🎯

Маркіроўка дадзеных з дапамогай штучнага інтэлекту — гэта працэс дадання зразумелых чалавеку тэгаў, прамежкаў, блокаў, катэгорый або рэйтынгаў да неапрацаваных уваходных дадзеных, такіх як тэкст, выявы, аўдыё, відэа або часовыя шэрагі, каб мадэлі маглі выяўляць заканамернасці і рабіць прагнозы. Уявіце сабе абмежавальныя рамкі вакол аўтамабіляў, тэгі аб'ектаў на людзях і месцах у тэксце або галасаванне за перавагі, які адказ чат-бота здаецца больш карысным. Без гэтых тэгаў класічнае навучанне з настаўнікам ніколі не зрушыцца з месца.

Вы таксама пачуеце пазнакі, якія называюцца «залатымі дадзенымі» або «глыбейшымі» дадзенымі : узгодненыя адказы пад зразумелымі інструкцыямі, якія выкарыстоўваюцца для навучання, праверкі і аўдыту паводзін мадэлі. Нават у эпоху базавых мадэляў і сінтэтычных дадзеных пазначаныя наборы ўсё яшчэ маюць значэнне для ацэнкі, тонкай налады, аб'яднання ў чырвоныя каманды бяспекі і выпадкаў з доўгім хвастом, г.зн. таго, як ваша мадэль паводзіць сябе ў дзіўных рэчах, якія насамрэч робяць вашы карыстальнікі. Няма бясплатнага абеду, толькі лепшыя кухонныя прылады.

 

Маркіроўка дадзеных з дапамогай штучнага інтэлекту

Што робіць маркіроўку дадзеных з дапамогай штучнага інтэлекту добрай ✅

Проста кажучы: добрая этыкетка сумная ў найлепшым сэнсе. Яна здаецца прадказальнай, паўтаральнай і крыху празмерна дакументаванай. Вось як гэта выглядае:

  • Шчыльная анталогія : названы набор класаў, атрыбутаў і адносін, якія вас цікавяць.

  • Крыштальныя інструкцыі : разгледжаныя прыклады, контрпрыклады, асаблівыя выпадкі і правілы тай-брэйка.

  • Цыклы рэцэнзента : другая пара вачэй на кавалку задач.

  • Метрыкі ўзгаднення : узгадненне паміж анататарамі (напрыклад, κ Коэна, α Крыпендорфа), таму вы вымяраеце ўзгодненасць, а не вібрацыі. α асабліва зручны, калі адсутнічаюць цэтлікі або некалькі анататараў пакрываюць розныя элементы [1].

  • Садоўніцтва на мяжы выпадкаў : рэгулярна збірайце дзіўныя, варожыя або проста рэдкія выпадкі.

  • Праверка на прадузятасць : крыніцы дадзеных аўдыту, дэмаграфія, рэгіёны, дыялекты, умовы асвятлення і іншае.

  • Паходжанне і прыватнасць : адсочвайце паходжанне дадзеных, правы на іх выкарыстанне і тое, як апрацоўваецца асабістая інфармацыя (што лічыцца асабістай інфармацыяй, як яе класіфікаваць і якія меры засцярогі прымаюцца) [5].

  • Зваротная сувязь для навучання : пазнакі не жывуць на могілках электронных табліц — яны ўплываюць на актыўнае навучанне, дапрацоўку і ацэнкі.

Невялікае прызнанне: вы будзеце перапісваць свае рэкамендацыі некалькі разоў. Гэта нармальна. Як і прыпраўка рагу, невялікая змена мае вялікае значэнне.

Кароткі анекдот з поля: адна каманда дадала ў свой карыстальніцкі інтэрфейс адзіную опцыю «не магу прыняць рашэнне — патрэбна палітыка». Пагаджацца стала больш, бо каментатары перасталі прымушаць да здагадак, і журнал рашэнняў за адну ноч стаў больш выразным. Сумныя перамогі.


Параўнальная табліца: інструменты для маркіроўкі дадзеных з дапамогай штучнага інтэлекту 🔧

Не вычарпальны спіс, і так, фармулёўка наўмысна крыху заблытаная. Змены цэн — заўсёды ўдакладняйце на сайтах пастаўшчыкоў перад складаннем бюджэту.

Інструмент Лепш за ўсё падыходзіць для Тып цаны (арыенціровачны) Чаму гэта працуе
Лагатып Прадпрыемствы, сумесь рэзюмэ і НЛП Бясплатны ўзровень на аснове выкарыстання Добрыя працоўныя працэсы кантролю якасці, анталогіі і метрыкі; добра маштабуецца.
AWS SageMaker Ground Truth Арганізацыі, арыентаваныя на AWS, канвееры HITL За задачу + выкарыстанне AWS Цесна звязаны з сэрвісамі AWS, варыянтамі ўзаемадзеяння з чалавекам, надзейнымі інфраструктурнымі перахопнікамі.
Маштабаванне штучнага інтэлекту Складаныя задачы, кіраваная персанала Індывідуальная прапанова, шматступенчатая Паслугі высокага ўзроўню плюс інструменты; магутныя аперацыі для складаных выпадкаў.
Суперанатацыя Каманды з бачаннем, стартапы Узроўні, бясплатны пробны перыяд Адшліфаваны інтэрфейс, сумесная праца, карысныя інструменты на аснове мадэлі.
Вундэркінд Распрацоўшчыкі, якія жадаюць лакальнага кантролю Пажыццёвая ліцэнзія, на адно месца Хуткія цыклы, хуткія рэцэпты, якія можна запускаць лакальна; выдатна падыходзіць для NLP.
Докана Праекты NLP з адкрытым зыходным кодам Бясплатна, з адкрытым зыходным кодам Арыентаваны на супольнасць, просты ў разгортванні, добра падыходзіць для класіфікацыі і паслядоўнасці працы

Праверка рэальнасці мадэляў цэнаўтварэння : пастаўшчыкі спалучаюць адзінкі спажывання, плату за задачу, узроўні, індывідуальныя карпаратыўныя прапановы, аднаразовыя ліцэнзіі і праграмнае забеспячэнне з адкрытым зыходным кодам. Палітыка змяняецца; удакладняйце канкрэтныя пытанні непасрэдна ў дакументацыі пастаўшчыка, перш чым аддзел закупак уносіць лічбы ў электронную табліцу.


Распаўсюджаныя тыпы этыкетак з хуткімі мысленнымі вобразамі 🧠

  • Класіфікацыя выявы : адзін або некалькі тэгаў для ўсёй выявы.

  • Выяўленне аб'ектаў : ​​абмежавальныя рамкі або павернутыя рамкі вакол аб'ектаў.

  • Сегментацыя : маскі на ўзроўні пікселяў - экзэмпляр або семантыка; дзіўна задавальняе, калі чыстая.

  • Ключавыя кропкі і позы : арыенціры, такія як суставы або кропкі твару.

  • НЛП : пазнакі дакументаў, прамежкі для названых аб'ектаў, сувязі, карэферэнцыйныя спасылкі, атрыбуты.

  • Аўдыё і маўленне : транскрыпцыя, дыярызацыя прамоўцы, тэгі намераў, акустычныя падзеі.

  • Відэа : пакадравыя скрынкі або дарожкі, часавыя падзеі, пазнакі дзеянняў.

  • Часовыя шэрагі і датчыкі : падзеі з акнамі, анамаліі, трэндавыя рэжымы.

  • Генератыўныя працоўныя працэсы : ранжыраванне пераваг, чырвоныя сцягі бяспекі, ацэнка праўдзівасці, ацэнка на аснове рубрык.

  • Пошук і RAG : рэлевантнасць запыту-дакумента, адказнасць, памылкі пошуку.

Калі выява — гэта піца, сегментацыя — гэта ідэальнае разразанне кожнага кавалачка, а выяўленне — гэта ўказанне і паведамленне, што дзесьці там ёсць кавалачак...


Анатомія працоўнага працэсу: ад брыфа да залатых дадзеных 🧩

Надзейны канвеер маркіроўкі звычайна мае такую ​​форму:

  1. Вызначце анталогію : класы, атрыбуты, сувязі і дазволеныя неадназначнасці.

  2. Праекты рэкамендацый : прыклады, памежныя выпадкі і складаныя контрпрыклады.

  3. Пазначце пілотны набор : атрымайце некалькі сотняў прыкладаў з анатацыямі, каб знайсці прабелы.

  4. Вымярэнне супадзення : вылічэнне κ/α; перагляд інструкцый, пакуль анататары не сыходзяцца [1].

  5. Дызайн забеспячэння якасці : галасаванне на аснове кансенсусу, вынясенне рашэнняў, іерархічны агляд і выбарачныя праверкі.

  6. Вытворчыя цыклы : кантраляваць прапускную здольнасць, якасць і зрух.

  7. Замкніце цыкл : перавучвайце, паўторна выбарвайце і абнаўляйце рубрыкі па меры развіцця мадэлі і прадукту.

Парада, за якую вы пазней будзеце сабе ўдзячныя: вядзіце жывы дзённік рашэнняў . Запісвайце кожнае ўдакладняючае правіла, якое вы дадаяце, і чаму . Будучы час — вы забудзеце кантэкст. Будучы час — вы будзеце з-за гэтага раздражняцца.


Чалавек у курсе падзей, слабы кантроль і мысленне «больш цэтлікаў, менш клікаў» 🧑💻🤝

Інтэрактыўны ўплыў (HITL) азначае, што людзі супрацоўнічаюць з мадэлямі падчас навучання, ацэнкі або рэальных аперацый — пацвярджаючы, выпраўляючы або адхіляючы прапановы мадэлі. Выкарыстоўвайце гэта для паскарэння хуткасці, захоўваючы пры гэтым адказнасць людзей за якасць і бяспеку. HITL з'яўляецца асноўнай практыкай у надзейным кіраванні рызыкамі штучнага інтэлекту (чалавечы кантроль, дакументацыя, маніторынг) [2].

Слабы кантроль — гэта іншы, але дадатковы прыём: праграмныя правілы, эўрыстыкі, дыстанцыйны кантроль або іншыя крыніцы шуму генеруюць папярэднія меткі ў вялікіх маштабах, а затым вы іх падшумліваеце. Папулярызавала праграмаванне дадзеных, якое аб'ядноўвае мноства крыніц шуму метак (г.зн. функцыі маркіроўкі ) і вывучае іх дакладнасць для стварэння больш якаснага навучальнага набору [3].

На практыцы каманды, якія працуюць з вялікай хуткасцю, спалучаюць усе тры метады: ручное маркіраванне залатых набораў, слабы кантроль для самаабслугоўвання і высокая прадукцыйнасць (HITL) для паскарэння паўсядзённай працы. Гэта не падман. Гэта майстэрства.


Актыўнае навучанне: выберыце наступную лепшую рэч для маркіроўкі 🎯📈

Актыўнае навучанне змяняе звычайны паток. Замест выпадковай выбаркі дадзеных для маркіроўкі, вы дазваляеце мадэлі запытваць найбольш інфарматыўныя прыклады: высокая нявызначанасць, высокая рознагалоссяў, разнастайныя прадстаўнікі або кропкі паблізу мяжы прыняцця рашэння. Пры добрай выбарцы вы скарачаеце страты маркіроўкі і засяроджваецеся на ўздзеянні. Сучасныя апытанні, якія ахопліваюць глыбокае актыўнае навучанне, паказваюць высокую прадукцыйнасць з меншай колькасцю метак, калі цыкл аракула добра распрацаваны [4].

Базавы рэцэпт, з якога можна пачаць, без драмы:

  • Трэніруйцеся на невялікім наборы насення.

  • Падлічыце балы ў немаркіраваным пуле.

  • Выберыце верхнюю K з-за нявызначанасці або разыходжання мадэлі.

  • Пазначце. Перавучыце. Паўтарайце невялікімі партыямі.

  • Сачыце за крывымі праверкі і метрыкамі ўзгаднення, каб не гнацца за шумам.

Вы зразумееце, што гэта працуе, калі ваша мадэль палепшыцца, і штомесячны рахунак за маркіроўку не падвоіцца.


Кантроль якасці, які сапраўды працуе 🧪

Вам не трэба кіпяціць акіян. Паспрабуйце правесці наступныя праверкі:

  • Залатыя пытанні : увод вядомых элементаў і адсочванне дакладнасці кожнага этыкетніка.

  • Кансенсус пры вынясенні рашэння : два незалежныя лэйблы плюс рэцэнзент па рознагалоссях.

  • Пагадненне паміж анататарамі : выкарыстоўвайце α, калі ў вас некалькі анататараў або няпоўныя цэтлікі, κ для пар; не зацыклівайцеся на адным парозе — кантэкст мае значэнне [1].

  • Перагляд рэкамендацый : паўтаральныя памылкі звычайна азначаюць неадназначныя інструкцыі, а не дрэнныя каментатары.

  • Праверка дрэйфу : параўнанне размеркавання пазнак у залежнасці ад часу, геаграфіі, уваходных каналаў.

Калі вы выбіраеце толькі адзін паказчык, выбірайце супадзенне. Гэта хуткі сігнал стану. Трохі памылковая метафара: калі вашы маркіроўкі не супадаюць, ваша мадэль працуе на хісткіх колах.


Мадэлі працоўнай сілы: унутрыкорпоральныя, BPO, краўд або гібрыдныя 👥

  • Унутраная праца : найлепш падыходзіць для канфідэнцыйных дадзеных, тонка вызначаных абласцей і хуткага міжфункцыянальнага навучання.

  • Спецыялізаваныя пастаўшчыкі : стабільная прапускная здольнасць, кваліфікаваныя спецыялісты па якасці і ахоп у розных часавых паясах.

  • Краўдсорсінг : танна за задачу, але вам спатрэбяцца моцныя залатыя фонды і кантроль спаму.

  • Гібрыд : захаваць асноўную каманду экспертаў і павялічыць знешні патэнцыял.

Што б вы ні абралі, укладвайце грошы ў адкрыццё, навучанне па рэкамендацыях, раўнды каліброўкі і частыя водгукі. Танныя этыкеткі, якія патрабуюць трох праходаў перамаркіроўкі, не з танных.


Кошт, час і рэнтабельнасць інвестыцый: хуткая праверка рэальнасці 💸⏱️

Выдаткі падзеленыя на працоўную сілу, платформу і кантроль якасці. Для прыблізнага планавання сфармулюйце карту вашага канвеера наступным чынам:

  • Мэтавая прапускная здольнасць : колькасць адзінак у дзень на аднаго маркіроўшчыка × маркіроўшчыкі.

  • Накладныя выдаткі на кантроль якасці : % падвойна пазначаных або правераных.

  • Хуткасць перапрацоўкі : бюджэт на паўторную анатацыю пасля абнаўлення рэкамендацый.

  • Паляпшэнне аўтаматызацыі : папярэднія меткі на аснове мадэлі або праграмныя правілы могуць значна скараціць ручную працу (не магічна, але значна).

Калі аддзел закупак запытвае лічбу, дайце ім мадэль, а не здагадку, і абнаўляйце яе па меры стабілізацыі вашых рэкамендацый.


Пасткі, у якія вы трапіце хаця б адзін раз, і як іх пазбегнуць 🪤

  • Паўзучасць інструкцый : рэкамендацыі ператвараюцца ў навэлу. Выпраўце з дапамогай дрэў рашэнняў + простых прыкладаў.

  • Раздуццё класаў : занадта шмат класаў з размытымі межамі. Аб'яднайце іх або вызначце строгае «іншае» з дапамогай палітыкі.

  • Залішняя індэксацыя па хуткасці : паспешныя цэтлікі ціха атручваюць навучальныя дадзеныя. Устаўляйце залатыя літары; абмяжоўвайце хуткасць найгоршых схілаў.

  • Фіксацыя інструмента : фарматы экспарту кусаюцца. Загадзя вызначцеся са схемамі JSONL і ідэнтыфікатарамі ідэмпатэнтных элементаў.

  • Ігнараванне ацэнкі : калі вы спачатку не пазначыце набор ацэнкі, вы ніколі не будзеце ўпэўнены, што палепшылася.

Будзем шчырымі, вы будзеце час ад часу вяртацца назад. Гэта нармальна. Хітрасць у тым, каб запісаць адкат, каб наступным разам ён быў наўмысным.


Міні-FAQ: хуткія і шчырыя адказы 🙋♀️

Пытанне: Маркіроўка супраць анатацыі — ці адрозніваюцца яны?
Адказ: На практыцы людзі выкарыстоўваюць іх як узаемазаменныя. Анатацыя — гэта акт маркіроўкі або дадання тэгаў. Маркіроўка часта мае на ўвазе арыентацыю на праўду з забеспячэннем якасці і рэкамендацыямі. Бульба, бульба.

Пытанне: Ці магу я прапусціць маркіроўку дзякуючы сінтэтычным дадзеным або самакантролю?
Адказ: Вы можаце скараціць яе, але не прапусціць. Вам усё яшчэ патрэбныя маркіраваныя дадзеныя для ацэнкі, ахоўных панэляў, тонкай налады і паводзін, спецыфічных для прадукту. Слабы кантроль можа прывесці да маштабавання, калі адной толькі ручной маркіроўкі недастаткова [3].

Пытанне: Ці патрэбныя мне паказчыкі якасці, калі мае рэцэнзенты — эксперты?
Адказ: Так. Эксперты таксама не згодныя. Выкарыстоўвайце паказчыкі адпаведнасці (κ/α), каб знайсці расплывістыя азначэнні і неадназначныя класы, а затым удакладніце анталогію або правілы [1].

Пытанне: Ці з'яўляецца ўзаемадзеянне чалавека з кліентамі проста маркетынгам?
Адказ: Не. Гэта практычная схема, у якой людзі кіруюць, карэктуюць і ацэньваюць паводзіны мадэлі. Рэкамендуецца ў рамках надзейных практык кіравання рызыкамі, звязанымі са штучным інтэлектам [2].

Пытанне: Як мне расставіць прыярытэты для далейшай пазнакі?
Адказ: Пачніце з актыўнага навучання: вазьміце найбольш нявызначаныя або разнастайныя ўзоры, каб кожная новая пазнака давала максімальнае паляпшэнне мадэлі [4].


Палявыя нататкі: дробязі, якія маюць вялікае значэнне ✍️

  • Захоўвайце таксанаміі ў сваім рэпазітарыі. Ставіцеся да яго як да кода.

  • Захоўвайце "да" і "пасля" кожны раз, калі абнаўляеце рэкамендацыі.

  • Зрабіце малюсенькі, ідэальны залаты набор і абараніце яго ад забруджвання.

  • Чаргаваць сеансы каліброўкі : паказаць 10 элементаў, ціха пазначыць, параўнаць, абмеркаваць, абнавіць правілы.

  • Аналітыка маркіроўкі адсочванняў — надзейныя панэлі кіравання, нічога сорамнага. Вы знойдзеце магчымасці для навучання, а не зладзеяў.

  • Дадавайце прапановы на аснове мадэлі ляніва. Калі папярэднія пазнакі няправільныя, яны запавольваюць людзей. Калі яны часта маюць рацыю, гэта магія.


Заключныя заўвагі: этыкеткі — гэта памяць пра ваш прадукт 🧩💡

Што такое маркіроўка дадзеных з дапамогай штучнага інтэлекту па сутнасці? Гэта ваш спосаб вырашыць, як мадэль павінна бачыць свет, адно асцярожнае рашэнне за раз. Зрабіце гэта добра, і ўсё далейшае стане прасцейшым: ​​большая дакладнасць, менш рэгрэсій, больш зразумелыя дыскусіі аб бяспецы і прадузятасці, больш плаўная дастаўка. Калі зробіце гэта нядбала, вы будзеце пастаянна пытацца, чаму мадэль паводзіць сябе дрэнна, калі адказ знаходзіцца ў вашым наборы дадзеных з няправільнай біркай імя. Не для ўсяго патрэбна велізарная каманда або складанае праграмнае забеспячэнне, але для ўсяго патрэбна клопат.

Занадта доўга я гэтага не чытаў : інвестуйце ў выразную анталогію, пішыце зразумелыя правілы, вымярайце супадзенні, спалучайце ручныя і праграмныя пазнакі і дазвольце актыўнаму навучанню выбраць наступны найлепшы элемент. Затым паўтарайце. Зноў. І зноў... і, як ні дзіўна, вам спадабаецца. 😄


Спасылкі

[1] Артштэйн, Р., і Паэзіа, М. (2008). Пагадненне паміж кадавальнікамі для вылічальнай лінгвістыкі . Вылічальная лінгвістыка, 34(4), 555–596. (Ахоплівае κ/α і тое, як інтэрпрэтаваць пагадненне, у тым ліку адсутныя дадзеныя.)
PDF

[2] NIST (2023). Структура кіравання рызыкамі штучнага інтэлекту (AI RMF 1.0) . (Чалавечы кантроль, дакументацыя і кантроль рызык для надзейнага штучнага інтэлекту.)
PDF

[3] Ratner, AJ, De Sa, C., Wu, S., Selsam, D., & Ré, C. (2016). Праграмаванне дадзеных: хуткае стварэнне вялікіх навучальных набораў . NeurIPS. (Асноўны падыход да слабога кантролю і падаўлення шумных метак.)
PDF

[4] Лі, Д., Ван, З., Чэнь, Ю. і інш. (2024). Апытанне па глыбокім актыўным навучанні: нядаўнія дасягненні і новыя рубяжы . (Доказы і заканамернасці для эфектыўнага актыўнага навучання з выкарыстаннем маркіроўкі.)
PDF

[5] NIST (2010). SP 800-122: Кіраўніцтва па абароне канфідэнцыяльнасці персанальна ідэнтыфікаванай інфармацыі (PII) . (Што лічыцца персанальна ідэнтыфікаванай інфармацыяй і як яе абараніць у вашым канвееры дадзеных.)
PDF

Знайдзіце найноўшы штучны інтэлект у афіцыйнай краме памочнікаў штучнага інтэлекту

Пра нас

Назад да блога