Калі вы ствараеце або ацэньваеце сістэмы машыннага навучання, рана ці позна вы сутыкнецеся з адной і той жа перашкодай: маркіраванымі дадзенымі. Мадэлі не ведаюць чароўным чынам, што ёсць што. Людзі, палітыкі, а часам і праграмы павінны іх гэтаму вучыць. Дык што ж такое маркіроўка дадзеных з дапамогай штучнага інтэлекту? Карацей кажучы, гэта практыка дадання сэнсу неапрацаваным дадзеным, каб алгарытмы маглі вучыцца на іх... 😊
🔗 Што такое этыка штучнага інтэлекту
Агляд этычных прынцыпаў, якімі кіруюцца адказная распрацоўка і ўкараненне штучнага інтэлекту.
🔗 Што такое MCP у штучным інтэлекце
Тлумачыць пратакол кіравання мадэллю і яго ролю ў кіраванні паводзінамі штучнага інтэлекту.
🔗 Што такое перыферыйны штучны інтэлект
Апісвае, як штучны інтэлект апрацоўвае дадзеныя непасрэдна на прыладах на перыферыі.
🔗 Што такое агентычны штучны інтэлект
Прадстаўляе аўтаномных агентаў штучнага інтэлекту, здольных планаваць, разважаць і дзейнічаць самастойна.
Што такое маркіроўка дадзеных з дапамогай штучнага інтэлекту на самой справе? 🎯
Маркіроўка дадзеных з дапамогай штучнага інтэлекту — гэта працэс дадання зразумелых чалавеку тэгаў, прамежкаў, блокаў, катэгорый або рэйтынгаў да неапрацаваных уваходных дадзеных, такіх як тэкст, выявы, аўдыё, відэа або часовыя шэрагі, каб мадэлі маглі выяўляць заканамернасці і рабіць прагнозы. Уявіце сабе абмежавальныя рамкі вакол аўтамабіляў, тэгі аб'ектаў на людзях і месцах у тэксце або галасаванне за перавагі, які адказ чат-бота здаецца больш карысным. Без гэтых тэгаў класічнае навучанне з настаўнікам ніколі не зрушыцца з месца.
Вы таксама пачуеце пазнакі, якія называюцца «залатымі дадзенымі» або «глыбейшымі» дадзенымі : узгодненыя адказы пад зразумелымі інструкцыямі, якія выкарыстоўваюцца для навучання, праверкі і аўдыту паводзін мадэлі. Нават у эпоху базавых мадэляў і сінтэтычных дадзеных пазначаныя наборы ўсё яшчэ маюць значэнне для ацэнкі, тонкай налады, аб'яднання ў чырвоныя каманды бяспекі і выпадкаў з доўгім хвастом, г.зн. таго, як ваша мадэль паводзіць сябе ў дзіўных рэчах, якія насамрэч робяць вашы карыстальнікі. Няма бясплатнага абеду, толькі лепшыя кухонныя прылады.

Што робіць маркіроўку дадзеных з дапамогай штучнага інтэлекту добрай ✅
Проста кажучы: добрая этыкетка сумная ў найлепшым сэнсе. Яна здаецца прадказальнай, паўтаральнай і крыху празмерна дакументаванай. Вось як гэта выглядае:
-
Шчыльная анталогія : названы набор класаў, атрыбутаў і адносін, якія вас цікавяць.
-
Крыштальныя інструкцыі : разгледжаныя прыклады, контрпрыклады, асаблівыя выпадкі і правілы тай-брэйка.
-
Цыклы рэцэнзента : другая пара вачэй на кавалку задач.
-
Метрыкі ўзгаднення : узгадненне паміж анататарамі (напрыклад, κ Коэна, α Крыпендорфа), таму вы вымяраеце ўзгодненасць, а не вібрацыі. α асабліва зручны, калі адсутнічаюць цэтлікі або некалькі анататараў пакрываюць розныя элементы [1].
-
Садоўніцтва на мяжы выпадкаў : рэгулярна збірайце дзіўныя, варожыя або проста рэдкія выпадкі.
-
Праверка на прадузятасць : крыніцы дадзеных аўдыту, дэмаграфія, рэгіёны, дыялекты, умовы асвятлення і іншае.
-
Паходжанне і прыватнасць : адсочвайце паходжанне дадзеных, правы на іх выкарыстанне і тое, як апрацоўваецца асабістая інфармацыя (што лічыцца асабістай інфармацыяй, як яе класіфікаваць і якія меры засцярогі прымаюцца) [5].
-
Зваротная сувязь для навучання : пазнакі не жывуць на могілках электронных табліц — яны ўплываюць на актыўнае навучанне, дапрацоўку і ацэнкі.
Невялікае прызнанне: вы будзеце перапісваць свае рэкамендацыі некалькі разоў. Гэта нармальна. Як і прыпраўка рагу, невялікая змена мае вялікае значэнне.
Кароткі анекдот з поля: адна каманда дадала ў свой карыстальніцкі інтэрфейс адзіную опцыю «не магу прыняць рашэнне — патрэбна палітыка». Пагаджацца стала больш, бо каментатары перасталі прымушаць да здагадак, і журнал рашэнняў за адну ноч стаў больш выразным. Сумныя перамогі.
Параўнальная табліца: інструменты для маркіроўкі дадзеных з дапамогай штучнага інтэлекту 🔧
Не вычарпальны спіс, і так, фармулёўка наўмысна крыху заблытаная. Змены цэн — заўсёды ўдакладняйце на сайтах пастаўшчыкоў перад складаннем бюджэту.
| Інструмент | Лепш за ўсё падыходзіць для | Тып цаны (арыенціровачны) | Чаму гэта працуе |
|---|---|---|---|
| Лагатып | Прадпрыемствы, сумесь рэзюмэ і НЛП | Бясплатны ўзровень на аснове выкарыстання | Добрыя працоўныя працэсы кантролю якасці, анталогіі і метрыкі; добра маштабуецца. |
| AWS SageMaker Ground Truth | Арганізацыі, арыентаваныя на AWS, канвееры HITL | За задачу + выкарыстанне AWS | Цесна звязаны з сэрвісамі AWS, варыянтамі ўзаемадзеяння з чалавекам, надзейнымі інфраструктурнымі перахопнікамі. |
| Маштабаванне штучнага інтэлекту | Складаныя задачы, кіраваная персанала | Індывідуальная прапанова, шматступенчатая | Паслугі высокага ўзроўню плюс інструменты; магутныя аперацыі для складаных выпадкаў. |
| Суперанатацыя | Каманды з бачаннем, стартапы | Узроўні, бясплатны пробны перыяд | Адшліфаваны інтэрфейс, сумесная праца, карысныя інструменты на аснове мадэлі. |
| Вундэркінд | Распрацоўшчыкі, якія жадаюць лакальнага кантролю | Пажыццёвая ліцэнзія, на адно месца | Хуткія цыклы, хуткія рэцэпты, якія можна запускаць лакальна; выдатна падыходзіць для NLP. |
| Докана | Праекты NLP з адкрытым зыходным кодам | Бясплатна, з адкрытым зыходным кодам | Арыентаваны на супольнасць, просты ў разгортванні, добра падыходзіць для класіфікацыі і паслядоўнасці працы |
Праверка рэальнасці мадэляў цэнаўтварэння : пастаўшчыкі спалучаюць адзінкі спажывання, плату за задачу, узроўні, індывідуальныя карпаратыўныя прапановы, аднаразовыя ліцэнзіі і праграмнае забеспячэнне з адкрытым зыходным кодам. Палітыка змяняецца; удакладняйце канкрэтныя пытанні непасрэдна ў дакументацыі пастаўшчыка, перш чым аддзел закупак уносіць лічбы ў электронную табліцу.
Распаўсюджаныя тыпы этыкетак з хуткімі мысленнымі вобразамі 🧠
-
Класіфікацыя выявы : адзін або некалькі тэгаў для ўсёй выявы.
-
Выяўленне аб'ектаў : абмежавальныя рамкі або павернутыя рамкі вакол аб'ектаў.
-
Сегментацыя : маскі на ўзроўні пікселяў - экзэмпляр або семантыка; дзіўна задавальняе, калі чыстая.
-
Ключавыя кропкі і позы : арыенціры, такія як суставы або кропкі твару.
-
НЛП : пазнакі дакументаў, прамежкі для названых аб'ектаў, сувязі, карэферэнцыйныя спасылкі, атрыбуты.
-
Аўдыё і маўленне : транскрыпцыя, дыярызацыя прамоўцы, тэгі намераў, акустычныя падзеі.
-
Відэа : пакадравыя скрынкі або дарожкі, часавыя падзеі, пазнакі дзеянняў.
-
Часовыя шэрагі і датчыкі : падзеі з акнамі, анамаліі, трэндавыя рэжымы.
-
Генератыўныя працоўныя працэсы : ранжыраванне пераваг, чырвоныя сцягі бяспекі, ацэнка праўдзівасці, ацэнка на аснове рубрык.
-
Пошук і RAG : рэлевантнасць запыту-дакумента, адказнасць, памылкі пошуку.
Калі выява — гэта піца, сегментацыя — гэта ідэальнае разразанне кожнага кавалачка, а выяўленне — гэта ўказанне і паведамленне, што дзесьці там ёсць кавалачак...
Анатомія працоўнага працэсу: ад брыфа да залатых дадзеных 🧩
Надзейны канвеер маркіроўкі звычайна мае такую форму:
-
Вызначце анталогію : класы, атрыбуты, сувязі і дазволеныя неадназначнасці.
-
Праекты рэкамендацый : прыклады, памежныя выпадкі і складаныя контрпрыклады.
-
Пазначце пілотны набор : атрымайце некалькі сотняў прыкладаў з анатацыямі, каб знайсці прабелы.
-
Вымярэнне супадзення : вылічэнне κ/α; перагляд інструкцый, пакуль анататары не сыходзяцца [1].
-
Дызайн забеспячэння якасці : галасаванне на аснове кансенсусу, вынясенне рашэнняў, іерархічны агляд і выбарачныя праверкі.
-
Вытворчыя цыклы : кантраляваць прапускную здольнасць, якасць і зрух.
-
Замкніце цыкл : перавучвайце, паўторна выбарвайце і абнаўляйце рубрыкі па меры развіцця мадэлі і прадукту.
Парада, за якую вы пазней будзеце сабе ўдзячныя: вядзіце жывы дзённік рашэнняў . Запісвайце кожнае ўдакладняючае правіла, якое вы дадаяце, і чаму . Будучы час — вы забудзеце кантэкст. Будучы час — вы будзеце з-за гэтага раздражняцца.
Чалавек у курсе падзей, слабы кантроль і мысленне «больш цэтлікаў, менш клікаў» 🧑💻🤝
Інтэрактыўны ўплыў (HITL) азначае, што людзі супрацоўнічаюць з мадэлямі падчас навучання, ацэнкі або рэальных аперацый — пацвярджаючы, выпраўляючы або адхіляючы прапановы мадэлі. Выкарыстоўвайце гэта для паскарэння хуткасці, захоўваючы пры гэтым адказнасць людзей за якасць і бяспеку. HITL з'яўляецца асноўнай практыкай у надзейным кіраванні рызыкамі штучнага інтэлекту (чалавечы кантроль, дакументацыя, маніторынг) [2].
Слабы кантроль — гэта іншы, але дадатковы прыём: праграмныя правілы, эўрыстыкі, дыстанцыйны кантроль або іншыя крыніцы шуму генеруюць папярэднія меткі ў вялікіх маштабах, а затым вы іх падшумліваеце. Папулярызавала праграмаванне дадзеных, якое аб'ядноўвае мноства крыніц шуму метак (г.зн. функцыі маркіроўкі ) і вывучае іх дакладнасць для стварэння больш якаснага навучальнага набору [3].
На практыцы каманды, якія працуюць з вялікай хуткасцю, спалучаюць усе тры метады: ручное маркіраванне залатых набораў, слабы кантроль для самаабслугоўвання і высокая прадукцыйнасць (HITL) для паскарэння паўсядзённай працы. Гэта не падман. Гэта майстэрства.
Актыўнае навучанне: выберыце наступную лепшую рэч для маркіроўкі 🎯📈
Актыўнае навучанне змяняе звычайны паток. Замест выпадковай выбаркі дадзеных для маркіроўкі, вы дазваляеце мадэлі запытваць найбольш інфарматыўныя прыклады: высокая нявызначанасць, высокая рознагалоссяў, разнастайныя прадстаўнікі або кропкі паблізу мяжы прыняцця рашэння. Пры добрай выбарцы вы скарачаеце страты маркіроўкі і засяроджваецеся на ўздзеянні. Сучасныя апытанні, якія ахопліваюць глыбокае актыўнае навучанне, паказваюць высокую прадукцыйнасць з меншай колькасцю метак, калі цыкл аракула добра распрацаваны [4].
Базавы рэцэпт, з якога можна пачаць, без драмы:
-
Трэніруйцеся на невялікім наборы насення.
-
Падлічыце балы ў немаркіраваным пуле.
-
Выберыце верхнюю K з-за нявызначанасці або разыходжання мадэлі.
-
Пазначце. Перавучыце. Паўтарайце невялікімі партыямі.
-
Сачыце за крывымі праверкі і метрыкамі ўзгаднення, каб не гнацца за шумам.
Вы зразумееце, што гэта працуе, калі ваша мадэль палепшыцца, і штомесячны рахунак за маркіроўку не падвоіцца.
Кантроль якасці, які сапраўды працуе 🧪
Вам не трэба кіпяціць акіян. Паспрабуйце правесці наступныя праверкі:
-
Залатыя пытанні : увод вядомых элементаў і адсочванне дакладнасці кожнага этыкетніка.
-
Кансенсус пры вынясенні рашэння : два незалежныя лэйблы плюс рэцэнзент па рознагалоссях.
-
Пагадненне паміж анататарамі : выкарыстоўвайце α, калі ў вас некалькі анататараў або няпоўныя цэтлікі, κ для пар; не зацыклівайцеся на адным парозе — кантэкст мае значэнне [1].
-
Перагляд рэкамендацый : паўтаральныя памылкі звычайна азначаюць неадназначныя інструкцыі, а не дрэнныя каментатары.
-
Праверка дрэйфу : параўнанне размеркавання пазнак у залежнасці ад часу, геаграфіі, уваходных каналаў.
Калі вы выбіраеце толькі адзін паказчык, выбірайце супадзенне. Гэта хуткі сігнал стану. Трохі памылковая метафара: калі вашы маркіроўкі не супадаюць, ваша мадэль працуе на хісткіх колах.
Мадэлі працоўнай сілы: унутрыкорпоральныя, BPO, краўд або гібрыдныя 👥
-
Унутраная праца : найлепш падыходзіць для канфідэнцыйных дадзеных, тонка вызначаных абласцей і хуткага міжфункцыянальнага навучання.
-
Спецыялізаваныя пастаўшчыкі : стабільная прапускная здольнасць, кваліфікаваныя спецыялісты па якасці і ахоп у розных часавых паясах.
-
Краўдсорсінг : танна за задачу, але вам спатрэбяцца моцныя залатыя фонды і кантроль спаму.
-
Гібрыд : захаваць асноўную каманду экспертаў і павялічыць знешні патэнцыял.
Што б вы ні абралі, укладвайце грошы ў адкрыццё, навучанне па рэкамендацыях, раўнды каліброўкі і частыя водгукі. Танныя этыкеткі, якія патрабуюць трох праходаў перамаркіроўкі, не з танных.
Кошт, час і рэнтабельнасць інвестыцый: хуткая праверка рэальнасці 💸⏱️
Выдаткі падзеленыя на працоўную сілу, платформу і кантроль якасці. Для прыблізнага планавання сфармулюйце карту вашага канвеера наступным чынам:
-
Мэтавая прапускная здольнасць : колькасць адзінак у дзень на аднаго маркіроўшчыка × маркіроўшчыкі.
-
Накладныя выдаткі на кантроль якасці : % падвойна пазначаных або правераных.
-
Хуткасць перапрацоўкі : бюджэт на паўторную анатацыю пасля абнаўлення рэкамендацый.
-
Паляпшэнне аўтаматызацыі : папярэднія меткі на аснове мадэлі або праграмныя правілы могуць значна скараціць ручную працу (не магічна, але значна).
Калі аддзел закупак запытвае лічбу, дайце ім мадэль, а не здагадку, і абнаўляйце яе па меры стабілізацыі вашых рэкамендацый.
Пасткі, у якія вы трапіце хаця б адзін раз, і як іх пазбегнуць 🪤
-
Паўзучасць інструкцый : рэкамендацыі ператвараюцца ў навэлу. Выпраўце з дапамогай дрэў рашэнняў + простых прыкладаў.
-
Раздуццё класаў : занадта шмат класаў з размытымі межамі. Аб'яднайце іх або вызначце строгае «іншае» з дапамогай палітыкі.
-
Залішняя індэксацыя па хуткасці : паспешныя цэтлікі ціха атручваюць навучальныя дадзеныя. Устаўляйце залатыя літары; абмяжоўвайце хуткасць найгоршых схілаў.
-
Фіксацыя інструмента : фарматы экспарту кусаюцца. Загадзя вызначцеся са схемамі JSONL і ідэнтыфікатарамі ідэмпатэнтных элементаў.
-
Ігнараванне ацэнкі : калі вы спачатку не пазначыце набор ацэнкі, вы ніколі не будзеце ўпэўнены, што палепшылася.
Будзем шчырымі, вы будзеце час ад часу вяртацца назад. Гэта нармальна. Хітрасць у тым, каб запісаць адкат, каб наступным разам ён быў наўмысным.
Міні-FAQ: хуткія і шчырыя адказы 🙋♀️
Пытанне: Маркіроўка супраць анатацыі — ці адрозніваюцца яны?
Адказ: На практыцы людзі выкарыстоўваюць іх як узаемазаменныя. Анатацыя — гэта акт маркіроўкі або дадання тэгаў. Маркіроўка часта мае на ўвазе арыентацыю на праўду з забеспячэннем якасці і рэкамендацыямі. Бульба, бульба.
Пытанне: Ці магу я прапусціць маркіроўку дзякуючы сінтэтычным дадзеным або самакантролю?
Адказ: Вы можаце скараціць яе, але не прапусціць. Вам усё яшчэ патрэбныя маркіраваныя дадзеныя для ацэнкі, ахоўных панэляў, тонкай налады і паводзін, спецыфічных для прадукту. Слабы кантроль можа прывесці да маштабавання, калі адной толькі ручной маркіроўкі недастаткова [3].
Пытанне: Ці патрэбныя мне паказчыкі якасці, калі мае рэцэнзенты — эксперты?
Адказ: Так. Эксперты таксама не згодныя. Выкарыстоўвайце паказчыкі адпаведнасці (κ/α), каб знайсці расплывістыя азначэнні і неадназначныя класы, а затым удакладніце анталогію або правілы [1].
Пытанне: Ці з'яўляецца ўзаемадзеянне чалавека з кліентамі проста маркетынгам?
Адказ: Не. Гэта практычная схема, у якой людзі кіруюць, карэктуюць і ацэньваюць паводзіны мадэлі. Рэкамендуецца ў рамках надзейных практык кіравання рызыкамі, звязанымі са штучным інтэлектам [2].
Пытанне: Як мне расставіць прыярытэты для далейшай пазнакі?
Адказ: Пачніце з актыўнага навучання: вазьміце найбольш нявызначаныя або разнастайныя ўзоры, каб кожная новая пазнака давала максімальнае паляпшэнне мадэлі [4].
Палявыя нататкі: дробязі, якія маюць вялікае значэнне ✍️
-
Захоўвайце таксанаміі ў сваім рэпазітарыі. Ставіцеся да яго як да кода.
-
Захоўвайце "да" і "пасля" кожны раз, калі абнаўляеце рэкамендацыі.
-
Зрабіце малюсенькі, ідэальны залаты набор і абараніце яго ад забруджвання.
-
Чаргаваць сеансы каліброўкі : паказаць 10 элементаў, ціха пазначыць, параўнаць, абмеркаваць, абнавіць правілы.
-
Аналітыка маркіроўкі адсочванняў — надзейныя панэлі кіравання, нічога сорамнага. Вы знойдзеце магчымасці для навучання, а не зладзеяў.
-
Дадавайце прапановы на аснове мадэлі ляніва. Калі папярэднія пазнакі няправільныя, яны запавольваюць людзей. Калі яны часта маюць рацыю, гэта магія.
Заключныя заўвагі: этыкеткі — гэта памяць пра ваш прадукт 🧩💡
Што такое маркіроўка дадзеных з дапамогай штучнага інтэлекту па сутнасці? Гэта ваш спосаб вырашыць, як мадэль павінна бачыць свет, адно асцярожнае рашэнне за раз. Зрабіце гэта добра, і ўсё далейшае стане прасцейшым: большая дакладнасць, менш рэгрэсій, больш зразумелыя дыскусіі аб бяспецы і прадузятасці, больш плаўная дастаўка. Калі зробіце гэта нядбала, вы будзеце пастаянна пытацца, чаму мадэль паводзіць сябе дрэнна, калі адказ знаходзіцца ў вашым наборы дадзеных з няправільнай біркай імя. Не для ўсяго патрэбна велізарная каманда або складанае праграмнае забеспячэнне, але для ўсяго патрэбна клопат.
Занадта доўга я гэтага не чытаў : інвестуйце ў выразную анталогію, пішыце зразумелыя правілы, вымярайце супадзенні, спалучайце ручныя і праграмныя пазнакі і дазвольце актыўнаму навучанню выбраць наступны найлепшы элемент. Затым паўтарайце. Зноў. І зноў... і, як ні дзіўна, вам спадабаецца. 😄
Спасылкі
[1] Артштэйн, Р., і Паэзіа, М. (2008). Пагадненне паміж кадавальнікамі для вылічальнай лінгвістыкі . Вылічальная лінгвістыка, 34(4), 555–596. (Ахоплівае κ/α і тое, як інтэрпрэтаваць пагадненне, у тым ліку адсутныя дадзеныя.)
PDF
[2] NIST (2023). Структура кіравання рызыкамі штучнага інтэлекту (AI RMF 1.0) . (Чалавечы кантроль, дакументацыя і кантроль рызык для надзейнага штучнага інтэлекту.)
PDF
[3] Ratner, AJ, De Sa, C., Wu, S., Selsam, D., & Ré, C. (2016). Праграмаванне дадзеных: хуткае стварэнне вялікіх навучальных набораў . NeurIPS. (Асноўны падыход да слабога кантролю і падаўлення шумных метак.)
PDF
[4] Лі, Д., Ван, З., Чэнь, Ю. і інш. (2024). Апытанне па глыбокім актыўным навучанні: нядаўнія дасягненні і новыя рубяжы . (Доказы і заканамернасці для эфектыўнага актыўнага навучання з выкарыстаннем маркіроўкі.)
PDF
[5] NIST (2010). SP 800-122: Кіраўніцтва па абароне канфідэнцыяльнасці персанальна ідэнтыфікаванай інфармацыі (PII) . (Што лічыцца персанальна ідэнтыфікаванай інфармацыяй і як яе абараніць у вашым канвееры дадзеных.)
PDF