Што такое трэнер штучнага інтэлекту?

Часам штучны інтэлект адчуваецца амаль як фокус. Вы ўводзіце выпадковае пытанне, і бам — праз некалькі секунд з'яўляецца гладкі, адшліфаваны адказ. Але вось у чым справа: за кожнай «геніяльнай» машынай стаяць рэальныя людзі, якія падштурхоўваюць, выпраўляюць і фарміруюць яе па ходзе працэсу. Гэтых людзей называюць трэнерамі штучнага інтэлекту , і праца, якую яны выконваюць, больш дзіўная, смешная і, шчыра кажучы, больш чалавечная, чым большасць людзей лічыць.

Давайце разгледзім, чаму гэтыя трэнеры важныя, як насамрэч выглядае іх паўсядзённы жыццё і чаму гэтая роля развіваецца хутчэй, чым хто-небудзь прадказваў.

Артыкулы, якія вам могуць спадабацца пасля гэтага:

🔗 Што такое арбітраж штучнага інтэлекту: праўда, якая стаіць за модным словам
Тлумачыць арбітраж штучнага інтэлекту, яго рызыкі, перавагі і распаўсюджаныя памылковыя ўяўленні.

🔗 Патрабаванні да захоўвання дадзеных для штучнага інтэлекту: што вам сапраўды трэба ведаць
Ахоплівае патрэбы ў захоўванні дадзеных, маштабаванасць і эфектыўнасць сістэм штучнага інтэлекту.

🔗 Хто бацька штучнага інтэлекту?
Даследуе піянераў штучнага інтэлекту і паходжанне штучнага інтэлекту.

Што робіць трэнера штучнага інтэлекту надзейным? 🏆

Гэта не праца, дзе трэба націскаць на кнопкі. Найлепшыя трэнеры абапіраюцца на даволі дзіўнае спалучэнне талентаў:

Цярпенне (вельмі шмат) — мадэлі не вучацца за адзін раз. Дрэсіроўшчыкі пастаянна ўводзяць адны і тыя ж карэкціроўкі, пакуль не прыжывуцца.
Выяўленне нюансаў — уменне распазнаваць сарказм, культурны кантэкст або прадузятасць надае чалавечай зваротнай сувязі перавагу [1].
Прамая камунікацыя — палова справы — гэта напісаць зразумелыя інструкцыі, якія штучны інтэлект не зможа няправільна прачытаць.
Цікаўнасць + этыка — добры трэнер сумняваецца ў тым, ці з'яўляецца адказ «фактычна правільным», але сацыяльна неадэкватным — гэта галоўная тэма ў кантролі за штучным інтэлектам [2].

Проста кажучы: трэнер — гэта часткова настаўнік, часткова рэдактар і крыху этык.

Ролі трэнера па штучным інтэлекце з першага погляду (з некаторымі асаблівасцямі 😉)

Тып ролі	Хто лепш за ўсё падыходзіць	Тыповая аплата	Чаму гэта працуе (ці не)
Маркіроўшчык дадзеных	Людзі, якія любяць дробныя дэталі	Нізкі–сярэдні $$	Абсалютна важна; калі пазнакі нядбайныя, пакутуе ўся мадэль [3] 📊
Спецыяліст па RLHF	Пісьменнікі, рэдактары, аналітыкі	Сярэдне-высокі $$	Ранжыруе і перапісвае адказы, каб тон і яснасць адпавядалі чаканням чалавека [1]
Трэнер дамена	Юрысты, лекары, эксперты	Па ўсёй карце 💼	Апрацоўвае вузкаспецыялізаваны жаргон і спецыялізаваныя выпадкі для галіновых сістэм
Рэцэнзент бяспекі	Людзі, якія думаюць пра этыку	Сярэдні $$	Ужывае рэкамендацыі, каб штучны інтэлект пазбягаў шкоднага кантэнту [2][5]
Трэнер па крэатыве	Мастакі, апавядальнікі	Непрадказальна 💡	Дапамагае штучнаму інтэлекту адлюстроўваць уяўленне, застаючыся ў бяспечных межах [5]

(Так, фарматаванне трохі бязладнае — як і сама праца.)

Дзень з жыцця трэнера па штучным інтэлекце

Дык як жа выглядае рэальная праца? Падумайце пра менш гламурнага кадавання і больш:

Ранжыраванне адказаў, напісаных штучным інтэлектам, ад горшага да лепшага (класічны крок RLHF) [1].
Выпраўленне памылак (напрыклад, калі мадэль забывае, што Венера — гэта не Марс).
Перапісванне адказаў чат-бота, каб яны гучалі больш натуральна.
Пазначэнне гор тэксту, малюнкаў або аўдыё — дзе дакладнасць сапраўды мае значэнне [3].
Дыскусія аб тым, ці дастаткова «тэхнічна правільна», ці варта пераважаць рэкамендацыі па бяспецы [2].

Гэта часткова складаная задача, часткова складаная галаваломка. Шчыра кажучы, уявіце, што вы вучыце папугая не толькі гаварыць, але і перастаць выкарыстоўваць словы крыху няправільна — вось у чым заключаецца гэтая атмасфера. 🦜

Чаму трэнажоры значна важнейшыя, чым вы думаеце

Без кіравання людзьмі штучны інтэлект будзе:

Гучыць жорстка і рабатызавана.
Распаўсюджванне прадузятасці бескантрольна (страшная думка).
Зусім не хапае гумару ці эмпатыі.
Будзьце менш бяспечнымі ў далікатных кантэкстах.

Дрэсіроўшчыкі — гэта тыя, хто ўпотай ужывае «брудныя чалавечыя рэчы» — слэнг, цеплыню, часам нязграбныя метафары, — адначасова ўсталёўваючы агароджы, каб забяспечыць бяспеку [2][5].

Навыкі, якія сапраўды маюць значэнне

Забудзьцеся пра міф пра тое, што вам патрэбна ступень доктара філасофіі. Найбольш дапамагае:

Пісьменніцкія + рэдакцыйныя майстэрствы — адшліфаваны, але натуральна гучыць тэкст [1].
Аналітычнае мысленне — выяўленне паўтаральных памылак мадэлі і іх карэкціроўка.
Культурная дасведчанасць — разуменне таго, калі фраза можа быць няправільнай [2].
Цярпенне — бо штучны інтэлект не адразу ўсё разумее.

Бонусныя балы за шматмоўныя навыкі або спецыялізаваную веды.

Дзе з'яўляюцца трэнеры 🌍

Гэтая праца тычыцца не толькі чат-ботаў — яна пранікае ў кожны сектар:

Ахова здароўя — правілы напісання анатацый для памежных выпадкаў (адлюстроўваюцца ў рэкамендацыях па штучным інтэлекце ў галіне аховы здароўя) [2].
Фінансы — навучанне сістэм выяўлення махлярства без утоплення людзей у ілжывых трывогах [2].
Роздрабны гандаль — навучанне памочнікаў пакупнікоў карыстацца слэнгавай тэрміналогіяй, прытрымліваючыся стылю брэнда [5].
Адукацыя — пераўтварэнне ботаў для рэпетытарства ў падбадзёрваючыя, а не паблажлівыя ўчынкі [5].

Па сутнасці: калі ў штучнага інтэлекту ёсць месца за сталом, то на заднім плане хаваецца трэнер.

Этычны момант (гэта нельга прапусціць)

Вось тут і пачынаецца важнасць. Калі не кантраляваць, штучны інтэлект паўтарае стэрэатыпы, дэзынфармацыю ці нешта горшае. Дрэсіроўшчыкі спыняюць гэта, выкарыстоўваючы такія метады, як RLHF або канстытуцыйныя правілы, якія накіроўваюць мадэлі да карысных, бяскрыўдных адказаў [1][5].

Прыклад: калі бот прапануе прадузятыя рэкамендацыі па вакансіях, трэнер пазначае гэта, перапісвае правілы і сочыць за тым, каб гэтага больш не паўтаралася. Гэта і ёсць недагляд у дзеянні [2].

Не вельмі вясёлы бок

Не ўсё так гладка. Дрэсарам даводзіцца займацца:

Манатоннасць - бясконцае навешванне ярлыкоў надакучвае.
Эмацыйная стомленасць — прагляд шкоднага або трывожнага кантэнту можа мець значэнне; сістэмы падтрымкі маюць вырашальнае значэнне [4].
Адсутнасць прызнання - карыстальнікі рэдка ўсведамляюць існаванне трэнераў.
Пастаянныя змены — інструменты развіваюцца бесперапынна, а значыць, трэнерам даводзіцца ісці ў нагу з часам.

Тым не менш, многіх захапляе магчымасць фарміраваць «мазгі» тэхналогій.

Схаваныя MVP штучнага інтэлекту

Дык хто ж такія трэнеры па штучным інтэлекце? Яны з'яўляюцца мастом паміж неапрацаванымі алгарытмамі і сістэмамі, якія сапраўды працуюць для людзей. Без іх штучны інтэлект быў бы падобны на бібліятэку без бібліятэкараў — тоны інфармацыі, але практычна немагчыма ёю карыстацца.

Наступным разам, калі чат-бот прымусіць вас рассмяшыцца або адчуць сябе нечакана «ў гармоніі», падзякуйце трэнеру. Гэта ціхія фігуры, якія прымушаюць машыны не толькі вылічваць, але і злучаць [1][2][5].

Спасылкі

[1] Оуян, Л. і інш. (2022). Навучанне моўных мадэляў выкананню інструкцый з дапамогай зваротнай сувязі ад чалавека (InstructGPT). NeurIPS. Спасылка

[2] NIST (2023). Структура кіравання рызыкамі штучнага інтэлекту (AI RMF 1.0). Спасылка

[3] Норткат, К. і інш. (2021). Паўсюдныя памылкі метак у тэставых наборах дэстабілізуюць бенчмаркі машыннага навучання. NeurIPS Datasets & Benchmarks. Спасылка

[4] СААЗ/МАП (2022). Рэкамендацыі па псіхічным здароўі на працы. Спасылка

[5] Бай, Ю. і інш. (2022). Канстытуцыйны штучны інтэлект: бясшкоднасць ад зваротнай сувязі ад штучнага інтэлекту. arXiv. Спасылка

Знайдзіце найноўшы штучны інтэлект у афіцыйнай краме памочнікаў штучнага інтэлекту

Пра нас

Назад да блога

Краіна/рэгіён