адкуль штучны інтэлект атрымлівае інфармацыю

Адкуль штучны інтэлект атрымлівае інфармацыю?

Вы калі-небудзь сядзелі і чухалі патыліцу, думаючы… адкуль гэта ўсё насамрэч бярэцца ? Я маю на ўвазе, што штучны інтэлект не рыецца ў пыльных бібліятэчных стэлажах і не глядзіць кароткаметражкі на YouTube. І ўсё ж ён неяк выдае адказы на ўсё — ад лайфхакаў з лажанню да фізікі чорных дзірак — быццам унутры ёсць нейкая бяздонная шафа для дакументаў. Рэальнасць больш дзіўная і, магчыма, больш цікавая, чым вы думаеце. Давайце трохі разбярэмся ў гэтым (і, магчыма, развенчаем пару міфаў).


Гэта чараўніцтва? 🌐

Гэта не чараўніцтва, хоць часам здаецца менавіта так. Тое, што адбываецца «пад капотам», — гэта ў асноўным прагназаванне шаблонаў . Мадэлі вялікіх моў (LLM) не захоўваюць факты так, як ваш мозг трымаецца за рэцэпт печыва вашай бабулі; замест гэтага яны навучаны адгадваць наступнае слова (лексему) на аснове таго, што было папярэдняе [2]. На практыцы гэта азначае, што яны трымаюцца за сувязі: якія словы злучаюцца разам, як звычайна фармуюцца сказы, як цэлыя ідэі будуюцца, як рыштаванні. Вось чаму вынік гучыць правільна, хоць — шчыра кажучы — гэта статыстычная мімікрыя, а не разуменне [4].

Дык што ж насамрэч робіць інфармацыю, згенераваную штучным інтэлектам, карыснай ? Вось некалькі рэчаў:

  • Разнастайнасць дадзеных — атрыманне з незлічоных крыніц, а не з аднаго вузкага патоку.

  • Абнаўленні - без цыклаў абнаўлення хутка састарэе.

  • Фільтраванне — ідэальна лавіць смецце, перш чым яно прасачыцца (хаця, будзем шчырымі, у гэтай сетцы ёсць дзіркі).

  • Перакрыжаваная праверка — абапіраючыся на аўтарытэтныя крыніцы (напрыклад, НАСА, СААЗ, буйныя ўніверсітэты), што з'яўляецца абавязковым элементам большасці кіраўніцтваў па кіраванні штучным інтэлектам [3].

Тым не менш, часам яно выдумляе — упэўнена. Гэтыя так званыя галюцынацыі ? Па сутнасці, адшліфаваная лухта, прамоўленая з сур'ёзным выразам твару [2][3].

Артыкулы, якія вам могуць спадабацца пасля гэтага:

🔗 Ці можа штучны інтэлект прадказаць лічбы латарэі
Даследаванне міфаў і фактаў пра прагнозы латарэі з дапамогай штучнага інтэлекту.

🔗 Што азначае выкарыстоўваць комплексны падыход да штучнага інтэлекту
Разуменне штучнага інтэлекту з улікам збалансаваных поглядаў на этыку і ўплыў.

🔗 Што Біблія кажа пра штучны інтэлект
Вывучэнне біблейскіх поглядаў на тэхналогіі і стварэнне чалавека.


Кароткае параўнанне: адкуль бярэцца штучны інтэлект 📊

Не ўсе крыніцы аднолькавыя, але кожная адыгрывае сваю ролю. Вось кароткі агляд.

Тып крыніцы Хто гэтым карыстаецца (ШІ) Кошт/каштоўнасць Чаму гэта працуе (ці не...)
Кнігі і артыкулы Вялікія моўныя мадэлі Бясцэнны (прыкладна) Шчыльныя, структураваныя веды — проста хутка старэюць.
Вэб-сайты і блогі Амаль усе штучныя інтэлекты Бясплатна (з шумам) Дзікая разнастайнасць; сумесь бліскучасці і абсалютнага смецця.
Акадэмічныя працы Штучны інтэлект, які патрабуе шмат даследаванняў Часам платны доступ Строгасць + праўдападобнасць, але сфармулявана ў цяжкім жаргоне.
Дадзеныя карыстальніка Персаналізаваныя штучныя інтэлекты Вельмі адчувальны ⚠️ Вытанчаны крой, але праблемы з прыватнасцю вельмі сур'ёзныя.
Інтэрнэт у рэжыме рэальнага часу Штучны інтэлект, звязаны з пошукам Бясплатна (калі ёсць доступ онлайн) Захоўвае актуальнасць інфармацыі; недахопам з'яўляецца рызыка распаўсюджвання чутак.

Сусвет навучальных дадзеных 🌌

Гэта этап «навучання ў дзяцінстве». Уявіце, што вы даяце дзіцяці мільёны кніжак з казкамі, выразак з навін і трусіных нор Вікіпедыі адначасова. Вось як выглядае папярэдняе навучанне. У рэальным свеце пастаўшчыкі аб'ядноўваюць агульнадаступныя дадзеныя, ліцэнзаваныя крыніцы і тэкст, згенераваны трэнерам [2].

Зверху: падабраныя прыклады людзей — добрыя адказы, дрэнныя адказы, падштуршкі ў правільным кірунку — яшчэ да таго, як пачнецца падмацаванне [1].

Папярэджанне аб празрыстасці: кампаніі не раскрываюць усе падрабязнасці. Некаторыя абмежаванні заключаюцца ў сакрэтнасці (інтэлектуальная ўласнасць, меркаванні бяспекі), таму вы атрымліваеце толькі частковае ўяўленне аб рэальнай сітуацыі [2].


Пошук у рэжыме рэальнага часу: Дадатковы топінг 🍒

Некаторыя мадэлі цяпер могуць зазірнуць за межы сваёй навучальнай бурбалкі. Гэта называецца генерацыяй з дапоўненым пошукам (RAG) — па сутнасці, выцягванне фрагментаў з жывога індэкса або сховішча дакументаў, а затым уключэнне іх у адказ [5]. Ідэальна падыходзіць для хутка зменлівых рэчаў, такіх як загалоўкі навін або цэны на акцыі.

У чым праблема? Інтэрнэт — гэта адначасова і геніяльнасць, і смецце. Калі фільтры або праверкі паходжання слабыя, вы рызыкуеце, што непатрэбныя дадзеныя зноў пракрадуцца ўнутр — менавіта пра гэта папярэджваюць сістэмы ацэнкі рызык [3].

Распаўсюджаны спосаб вырашэння праблемы: кампаніі падключаюць мадэлі да сваіх унутраных баз дадзеных, таму ў адказах спасылаюцца на бягучую палітыку кіравання персаналам або абноўленую дакументацыю па прадукце, а не на крытыку. Падумайце: менш момантаў «о-о», больш надзейных адказаў.


Даводка: этап паліроўкі штучнага інтэлекту 🧪

Неапрацаваныя папярэдне навучаныя мадэлі нязграбныя. Таму іх трэба ўдасканаліць :

  • Навучыць іх быць карыснымі, бяскрыўднымі, сумленнымі (праз навучанне з падмацаваннем ад зваротнай сувязі чалавека, RLHF) [1].

  • Шліфоўка небяспечных або таксічных краёў (выраўноўванне) [1].

  • Карэкціруючы тон — няхай гэта будзе прыязны, фармальны ці жартаўліва-саркастычны.

Гэта не столькі паліроўка дыямента, колькі стварэнне статыстычнай лавіны, каб паводзіць сябе больш як суразмоўца.


Няўдачы і няўдачы 🚧

Не будзем рабіць выгляд, што гэта бездакорна:

  • Галюцынацыі — выразныя адказы, якія цалкам памылковыя [2][3].

  • Зрушэнне — яно адлюстроўвае заканамернасці, убудаваныя ў дадзеныя; можа нават узмацняць іх, калі не кантраляваць [3][4].

  • Няма ўласнага досведу — можа расказваць пра рэцэпты супаў, але ніколі не спрабавала іх [4].

  • Залішняя ўпэўненасць — тэкст ідзе так, быццам ведае, нават калі гэта не так. Структуры рызык падкрэсліваюць важнасць выяўлення здагадак [3].


Чаму адчуваецца, быццам я ведаю 🧠

У яго няма перакананняў, няма памяці ў чалавечым сэнсе і, безумоўна, няма ўласнага «я». Але, паколькі ён гладка звязвае сказы, ваш мозг чытае гэта так, быццам разумее . Тое, што адбываецца, — гэта проста маштабнае прагназаванне наступнага жэтона : апрацоўка трыльёнаў верагоднасцей за долі секунды [2].

Эфект «інтэлекту» — гэта эмерджэнтная паводзінная атмасфера, якую даследчыкі злёгку жартам называюць «стахастычнага папугая» [4].


Аналогія для дзяцей 🎨

Уявіце сабе папугая, які прачытаў усе кнігі ў бібліятэцы. Ён не разумее гісторый, але можа пераблытаць словы, каб яны здаліся яму мудрымі. Часам гэта ідэальна, часам гэта глупства, але пры дастатковай кемлівасці не заўсёды можна адрозніць.


Падсумоўваючы: адкуль бярэцца інфармацыя ў штучнага інтэлекту 📌

Простай мовай:

  • Масіўныя аб'ёмы дадзеных для навучання (публічныя + ліцэнзаваныя + згенераваныя трэнерам) [2].

  • Дакладная налада з улікам зваротнай сувязі чалавека для фарміравання тону/паводзін [1].

  • Сістэмы пошуку дадзеных пры падключэнні да жывых патокаў дадзеных [5].

Штучны інтэлект нічога не «ведае» — ён прадказвае тэкст . Гэта і яго суперздольнасць, і ахілесава пята. Суць? Заўсёды правярайце важную інфармацыю з надзейнай крыніцай [3].


Спасылкі

  1. Оуян, Л. і інш. (2022). Навучанне моўных мадэляў выкананню інструкцый з зваротнай сувяззю ад чалавека (InstructGPT) . arXiv .

  2. OpenAI (2023). Тэхнічная справаздача GPT-4 — спалучэнне ліцэнзаваных, публічных і створаных чалавекам дадзеных; мэта і абмежаванні прагназавання наступнага токена. arXiv .

  3. NIST (2023). Структура кіравання рызыкамі штучнага інтэлекту (AI RMF 1.0) — паходжанне, надзейнасць і кантроль рызык. PDF .

  4. Бендэр, Э. М., Гебру, Т., Макмілан-Мэйджор, А., Мітчэл, С. (2021). Пра небяспеку стахастычных папугаяў: ці могуць моўныя мадэлі быць занадта вялікімі? PDF .

  5. Льюіс, П. і інш. (2020). Генерацыя з дапоўненым пошукам дадзеных для інтэнсіўнага НЛП . arXiv .


Знайдзіце найноўшы штучны інтэлект у афіцыйнай краме памочнікаў штучнага інтэлекту

Пра нас

Назад да блога