Сховішча аб'ектаў для штучнага інтэлекту: выбар, выбар і яшчэ раз выбар

Калі большасць людзей чуе слова «штучны інтэлект», яны ўяўляюць сабе нейронныя сеткі, мудрагелістыя алгарытмы ці, магчыма, трохі дзіўных гуманоідных робатаў. Але рэдка адразу згадваецца наступнае: штучны інтэлект спажывае месца амаль гэтак жа прагна, як і вылічвае . І не проста якое-небудзь сховішча аб'ектаў ціха сядзіць у фонавым рэжыме, выконваючы непрыкметную, але абсалютна неабходную працу па забеспячэнні мадэляў неабходнымі дадзенымі.

Давайце разгледзім, што робіць захоўванне аб'ектаў такім важным для штучнага інтэлекту, чым яно адрозніваецца ад «старой гвардыі» сістэм захоўвання дадзеных і чаму яно ў выніку становіцца адным з ключавых рычагоў маштабаванасці і прадукцыйнасці.

Артыкулы, якія вам могуць спадабацца пасля гэтага:

🔗 Якія тэхналогіі павінны быць укаранёныя для выкарыстання маштабнага генератыўнага штучнага інтэлекту для бізнесу
Ключавыя тэхналогіі, неабходныя бізнесу для эфектыўнага маштабавання генератыўнага штучнага інтэлекту.

🔗 Кіраванне дадзенымі для інструментаў штучнага інтэлекту, на якія варта звярнуць увагу
Найлепшыя практыкі апрацоўкі дадзеных для аптымізацыі прадукцыйнасці штучнага інтэлекту.

🔗 Уплыў штучнага інтэлекту на бізнес-стратэгію
Як штучны інтэлект уплывае на бізнес-стратэгіі і прыняцце доўгатэрміновых рашэнняў.

Што робіць захоўванне аб'ектаў прыдатным для штучнага інтэлекту? 🌟

Галоўная ідэя: захоўванне аб'ектаў не патрабуе тэчак або жорсткіх блокавых макетаў. Яно падзяляе дадзеныя на «аб'екты», кожны з якіх пазначаны метададзенымі. Гэтыя метададзеныя могуць быць элементамі сістэмнага ўзроўню (памер, часовыя меткі, клас захоўвання) і вызначанымі карыстальнікам тэгамі ключ:значэнне [1]. Уявіце сабе гэта як кожны файл, які змяшчае стос стыкераў, якія дакладна паведамляюць, што ён сабой уяўляе, як ён быў створаны і дзе ён знаходзіцца ў вашым канвееры.

Для каманд, якія выкарыстоўваюць штучны інтэлект, такая гнуткасць змяняе правілы гульні:

Маштабаванне без галечы — азёры дадзеных расцягваюцца на петабайты, і сховішчы аб'ектаў лёгка з гэтым спраўляюцца. Яны прызначаны для практычна неабмежаванага росту і ўстойлівасці да ўздзеяння некалькіх зон доступу (Amazon S3 па змаўчанні хваліцца «11 дзявяткамі» і міжзонавай рэплікацыяй) [2].
Багацце метададзеных — хутчэйшы пошук, больш чыстыя фільтры і больш разумныя канвееры, паколькі кантэкст змяняецца разам з кожным аб'ектам [1].
Воблачна-арыентаваны — даныя паступаюць праз HTTP(S), што азначае, што вы можаце паралелізаваць выцягванні і падтрымліваць размеркаванае навучанне.
Убудаваная ўстойлівасць — калі вы трэніруецеся некалькі дзён, вы не можаце рызыкаваць, што пашкоджаны шард знішчыць эпоху 12. Сховішча аб'ектаў пазбягае гэтага па задуме [2].

Гэта, па сутнасці, бяздонны заплечнік: унутры, магчыма, брудна, але ўсё роўна можна дастаць, калі да яго дацягнуцца.

Кароткая параўнальная табліца для захоўвання аб'ектаў штучнага інтэлекту 🗂️

Інструмент / Паслуга	Найлепшы для (аўдыторыі)	Дыяпазон цэн	Чаму гэта працуе (нататкі на палях)
Амазон S3	Прадпрыемствы + Каманды, арыентаваныя на воблака	Аплата па меры выкарыстання	Надзвычай трывалы, рэгіянальна ўстойлівы [2]
Воблачнае сховішча Google	Спецыялісты па апрацоўцы дадзеных і распрацоўшчыкі машыннага навучання	Гнуткія ўзроўні	Моцная інтэграцыя з машынным навучаннем, цалкам воблачная адаптацыя
Сховішча BLOB-файлаў Azure	Крамы з вялікай колькасцю Microsoft	Шмат'яруснае (гарачае/халоднае)	Беспраблемная праца з інструментамі машыннага навучання і даных Azure
МінІВ	Адкрыты зыходны код / самастойная ўстаноўка	Бясплатна/самастойны хостынг	Сумяшчальны з S3, лёгкі, можна разгарнуць дзе заўгодна 🚀
Гарачае воблака васабі	Арганізацыі, адчувальныя да выдаткаў	Фіксаваная стаўка па нізкай цане $	Няма платы за выхад або запыты API (згодна з палітыкай) [3]
IBM Cloud Object Storage	Буйныя прадпрыемствы	Змяняецца	Дасведчаны стэк з надзейнымі карпаратыўнымі параметрамі бяспекі

Заўсёды правярайце цану на адпаведнасць рэальным умовам выкарыстання, асабліва ў залежнасці ад выходнага трафіку, аб'ёму запытаў і спалучэння класаў захоўвання дадзеных.

Чаму навучанне штучнаму інтэлекту любіць захоўванне аб'ектаў 🧠

Навучанне — гэта не «некалькі файлаў». Гэта мільёны і мільёны запісаў, якія апрацоўваюцца паралельна. Іерархічныя файлавыя сістэмы не паддаюцца высокай хуткасці паралельнай працы. Аб'ектнае захоўванне дазваляе пазбегнуць гэтага з дапамогай плоскіх прастор імёнаў і зразумелых API. Кожны аб'ект мае унікальны ключ; рабочыя працэсары размяркоўваюцца і выбіраюцца паралельна. Шаржаваныя наборы дадзеных + паралельны ўвод/вывад = графічныя працэсары застаюцца занятымі, а не чакаюць.

Парада з практыкі: трымайце актыўныя шарды паблізу вылічальнага кластара (у тым жа рэгіёне або зоне) і актыўна кешуйце на SSD. Калі вам патрэбна амаль прамая падача дадзеных на відэакарты, NVIDIA GPUDirect Storage — яна скарачае буферы адскоку працэсара, памяншае затрымку і павялічвае прапускную здольнасць непасрэдна да паскаральнікаў [4].

Метададзеныя: Недаацэненая звышздольнасць 🪄

Вось тут і праяўляецца аб'ектнае сховішча, але не зусім відавочна. Пры загрузцы можна дадаваць уласныя метададзеныя (напрыклад, x-amz-meta-… для S3). Напрыклад, набор даных бачання можа пазначаць выявы тэгамі lighting=low або blur=high . Гэта дазваляе канвеерам фільтраваць, балансаваць або стратыфікаваць без паўторнага сканавання неапрацаваных файлаў [1].

А яшчэ ёсць кіраванне версіямі . У многіх сховішчах аб'ектаў побач захоўваецца некалькі версій аб'екта — ідэальна падыходзіць для ўзнаўляльных эксперыментаў або палітык кіравання, якія патрабуюць адкату [5].

Аб'ект супраць блока супраць файлаў ⚔️

Блочнае сховішча : выдатна падыходзіць для транзакцыйных баз дадзеных — хуткае і дакладнае, — але занадта дорага для неструктураваных дадзеных памерам з петабайт.
Захоўванне файлаў : знаёмае, POSIX-спрыяльнае, але каталогі захлынаюцца пры масіўных паралельных нагрузках.
Аб'ектнае захоўванне : распрацавана з нуля для маштабавання, паралелізму і доступу на аснове метададзеных [1].

Калі вам патрэбна нязграбная метафара: блокавае сховішча — гэта шафа для дакументаў, файлавае сховішча — гэта тэчка на працоўным стале, а аб'ектнае сховішча — гэта… бяздонная яма з нататкамі, якія нейкім чынам робяць яго прыдатным для выкарыстання.

Гібрыдныя працоўныя працэсы штучнага інтэлекту 🔀

Гэта не заўсёды толькі воблака. Звычайная камбінацыя выглядае наступным чынам:

Лакальнае аб'ектнае сховішча (MinIO, Dell ECS) для канфідэнцыйных або рэгуляваных дадзеных.
Воблачнае сховішча аб'ектаў для імклівых нагрузак, эксперыментаў або сумеснай працы.

Гэты баланс уплывае на кошт, адпаведнасць патрабаванням і спрытнасць. Я бачыў, як каманды літаральна за адну ноч скідаюць тэрабайты ў вядро S3, каб толькі запусціць часовы кластар графічных працэсараў, а потым цалкам знішчаюць яго пасля завяршэння спрынта. Для менш жорсткіх бюджэтаў мадэль Wasabi з фіксаванай стаўкай/без выхаду [3] спрашчае прагназаванне.

Частка, якой ніхто не хваліцца 😅

Праверка рэальнасці: гэта не бездакорна.

Затрымка — калі размясціць вылічэнні і сховішчы занадта далёка адно ад аднаго, вашы відэакарты будуць павольна працаваць. GDS дапамагае, але архітэктура ўсё яшчэ мае значэнне [4].
Нечаканыя выдаткі — плата за выхадны доступ і запыты API непазбежна ўзнікае. Некаторыя пастаўшчыкі адмаўляюцца ад яе (Wasabi робіць, іншыя не) [3].
Хаос метададзеных у вялікіх маштабах — хто вызначае «праўду» ў тэгах і версіях? Вам спатрэбяцца кантракты, палітыкі і некаторыя кіраўніцкія сілы [5].

Захоўванне аб'ектаў — гэта інфраструктурная сантэхніка: важная, але не гламурная.

Куды яно рухаецца 🚀

Больш разумнае сховішча з падтрымкай штучнага інтэлекту , якое аўтаматычна пазначае і прадстаўляе дадзеныя праз SQL-падобныя ўзроўні запытаў [1].
Больш цесная інтэграцыя абсталявання (шляхі DMA, разгрузка сеткавай карты), каб відэакарты не адчувалі недахопу ўводу/вываду [4].
Празрыстае, прадказальнае цэнаўтварэнне (спрошчаныя мадэлі, адмена платы за ўваход) [3].

Людзі кажуць пра вылічэнні як пра будучыню штучнага інтэлекту. Але рэалістычна? Вузкае месца ў значнай ступені звязана з хуткім уводам дадзеных у мадэлі без спусташэння бюджэту . Вось чаму роля аб'ектнага сховішча толькі расце.

Падвядзенне вынікаў 📝

Аб'ектнае захоўванне — гэта не яркая ідэя, але яно мае фундаментальнае значэнне. Без маштабуемага, устойлівага да метададзеных сховішча навучанне вялікіх мадэляў падобна на марафон у сандалях.

Так, відэакарты маюць значэнне, фрэймворкі маюць значэнне. Але калі вы сур'ёзна ставіцеся да штучнага інтэлекту, не ігнаруйце месца, дзе захоўваюцца вашы дадзеныя . Хутчэй за ўсё, аб'ектнае сховішча ўжо ціха стрымлівае ўсю аперацыю.

Спасылкі

[1] AWS S3 – Метададзеныя аб'ектаў - сістэмныя і карыстальніцкія метададзеныя
https://docs.aws.amazon.com/AmazonS3/latest/userguide/UsingMetadata.html

[2] AWS S3 – Класы захоўвання дадзеных — даўгавечнасць («11 дзявятак») + устойлівасць
https://aws.amazon.com/s3/storage-classes/

[3] Wasabi Hot Cloud – Цэны - фіксаваная стаўка, без платы за выхад/API
https://wasabi.com/pricing

[4] NVIDIA GPUDirect Storage – Дакументацыя - Шляхі DMA да графічных працэсараў
https://docs.nvidia.com/gpudirect-storage/

[5] AWS S3 – Версійны кантроль — некалькі версій для кіравання/ўзнаўляльнасці
https://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html