Aigest.
Biznes AI

Nowa warstwa infrastruktury danych internetowych kluczowa dla rozwoju AI

Rozwój sztucznej inteligencji wymaga nowej infrastruktury zdolnej do dostarczania aktualnych danych internetowych w czasie rzeczywistym, aby sprostać dynamicznym potrzebom modeli AI.

RA

Udostępnij
Nowa warstwa infrastruktury danych internetowych kluczowa dla rozwoju AI
Fot. MIT Technology Review

W miarę jak sztuczna inteligencja (AI) nieustannie się rozwija, infrastruktura wspierająca jej działanie musi ewoluować, aby umożliwić dostęp i dostarczanie informacji w czasie rzeczywistym na masową skalę. Nowe zastosowania AI pojawiają się każdego dnia, a przedsiębiorstwa, aby w pełni wykorzystać potencjał tej technologii, potrzebują dostępu do danych w ogromnej skali. Często jednak istotne informacje są zablokowane lub nieustrukturyzowane, co ogranicza ich użycie przez modele AI.

Wyzwania związane z danymi dla AI

Podstawowym wyzwaniem jest fakt, że sieć internetowa nie została zaprojektowana z myślą o automatycznym odkrywaniu i pobieraniu danych, czego wymagają nowoczesne aplikacje AI. Pokonanie tego ograniczenia projektowego wymaga stworzenia nowej infrastruktury. Kolejnym krokiem w rozwoju AI może być właśnie taka nowa warstwa infrastruktury danych internetowych, która umożliwi modelom odkrywanie i mapowanie stale rozwijającej się cyfrowej rzeczywistości. Infrastruktura ta musi być zdolna do nawigowania po setkach milionów istniejących domen internetowych i miliardach nowych adresów URL tworzonych każdego tygodnia, dostarczając informacje w czasie rzeczywistym i pokonując bariery techniczne.

Or Lenchner, dyrektor generalny platformy do zbierania danych internetowych Bright Data, podkreśla: „Dane sugerują, że jest ich znacznie więcej. Pomyśl o wszechświecie: istnieje, ale nie wiesz, czego nie wiesz”. Początkowe przełomy w AI były napędzane skalowaniem danych treningowych i rozmiaru modeli, jednak obecnie organizacje napotykają fundamentalne wąskie gardło: muszą nadążać za dynamicznym, nieustrukturyzowanym i ciągle ewoluującym charakterem danych internetowych, aby ich wyniki były oparte na aktualnych i weryfikowalnych informacjach. Wydajność AI coraz bardziej zależy nie tylko od architektury modelu, ale także od możliwości obliczeniowych, sieciowych, wyszukiwania i inżynierii danych systemu – czyli jego zdolności do szybkiego i niezawodnego pobierania świeżych, trafnych i wiarygodnych danych.

Tradycyjne szkolenie modeli opiera się na migawkach informacji zebranych w określonym momencie. Szkolenie AI na takich statycznych danych jest już niewystarczające. Aby śledzić wahania, takie jak ceny konkurencji, nastroje konsumentów i trendy rynkowe, firmy potrzebują stałego dopływu nowych informacji, pobierając dane w czasie rzeczywistym wraz z odpowiednim kontekstem. Ich infrastruktura musi zatem być w stanie obsłużyć miliony jednoczesnych interakcji na stronach internetowych, które różnią się geografią, językiem, formatem i zasadami dostępu.

„Jeśli nie może pobierać informacji w czasie rzeczywistym, brakuje jej kontekstu” – mówi Lenchner. „W środowisku biznesowym to już niedopuszczalne. Przestarzałe odpowiedzi prowadzą do złych decyzji i rozczarowanych konsumentów”. Szybkość nie jest tylko kwestią wygody; to konieczność. Opóźnione pobieranie danych może zmniejszyć użyteczność nawet najbardziej zaawansowanego modelu. Wykorzystanie aktualnych, wysokiej jakości danych internetowych może również zmniejszyć halucynacje AI, ponieważ model ma bardziej odpowiednią bazę wiedzy, co buduje zaufanie użytkowników. Badanie wykazało, że 56% praktyków AI uważa, że firmy potrzebują dostępu do danych internetowych w czasie rzeczywistym, aby poprawić zaufanie do wyników AI.

Nowe podejścia i wyzwania techniczne

Pomimo wprowadzenia generacji rozszerzonej o wyszukiwanie (RAG), gdzie modele pobierają zewnętrzne dane w momencie zapytania, wiele systemów AI nadal ma trudności z dostarczaniem aktualnych, kontekstowo trafnych i wiarygodnych wyników w środowiskach operacyjnych. Według Gartnera, 60% projektów AI, które nie są wspierane przez dane gotowe do AI – czyli dokładne, ustrukturyzowane, zorganizowane i kontekstualizowane – zostanie porzuconych do końca roku. Dzieje się tak, ponieważ samo wyszukiwanie na dużą skalę nie rozwiązuje problemu. Jak to ujmuje Lenchner: „Musisz pobierać dane na dużą skalę, ale także w czasie rzeczywistym. Opóźnienie staje się problemem ze względu na użytkownika końcowego, który czeka na wynik”.

Dostęp do świeżych, gotowych do AI danych na dużą skalę wprowadza wyzwania techniczne i strukturalne. W praktyce wiele systemów korporacyjnych łączy publiczne wyszukiwanie internetowe z API, licencjonowanymi zbiorami danych i zastrzeżonymi danymi wewnętrznymi w swoich aplikacjach AI. Integracja tych fragmentarycznych źródeł w aktualną i użyteczną warstwę wiedzy wymaga specjalistycznych możliwości. Niektóre badania wykazały, że 97% organizacji AI zależy od infrastruktury danych internetowych w czasie rzeczywistym, ale 90% czuje się ograniczonych różnymi restrykcjami. Firmy coraz częściej opracowują techniczne podejścia do nawigowania po tych ograniczeniach.

Lenchner posługuje się metaforą: „Pomyśl o wytrenowanym modelu jako o inteligencji, a o odpowiednich danych jako o wiedzy. Potężna warstwa inteligencji siedząca na pustej warstwie wiedzy jest jak geniusz, który nic nie wie – bezużyteczny w praktyce. Inteligencja i wiedza muszą się połączyć”. Nowa warstwa infrastruktury danych internetowych może sprostać tej rosnącej potrzebie silniejszych danych wejściowych dla AI, umożliwiając odkrywanie danych, dostęp w czasie rzeczywistym i dostosowywanie do konkretnego kontekstu. Jak opisuje to Lenchner: „Chodzi o zbieranie danych na dużą skalę, z bardzo niskim opóźnieniem, bez blokowania”.

Zamiast polegać na zwiększonej mocy obliczeniowej, tego typu platforma naśladuje ludzkie zachowania przeglądania, aby uzyskać dostęp do dostępnych treści i przekształcić surowy kod w ustrukturyzowane strumienie danych. Może współpracować ze stronami internetowymi, które mogą nie współdziałać z tradycyjnymi narzędziami do skrobania, takimi jak te bogate w JavaScript lub z agresywnym oprogramowaniem antybotowym. Jak wyjaśnia Lenchner: „Chodzi o to, aby mieć infrastrukturę, która może naśladować użytkownika sieci z informacjami identyfikacyjnymi – adresem IP, lokalizacją i 1000 innymi parametrami. I to na dużą skalę. Pomyśl o robieniu tego 80 miliardów razy dziennie dla milionów stron internetowych. I za każdym razem wyglądasz dokładnie tak, jak oczekuje strona internetowa”.

Regulacje i przyszłość infrastruktury danych

Ciągłe pobieranie danych wprowadza nowe wyzwania związane z zarządzaniem danymi. Aby im sprostać, platformy mogą egzekwować surowe protokoły zgodności z globalnymi ramami prywatności, takimi jak Ogólne Rozporządzenie o Ochronie Danych (RODO) Unii Europejskiej i California Consumer Privacy Act (CCPA). Mogą być również ograniczone do publicznie dostępnych informacji, unikając płatnych treści lub prywatnych logowań. W ten sposób systemy mogą być projektowane tak, aby były zgodne z zaostrzającymi się przepisami.

Takie złożone możliwości nie są łatwe do osiągnięcia. „Kiedy jest to krytyczna infrastruktura dla firmy” – mówi Lenchner – „robienie tego we własnym zakresie staje się pełnoetatowym problemem inżynieryjnym, który konkuruje z faktyczną pracą nad AI”. Rozwiązanie tej złożoności wymaga od organizacji zaangażowania znacznych zasobów, co prowadzi wiele z nich do poszukiwania specjalistycznych platform zaprojektowanych specjalnie do pobierania, orkiestracji i obserwacji danych.

Pobieranie danych w czasie rzeczywistym zmienia to, co systemy AI mogą robić w organizacjach. Na przykład firma handlowa może wykorzystywać informacje publiczne do napędzania dynamicznego silnika cenowego, a globalne marki mogą śledzić naruszenia znaków towarowych. W miarę dojrzewania ekosystemu, organizacje, które zainwestują w tę powstającą warstwę infrastruktury danych, będą lepiej przygotowane do budowania systemów AI, które są bardziej responsywne, niezawodne i zgodne z warunkami rzeczywistymi – systemów AI, które mogą stale adaptować się, wykorzystując aktualne dane internetowe. Z czasem rozróżnienie między modelami AI a infrastrukturą, która je zasila, może nawet zacząć zanikać. Jak mówi Lenchner: „Świat się zmienia. I wszystko, co dzieje się na świecie, jest przesyłane do publicznej sieci. Ilość generowanych nowych danych rośnie i przyspiesza”.

Źródło: technologyreview.com

Komentarze

Zaloguj się, aby dołączyć do dyskusji.

Nikt jeszcze nie skomentował. Bądź pierwszy!

Czytaj dalej

Micron na fali wznoszącej: Czy producent pamięci stanie się kolejną Nvidią?
Od chatbota do cyfrowego współpracownika: AI musi kończyć zadania, nie tylko odpowiadać
Masayoshi Son z SoftBanku podważa sens kosmicznych centrów danych Elona Muska
Azjatyckie startupy AI wprowadzają modele podobne do Mythos w obliczu amerykańskiego zakazu eksportu Anthropic
Meta udostępnia Astryx – system projektowania React z interfejsem CLI i serwerem MCP dla agentów AI
Notion zamyka klienta poczty e-mail Notion Mail, stawia na agentów AI

Bądź na bieżąco ze światem AI

Najważniejsze newsy, recenzje i poradniki — raz w tygodniu, prosto na maila. Bez spamu.