Nowa warstwa infrastruktury danych internetowych kluczowa dla rozwoju AI
Rozwój sztucznej inteligencji wymaga nowej infrastruktury zdolnej do dostarczania aktualnych danych internetowych w czasie rzeczywistym, aby sprostać dynamicznym potrzebom modeli AI.

W miarę jak sztuczna inteligencja (AI) nieustannie się rozwija, infrastruktura wspierająca jej działanie musi ewoluować, aby umożliwić dostęp i dostarczanie informacji w czasie rzeczywistym na masową skalę. Nowe zastosowania AI pojawiają się każdego dnia, a przedsiębiorstwa, aby w pełni wykorzystać potencjał tej technologii, potrzebują dostępu do danych w ogromnej skali. Często jednak istotne informacje są zablokowane lub nieustrukturyzowane, co ogranicza ich użycie przez modele AI.
Wyzwania związane z danymi dla AI
Podstawowym wyzwaniem jest fakt, że sieć internetowa nie została zaprojektowana z myślą o automatycznym odkrywaniu i pobieraniu danych, czego wymagają nowoczesne aplikacje AI. Pokonanie tego ograniczenia projektowego wymaga stworzenia nowej infrastruktury. Kolejnym krokiem w rozwoju AI może być właśnie taka nowa warstwa infrastruktury danych internetowych, która umożliwi modelom odkrywanie i mapowanie stale rozwijającej się cyfrowej rzeczywistości. Infrastruktura ta musi być zdolna do nawigowania po setkach milionów istniejących domen internetowych i miliardach nowych adresów URL tworzonych każdego tygodnia, dostarczając informacje w czasie rzeczywistym i pokonując bariery techniczne.
Or Lenchner, dyrektor generalny platformy do zbierania danych internetowych Bright Data, podkreśla: „Dane sugerują, że jest ich znacznie więcej. Pomyśl o wszechświecie: istnieje, ale nie wiesz, czego nie wiesz”. Początkowe przełomy w AI były napędzane skalowaniem danych treningowych i rozmiaru modeli, jednak obecnie organizacje napotykają fundamentalne wąskie gardło: muszą nadążać za dynamicznym, nieustrukturyzowanym i ciągle ewoluującym charakterem danych internetowych, aby ich wyniki były oparte na aktualnych i weryfikowalnych informacjach. Wydajność AI coraz bardziej zależy nie tylko od architektury modelu, ale także od możliwości obliczeniowych, sieciowych, wyszukiwania i inżynierii danych systemu – czyli jego zdolności do szybkiego i niezawodnego pobierania świeżych, trafnych i wiarygodnych danych.
Tradycyjne szkolenie modeli opiera się na migawkach informacji zebranych w określonym momencie. Szkolenie AI na takich statycznych danych jest już niewystarczające. Aby śledzić wahania, takie jak ceny konkurencji, nastroje konsumentów i trendy rynkowe, firmy potrzebują stałego dopływu nowych informacji, pobierając dane w czasie rzeczywistym wraz z odpowiednim kontekstem. Ich infrastruktura musi zatem być w stanie obsłużyć miliony jednoczesnych interakcji na stronach internetowych, które różnią się geografią, językiem, formatem i zasadami dostępu.
„Jeśli nie może pobierać informacji w czasie rzeczywistym, brakuje jej kontekstu” – mówi Lenchner. „W środowisku biznesowym to już niedopuszczalne. Przestarzałe odpowiedzi prowadzą do złych decyzji i rozczarowanych konsumentów”. Szybkość nie jest tylko kwestią wygody; to konieczność. Opóźnione pobieranie danych może zmniejszyć użyteczność nawet najbardziej zaawansowanego modelu. Wykorzystanie aktualnych, wysokiej jakości danych internetowych może również zmniejszyć halucynacje AI, ponieważ model ma bardziej odpowiednią bazę wiedzy, co buduje zaufanie użytkowników. Badanie wykazało, że 56% praktyków AI uważa, że firmy potrzebują dostępu do danych internetowych w czasie rzeczywistym, aby poprawić zaufanie do wyników AI.
Nowe podejścia i wyzwania techniczne
Pomimo wprowadzenia generacji rozszerzonej o wyszukiwanie (RAG), gdzie modele pobierają zewnętrzne dane w momencie zapytania, wiele systemów AI nadal ma trudności z dostarczaniem aktualnych, kontekstowo trafnych i wiarygodnych wyników w środowiskach operacyjnych. Według Gartnera, 60% projektów AI, które nie są wspierane przez dane gotowe do AI – czyli dokładne, ustrukturyzowane, zorganizowane i kontekstualizowane – zostanie porzuconych do końca roku. Dzieje się tak, ponieważ samo wyszukiwanie na dużą skalę nie rozwiązuje problemu. Jak to ujmuje Lenchner: „Musisz pobierać dane na dużą skalę, ale także w czasie rzeczywistym. Opóźnienie staje się problemem ze względu na użytkownika końcowego, który czeka na wynik”.
Dostęp do świeżych, gotowych do AI danych na dużą skalę wprowadza wyzwania techniczne i strukturalne. W praktyce wiele systemów korporacyjnych łączy publiczne wyszukiwanie internetowe z API, licencjonowanymi zbiorami danych i zastrzeżonymi danymi wewnętrznymi w swoich aplikacjach AI. Integracja tych fragmentarycznych źródeł w aktualną i użyteczną warstwę wiedzy wymaga specjalistycznych możliwości. Niektóre badania wykazały, że 97% organizacji AI zależy od infrastruktury danych internetowych w czasie rzeczywistym, ale 90% czuje się ograniczonych różnymi restrykcjami. Firmy coraz częściej opracowują techniczne podejścia do nawigowania po tych ograniczeniach.
Lenchner posługuje się metaforą: „Pomyśl o wytrenowanym modelu jako o inteligencji, a o odpowiednich danych jako o wiedzy. Potężna warstwa inteligencji siedząca na pustej warstwie wiedzy jest jak geniusz, który nic nie wie – bezużyteczny w praktyce. Inteligencja i wiedza muszą się połączyć”. Nowa warstwa infrastruktury danych internetowych może sprostać tej rosnącej potrzebie silniejszych danych wejściowych dla AI, umożliwiając odkrywanie danych, dostęp w czasie rzeczywistym i dostosowywanie do konkretnego kontekstu. Jak opisuje to Lenchner: „Chodzi o zbieranie danych na dużą skalę, z bardzo niskim opóźnieniem, bez blokowania”.
Zamiast polegać na zwiększonej mocy obliczeniowej, tego typu platforma naśladuje ludzkie zachowania przeglądania, aby uzyskać dostęp do dostępnych treści i przekształcić surowy kod w ustrukturyzowane strumienie danych. Może współpracować ze stronami internetowymi, które mogą nie współdziałać z tradycyjnymi narzędziami do skrobania, takimi jak te bogate w JavaScript lub z agresywnym oprogramowaniem antybotowym. Jak wyjaśnia Lenchner: „Chodzi o to, aby mieć infrastrukturę, która może naśladować użytkownika sieci z informacjami identyfikacyjnymi – adresem IP, lokalizacją i 1000 innymi parametrami. I to na dużą skalę. Pomyśl o robieniu tego 80 miliardów razy dziennie dla milionów stron internetowych. I za każdym razem wyglądasz dokładnie tak, jak oczekuje strona internetowa”.
Regulacje i przyszłość infrastruktury danych
Ciągłe pobieranie danych wprowadza nowe wyzwania związane z zarządzaniem danymi. Aby im sprostać, platformy mogą egzekwować surowe protokoły zgodności z globalnymi ramami prywatności, takimi jak Ogólne Rozporządzenie o Ochronie Danych (RODO) Unii Europejskiej i California Consumer Privacy Act (CCPA). Mogą być również ograniczone do publicznie dostępnych informacji, unikając płatnych treści lub prywatnych logowań. W ten sposób systemy mogą być projektowane tak, aby były zgodne z zaostrzającymi się przepisami.
Takie złożone możliwości nie są łatwe do osiągnięcia. „Kiedy jest to krytyczna infrastruktura dla firmy” – mówi Lenchner – „robienie tego we własnym zakresie staje się pełnoetatowym problemem inżynieryjnym, który konkuruje z faktyczną pracą nad AI”. Rozwiązanie tej złożoności wymaga od organizacji zaangażowania znacznych zasobów, co prowadzi wiele z nich do poszukiwania specjalistycznych platform zaprojektowanych specjalnie do pobierania, orkiestracji i obserwacji danych.
Pobieranie danych w czasie rzeczywistym zmienia to, co systemy AI mogą robić w organizacjach. Na przykład firma handlowa może wykorzystywać informacje publiczne do napędzania dynamicznego silnika cenowego, a globalne marki mogą śledzić naruszenia znaków towarowych. W miarę dojrzewania ekosystemu, organizacje, które zainwestują w tę powstającą warstwę infrastruktury danych, będą lepiej przygotowane do budowania systemów AI, które są bardziej responsywne, niezawodne i zgodne z warunkami rzeczywistymi – systemów AI, które mogą stale adaptować się, wykorzystując aktualne dane internetowe. Z czasem rozróżnienie między modelami AI a infrastrukturą, która je zasila, może nawet zacząć zanikać. Jak mówi Lenchner: „Świat się zmienia. I wszystko, co dzieje się na świecie, jest przesyłane do publicznej sieci. Ilość generowanych nowych danych rośnie i przyspiesza”.
Źródło: technologyreview.com
Komentarze
Zaloguj się, aby dołączyć do dyskusji.
Nikt jeszcze nie skomentował. Bądź pierwszy!
Czytaj dalej

Micron na fali wznoszącej: Czy producent pamięci stanie się kolejną Nvidią?
Amerykański producent chipów pamięci, Micron, zyskuje na wartości, a analitycy z Wall Street upatrują w nim potencjalnego następcę sukcesu Nvidii, napędzanego rosnącym popytem na pamięć w erze sztucznej inteligencji.
Redakcja Aigest18 godz. temu

Od chatbota do cyfrowego współpracownika: AI musi kończyć zadania, nie tylko odpowiadać
Systemy AI staną się niezawodnymi współpracownikami, gdy zaczną realizować całe zadania w trwałych środowiskach pracy, zamiast jedynie generować odpowiedzi. Klucz tkwi w ponownym wykorzystywaniu „umiejętności”.
Redakcja Aigest20 godz. temu

Masayoshi Son z SoftBanku podważa sens kosmicznych centrów danych Elona Muska
Prezes SoftBanku, Masayoshi Son, wyraził sceptycyzm wobec wizji Elona Muska dotyczącej orbitalnych centrów danych, wskazując na wysokie koszty i długi czas realizacji, co może opóźnić rozwój AI.
Redakcja Aigestwczoraj

Azjatyckie startupy AI wprowadzają modele podobne do Mythos w obliczu amerykańskiego zakazu eksportu Anthropic
W odpowiedzi na zakaz eksportu modeli AI Anthropic przez administrację USA, azjatyckie startupy, takie jak chińskie 360 i japońskie Sakana AI, wprowadzają na rynek własne zaawansowane rozwiązania.
Redakcja Aigestwczoraj

Meta udostępnia Astryx – system projektowania React z interfejsem CLI i serwerem MCP dla agentów AI
Meta wprowadziła Astryx, otwarty system projektowania oparty na React i StyleX, który wyróżnia się zdolnością do interakcji z agentami AI dzięki interfejsowi CLI i serwerowi MCP.
Redakcja Aigest2 dni temu

Notion zamyka klienta poczty e-mail Notion Mail, stawia na agentów AI
Notion ogłosiło zamknięcie swojego klienta poczty e-mail Notion Mail, który powstał na bazie przejętego Skiffa. Firma tłumaczy decyzję rosnącą popularnością agentów AI w zarządzaniu skrzynkami odbiorczymi.
Redakcja Aigest3 dni temu
Bądź na bieżąco ze światem AI
Najważniejsze newsy, recenzje i poradniki — raz w tygodniu, prosto na maila. Bez spamu.