Aigest.
Narzędzia AI

Gemini 3.5 Live Translate: Tłumaczenie mowy w czasie rzeczywistym w ponad 70 językach

Google wprowadza Gemini 3.5 Live Translate, nowy model audio umożliwiający płynne tłumaczenie mowy na mowę w czasie zbliżonym do rzeczywistego, obsługujący ponad 70 języków.

RA

Udostępnij
Gemini 3.5 Live Translate: Tłumaczenie mowy w czasie rzeczywistym w ponad 70 językach
Fot. Google DeepMind

Google ogłosiło premierę Gemini 3.5 Live Translate, najnowszego modelu audio, który umożliwia tłumaczenie mowy na mowę w czasie zbliżonym do rzeczywistego, obsługując ponad 70 języków. Rozwiązanie to ma na celu zrewolucjonizowanie komunikacji międzyjęzykowej, oferując płynne i naturalnie brzmiące tłumaczenia.

Ewolucja tłumaczeń w Google

Początki tłumaczeń w Google sięgają dwudziestu lat wstecz, kiedy to eksperymenty z uczeniem maszynowym miały przekształcić naukę o języku w narzędzie do łączenia ludzi. Od tego czasu technologia ta przeszła długą drogę, a obecnie ponad bilion słów jest tłumaczonych każdego miesiąca dla miliardów użytkowników w różnych produktach Google.

Gemini 3.5 Live Translate stanowi kolejny krok w tej ewolucji. Model automatycznie wykrywa ponad 70 języków i generuje płynną, naturalnie brzmiącą mowę, zachowując intonację, tempo i wysokość głosu mówcy. W przeciwieństwie do systemów, które czekają na zakończenie wypowiedzi, zanim udzielą odpowiedzi, 3.5 Live Translate generuje mowę w sposób ciągły. Balansuje on między oczekiwaniem na kontekst w celu poprawy jakości a natychmiastowym tłumaczeniem, aby pozostać w synchronizacji z mówcą. Dzięki temu dostarcza płynny dźwięk bez niezręcznych przerw, pozostając zaledwie kilka sekund za mówcą przez całą sesję.

Zastosowania i integracje

Gemini 3.5 Live Translate jest wdrażany w produktach Google, przetwarzając mowę w miarę jej strumieniowania, co zapewnia bardziej płynne połączenie między językami. Model radzi sobie z wielojęzycznymi danymi wejściowymi bez konieczności ręcznej konfiguracji ustawień. Jego odporność na hałas gwarantuje, że aplikacje mogą działać w głośnych, nieprzewidywalnych środowiskach. Możliwości te mogą być wykorzystywane do ułatwiania tłumaczeń symultanicznych podczas rozmów, spotkań, lekcji czy transmisji.

Wykorzystując Gemini Live API, platformy deweloperskie takie jak Agora, Fishjam, LiveKit, Pipecat i Vision Agents umożliwiają programistom łatwe tworzenie i wdrażanie aplikacji do tłumaczenia głosu. Integracje te zajmują się złożoną infrastrukturą strumieniowania mediów w czasie rzeczywistym, dzięki czemu deweloperzy mogą skupić się na doświadczeniach użytkownika.

Partnerzy, tacy jak Grab, testują model, aby umożliwić wielojęzyczną komunikację w czasie zbliżonym do rzeczywistego między kierowcami a pasażerami podczas odbioru. Użytkownicy Grab wykonują ponad 10 milionów połączeń głosowych miesięcznie. Firmy takie jak CJ ENM i LiveKit również wyraziły pozytywne opinie na temat 3.5 Live Translate, podkreślając jego imponującą jakość tłumaczenia, dokładność i niskie opóźnienia.

Wdrożenie w produktach Google

Tłumaczenie mowy w Google Meet wkrótce będzie wykorzystywać 3.5 Live Translate, poprawiając doświadczenie użytkownika poprzez:

  • Płynniejsze tłumaczenie z zachowaniem intonacji mówcy.
  • Szybsze tłumaczenie z mniejszymi opóźnieniami.
  • Lepszą obsługę hałasu w tle.

Aktualizacja ta jest wprowadzana w prywatnej wersji testowej dla wybranych klientów biznesowych Google Workspace, a szersze wdrożenie nastąpi jeszcze w tym roku.

Model jest również udostępniany globalnie w aplikacji Google Translate na systemach Android i iOS. Użytkownicy mogą podłączyć dowolne słuchawki, aby doświadczyć płynniejszego tłumaczenia, które odzwierciedla ton mówcy w ponad 70 językach.

Dla użytkowników Androida wprowadzany jest również nowy „tryb słuchania” z 3.5 Live Translate, który pozwala słuchać tłumaczeń bezpośrednio przez słuchawkę telefonu. Wystarczy przyłożyć telefon do ucha, jak podczas zwykłej rozmowy, a przetłumaczony dźwięk będzie przesyłany bezpośrednio do użytkownika. Ten tryb jest przydatny w sytuacjach, gdy chcemy szybko usłyszeć tłumaczenie bez udziału innych osób i nie mamy pod ręką słuchawek.

Cały dźwięk generowany przez modele Google jest znakowany wodnym znakiem SynthID. Ten niewidoczny znak wodny jest wpleciony bezpośrednio w wyjście audio, zapewniając wykrywalność treści generowanych przez sztuczną inteligencję, co ma pomóc w zapobieganiu dezinformacji. Google podkreśla swoje podejście do bezpieczeństwa i odpowiedzialności, odsyłając do karty modelu po szczegóły.

Rozwój Gemini 3.5 Live Translate stanowi znaczący krok w kierunku zacierania barier językowych, umożliwiając bardziej naturalną i spontaniczną komunikację globalną. Integracja tej technologii z szeroką gamą produktów i platform podkreśla jej potencjał do transformacji interakcji międzyludzkich w różnych kontekstach, od codziennych rozmów po profesjonalne spotkania.

Źródło: deepmind.google

Komentarze

Zaloguj się, aby dołączyć do dyskusji.

Nikt jeszcze nie skomentował. Bądź pierwszy!

Czytaj dalej

Gemini 3.5 Flash z wbudowaną funkcją obsługi komputera
Od chatbota do cyfrowego współpracownika: AI musi kończyć zadania, nie tylko odpowiadać
EverOS: Otwarty system pamięci dla agentów AI z samoewoluującymi umiejętnościami
Micron na fali wznoszącej: Czy producent pamięci stanie się kolejną Nvidią?
Chińska firma Qihoo 360 tworzy narzędzia AI jako odpowiedź na Mythos, porównując rywalizację do odstraszania cybernuklea
Masayoshi Son z SoftBanku podważa sens kosmicznych centrów danych Elona Muska

Bądź na bieżąco ze światem AI

Najważniejsze newsy, recenzje i poradniki — raz w tygodniu, prosto na maila. Bez spamu.