Gemini 3.5 Live Translate: Tłumaczenie mowy w czasie rzeczywistym w ponad 70 językach
Google wprowadza Gemini 3.5 Live Translate, nowy model audio umożliwiający płynne tłumaczenie mowy na mowę w czasie zbliżonym do rzeczywistego, obsługujący ponad 70 języków.

Google ogłosiło premierę Gemini 3.5 Live Translate, najnowszego modelu audio, który umożliwia tłumaczenie mowy na mowę w czasie zbliżonym do rzeczywistego, obsługując ponad 70 języków. Rozwiązanie to ma na celu zrewolucjonizowanie komunikacji międzyjęzykowej, oferując płynne i naturalnie brzmiące tłumaczenia.
Ewolucja tłumaczeń w Google
Początki tłumaczeń w Google sięgają dwudziestu lat wstecz, kiedy to eksperymenty z uczeniem maszynowym miały przekształcić naukę o języku w narzędzie do łączenia ludzi. Od tego czasu technologia ta przeszła długą drogę, a obecnie ponad bilion słów jest tłumaczonych każdego miesiąca dla miliardów użytkowników w różnych produktach Google.
Gemini 3.5 Live Translate stanowi kolejny krok w tej ewolucji. Model automatycznie wykrywa ponad 70 języków i generuje płynną, naturalnie brzmiącą mowę, zachowując intonację, tempo i wysokość głosu mówcy. W przeciwieństwie do systemów, które czekają na zakończenie wypowiedzi, zanim udzielą odpowiedzi, 3.5 Live Translate generuje mowę w sposób ciągły. Balansuje on między oczekiwaniem na kontekst w celu poprawy jakości a natychmiastowym tłumaczeniem, aby pozostać w synchronizacji z mówcą. Dzięki temu dostarcza płynny dźwięk bez niezręcznych przerw, pozostając zaledwie kilka sekund za mówcą przez całą sesję.
Zastosowania i integracje
Gemini 3.5 Live Translate jest wdrażany w produktach Google, przetwarzając mowę w miarę jej strumieniowania, co zapewnia bardziej płynne połączenie między językami. Model radzi sobie z wielojęzycznymi danymi wejściowymi bez konieczności ręcznej konfiguracji ustawień. Jego odporność na hałas gwarantuje, że aplikacje mogą działać w głośnych, nieprzewidywalnych środowiskach. Możliwości te mogą być wykorzystywane do ułatwiania tłumaczeń symultanicznych podczas rozmów, spotkań, lekcji czy transmisji.
Wykorzystując Gemini Live API, platformy deweloperskie takie jak Agora, Fishjam, LiveKit, Pipecat i Vision Agents umożliwiają programistom łatwe tworzenie i wdrażanie aplikacji do tłumaczenia głosu. Integracje te zajmują się złożoną infrastrukturą strumieniowania mediów w czasie rzeczywistym, dzięki czemu deweloperzy mogą skupić się na doświadczeniach użytkownika.
Partnerzy, tacy jak Grab, testują model, aby umożliwić wielojęzyczną komunikację w czasie zbliżonym do rzeczywistego między kierowcami a pasażerami podczas odbioru. Użytkownicy Grab wykonują ponad 10 milionów połączeń głosowych miesięcznie. Firmy takie jak CJ ENM i LiveKit również wyraziły pozytywne opinie na temat 3.5 Live Translate, podkreślając jego imponującą jakość tłumaczenia, dokładność i niskie opóźnienia.
Wdrożenie w produktach Google
Tłumaczenie mowy w Google Meet wkrótce będzie wykorzystywać 3.5 Live Translate, poprawiając doświadczenie użytkownika poprzez:
- Płynniejsze tłumaczenie z zachowaniem intonacji mówcy.
- Szybsze tłumaczenie z mniejszymi opóźnieniami.
- Lepszą obsługę hałasu w tle.
Aktualizacja ta jest wprowadzana w prywatnej wersji testowej dla wybranych klientów biznesowych Google Workspace, a szersze wdrożenie nastąpi jeszcze w tym roku.
Model jest również udostępniany globalnie w aplikacji Google Translate na systemach Android i iOS. Użytkownicy mogą podłączyć dowolne słuchawki, aby doświadczyć płynniejszego tłumaczenia, które odzwierciedla ton mówcy w ponad 70 językach.
Dla użytkowników Androida wprowadzany jest również nowy „tryb słuchania” z 3.5 Live Translate, który pozwala słuchać tłumaczeń bezpośrednio przez słuchawkę telefonu. Wystarczy przyłożyć telefon do ucha, jak podczas zwykłej rozmowy, a przetłumaczony dźwięk będzie przesyłany bezpośrednio do użytkownika. Ten tryb jest przydatny w sytuacjach, gdy chcemy szybko usłyszeć tłumaczenie bez udziału innych osób i nie mamy pod ręką słuchawek.
Cały dźwięk generowany przez modele Google jest znakowany wodnym znakiem SynthID. Ten niewidoczny znak wodny jest wpleciony bezpośrednio w wyjście audio, zapewniając wykrywalność treści generowanych przez sztuczną inteligencję, co ma pomóc w zapobieganiu dezinformacji. Google podkreśla swoje podejście do bezpieczeństwa i odpowiedzialności, odsyłając do karty modelu po szczegóły.
Rozwój Gemini 3.5 Live Translate stanowi znaczący krok w kierunku zacierania barier językowych, umożliwiając bardziej naturalną i spontaniczną komunikację globalną. Integracja tej technologii z szeroką gamą produktów i platform podkreśla jej potencjał do transformacji interakcji międzyludzkich w różnych kontekstach, od codziennych rozmów po profesjonalne spotkania.
Źródło: deepmind.google
Komentarze
Zaloguj się, aby dołączyć do dyskusji.
Nikt jeszcze nie skomentował. Bądź pierwszy!
Czytaj dalej

Gemini 3.5 Flash z wbudowaną funkcją obsługi komputera
Google zintegrowało funkcję obsługi komputera bezpośrednio z modelem Gemini 3.5 Flash, umożliwiając tworzenie zaawansowanych agentów AI zdolnych do interakcji z różnymi platformami.
Redakcja Aigest4 dni temu

Od chatbota do cyfrowego współpracownika: AI musi kończyć zadania, nie tylko odpowiadać
Systemy AI staną się niezawodnymi współpracownikami, gdy zaczną realizować całe zadania w trwałych środowiskach pracy, zamiast jedynie generować odpowiedzi. Klucz tkwi w ponownym wykorzystywaniu „umiejętności”.
Redakcja Aigest22 godz. temu

EverOS: Otwarty system pamięci dla agentów AI z samoewoluującymi umiejętnościami
EverMind wprowadza EverOS, otwarty system pamięci dla agentów AI, który rozwiązuje problem ulotności kontekstu dużych modeli językowych, przechowując dane w plikach Markdown i oferując hybrydowe wyszukiwanie.
Redakcja Aigest42 min temu

Micron na fali wznoszącej: Czy producent pamięci stanie się kolejną Nvidią?
Amerykański producent chipów pamięci, Micron, zyskuje na wartości, a analitycy z Wall Street upatrują w nim potencjalnego następcę sukcesu Nvidii, napędzanego rosnącym popytem na pamięć w erze sztucznej inteligencji.
Redakcja Aigest20 godz. temu

Chińska firma Qihoo 360 tworzy narzędzia AI jako odpowiedź na Mythos, porównując rywalizację do odstraszania cybernuklea
Chińska firma cyberbezpieczeństwa Qihoo 360 Security Technology ogłosiła stworzenie dwóch narzędzi AI, mających konkurować z Anthropic Mythos, nazywając tę rywalizację „cyber-nuklearnym odstraszaniem”.
Redakcja Aigestwczoraj

Masayoshi Son z SoftBanku podważa sens kosmicznych centrów danych Elona Muska
Prezes SoftBanku, Masayoshi Son, wyraził sceptycyzm wobec wizji Elona Muska dotyczącej orbitalnych centrów danych, wskazując na wysokie koszty i długi czas realizacji, co może opóźnić rozwój AI.
Redakcja Aigestwczoraj
Bądź na bieżąco ze światem AI
Najważniejsze newsy, recenzje i poradniki — raz w tygodniu, prosto na maila. Bez spamu.