Aigest.
Narzędzia AI

Google DeepMind udostępnia Nano Banana 2 Lite i Gemini Omni Flash dla deweloperów

Google DeepMind wprowadza dwa nowe modele AI: Nano Banana 2 Lite do szybkiego generowania obrazów oraz Gemini Omni Flash do tworzenia i edycji wideo. Mają one ułatwić deweloperom eksperymentowanie i skalowanie pomysłów m

RA

Udostępnij
Google DeepMind udostępnia Nano Banana 2 Lite i Gemini Omni Flash dla deweloperów
Fot. Google DeepMind

Google DeepMind udostępniło deweloperom Nano Banana 2 Lite oraz Gemini Omni Flash, dwa nowe modele sztucznej inteligencji, które mają przyspieszyć i ułatwić tworzenie oraz skalowanie innowacyjnych rozwiązań multimedialnych. Modele te zostały zaprojektowane, aby umożliwić deweloperom budowanie kompleksowych doświadczeń, łączących szybkie generowanie obrazów z tworzeniem i edycją wideo.

Nano Banana 2 Lite: Szybkość i efektywność kosztowa w generowaniu obrazów

Nano Banana 2 Lite (oznaczenie: gemini-3.1-flash-lite-image) to model zaprojektowany z myślą o szybkim prototypowaniu i procesach deweloperskich, gdzie kluczowe są szybkość i koszty. Jest to rekomendowany zamiennik dla deweloperów korzystających z poprzedniej wersji Nano Banana (gemini-2.5-flash-image), oferujący natychmiastowe korzyści w kluczowych wymiarach wydajnościowych. Mimo priorytetu szybkości, model zachowuje wiarygodne przestrzeganie promptów, silną spójność postaci oraz czytelne renderowanie tekstu w obrazie. Model ten jest również wdrażany w konsumenckich usługach Google, takich jak:

  • Tryb AI w wyszukiwarce
  • Aplikacja Gemini
  • NotebookLM
  • Google Photos
  • Stitch
  • Google Flow
  • Google Ads

Gemini Omni Flash: Generowanie i edycja wideo z multimodalnym rozumowaniem

Gemini Omni Flash (oznaczenie: gemini-omni-flash-preview) to model, który łączy multimodalne rozumowanie Gemini z możliwościami generowania i edycji wideo. Dostępny jest dla deweloperów za pośrednictwem Gemini API i Google AI Studio. Model natywnie wspiera wysokiej jakości generowanie wideo oraz konwersacyjną edycję, wykorzystując kombinację danych wejściowych w postaci tekstu, obrazu i wideo. Jego cena została ustalona konkurencyjnie na 0,10 USD za sekundę wygenerowanego wideo, co odpowiada cenie Veo 3.1 Fast. Pełne informacje o możliwościach modelu i ograniczeniach regionalnych są dostępne w dokumentacji dla deweloperów.

Synergia modeli i praktyczne zastosowania

Prawdziwy potencjał nowych modeli ujawnia się, gdy są one używane razem. Deweloperzy mogą wykorzystać Nano Banana 2 Lite do szybkiego generowania obrazów, a następnie przekazać te obrazy jako referencje do Gemini Omni Flash, aby animować je w wysokiej jakości wideo. Dzięki Interactions API możliwe jest utrzymanie historii sesji i kontekstu, co pozwala użytkownikom na łączenie do trzech sekwencyjnych edycji.

Google przygotowało również aplikacje demonstracyjne, które ilustrują możliwości połączenia obu modeli w jednym procesie pracy:

  • Anywhere: Aplikacja, która przenosi użytkownika na ikoniczne miejsca na podstawie selfie, a następnie animuje wygenerowany obraz w klip wideo.
  • Space Lift: Aplikacja do projektowania wnętrz, która pozwala na wizualizację zmian w pomieszczeniach i tworzenie kinowych prezentacji wideo.
  • Omni product studio: Narzędzie do konwersji statycznych obrazów produktów w dynamiczne filmy e-commerce.

Oba modele, Gemini Omni i Nano Banana 2 Lite, wykorzystują technologię znakowania wodnego SynthID, co pozwala na weryfikację treści generowanych przez AI za pośrednictwem aplikacji Gemini, Gemini w Chrome lub wyszukiwarki. Jest to część szerszych działań Google mających na celu zwiększenie przejrzystości w zakresie tworzenia i edycji treści w internecie.

Wprowadzenie Nano Banana 2 Lite i Gemini Omni Flash stanowi znaczący krok w demokratyzacji zaawansowanych narzędzi AI dla deweloperów. Umożliwia to tworzenie bardziej złożonych i interaktywnych doświadczeń multimedialnych, jednocześnie promując odpowiedzialne wykorzystanie sztucznej inteligencji poprzez mechanizmy weryfikacji treści. Rozwiązania te mogą przyspieszyć innowacje w wielu branżach, od marketingu po rozrywkę, oferując nowe możliwości kreatywnego wyrazu i efektywności operacyjnej.

Źródło: deepmind.google

Komentarze

Zaloguj się, aby dołączyć do dyskusji.

Nikt jeszcze nie skomentował. Bądź pierwszy!

Czytaj dalej

Gemini 3.5 Flash z wbudowaną funkcją obsługi komputera
Brytyjski rząd i Google DeepMind łączą siły, aby przyspieszyć budowę domów dzięki AI
Gemini 3.5 Live Translate: Tłumaczenie mowy w czasie rzeczywistym w ponad 70 językach
Anthropic wprowadza Claude Sonnet 5: tańszy model do zadań agentowych
Specjalizacja systemów AI jest nieunikniona: wnioski z teorii optymalizacji, biologii i rynków
Hugging Face integruje wyniki Every Eval Ever bezpośrednio na stronach modeli

Bądź na bieżąco ze światem AI

Najważniejsze newsy, recenzje i poradniki — raz w tygodniu, prosto na maila. Bez spamu.