Uruchamianie serwera vLLM na Hugging Face Jobs jednym poleceniem

Hugging Face wprowadza nową metodę szybkiego uruchamiania prywatnych, kompatybilnych z OpenAI punktów końcowych LLM na swojej infrastrukturze, eliminując potrzebę ręcznej konfiguracji serwerów.

Redakcja Aigest

26 czerwca 2026

Udostępnij

Uruchamianie serwera vLLM na Hugging Face Jobs jednym poleceniem — Fot. Hugging Face

Hugging Face wprowadza innowacyjne rozwiązanie, które pozwala na szybkie i bezproblemowe uruchamianie prywatnych punktów końcowych LLM (Large Language Model) kompatybilnych z OpenAI na własnej infrastrukturze. Dzięki temu użytkownicy mogą postawić serwer vLLM za pomocą jednego polecenia, bez konieczności ręcznego konfigurowania serwerów czy zarządzania Kubernetesem, płacąc jedynie za faktyczne wykorzystanie zasobów.

Rozwiązanie to, opublikowane 26 czerwca 2026 roku przez Quentina Gallouédeca, stanowi najszybszy sposób na uruchomienie modelu do testów, ewaluacji czy generowania wsadowego. Umożliwia ono zapytania z dowolnego miejsca – laptopa, notatnika czy innej lokalizacji. Warto zaznaczyć, że dla zarządzanych, gotowych do produkcji usług, Hugging Face oferuje Inference Endpoints, które zapewniają dodatkowe funkcje.

Wymagania i uruchomienie serwera

Aby skorzystać z tej funkcjonalności, użytkownik musi posiadać metodę płatności lub dodatnie saldo kredytowe, ponieważ usługa Jobs jest rozliczana minutowo na podstawie zużycia sprzętu. Niezbędne jest również zainstalowanie biblioteki huggingface_hub w wersji 1.20.0 lub nowszej oraz lokalne zalogowanie się za pomocą hf auth login.

Uruchomienie serwera odbywa się za pomocą polecenia hf jobs run, które działa podobnie do docker run, ale na infrastrukturze Hugging Face. Przykład użycia dla modelu Qwen/Qwen3-4B na GPU a10g-large z wystawionym portem 8000 wygląda następująco:

hf jobs run --flavor a10g-large --expose 8000 --timeout 2h \
vllm/vllm-openai:latest \
vllm serve Qwen/Qwen3-4B --host 0.0.0.0 --port 8000 --expose 8000

Po uruchomieniu polecenie zwraca URL, pod którym serwer jest dostępny. Należy odczekać kilka minut na pobranie wag modelu i uruchomienie, a gotowość sygnalizuje komunikat Application startup complete.

Zapytania i bezpieczeństwo

vLLM komunikuje się za pomocą API OpenAI, a każde zapytanie wymaga tokena HF jako tokena okaziciela. Szybkie zapytanie można wykonać za pomocą curl lub klienta OpenAI w Pythonie. Przykład zapytania curl:

curl https://job_id--8000.hf.jobs/v1/chat/completions \
-H "Authorization: Bearer $(hf auth token)" \
-H "Content-Type: application/json" \
-d '{ "model": "Qwen/Qwen3-4B", "messages": [{"role": "user", "content": "Hello!"}], "chat_template_kwargs": {"enable_thinking": false} }'

Punkt końcowy jest zabezpieczony i niepubliczny. Każde żądanie musi zawierać token HF z uprawnieniami do odczytu przestrzeni nazw zadania. Dostęp jest ograniczony do użytkownika (i jego organizacji), co zapewnia prywatność. W przypadku potrzeby bardziej szczegółowej kontroli dostępu lub publicznego udostępnienia, zaleca się użycie odpowiedniej bramy.

Zarządzanie i skalowanie

Usługi Jobs są rozliczane sekundowo, dlatego ważne jest, aby zatrzymać serwer po zakończeniu pracy za pomocą hf jobs cancel job_id. Ustawienie --timeout działa jako zabezpieczenie, ale jawne anulowanie jest tańsze. Koszt a10g-large wynosi 1,50 USD/godzinę.

Rozwiązanie skaluje się do większych modeli. Można wybrać mocniejszy --flavor i rozdzielić model na wiele GPU za pomocą --tensor-parallel-size. Na przykład, dla modelu Qwen3.5-122B na 2x H200:

hf jobs run --flavor h200x2 --expose 8000 --timeout 2h \
vllm/vllm-openai:latest \
vllm serve Qwen/Qwen3.5-122B-A10B \
--host 0.0.0.0 --port 8000 --tensor-parallel-size 2 \
--max-model-len 32768 --max-num-seqs 256

Flagi takie jak --max-model-len i --max-num-seqs są kluczowe dla optymalizacji wykorzystania pamięci GPU w przypadku dużych modeli.

Dodatkowe możliwości

Platforma oferuje również zaawansowane funkcje, takie jak interfejs czatu z modelem za pomocą Gradio, debugowanie serwera poprzez SSH (wymaga huggingface_hub >= 1.20.0 i zarejestrowanego klucza publicznego) oraz wykorzystanie serwera jako backendu dla agenta kodującego Pi. W przypadku agentów kodujących, serwer vLLM musi być uruchomiony z włączonymi wywołaniami narzędzi (--enable-auto-tool-choice) i odpowiednim parserem (--tool-call-parser).

HF Jobs a Inference Endpoints

Hugging Face oferuje dwie główne metody serwowania modeli: HF Jobs i Inference Endpoints. HF Jobs zapewnia maksymalną elastyczność i kontrolę, idealnie nadając się do eksperymentów, jednorazowych ewaluacji czy generowania wsadowego. Użytkownik ma pełną kontrolę nad obrazem Docker, flagami vllm serve i sprzętem, płacąc za sekundę działania. Natomiast Inference Endpoints to zarządzana usługa, przeznaczona dla zastosowań produkcyjnych, oferująca bardziej szczegółową kontrolę dostępu (publiczny, chroniony, prywatny) oraz skalowanie do zera, co pozwala uniknąć opłat w okresach bezczynności. Jest to preferowane rozwiązanie dla trwałych punktów końcowych.

Możliwość szybkiego uruchamiania i testowania modeli LLM na elastycznej infrastrukturze Hugging Face, z opcjami skalowania i integracji z narzędziami deweloperskimi, znacząco przyspiesza cykl rozwoju i wdrażania aplikacji opartych na sztucznej inteligencji. To rozwiązanie otwiera nowe perspektywy dla badaczy i deweloperów, umożliwiając efektywne wykorzystanie zaawansowanych modeli językowych w różnorodnych scenariuszach.

Źródło: huggingface.co

Udostępnij

Komentarze

Zaloguj się, aby dołączyć do dyskusji.

Nikt jeszcze nie skomentował. Bądź pierwszy!

Czytaj dalej

Newsy

Google Finance debiutuje z aplikacją mobilną na Androida, iOS w planach

Po 20 latach Google Finance doczekało się pierwszej samodzielnej aplikacji mobilnej na Androida, z wersją na iOS planowaną na koniec roku. Nowa aplikacja i odświeżona strona internetowa są silnie zintegrowane ze sztuczną

Redakcja Aigest15 godz. temu

Newsy

Modele hybrydowe przewidują znaczące tokeny lepiej niż transformery

Nowe badania AllenAI, opublikowane przez Kyle'a Wiggersa, analizują, które typy tokenów są lepiej przewidywane przez modele hybrydowe w porównaniu do architektur transformerowych. Wyniki wskazują na przewagę hybryd w prz

Redakcja Aigest18 godz. temu

Newsy

Baidu udostępnia Unlimited OCR: model 3B do analizy długich dokumentów z płaską pamięcią KV

Baidu udostępniło Unlimited OCR, model do rozpoznawania tekstu w długich dokumentach, który utrzymuje stałą pamięć podręczną KV, co zapobiega spowolnieniom przy rosnącej długości tekstu.

Redakcja Aigestwczoraj

#sztuczna inteligencja #OCR

Newsy

Figma wprowadza narzędzia AI do grafiki ruchomej i shaderów

Figma zaprezentowała na swojej dorocznej konferencji Config nowe funkcje projektowe i programistyczne, które mają usprawnić pracę twórców i zautomatyzować powtarzalne zadania dzięki sztucznej inteligencji.

Redakcja Aigestwczoraj

Newsy

Hugging Face prezentuje FFASR Leaderboard: nowe standardy oceny modeli ASR

Hugging Face wprowadza FFASR Leaderboard, nową platformę do oceny modeli automatycznego rozpoznawania mowy w realistycznych warunkach. Ma ona na celu zapewnienie bardziej miarodajnych wyników niż dotychczasowe benchmarki

Redakcja Aigest2 dni temu

Newsy

Oracle zwalnia 21 000 pracowników, inwestując miliardy w infrastrukturę AI

Oracle zwolniło 21 000 pracowników w ciągu roku, co, jak wynika z dokumentów SEC, jest częściowo związane z rosnącym wykorzystaniem sztucznej inteligencji. Firma intensywnie inwestuje w centra danych, finansując to równi

Redakcja Aigest2 dni temu

Bądź na bieżąco ze światem AI

Najważniejsze newsy, recenzje i poradniki — raz w tygodniu, prosto na maila. Bez spamu.