Generatywna sztuczna inteligencja w dowolnym modelu i dowolnym akceleratorze w chmurze hybrydowej

Red Hat zaprezentował rozwiązanie Red Hat AI Inference Server. To znaczący krok na drodze do realizacji wizji demokratyzacji generatywnej sztucznej inteligencji (gen AI) w środowiskach chmury hybrydowej.
Red Hat AI Inference Server
Nowe rozszerzenie oferty Red Hat AI, pełniące funkcję serwera klasy korporacyjnej do obsługi modeli AI (wnioskowania), bazuje na dynamicznie rozwijanym projekcie społecznościowym vLLM i zostało wzbogacone o technologie Neural Magic, aby zapewnić jeszcze większą szybkość działania, efektywność wykorzystywania akceleratorów oraz niższe koszty operacyjne. Dzięki temu możliwe staje się uruchamianie dowolnego modelu generatywnej AI na dowolnym akceleratorze i w dowolnym środowisku chmurowym.
Red Hat AI Inference Server można wdrażać jako samodzielne rozwiązanie lub jako element platform Red Hat Enterprise Linux AI (RHEL AI) oraz Red Hat OpenShift AI, co pozwala firmom na pewniejsze skalowanie wdrożeń generatywnej sztucznej inteligencji w środowiskach produkcyjnych.
Innowacyjność rozwiązania
Wnioskowanie to kluczowy element działania systemów AI – to właśnie na tym etapie wytrenowane modele przekształcają dane w konkretne wnioski. To moment bezpośredniej interakcji z użytkownikiem, wymagający błyskawicznych i precyzyjnych odpowiedzi. W miarę jak modele generatywnej AI stają się coraz bardziej złożone, a także rośnie skala ich produkcyjnych wdrożeń, proces wnioskowania może stać się wąskim gardłem, obciążając zasoby sprzętowe, spowalniając odpowiedzi i zwiększając koszty operacyjne. Posiadanie wydajnych serwerów wnioskowania nie jest już luksusem, ale koniecznością – fundamentem funkcjonowania skalowalnej i opłacalnej sztucznej inteligencji.
Red Hat odpowiada na te wyzwania, wprowadzając do oferty Red Hat AI Inference Server – otwarte rozwiązanie zaprojektowane z myślą o wysokiej wydajności, wyposażone w zaawansowane narzędzia do kompresji i optymalizacji modeli. Ta innowacyjna platforma pozwala firmom w pełni wykorzystać potencjał generatywnej AI, zapewniając znacznie szybsze reagowanie, niższe zapotrzebowanie na zasoby oraz pełną swobodę wyboru akceleratorów, modeli i środowisk IT.
Projekt vLLM
Red Hat AI Inference Server bazuje na wiodącym w branży projekcie vLLM, zapoczątkowanym przez UC Berkeley w połowie 2023 roku. Ten projekt społecznościowy dostarcza mechanizmy wysokowydajnego wnioskowania generatywnej AI, wspiera przetwarzanie dużych kontekstów wejściowych, akcelerację modeli na wielu procesorach graficznych, ciągłe dostarczanie zapytań (continuous batching) i wiele więcej.
Szerokie wsparcie vLLM dla publicznie dostępnych modeli, w połączeniu z natywną obsługą od pierwszego dnia najbardziej zaawansowanych modeli, takich jak DeepSeek, Gemma, Llama, Llama Nemotron, Mistral, Phi i innych, a także otwartych modeli wnioskowania klasy enterprise (np. Llama Nemotron), czyni z niego standard dla przyszłych innowacji w zakresie wnioskowania sztucznej inteligencji. Coraz więcej dostawców czołowych modeli decyduje się na wykorzystanie vLLM, co potwierdza jego kluczową rolę w kształtowaniu przyszłości gen AI.
Zalety Red Hat AI Inference Server
Niezależnie od środowiska wdrożeniowego, Red Hat AI Inference Server zapewnia użytkownikom odporną na błędy, wspieraną dystrybucję vLLM oraz:
- Inteligentne narzędzia do kompresji modeli LLM, umożliwiające radykalne zmniejszenie rozmiaru modeli bazowych i dostrojonych, przy jednoczesnym zachowaniu (lub nawet poprawie) ich dokładności i niższym zużyciu zasobów obliczeniowych.
- Zoptymalizowane repozytorium modeli, dostępne w ramach rozwiązania Red Hat AI hostowanego na platformie Hugging Face, oferujące błyskawiczny dostęp do sprawdzonych, gotowych do użycia modeli AI, umożliwiając dwu-, a czasem nawet czterokrotne przyspieszenie wnioskowania bez uszczerbku dla dokładności modelu.
- Wsparcie Red Hat dla przedsiębiorstw oraz zdobyte przez wiele dekad doświadczenia w przekształcaniu projektów społecznościowych w rozwiązania gotowe do produkcyjnego użycia.
- Obsługę środowisk zewnętrznych, co zapewnia dodatkową elastyczność wdrożeniową – Red Hat AI Inference Server może być uruchamiany także na platformach innych niż Red Hat Linux i Kubernetes, zgodnie z polityką wsparcia Red Hat dla rozwiązań firm trzecich.
MOŻE ZAINTERESUJE CIĘ TAKŻE
Wizja Red Hat
Przyszłość sztucznej inteligencji powinna być definiowana poprzez nieograniczone możliwości, a nie przez bariery wynikające z infrastrukturalnych silosów. Red Hat patrzy w przyszłość, w której przedsiębiorstwa mogą wdrażać dowolny model AI, na dowolnym akceleratorze i w dowolnej chmurze, zapewniając spójne, wysokiej jakości wrażenia użytkownika bez ponoszenia wygórowanych kosztów. Aby w pełni wykorzystać potencjał inwestycji w generatywną AI, firmy potrzebują uniwersalnej platformy wnioskowania – standardu, który umożliwi płynne, wydajne wdrażanie innowacji bazujących na sztucznej inteligencji zarówno dziś, jak i w nadchodzących latach.
Tak jak Red Hat zrewolucjonizował świat otwartego IT w przedsiębiorstwach, czyniąc Linuksa fundamentem nowoczesnej infrastruktury, tak dziś firma chce wyznaczać kierunek rozwoju w dziedzinie wnioskowania dla sztucznej inteligencji. Ogromny potencjał vLLM sprawia, że może on stać się kluczowym elementem standaryzacji wnioskowania w obszarze generatywnej AI, a Red Hat aktywnie buduje wokół tej technologii dynamiczny ekosystem, wspierając nie tylko społeczność vLLM, ale też projekt llm-d, który umożliwia rozproszone wnioskowanie na dużą skalę. Wizja jest jasna: niezależnie od używanego modelu, akceleratora czy środowiska wdrożeniowego, Red Hat chce uczynić vLLM otwartym standardem wnioskowania w nowej rzeczywistości chmury hybrydowej.
Źródło: Red Hat