17.02.2026
Agentforce Salesforce News

Salesforce z SageMaker: AI 8x taniej

  • redakcja
  • 16 sierpnia 2025
Salesforce z SageMaker: AI 8x taniej


Rewolucja w zarządzaniu modelami AI stała się faktem: Salesforce, dzięki integracji z Amazon SageMaker AI, przeszedł radykalną transformację infrastruktury inferencyjnej. To przełomowe podejście nie tylko zmniejszyło koszty wdrożenia modeli aż o ośmiokrotność, ale także otworzyło drzwi do wydajniejszego skalowania i obsługi coraz bardziej złożonych modeli językowych. Sprawdź, jak innowacyjne podejście do optymalizacji zasobów zmienia krajobraz AI dla tysięcy użytkowników.

Nowe potrzeby – nowe wyzwania: optymalizacja modeli AI w Salesforce

Na przestrzeni ostatnich lat Salesforce konsekwentnie rozbudowuje swoje portfolio rozwiązań z zakresu sztucznej inteligencji. Rosnąca liczba i zróżnicowanie modeli – od lekkich po rozbudowane modele LLM (Large Language Models) takie jak CodeGen czy XGen – stawia przed zespołem AI Platform Model Serving poważne wyzwania. Największymi z nich są optymalizacja wykorzystania kart graficznych (GPU), zapewnienie wysokiej wydajności oraz ograniczenie kosztów serwowania inferencji (obliczeń predykcyjnych).

Dotychczas duże modele (20–30 GB) obsługiwano na potężnych, wielogpurowych maszynach, co przy rzadkim ruchu skutkowało marnowaniem zasobów. Z drugiej strony średniej wielkości modele o wysokim natężeniu zapytań wymagały kosztownych rezerwacji na tych samych instancjach, prowadząc do nadmiarowych wydatków. Jak znaleźć równowagę między wydajnością, elastycznością a kontrolą kosztów? Do tego celu Salesforce sięgnęło po nowatorskie rozwiązanie: komponenty inferencyjne (Inference Components) Amazon SageMaker AI.

Komponenty inferencyjne – jak Amazon SageMaker AI wspiera przełom w działaniu modeli

Kluczową przewagą komponentów inferencyjnych jest możliwość uruchamiania wielu modeli na jednym punkcie końcowym (endpointzie), jednocześnie zarządzając przydziałem GPU oraz pamięci RAM dla każdego z nich. W praktyce oznacza to bardziej elastyczne gospodarowanie zasobami – pojedyncza duża maszyna może dynamicznie, zależnie od zapotrzebowania, obsługiwać różne modele lub ich kopiowania, przy zachowaniu wysokiej dostępności i wydajności.

Każdy model otrzymuje indywidualną politykę skalowania i konfigurację – pozwala to dopasować obciążenie do rzeczywistych potrzeb aplikacji. Dodatkowo, całość skalowania – łącznie z dynamicznym doładowywaniem i zwalnianiem instancji – zarządzana jest automatycznie przez usługę SageMaker AI. Dzięki temu zespoły nie muszą martwić się o zbędne nadprowizjonowanie czy sytuacje, w których drogie zasoby pozostają niewykorzystane.

Jak informują twórcy rozwiązania na oficjalnym blogu AWS, właściwe „pakowanie” i automatyczne rozmieszczanie modeli pozwala zredukować infrastrukturę oraz czas operacyjny, przy zachowaniu poziomu usług odpowiadającego krytycznym wymaganiom biznesowym.

Studium przypadku: nowa architektura dla modeli CodeGen w Salesforce

Modele CodeGen, wykorzystywane w narzędziu ApexGuru do analizy i automatycznego generowania kodu w języku Apex, początkowo uruchamiane były na dedykowanych punktach końcowych (SME – Single Model Endpoints). Wraz z rosnącą złożonością i liczbą wariantów (Inline, BlockGen, FlowGPT) pojawiła się potrzeba ich efektywniejszego gospodarowania na warstwie infrastrukturalnej.

Dzięki wdrożeniu komponentów inferencyjnych wszystkie te modele mogą współdzielić zasoby GPU na jednym endpointcie, a ich przypisania mogą być dynamicznie regulowane przez automatyczne reguły skalowania. Przykładowo, intesywnie używane modele mogą mieć utrzymywaną większą liczbę kopii, podczas gdy te rzadziej wywoływane są ładowane na żądanie. Efekt? Znacząca oszczędność kosztów infrastruktury, uproszczenie operacji i lepsza adaptacja do sezonowych skoków ruchu.

Co istotne, nowe rozwiązanie nie wyklucza zastosowania tradycyjnych, dedykowanych SME dla krytycznych lub przewidywalnych obciążeń. Ten hybrydowy model działania pozwala na maksymalizację efektywności zarówno w środowiskach statycznych, jak i tych, gdzie ruch jest zmienny i nieprzewidywalny.

Więcej na temat tej transformacji oraz przykładów optymalizacji znaleźć można w oficjalnym wpisie AWS: Optimizing Salesforce’s model endpoints with Amazon SageMaker AI inference components.

Wyniki i nowe możliwości: od oszczędności po innowacje

Transformacja zarządzania endpointami przyniosła Salesforce realne oszczędności rzędu nawet 8x w zakresie wydatków infrastrukturalnych i operacyjnych. Udało się ograniczyć nadmiarowe rezerwacje GPU, zwiększyć elastyczność w skalowaniu oraz umożliwić implementację zaawansowanych modeli na wysoko wydajnych instancjach bez obawy o nieproporcjonalne koszty.

Dynamiczne zarządzanie obciążeniami sprawiło, że zarówno duże, jak i mniejsze modele mogą teraz korzystać z tej samej infrastruktury bez zagrożenia przeciążeniami czy opóźnieniami. System ten wyznacza nowe standardy efektywności dla rozproszonych i wielowariantowych rozwiązań AI, budując solidną podstawę do dalszego rozwoju aplikacji opartych o sztuczną inteligencję.

Nadchodzące funkcjonalności – jak rolling updates (aktualizacje modeli partiami) czy real-time safety checks – mają potencjał jeszcze bardziej uprościć zarządzanie skomplikowanymi portfelami modeli i minimalizować ryzyko przy wdrożeniach produkcyjnych. Integracja z nowymi generacjami GPU, takimi jak NVIDIA H200 na instancjach P5en, otwiera możliwości wdrażania najbardziej wymagających rozwiązań AI przy optymalnych kosztach.

Refleksja: czy dynamiczna infrastruktura AI to przyszłość dla każdego?

Opisane wyżej doświadczenia Salesforce pokazują, że nowoczesne zarządzanie modelami AI to nie tylko domena gigantów technologicznych, ale trend, który już dziś można implementować w szerokiej gamie środowisk – od fintechów przez opiekę zdrowotną, po handel detaliczny. Kluczowe staje się elastyczne planowanie, skrupulatne zarządzanie zasobami i inteligentna automatyzacja kosztów.

Czy Twoja organizacja jest gotowa, by pójść tą ścieżką i zbudować własny ekosystem oparty o dynamicznie skalującą się inferencję AI? Otwarta platforma współpracy, automatyzacja i zaawansowane opcje skalowania już dziś redefiniują standardy efektywności – pozostaje tylko zdecydować, kiedy dołączysz do tej zmiany.