Salesforce AI Research na ICLR 2026: wnioski dla praktyków
- 27 kwietnia 2026
21 zaakceptowanych prac na ICLR 2026 pokazuje, że największy problem enterprise AI nie leży już w samym generowaniu odpowiedzi, ale w niezawodności agentów, jakości ewaluacji i kosztach działania w realnych środowiskach (Salesforce). Dla praktyków Salesforce to ważny sygnał, bo dokładnie te same napięcia pojawiają się dziś przy wdrożeniach Agentforce, automatyzacji procesów i integracji AI z CRM. Jeśli model dobrze wypada w demie, a słabo w zadaniu wieloetapowym, problemem nie jest prompt, tylko architektura, benchmark i kontrola błędów. Tegoroczny zestaw badań dobrze pokazuje, gdzie kończy się marketing AI, a zaczyna inżynieria produkcyjna.
Najmocniejszy sygnał z tegorocznych prac dotyczy agentów – szczególnie tych, które operują na GUI, stronach www i w środowiskach wymagających wielu kroków. GTA1 wykorzystuje test-time scaling, czyli skalowanie w czasie testowym, przez generowanie wielu propozycji akcji i uczenie ze wzmocnieniem. WALT idzie w stronę agentów webowych, które uczą się narzędzi na podstawie funkcjonalności stron. Z kolei CoAct-1 łączy kontrolę GUI z wykonaniem programistycznym i osiąga 60,76% skuteczności na benchmarku OSWorld.
Dla zespołów Salesforce szczególnie ciekawy jest SCUBA – benchmark zbudowany na 300 rzeczywistych zadaniach Salesforce CRM. Wyniki są trzeźwiące: agenci open-source osiągają poniżej 5% skuteczności w trybie zero-shot, a modele zamknięte dochodzą do 39%. Dopiero demonstracje podnoszą wynik do 50%. To ważna lekcja dla każdego, kto planuje wdrażać agentów do pracy na rekordach, UI lub procesach użytkownika. Bez dobrze przygotowanego kontekstu i prowadzenia krok po kroku skuteczność szybko spada.
Jeszcze mocniej widać to w badaniu nad zachowaniem modeli w rozmowach wieloetapowych. LLM tracą 39% skuteczności względem zadań jednoetapowych, często zbyt wcześnie zakładają rozwiązanie i nie potrafią się samodzielnie naprawić. To dobrze współgra z obserwacją, że architektura agentowa wymaga dziś bardziej rygorystycznych guardrails niż klasyczne chatboty. W praktyce podobne napięcia pojawiają się przy projektowaniu architektury agent-to-agent w Salesforce, gdzie sam podział odpowiedzialności między agentami nie rozwiązuje problemu błędnych decyzji.
Osobny problem pokazuje praca warsztatowa o błędach tożsamości agentów. W autonomicznych rozmowach agentów zjawisko „echoing” – porzucanie przypisanej roli i naśladowanie partnera – pojawiało się nawet w 70% z ponad 2500 konwersacji. Jednocześnie 93% takich rozmów standardowe metryki oceniały jako udane. To bardzo praktyczny wniosek: jeśli zespół mierzy skuteczność AI wyłącznie końcowym rezultatem lub prostym scorem jakości, może przeoczyć błędy strukturalne, które później uderzą w compliance, bezpieczeństwo albo doświadczenie użytkownika.
Druga grupa prac pokazuje, że przewaga nie wynika już tylko z większego modelu, ale z lepszego sterowania rozumowaniem i z trafniejszej ewaluacji. NuRL wykorzystuje reinforcement learning do przełamywania trudnych zadań, a Elastic Reasoning rozdziela łańcuch myślenia od samego rozwiązywania, żeby działać efektywniej pod ograniczeniami. HyRea uczy rozumowania nad ciągłymi tokenami i adaptacyjnie przełącza tryby pracy, redukując zużycie tokenów do około 60% przy utrzymaniu dokładności.
To ma bezpośrednie znaczenie dla architektów i developerów pracujących z kosztami inferencji, limitami i opóźnieniami. W środowisku CRM nie wygrywa model, który potrafi najwięcej w laboratorium, ale ten, który dowozi stabilny wynik w przewidywalnym koszcie. Właśnie dlatego rośnie znaczenie podejść, które rozdzielają zadania, ograniczają długość ścieżki rozumowania i uczą system, kiedy przejść w tryb bardziej oszczędny.
Równie ważna jest sama kontrola jakości. FARE proponuje skalowalne trenowanie ewaluatorów generatywnych dla wielu zadań rozumowania, konkurujące z większymi modelami. Inne badania analizują trwałość wytrenowanych sędziów LLM i ich zdolność do dostosowania do nowych pytań. W praktyce oznacza to, że organizacje powinny inwestować nie tylko w model wykonawczy, ale też w warstwę oceny – osobną, testowalną i odporną na drift.
To podejście dobrze łączy się z kierunkiem, w którym idzie dziś MCP w Agentforce: mniej przypadkowego kontekstu, więcej kontrolowanego wywoływania narzędzi i bardziej deterministyczna ścieżka działania. Badania z ICLR wzmacniają tezę, że enterprise AI potrzebuje warstwy orkiestracji i pomiaru, a nie tylko dostępu do mocniejszego modelu.
Trzecia oś badań dotyczy zaufania do wyników. DeepTRACE audytuje systemy AI generujące research i pokazuje, że modele często produkują odpowiedzi brzmiące pewnie, ale jednostronne, a 20-60% stwierdzeń nie ma potwierdzenia w cytowaniach. LiveResearchBench rozwija ten temat przez 100 eksperckich zadań wymagających przeszukiwania internetu na żywo i ocenę 17 systemów na podstawie jakości raportów opartych na cytatach.
Dla praktyków Salesforce to cenna wskazówka przy wszystkich scenariuszach, w których agent ma szukać informacji, uzasadniać decyzję lub tworzyć podsumowanie dla użytkownika. Sam fakt, że odpowiedź brzmi profesjonalnie, nie oznacza jeszcze, że nadaje się do użycia operacyjnego. Jeśli AI ma wspierać service, sprzedaż albo operacje, potrzebna jest możliwość sprawdzenia, skąd pochodzi dana teza i czy została faktycznie podparta materiałem wejściowym. Podobne napięcia widać też przy dyskusji o zarządzaniu agent sprawl, gdzie liczba agentów rośnie szybciej niż zdolność organizacji do ich audytu.
Równolegle widać silny nacisk na efektywność. Pruning oparty na entropii redukuje rozmiar modeli przy zachowaniu dokładności i wypada lepiej niż metody oparte na podobieństwie kosinusowym. Webscale-RL buduje pipeline tworzący 1,2 mln weryfikowalnych par pytań i odpowiedzi, co pozwala osiągać wyniki zbliżone do pre-treningu przy 100 razy mniejszej liczbie tokenów. To ważne, bo w enterprise koszt trenowania i uruchamiania modeli szybko staje się ograniczeniem równie istotnym jak dokładność.
Na tym tle widać też, że benchmarki przestają być dodatkiem do prezentacji, a stają się podstawowym narzędziem projektowym. SCUBA dla zadań CRM, LiveResearchBench dla researchu czy benchmarki środowisk webowych pokazują realne tryby błędów, których nie widać w ogólnych testach. W praktyce oznacza to prostą zasadę: jeśli wdrażasz AI do Salesforce, buduj benchmark wokół własnych procesów, ekranów, danych i wyjątków. Bez tego nawet dobry model będzie tylko obietnicą.
ICLR 2026 pokazuje dość jasno, że przyszłość AI w ekosystemie Salesforce nie zależy wyłącznie od coraz mocniejszych modeli. Kluczowe stają się benchmarki osadzone w realnych zadaniach, warstwa ewaluacji i mechanizmy ograniczające błędy agentów w środowiskach wieloetapowych. To dobry moment, by spojrzeć na własne wdrożenia nie przez pryzmat dema, ale przez pytanie o niezawodność, koszt i audytowalność. Który z tych trzech obszarów jest dziś najsłabszym ogniwem w Twojej architekturze AI na Salesforce?