Zagrożenia związane z dużymi modelami językowymi (LLM)

7 maja, 2024

Salesforce wydało białą księgę, która szczegółowo opisuje zagrożenia związane z LLM oraz proponuje strategie obronne. Ważne jest, aby organizacje były świadome ryzyka, które niesie ze sobą stosowanie tych technologii, w tym potencjalne naruszenia bezpieczeństwa danych oraz integralności technologicznej.

W dobie rosnącej popularności AI, organizacje muszą stosować strategie oparte na zaufaniu, aby chronić swoje systemy. W białej księdze Salesforce omówiono najważniejsze nowe zagrożenia, takie jak iniekcje promptów, które mogą wprowadzać mylące lub szkodliwe treści przez atakujących.

Iniekcje promptów w modelach językowych

Iniekcje promptów są formą ataku na duże modele językowe (LLM), gdzie atakujący wprowadza złośliwe instrukcje w podpowiedziach (promptach), które mają na celu manipulację zachowaniem modelu. Atak ten wykorzystuje mechanizm działania modeli, które generują odpowiedzi bazując na dostarczonych danych wejściowych, co może prowadzić do niepożądanych lub szkodliwych działań.

Jak to działa? Proces ten polega na skonstruowaniu podstępnych promptów, które są formułowane tak, aby model interpretował je w sposób, który korzysta z jego funkcji, ale w nieintencjonalny lub szkodliwy sposób. Na przykład, atakujący może dodać do promptu polecenie, które spowoduje, że model uwierzytelnia zapytania, jakby pochodziły od zaufanego użytkownika.

Potencjalne skutki i strategie obronne

Skutki takiego ataku mogą być różnorodne, od drobnych zakłóceń w działaniu modelu po poważne naruszenia bezpieczeństwa, takie jak wyciek wrażliwych danych lub nieautoryzowany dostęp do systemów. W przypadku modeli stosowanych w krytycznych zastosowaniach, takie jak systemy finansowe czy opieka zdrowotna, konsekwencje mogą być szczególnie poważne.

Obrona przed iniekcjami promptów wymaga kombinacji technik obronnych. Jednym z podejść jest stosowanie strategii opartych na uczeniu maszynowym, które mogą wykrywać i blokować złośliwe wprowadzenia. Inną strategią jest stosowanie heurystycznych, opartych na uczeniu strategii obronnych, takich jak filtry listy zakazów czy obrona poleceń, które analizują prompt przed jego przetworzeniem przez model.

Insecure Output Handling

W obszarze „Insecure Output Handling” dla zewnętrznie hostowanych dużych modeli językowych (LLM), które nie są objęte warstwą zaufania Einstein Trust Layer, Salesforce przyjmuje strategię ostrożności. Treści generowane przez te LLM traktowane są jak niezaufane dane, podobnie do innych niepewnych źródeł. Odpowiedzi od LLM są dokładnie przesiewane i klasyfikowane w celu wykrycia toksyczności i nieregularności, następnie są poddawane standardowym procedurom sanitacji aplikacji, aby zabezpieczyć przed atakami typu XSS, CSRF, SSRF, eskalacją uprawnień, wykonaniem zdalnego kodu i przejęciem agenta. Proces ten obejmuje także rejestrację interakcji, a dane są przechowywane tylko przez 30 dni w celu monitorowania i reagowania na anomalie przez zespół operacyjny AI/ML Salesforce.

Ochrona przed manipulacją danymi

Manipulacja danymi szkoleniowymi to poważne zagrożenie, które może prowadzić do naruszeń bezpieczeństwa modeli. Salesforce zaleca sprawdzanie, czy dane wprowadzone do systemu nie zawierają szkodliwych informacji, co jest kluczowe dla ochrony i efektywności modeli.

Salesforce podkreśla konieczność ograniczenia dostępu do modeli tylko do uwierzytelnionych i autoryzowanych klientów. Organizacje powinny stosować środki takie jak wieloczynnikowe uwierzytelnienie oraz silne śledzenie działań, aby zapobiegać kradzieży modeli.

Perspektywa Salesforce

Sri Srinivasan, starszy dyrektor ds. bezpieczeństwa informacji w Salesforce, podkreśla, że zaufanie jest fundamentalną wartością firmy, co przekłada się na zaangażowanie w dostarczanie narzędzi i zasobów do nawigacji po zmieniającym się krajobrazie AI.

Szczegółowej informacje znajdują się w „Mitigating LLM Risks Across Salesforce’s Gen AI Frontiers„.