Taksonomia ryzyk, ramy normatywne oraz architektura kontrolowanego zaufania dla wiarygodnego wdrażania dużych modeli językowych w administracji publicznej i w przedsiębiorstwach.

Streszczenie

Artykuł zajmuje się bezpieczeństwem systemów sztucznej inteligencji (AI), w szczególności aplikacji opartych na dużych modelach językowych (large language models, LLM), w kontekście ich wdrażania w administracji publicznej, w średnich organizacjach oraz w dużych przedsiębiorstwach. Wychodząc od aktualnych taksonomii zagrożeń oraz ustaleń empirycznych dotyczących tzw. cienia AI, wyznacza specyficzną powierzchnię ataku, która powstaje wskutek probabilistycznej i nieprzejrzystej natury modeli generatywnych oraz braku oddzielenia instrukcji od danych. Praca następnie syntetyzuje wiążące regulacyjne i dobrowolne ramy normatywne (EU AI Act, NIS2, GDPR, ISO/IEC 42001, NIST AI RMF) i proponuje architekturę kontrolowanego zaufania opartą na wielopoziomowej bramie heurystycznej oraz na zarządzaniu ryzykiem w całym cyklu życia modelu. W zakończeniu formułuje implikacje zróżnicowane według typu podmiotu i dowodzi, że bezpieczeństwo zintegrowane na etapie projektowania nie jest przeszkodą, lecz warunkiem zrównoważonej adopcji AI.

Słowa kluczowe: sztuczna inteligencja; duże modele językowe; cyberbezpieczeństwo; zarządzanie ryzykiem; prompt injection; cień AI; EU AI Act; governance.

1. Wprowadzenie i sformułowanie problemu

Sztuczna inteligencja w krótkim okresie przeszła z fazy eksperymentalnej do eksploatacji produkcyjnej. Modele generatywne są dziś wykorzystywane do przetwarzania podań urzędowych, segregacji wniosków, sporządzania streszczeń umów, wsparcia rozwoju oprogramowania oraz obsługi kanałów klienckich. Tempo adopcji wyprzedziło jednak budowę odpowiednich mechanizmów bezpieczeństwa i zarządzania, w wyniku czego powstała nowa powierzchnia ataku oraz nowa klasa ryzyka operacyjnego. O ile wcześniejsza faza rozwoju charakteryzowała się pytaniem o zdolności modeli, o tyle obecna faza stawia pytanie o wiarygodność ich wyników, to znaczy o to, na jakich warunkach i w jakim zakresie można im ufać przy podejmowaniu decyzji wywołujących skutek prawny lub ekonomiczny.

Bezpieczeństwa AI nie rozumiemy w tym artykule jako prostego podzbioru klasycznego bezpieczeństwa informacji. Tradycyjny system informacyjny jest w przeważającej mierze deterministyczny, a jego zachowanie podlega audytowi na poziomie poszczególnych operacji. System oparty na LLM jest natomiast probabilistyczny, jego proces decyzyjny jest tylko w ograniczonym stopniu interpretowalny, i — co kluczowe — instrukcje oraz dane wchodzą do modelu wspólnym kanałem, bez ich jawnego oddzielenia[1]. Celem artykułu jest (i) wyznaczenie specyficznej taksonomii zagrożeń takich systemów, (ii) podsumowanie relewantnych ram normatywnych oraz (iii) zaproponowanie architektury kontroli możliwej do zastosowania w różnych typach organizacji.

2. Specyficzna powierzchnia zagrożeń systemów z LLM

Referencyjną taksonomię stanowi ranking OWASP Top 10 for LLM Applications w wersji na rok 2025[1]. Na pierwszym miejscu drugi rok z rzędu znajduje się prompt injection — klasa ataków, w których przeciwnik umieszcza w danych wejściowych instrukcję, którą model interpretuje jako polecenie, a nie jako treść przeznaczoną do przetworzenia. Ponieważ model nie potrafi wiarygodnie odróżnić danych od poleceń, podporządkowuje się wstrzykniętej instrukcji. Atak może być bezpośredni (od użytkownika) lub pośredni, ukryty w dokumencie, wiadomości e-mail czy na stronie internetowej, którą model przetwarza w ramach rozszerzonego wyszukiwania (RAG).

Na drugie miejsce awansowało ujawnienie informacji wrażliwych (sensitive information disclosure). Modele mogą zapamiętać i odtworzyć fragmenty danych treningowych, w tym dane osobowe oraz tajemnice handlowe; do wycieku dochodzi jednak także za pośrednictwem promptu, podłączonego systemu lub niewystarczającego zarządzania dostępem[1]. Taksonomia obejmuje dalej zatruwanie modelu i danych treningowych (data & model poisoning), podatności łańcucha dostaw, nadmierne uprawnienia autonomicznych agentów oraz generowanie dezinformacji. Wspólną cechą tych zagrożeń jest to, że powstają one w warstwie semantycznej, a tradycyjne narzędzia perymetryczne (zapora sieciowa, antywirus) z reguły ich nie wykrywają; wymagają zatem odrębnej warstwy kontroli.

3. Cień AI jako ryzyko organizacyjne

Ustalenia empiryczne wskazują, że znaczną część ryzyka generują nie zewnętrzni napastnicy, lecz pracownicy działający w dobrej wierze. Zjawisko cienia AI (shadow AI) — korzystanie z niezatwierdzonych narzędzi poza nadzorem IT — stało się jednym z najszybciej rosnących wektorów wycieku danych[2][3]. Z dostępnych badań wynika, że większość pracowników korzysta z narzędzi generatywnych w pracy, znaczna część sięga po nie poprzez prywatne konta poza kontrolą organizacji, a niemały odsetek przyznaje się do wprowadzania danych wrażliwych[3]. Raport IBM Cost of a Data Breach Report 2025 podaje, że około jedna piąta naruszonych organizacji została skompromitowana za pośrednictwem cienia AI, co podniosło średni koszt incydentu rzędu setek tysięcy dolarów[2].

Wskaźnik Wartość
Organizacje, które odnotowały niezatwierdzone użycie AI 98 %
Udział wycieków danych (2025) przez cień AI ~20 %
Średni wzrost kosztu incydentu +670 tys. $
Organizacje z polityką wykrywania shadow AI 37 %

Rysunek 1. Wybrane wskaźniki skali i skutków cienia AI. Źródło: [2], [3].

Konsekwencja jest dwojaka. Po pierwsze, dane opuszczają perymetr organizacji w chwili ich wprowadzenia do usługi publicznej; po drugie, brakuje zapisu audytowego o tym, jakie dane i komu zostały udostępnione. W administracji publicznej skutek jest poważniejszy, ponieważ chodzi o dane obywateli objęte szczególnym reżimem ochrony. Podejście restrykcyjne (powszechny zakaz) okazuje się kontrproduktywne, gdyż przenosi korzystanie jeszcze głębiej w cień; właściwszym rozwiązaniem jest dostarczenie bezpiecznej, zatwierdzonej i monitorowanej alternatywy.

„Bezpieczeństwo AI nie zaczyna się przy modelu, lecz przy pytaniu, które dane mogą do niego trafić i kto może ufać temu, co z niego wychodzi.”

— zasada minimalizacji danych i kontrolowanego zaufania

4. Ramy normatywne i regulacyjne

Ramy wdrażania AI tworzy nakładający się układ wiążących przepisów oraz dobrowolnych standardów. Warstwę wiążącą w warunkach UE stanowią EU AI Act, NIS2 i GDPR; warstwę dobrowolną, choć w praktyce coraz częściej wymaganą, tworzą ISO/IEC 42001 i NIST AI RMF, które dostarczają metodycznie sprawdzonego sposobu osiągnięcia i wykazania zgodności (Tabela 1).

Ramy Charakter Główne wymagania wobec organizacji
EU AI Act[6] Wiążący (UE) Klasyfikacja systemów według ryzyka, zarządzanie ryzykiem, dokumentacja techniczna, nadzór człowieka i przejrzystość. Większość przepisów obowiązuje od sierpnia 2026 r., systemy wysokiego ryzyka według Aneksu III od grudnia 2027 r.
NIS2[7] Wiążący (UE) Odpowiednie środki zarządzania ryzykiem cybernetycznym, szyfrowanie, uwierzytelnianie wieloskładnikowe, zarządzanie dostępem oraz zgłaszanie incydentów; odpowiedzialność na poziomie kierownictwa.
GDPR[8] Wiążący (UE) Ograniczenie w pełni zautomatyzowanego podejmowania decyzji (art. 22), obowiązkowa ocena skutków dla ochrony danych (DPIA, art. 35), minimalizacja danych.
ISO/IEC 42001[4] Norma / certyfikacja Wdrożenie systemu zarządzania AI (AIMS) — governance, zarządzanie ryzykiem, przejrzystość i etyka w całym cyklu życia; niezależny audyt, certyfikat z reguły na 3 lata.
NIST AI RMF[5] Ramy dobrowolne Cztery funkcje — Govern, Map, Measure, Manage — od kultury zarządzania ryzykiem, przez identyfikację i pomiar, po bieżące zarządzanie ryzykiem w okresie eksploatacji systemu.

Tabela 1. Przegląd relewantnych ram regulacyjnych i normatywnych dla wdrażania AI.

Dla dużych przedsiębiorstw ISO/IEC 42001 nabiera funkcji analogicznej do tej, jaką pełni ISO/IEC 27001 w obszarze bezpieczeństwa informacji — staje się standardem zaufania i kryterium przy wyborze dostawcy[4]. Dla administracji publicznej decydujący jest natomiast EU AI Act, ponieważ liczne jej zastosowania (świadczenia socjalne, ochrona granic, wymiar sprawiedliwości, ściganie przestępstw) są zaliczone do kategorii wysokiego ryzyka[6].

Ten artykuł jest częścią płatnych treści IOAS.

Bezpieczna płatność przez Stripe · dostęp przywracalny przez e-mail, bez rejestracji