A nyelvi modelleket sokáig úgy képzeltük el, mint udvarias, statisztikai alapon válaszoló szöveggépeket. A valóságban azonban egy olyan rendszerről van szó, amely a környezetéből érkező jeleket folyamatosan értelmezi, rangsorolja és beépíti a válaszaiba. Ezt a tulajdonságát használják ki azok a kártékony módszerek, amelyek célja nem a klasszikus értelemben vett „vírusfertőzés”, hanem a modell viselkedésének eltérítése: rávenni arra, hogy olyan utasításokat kövessen, amelyeket a fejlesztő vagy a felhasználó nem akart, vagy hogy olyan információt adjon ki, amelyet nem kellene.
A jelenség különösen ott veszélyes, ahol a nyelvi modell nemcsak beszélget, hanem cselekszik is: e-maileket ír, naptárat kezel, dokumentumokat foglal össze, keres, adatbázist kérdez, esetleg automatizált folyamatokat indít. Ilyenkor a „kéretlen utasítás” nem csupán kellemetlen szöveg, hanem tényleges művelet lehet.
Prompt-injekció: amikor a tartalom parancsot rejt
A leggyakoribb támadási forma a prompt-injekció. Lényege, hogy a támadó olyan szöveget juttat a modell elé, amely a rendszer utasításait vagy a felhasználó szándékát megpróbálja felülírni. Ez megtörténhet közvetlenül, egy beszélgetésben, de sokkal alattomosabb a közvetett változat: amikor a modell olyan külső tartalmat olvas be, amelybe a támadó utasításokat ágyazott.
Ha egy asszisztens például weboldalakat böngész, dokumentumokat foglal össze, vagy e-maileket értelmez, a támadó elrejthet a szövegben olyan instrukciókat, amelyek a modell számára „fontosabbnak” tűnnek, mint amennyire azok valójában jogosak. A trükk gyakran pszichológiai: a szöveg azt állítja, hogy ez „rendszerszintű” utasítás, vagy hogy a biztonsági szabályok már nem érvényesek. A modell nem hisz és nem kételkedik úgy, mint egy ember, hanem mintázatokat követ; ha a környezet rosszul van kialakítva, a rosszindulatú mintázat átveheti az irányítást.
Adatmérgezés: a tanulási folyamat megcsapolása
A másik, hosszabb távon romboló módszer az adatmérgezés. Itt nem a futás közbeni viselkedést próbálják azonnal eltéríteni, hanem a modell tudását és preferenciáit alakítják át a tanítóadatokon keresztül. Nyílt adatgyűjtésnél, közösségi forrásoknál, vagy felhasználói visszajelzésekre építő rendszereknél a támadó megpróbálhat nagy mennyiségben olyan példákat bejuttatni, amelyek egy bizonyos irányba tolják a modellt.
Ennek egyik célja lehet, hogy a modell bizonyos témákban következetesen tévedjen, elfogult legyen, vagy meghatározott kulcsszavakra „aktiválódjon” és kéretlen viselkedést mutasson. A legaggasztóbb változat a rejtett hátsó ajtó, amikor látszólag ártalmatlan szövegek közé kevernek olyan mintákat, amelyek később egy speciális trigger hatására nem várt választ vagy műveletet váltanak ki.
Finomhangolási csapdák: amikor a javítás ront
Sok szervezet saját adatokkal finomhangolja a modelleket, hogy jobban illeszkedjenek a belső stílushoz, termékekhez, ügyfélszolgálati helyzetekhez. Ez hatékony, de kockázatos: ha a finomhangolási adatok nem megbízhatóak, vagy ha egy külső beszállító láncán keresztül érkeznek, a támadó beépíthet olyan példákat, amelyek a modellből „kikényszerítik” a nem kívánt engedékenységet.
A probléma itt nem feltétlenül látványos. Egy finomhangolt modell lehet, hogy a legtöbb esetben jól működik, de bizonyos kérdésformákra túlzottan készségesen ad ki belső információkat, vagy túlságosan magabiztosan javasol kockázatos lépéseket. A szervezet ezt könnyen összetévesztheti „jobb ügyfélélménnyel”, miközben valójában a biztonsági korlátok puhultak fel.
Eszközhasználat eltérítése: amikor a modell kezet kap a billentyűzeten
Az úgynevezett agent jellegű rendszerek, amelyek külső eszközöket hívnak meg, új támadási felületet nyitnak. Ilyenkor a kéretlen utasítás nemcsak egy válaszban jelenik meg, hanem például egy e-mail elküldésében, egy fájl letöltésében, egy adatlekérdezésben vagy egy jogosultságkérésben.
A támadó célja sokszor az, hogy a modell összekeverje a források szerepét: a weboldal tartalmát „utasításnak” tekintse, a felhasználó kérését pedig háttérbe szorítsa. Egy másik gyakori irány a jogosultságok fokozatos kicsalása. A modell először ártalmatlan lépéseket tesz, majd egyre érzékenyebb műveletek felé terelik, miközben a felhasználó csak annyit lát, hogy az asszisztens „segít”.
Adatszivárgás és kontextus-kiszedés: nem kell feltörni, elég kifaggatni
A nyelvi modellek nem adatbázisok, mégis képesek érzékeny információkat visszaadni, ha azok a kontextusukba kerülnek. A támadók ezért gyakran a beszélgetési előzményekre, a beolvasott dokumentumokra, a belső útmutatókra és a rendszer üzeneteire vadásznak. A cél lehet API-kulcs, belső link, ügyféladat, vagy akár csak olyan részletek, amelyek segítik a későbbi támadást.
A kifaggatás technikája sokszor nem erőszakos. Inkább apró, ártatlannak tűnő kérdések sorozata, amelynek végén a modell maga rakja össze a képet. A veszélyt növeli, ha a rendszer túl sok mindent ad a modell kontextusába, és nincs szigorú elválasztás aközött, amit a modell „tudhat”, és aközött, amit ki is mondhat.
Ellátási lánc és komponens-kockázatok: a támadás nem mindig ott történik, ahol észrevennék
A modern MI-rendszerek ritkán egyetlen modellből állnak. Van beágyazás, kereső, rangsoroló, naplózó, moderáló réteg, külső pluginok, dokumentum-feldolgozók. A támadók számára ez lehetőség: ha nem tudják közvetlenül eltéríteni a modellt, megpróbálják eltéríteni a környezetét.
Egy rosszul konfigurált dokumentumfeldolgozó, egy gyenge hozzáférés-ellenőrzésű tárhely, egy harmadik féltől származó bővítmény mind olyan pont lehet, ahol a kártékony tartalom bejut, majd a modell „jóhiszeműen” feldolgozza. A végeredmény ugyanaz: kéretlen utasítások végrehajtása, adatvesztés, reputációs kár.
Miért nehéz védekezni, és mi a tét
Az egész történet egyik legkellemetlenebb tanulsága, hogy a nyelvi modelleknél a támadás gyakran nyelvi természetű. Nem kód fut le, hanem szöveg hat. A klasszikus biztonsági ösztönök, mint a bemenetek szűrése, itt nem mindig elég, mert a „rosszindulat” lehet teljesen hétköznapi mondatokba csomagolva.
A tét pedig nem csupán az, hogy egy chatbot kínos dolgokat mond. A vállalati környezetben a modell döntései folyamatokat indíthatnak el, érzékeny anyagokat foglalhatnak össze, vagy olyan dokumentumokat generálhatnak, amelyek jogi és pénzügyi következményekkel járnak. A nyelvi modellek megfertőzése ebben az értelemben inkább irányításátvétel, mint hagyományos fertőzés: a támadó nem a rendszert „töri fel”, hanem a rendszer figyelmét és engedelmességét téríti el.
A következő időszak kulcskérdése az lesz, hogy a fejlesztők és felhasználók mennyire tanulják meg: egy MI-asszisztens nemcsak válaszol, hanem értelmez, rangsorol és dönt. És ahol döntés van, ott manipuláció is van. A kártékony módszerek pedig egyre kevésbé zajosak, egyre inkább észrevétlenek lesznek, mint egy gondolat, amelyről csak későn derül ki, hogy nem is a miénk volt.


