Itt a legújabb veszély az interneten: az adatmérgezés
A mesterséges intelligencia mögött álló gépi eszközök „tudása” nem öröktől fogva adott, ezeket is tanítani kell, mint a gyerekeket, még ha nem is ugyanolyan módszerekkel. A mélytanulási modellek betanítására óriási adatkészleteket, képzési adatokat használnak, és akár ezek is lehetnek egy (vagy több) hackertámadás célpontjai.
A Google, az ETH Zurich, az Nvidia és a Robust Intelligence kutatói bebizonyították, hogy lehetőség van ilyen támadásra, azaz adatmérgezésre. Az adatmérgező támadások olyan támadások, amelyek a gépi tanulási modellek betanításához használt adatokat célozzák.
A támadó különféleképpen módosíthatja ezeket az adatokat, például hamis adatok beszúrásával, meglévő adatok módosításával vagy adott adatpontok súlyozásának manipulálásával. Az adatmérgezéses támadások súlyosak lehetnek, különösen azoknál a szervezeteknél, amelyek nagymértékben támaszkodnak gépi tanulási algoritmusokra a kritikus üzleti döntések meghozatalakor. Például egy adatmérgezési támadás a pénzügyi szektorban pontatlan hitelkockázat-értékelésekhez vagy csalárd tranzakciókhoz vezethet. Az egészségügyi ágazatban egy adatmérgezési támadás téves diagnózist vagy helytelen orvosi kezelést eredményezhet.
A kutatók – írja a ZDNet – azt állítják, hogy az általuk kidolgozott technikákkal kis erőfeszítéssel és alacsony költséggel lehet(ne) megmérgezni a kiemelkedő mélytanulási adatkészletek 0,01 százalékát. Bár ez nem tűnik túl nagy adathalmaznak, azonban már a lehetőség fennállása is ijesztő.
Az egyik mód, hogy a támadók elérjék az adatmérgezési céljukat, a lejárt domainevek vásárlása. A gyanútlan felhasználó nem is sejti, hogy már megmásított adatokat kap a weboldalon. A szakemberek egy másmilyen támadást is demonstráltak, amelynél a támadó ugyan nem tudja teljes mértékben felügyelni az adatkészletet, viszont azt pontosan meg tudja jósolni, hogy a webes erőforrás mikor lesz elérhető egy adatkészlet-pillanatfelvétel készítése céljából. Ekkor a támadó közvetlenül az információgyűjtés előtt mérgezheti meg az adatkészletet.
A kutatók egy példát is említenek: a Wikipédia-adatkészletek nem az élő oldalra támaszkodnak, hanem egy adott pillanatban készült felvételre, ami azt jelenti, hogy a beavatkozást helyesen időzítő támadók rosszindulatúan szerkeszthetik az oldalt. A szakemberek 6,5 százalékos sikerarányt jósolnak, ami nem magas, viszont a Wikipédia-oldalak nagy száma és a gépi tanulási adatkészletek betanításának módja azt jelenti, hogy pontatlan információkat lehet betáplálni a gépi tanulási eszközökbe.
Egyelőre még egyetlen élő Wikipedia-oldalt sem szerkesztettek, azonban a kutatók már értesítették a lehetőségről, illetve a védekezés lehetséges eszközeiről a Wikipédiát. Azt is megjegyzik, hogy vizsgálati eredményeik közzétételének célja nem az, hogy segítséget adjanak a hackereknek, hanem hogy másokat is arra ösztönözzenek, hogy végezzék el saját kutatásaikat azzal kapcsolatban, hogy miként védhetik meg a gépi tanulási rendszereket a rosszindulatú támadásoktól.
Összességében azért elmondható, hogy az adatmérgezéses támadások elleni védekezés sokoldalú megközelítést igényel, amely technikai és eljárási intézkedéseket is magában foglal. Íme néhány lépés, amelyet a szervezetek megtehetnek az adatmérgezés elleni védelem érdekében:
