ENGLISH / MAGYAR
Kövess
minket

Adatvédelem és biztonság gépi tanulásban

2020-2021/I.
Dr. Ács Gergely

A mesterséges intelligencia és gépi tanulás térnyerése vitathatatlan. Az automatizált döntéseket alkalmazó rendszerek száma rohamosan növekszik (önjáró autók, egészségügyi alkalmazások, felhasználói hitelesítés, döntéstámogatás, profilozás, stb.). Például egy ilyen gépi modell megjósolhatja betegek halálozását a tünetegyüttesből, vagy a hitelképességet demográfiai és egyéb személyes adatokból, vagy fehérjék és kémiai anyagok reakcióképességét gyógyszerfejlesztés céljából korábbi adatokból. Ugyanakkor az ilyen rendszerek adatvédelmi és biztonsági problémái jelentősek, szerteágazóak, és megoldatlanok [1]. A hallgatók az alábbi témákon dolgozhatnak.

  • Tanuló adatok visszafejtése: A támadás során egy gépi modellból a támadó érzékeny adatokat próbál visszafejteni, amin a modellt betanították. Például a támadó képes lehet egy arcfelismerő rendszerből a felismerendő személy arcának a rekonstrukciójára csupán a modellt felhasználva [2][8]. Vagy akár egy kórházi adatbázisból épített modellból a betegek adatainak a visszafejtésére [3]. A hallgatók feladata a tanulási folyamat olyan módosítása, amely eredményeképpen a megtanult modell érzékeny adatot szívárogtat ki a tanuló adatokról (pl. a tanuló adatoknak a modell paraméterekben - mint "covert channel" - történő kódolásával [8]). További lehetséges feladat a kész modellból tanuló adatok közvetlen visszafejtése ([9], [7], [2]), illetve a modell komplexitása és a visszafejthetősége közötti kapcsolat tanulmányozása.
  • Rejtjelezett adatok de-anonimizációja gépi tanulással: A feladat egy népszerű end-to-end instant messaging alkalmazásban (pl. WhatsApp, Viber, Signal stb.) a beszélgető partner de-anonimizációja felügyelt gépi modellekkel csupán a rejtjelezett adatot felhasználva.[10]
  • Személyes adatok anonimizációja gépi tanulással: Számos cég/szervezet/kormány oszt meg egymással adatokat, amelyek "anonimizáltak" vagy aggregált (statisztikai) adatok. Sajnos az adatok megfelelő anonimizációja nehéz, és gyakran anonimnak vélt adatokból konkrét személyek érzékeny adatai visszafejthetők [4] [5] [6]. A hallgató feladata szekvenciális adatok (pl. GPS, áramfogyasztás, autós szenzorok) anonimizációja gépi tanulással. 
  • Aggregált lokációs adatok visszafejtése
  • Jelszótörés gyorsítása személyes adatokkal: A jelszófejtők nagy része figyelmen kivül hagyja, hogy sok felhasználó még mindig személyes adatok alapján válászt jelszót (emlékek, háziállat neve, hobby, munka, stb.). Mivel egyre több adatot osztunk meg magunkról, az ilyen gyenge jelszavak töréséhez segítséget nyújthat az illető profiljának az ismerete. A hallgató feladat egy létező jelszófejtő gyorsítása személyes adatokat felhasználva gépi tanulás segítségével.
  • Federált/kollaboratív tanulás adatvédelme: A federált tanulás [11] során több kliens épít együtt egy közös gépi modellt (egy szerver segítségével) anélkül, hogy a tanítóadataikat megosztanák egymással vagy a szerverrel, mégis pontosabb modellt kapnak mintha csak és kizárólag a saját adataikat használták volna tanításra. Hasonló modelleket használnak például gyógyszerkutatásban, szövegpredikcióra mobil telefonokon, vagy genetikai kutatásban több különböző kórházak adatain. Ugyan több nagyobb cég használja ezt a tanulási módszert (pl. Google), számos adatvédelmi problémát találtak már ezeknél a protokolloknál. A hallgató feladata a szerver és a kliens közötti protokoll biztonsági elemzése, javítása, az adat tömörítése, valamint a biztonságos protokoll implementációja

[1-12]: https://www.crysys.hu/education/projects/?q=Machine%20Learning


6
2