BME-HIT

Adatvédelem és biztonság gépi tanulásban

Félév: 2018-2019/II.

Konzulens: Dr. Ács Gergely

A mesterséges intelligencia és gépi tanulás térnyerése vitathatatlan. Az automatizált döntéseket alkalmazó rendszerek száma rohamosan növekszik (önjáró autók, egészségügyi alkalmazások, felhasználói hitelesítés, döntéstámogatás, profilozás, stb.). Például egy ilyen gépi modell megjósolhatja betegek halálozását a tünetegyüttesből, vagy a hitelképességet demográfiai és egyéb személyes adatokból, vagy fehérjék és kémiai anyagok reakcióképességét gyógyszerfejlesztés céljából korábbi adatokból. Ugyanakkor az ilyen rendszerek adatvédelmi és biztonsági problémái jelentősek, szerteágazóak, és megoldatlanok [1]. A hallgatók az alábbi témákon dolgozhatnak.

Tanuló adatok visszafejtése: A támadás során egy gépi modellból a támadó érzékeny adatokat próbál visszafejteni, amin a modellt betanították. Például a támadó képes lehet egy arcfelismerő rendszerből a felismerendő személy arcának a rekonstrukciójára csupán a modellt felhasználva [2][8]. Vagy akár egy kórházi adatbázisból épített modellból a betegek adatainak a visszafejtésére [3]. A hallgatók feladata a tanulási folyamat olyan módosítása, amely eredményeképpen a megtanult modell érzékeny adatot szívárogtat ki a tanuló adatokról (pl. a tanuló adatoknak a modell paraméterekben - mint "covert channel" - történő kódolásával [8]). Másik lehetséges feladat a kész modellból tanuló adatok közvetlen visszafejtése ([11], [7], [2]).
Védekezés tanuló adatok visszafejtése ellen: Neurális hálókból ill. azok paramétereiből konkrét személyek adatai sokszor visszafejthetőek [1] [7], ha a hálót személyes adatokon tanították (pl. betegek tünetei, hitelért folyamodók demográfiai adatai, stb.). A hallgató feladata olyan neurális hálók éptése, amely használható az eredeti céljára (pl. halálozás jóslása tünetegyüttesből) úgy, hogy a tanításhoz használt személyek (pl. betegek) adatai nem visszafejthetőek a háló paramétereiből.
Személyes adatok anonimizációja gépi tanulással: Számos cég/szervezet/kormány oszt meg egymással adatokat, amelyek "anonimizáltak" vagy aggregált (statisztikai) adatok. Sajnos az adatok megfelelő anonimizációja nehéz, és gyakran anonimnak vélt adatokból konkrét személyek érzékeny adatai visszafejthetők [4] [5] [6]. A hallgató feladata szekvenciális adatok (pl. GPS, áramfogyasztás, autos szenzorok) anonimizációja gépi tanulással.
Jelszavak osztályozása gépi tanulással: Vajon mi alapján választunk magunknak jelszavakat? Van e meghatározható különbség nők és férfiak jelszóválasztásai között? Ilyen és ehhez hasonló kérdésekre keressük a választ NLP (Natural Language Processing) algoritmusok segítségével [9], valamint egy érdekes tulajdonságokkal rendelkező új távolság függvény alkalmazásával [10], amit kifejezetten szavak közötti távolság definiálására alkottak meg.

[1-11]: https://www.crysys.hu/education/projects/?q=Machine%20Learning

Hallgatók száma: 5

Jelentkezők száma: 4