BME-HIT

Adatvédelem és biztonság gépi tanulásban

Félév: 2019-2020/I.

Konzulens: Dr. Ács Gergely

A mesterséges intelligencia és gépi tanulás térnyerése vitathatatlan. Az automatizált döntéseket alkalmazó rendszerek száma rohamosan növekszik (önjáró autók, egészségügyi alkalmazások, felhasználói hitelesítés, döntéstámogatás, profilozás, stb.). Például egy ilyen gépi modell megjósolhatja betegek halálozását a tünetegyüttesből, vagy a hitelképességet demográfiai és egyéb személyes adatokból, vagy fehérjék és kémiai anyagok reakcióképességét gyógyszerfejlesztés céljából korábbi adatokból. Ugyanakkor az ilyen rendszerek adatvédelmi és biztonsági problémái jelentősek, szerteágazóak, és megoldatlanok [1]. A hallgatók az alábbi témákon dolgozhatnak.

Tanuló adatok visszafejtése: A támadás során egy gépi modellból a támadó érzékeny adatokat próbál visszafejteni, amin a modellt betanították. Például a támadó képes lehet egy arcfelismerő rendszerből a felismerendő személy arcának a rekonstrukciójára csupán a modellt felhasználva [2][8]. Vagy akár egy kórházi adatbázisból épített modellból a betegek adatainak a visszafejtésére [3]. A hallgatók feladata a tanulási folyamat olyan módosítása, amely eredményeképpen a megtanult modell érzékeny adatot szívárogtat ki a tanuló adatokról (pl. a tanuló adatoknak a modell paraméterekben - mint "covert channel" - történő kódolásával [8]). Másik lehetséges feladat a kész modellból tanuló adatok közvetlen visszafejtése ([11], [7], [2]).
Rejtjelezett adatok de-anonimizációja gépi tanulással: A feladat egy népszerű end-to-end instant messaging alkalmazásban (pl. WhatsApp, Viber, Signal stb.) a beszélgető partner de-anonimizációja felügyelt gépi modellekkel csupán a rejtjelezett adatot felhasználva.[12]
Személyes adatok anonimizációja gépi tanulással: Számos cég/szervezet/kormány oszt meg egymással adatokat, amelyek "anonimizáltak" vagy aggregált (statisztikai) adatok. Sajnos az adatok megfelelő anonimizációja nehéz, és gyakran anonimnak vélt adatokból konkrét személyek érzékeny adatai visszafejthetők [4] [5] [6]. A hallgató feladata szekvenciális adatok (pl. GPS, áramfogyasztás, autos szenzorok) anonimizációja gépi tanulással.
Jelszavak osztályozása gépi tanulással: Vajon mi alapján választunk magunknak jelszavakat? Van e meghatározható különbség nők és férfiak jelszóválasztásai között? Ilyen és ehhez hasonló kérdésekre keressük a választ NLP (Natural Language Processing) algoritmusok segítségével [9], valamint egy érdekes tulajdonságokkal rendelkező új távolság függvény alkalmazásával [10], amit kifejezetten szavak közötti távolság definiálására alkottak meg.

[1-12]: https://www.crysys.hu/education/projects/?q=Machine%20Learning

Hallgatók száma: 5

Jelentkezők száma: 1