Můžeme shromažďovat osobní údaje ochranou soukromí?

215

Velmi mladá technika rozdílové důvěrnosti je stále populárnější. V posledních měsících to vzal i Google. Dokázali jsme si promluvit s Damienem Desfontainesem, jedním z hlavních inženýrů firmy v této záležitosti, abychom pochopili tichou revoluci v této oblasti IT.

Termín „soukromí“ je obtížné popsat se jmény mnoha technologických gigantů. Mezi nimi je Google, který vychází ze svých zisků z cílené reklamy a neváhejte ho využít data od jeho uživatelů. Přesto, včas kde dokonce Facebook se chce zaměřit na šifrování, Titan Mountain View chápe, že má zájem na posílení svého uvážení.

Za poslední rok se firma například přidala režim inkognito v Mapách Googlenebo navrhované automatické mazání určitých dat Osobní. Kromě těchto poněkud základních funkcí však Google většinou publikoval v open source dvě softwarové knihovny věnované soukromí.

Open source knihovny

Poprvé to proběhlo v červnu v 2019u Soukromé připojení a výpočetkryptografický protokol založený mimo jiné na technice „homomorfního šifrování“, která umožňuje provádět matematické operace na šifrovaných datech několika aktérů, aniž by je bylo nutné předem dešifrovat. Pak v září je to softwarová knihovna o rozdílovém soukromí (z jeho malého jména "DP" pro rozdílné soukromí), která byla představena: technika, která chrání data, aniž by je musela šifrovat.

Aby to všechno bylo, obří otevřeno v květnu 2019 Centrum bezpečnostního inženýrství Google (GSEC) v Mnichově, specializující se na soukromí a zaměstnávající dnes inženýry a výzkumníky 200 v této oblasti. Bez ohledu na to, jak hluboce vůdci společnosti Google vnímají použití dat, takový velký podnik nemůže být monolitický a odborníci na ochranu soukromí, které najímá, dobrovolně vracejí své osobní přesvědčení.

Byli jsme schopni se setkat Damien Desfontainespřední inženýr v oblasti ochrany osobních údajů společnosti Google a externí doktorand na ETH Curych ve Švýcarsku. Tento francouzský milenec Linuxu a softwaru má velkorysý cop open source byla příjemně překvapena bezpečnostním úsilím týmů Google.

Damien Desfontaines (vpravo) s Mihaela Ion, inženýrem z týmu Google pro soukromé připojení a výpočet.

Původ problému

Nejprve si ale pamatujte, jaké rozdílné soukromí je a proč je v našem digitálním světě nezbytné. Už jsme to vysvětlili tento koncept s hádankamiv době, kdy to byl hlavně Apple, kdo z něj udělal svůj pracovní kůň. Jako dobrý inženýr má Desfontaines další přístup k problému, který jsme sledovali a rozšiřovali zde.

Až donedávna se předpokládalo, že za účelem anonymizace databáze stačí odstranit informace umožňující identifikaci osob v ní (dále jen „PII“) osobní údaje). Zní to přirozeně, ale bohužel to nefunguje kvůli mnoha jemnostem.

Někteří se to naučili na své náklady, jako Netflix ve slavném příkladu které jsme již předložili, V registru, který se mnohem méně pravděpodobně usmívá, je pojišťovací komise Massachusetts Group rozhodl v polovině 1990 let publikovat anonymizovaná lékařská data všech veřejných zástupců tohoto státu USA, aby pomohli vědcům.

Fotografie IT specialisty Latanya Sweeney
Počítačová vědkyně Latanya Sweeney z Harvardu, která pracovala na de-anonymizaci.

Ale Massachusetts je také domovem slavných univerzit Harvard a MIT (Massachusetts Institute of Technology). Počítač vědec Latanya Sweeneynyní profesorka Harvardu, byla mistrovskou studentkou na MIT, když ji vyzvala, aby našla lékařské údaje guvernéra Massachusetts.

Při platbě dvaceti dolarů získala seznam voličů z guvernérského města a poté se shodovala datum narození a poštovní směrovací číslo dotyčné osoby v databázi. Sweeney snadno dostala ruce na lékařské záznamy guvernéra, včetně diagnóz a předpisů, které poslala do kanceláře vyvolených poštou.

Přes anonymitu Sweeney snadno našel lékařské záznamy guvernéra

Jaký je účel RFP?

Pochopili jsme, že vyčištění identifikovatelných informací z databáze nestačí. Co místo toho dělat? Latanya Sweeney a její kolega Pierangela Samarati přišli s řešením v 1998u: le K-anonymita, Oba vědci budou agregovat řádky dat tak, aby existoval více než jeden celkový výsledek, aniž by byly uvedeny jednotlivé položky.

Chcete-li použít příklad, který navrhl Desfontaines, předpokládejme, že chceme mít statistiky o národnosti účastníků konference. Namísto počítání „unetelle, tak a tak jsou francouzština“, můžeme říci „on je 9h53 a 6 francouzština se od rána vrátili na scénu konference“. Někdo, kdo najde databázi, by měl priori snaží se zjistit, kteří jednotliví návštěvníci jsou Francouzi.

A přesto má k-anonymita stále své nedostatky. Řekněme, že indiscreetskému pozorovateli se podaří podívat se na databázi národností na 9h52 et na 9h53. Pokud je na první základně francouzština 5, ale na druhé je 6, pozorovatel si může být jist, že jedním z lidí přihlášených na konferenci mezi 9h52 a 9h53 je francouzština.

Rozlišovací útok

Tomu se říká a zaútočit differencingkde se podíváme na rozdíly mezi dvěma datovými sadami, které se více či méně týkají stejné věci. " Ve stejném duchu můžeme připojit útok na spam ", Říká Desfontaines. " Můžeme vám zaslat průzkum e-mailem, jehož výsledky budou agregovány podle skupiny odpovědí 100. Pokud však 99 z těchto odpovědí generují falešné účty, budeme vědět, na co jste odpověděli. »

Předpokládá se, že technika PD tento problém předchází. " Principem rozdílové důvěrnosti je zajistit, že nezáleží na tom, zda je konkrétní osoba v databázi nebo ne: to nezmění konečný výsledek “. Je zřejmé, že ať už jsou vaše data shromažďována, či nikoliv, nevšimneme si to.

K tomu přidáme k datům „šum“, tj. Dávku náhodně. Každý jedinec bude nějakým způsobem pokrytý rozostřením: pokud z databáze dříve vyplývá 6 francouzština, může to být ve skutečnosti pouze 5 a nemůžeme vědět, zda šestá osoba skutečně existuje nebo ne. Čím více šumu, tím méně přesná data, ale lepší důvěrnost.

Hluk s jistotou neví, jaký je rozdíl mezi základnou 1 a základnou 2

Od teorie k praxi

PD má několik výhod. " Máme formální záruky i proti silnému útočníkovi »: Hluk zůstává hlukem, neproniknutelným pro vynalézavost potenciálních hackerů. Na tyto záruky nezávisí pomocné znalosti To znamená, že útočníci mohou mít další informace. Ve stejném duchu, “ data lze publikovat několikrát za sebou Aniž by to ohrozilo jejich důvěrnost.

Jednou z dalších silných stránek RP je její koncepční jednoduchost. Jedná se v podstatě o přidání šumu k datům, aniž by šlo o šifrování. Jsme daleko od spletitých protokolů kryptografie, které k dosažení svých cílů spoléhají na mnoho matematických rázů ruky. Nakonec, alespoň teoreticky.

« V praxi jsme byli très překvapilo, že našlo stejné překážky jako v kryptografii “, Poznámky Desfontaines, s použitím příkladu protokolu RSA, vytvořeného v 1977u a zavedeného šifrování veřejného klíče. " Cje velmi snadné naexpliquer provoz RSA někomu, kdo to udělal trochu matematika na univerzitě. Mkdyž chceme implementovat tento protokol bezpečně se vždy setkáváme s problémy. »

Kredit: Mika Baumeister // Unsplash

Stejně jako tyto recepty na vaření, které selhávají, aniž bychom skutečně pochopili, proč byli inženýři DP konfrontováni s neočekávanými detaily. " Například čísla s pohyblivou řádovou čárkou “, Například„ 1,5 “nebo„ 5,87 “. Počítač má omezenou paměť a v závislosti na tom, zda je v bitech 32 nebo 64, dokáže za desetinnou čárkou zpracovat pouze omezený počet číslic.

« Když přidáme šum, co děláme se ztrátou přesnosti? Podle použitých metod a „zaokrouhlení“, které s tím souvisí, si počítačoví vědci uvědomili, že nejméně významné bity, ty, které kódují nejmenší číslice za desetinnou čárkou, obsahují stopy, které zjišťují důvěrnost.

Další výzva vzešla ze samotné povahy publikací o výzkumu v oblasti informatiky. " Výzkum se často spoléhá na poměrně zjednodušující předpoklady », Více orientovaný na abstrakt než na konkrétní realitu. " Například to bude předpokládate každý nikdo se v databázi neobjeví pouze jednou. »

"Lvětšina lidí, kteří nás navštíví, chce pouze činit částky a histogramy »

To platí, pokud jde o lékařská data - oblast, která není pro PD příliš slibná, protože přesnost informací je pro pacienty doslova zásadní. " Ale pokaždé, když používáte Vyhledávání Google, je od vás uložen jiný požadavek, který je uložen “. Při korelaci těchto více položek stačí filtrovat cenné informace.

Výzkum také rád „ zaměřit se na velmi komplikované problémy, na vědecké výzvy, protože upřímně je to zábavné „Smiles Desfontaines. To, co stimuluje vědce, není nutně to, co je nejvíce potřeba. " En pravda, většina lidí, kteří k nám přijdou, chce dělat součty a histogramy ", Základy statistiky.

Nedostatek odborných znalostí

Samozřejmě, získání PD z teorie do praxe vyžaduje zkušené mozky. Jurista David O'Brien de Harvard, specialista na důvěrnost, před rokem před námi odhadl, že pouze asi padesát počítačových specialistů na planetě si užilo každodenní zkušenosti s PD. To znamená, že každá společnost, která vážně chce udělat PD, se musela předem zmocnit jednoho z těchto padesáti lidí.

Postava, která Damiena Desfontainese vůbec nepřekvapuje. " Je pravda, že existuje jen málo lidí! Budování týmu v Mnichově pomohlo, ale nikdo to předtím neudělal. Musel jsem strávit 6 měsíce tréninkem svých kolegůs "Nebo tucet inženýrů." Úsilí, které se vyplatilo, protože “ mnoho z nich nyní dosáhlo expertní úrovně. Nebylo to snadné, ale byla to zábava. »

« Musel jsem strávit 6 měsíce tréninkem svých kolegů »

Diferenciální soukromí není v zásadě obtížné se naučit, zejména proto, že bezpečnost a šifrování se již dlouho vyučují na počítačových školách. " Male toto je nová oblast " článek kde vědkyně Cynthia Dwork a její kolegové uvedli tento koncept, pochází pouze z 2006u.

Přitažlivost důvěrnosti jako specializované oblasti je navíc nedávná. " První mistr v soukromí byl otevřený žepřed třemi nebo čtyřmi lety " v prestižním IT oddělení z Carnegie Mellon University v Pensylvánii.

Je tento nedostatek odborných znalostí překážkou provádění PD? " Rozhodně! Vyvolává Desfontaines. " Cílem open source knihovny je spravedlivě nakonec umožní IT profesionálům, kteří neznají PD, aby je mohli používat ve svých programech. Prozatím se zaměřujeme na primitiva a pak doufáme, že se bar sníží. »

Popularizovat rozdílnou důvěrnost

Pojďme tedy k primitivům, kteří jsou „ jako Lego cihly pro vytváření algoritmů. Může to být funkce pro přidání šumu, pak více abstraktních věcí, jako jsou prvky, vědět, kolik šumu přidat v závislosti na kontextu, nebo konečně, blíže k uživateli, jazyk dotazu přímá integrace RFP. »

Z tohoto důvodu je zájem knihovny open source zpřístupnit tyto základní stavební kameny každému. " Je zbytečné, že každá technologická společnost pracuje ve svém rohu. Primitivy DP by měly být jako šifrovací primitivy shromážděné v malém počtu knihoven. »

"Je zbytečné, aby každá technologická společnost pracovala ve svém oboru."

Dnes je RP stále vyhrazeno pro několik konkrétních projektů. Apple používá ve svých produktech pro různé účely, jako je sběr statistik o používání klávesnic iOS a macOS, Na straně Google algoritmus REPORT v prohlížeči Chrome shromažďuje aktivitu uživatelů. A co je překvapivější, Uber také vydal nástroje open source ve věci.

Jednou z jeho největších připravovaných aplikací je příští rok sčítání lidu v USA Sčítání lidu 2020, " Chatoval jsem s lidmi ze sčítání lidu, cJsou to odborníci, kteří byli najati na konci své práce ", Evokuje Desfontaines. Vědecká výzva je skutečná a tentokrát doufáme, že jí chybí odborné znalosti.

Kdo je kdo

Sdílet na sociálních sítích

Tento článek se objevil jako první https://www.numerama.com/tech/575861-peut-on-collecter-des-donnees-personnelles-en-protegeant-la-vie-privee-dun-utilisateur.html#utm_medium=distibuted&utm_source=rss&utm_campaign=575861

Komentáře jsou uzavřeny.