Teknik för att utforma differentiellt privata algoritmer
Den exponentiella mekanismen är en teknik för att utforma differentiellt privata algoritmer. Den utvecklades av Frank McSherry och Kunal Talwar 2007. Deras arbete erkändes som en medvinnare av 2009 års PET Award for Outstanding Research in Privacy Enhancing Technologies.
Det mesta av den initiala forskningen inom området differentiell integritet kretsade kring verkligt värderade funktioner som har relativt låg känslighet för förändringar i en enskild individs data och vars användbarhet inte hämmas av små additiva störningar. En naturlig fråga är vad som händer i situationen när man vill bevara mer generella uppsättningar av fastigheter. Den exponentiella mekanismen hjälper till att utvidga begreppet differentiell integritet för att ta itu med dessa problem. Dessutom beskriver den en klass av mekanismer som inkluderar alla möjliga differentiellt privata mekanismer.
Mekanismen
Algoritm
I mycket allmänna termer mappar en sekretessmekanism en uppsättning av indata från domän till ett intervall . Kartan kan vara randomiserad, i vilket fall varje element i domänen motsvarar en sannolikhetsfördelning över intervallet . Sekretessmekanismen gör inga antaganden om karaktären av och förutom ett basmått på . Låt oss definiera en funktion . Intuitivt tilldelar denna funktion en poäng till paret , där och . Poängen återspeglar attraktionen hos paret , dvs ju högre poäng desto mer tilltalande är paret. Givet ingången är mekanismens mål att returnera en så att funktionen är ungefär maximerad. För att uppnå detta, ställ in mekanismen enligt följande: Definition: För valfri funktion och ett basmått över , definiera:
-
Välj med sannolikhet proportionell mot där .
Denna definition innebär att sannolikheten för att returnera en ökar exponentiellt med ökningen av värdet på . Om man ignorerar basmåttet och sedan värdet som maximerar har störst sannolikhet. Dessutom är denna mekanism differentiellt privat. Bevis för detta påstående kommer att följa. En teknisk detalj som bör komma ihåg är att för att korrekt definiera ∫ ändlig .
Sats (differentiell integritet): ger -differentiell integritet.
Bevis: Sannolikhetstätheten för vid lika
Om nu en enda ändring i ändrar med högst så kan täljaren ändras vid mest med faktorn och nämnaren minimum med faktorn . Således är förhållandet mellan den nya sannolikhetstätheten (dvs. med ny ) och den tidigare som mest .
Noggrannhet
Vi skulle helst vilja ha slumpmässiga dragningar av från mekanismen för att nästan maximera . Om vi anser att är så kan vi visa att sannolikheten för att mekanismen avviker från så länge det finns en tillräcklig massa (i termer av ) av värdena med värdet nära optimum.
Lemma: Låt och , vi har är som mest . Sannolikheten tas över .
Bevis: Sannolikheten är högst eftersom nämnaren högst kan vara en. Eftersom båda sannolikheterna har samma normaliserande term så,
Värdet på är högst ett, så denna gräns innebär lemmasatsen.
Sats (noggrannhet): För dessa värden på , vi har .
Bevis: Det följer av föregående lemma att sannolikheten för att poängen är minst är . Enligt hypotesen, . Genom att ersätta värdet på får vi denna sannolikhet att vara minst . Multiplicering med önskade gränsen.
Vi kan anta att för är mindre än eller lika med ett i alla beräkningar, eftersom vi alltid kan normalisera med .
Exempelapplikation
Innan vi går in på detaljerna i exemplet, låt oss definiera några termer som vi kommer att använda i stor utsträckning under vår diskussion.
Definition (global känslighet): Den globala känsligheten för en fråga är dess maximala skillnad när den utvärderas på två angränsande datauppsättningar :
Definition: En predikatfråga för varje predikat definieras som
Observera att för alla predikat .
Frigöringsmekanism
Följande är tack vare Avrim Blum , Katrina Ligett och Aaron Roth .
Definition (Användbarhet): En mekanism [ permanent död länk ] är - användbar för frågor i klass med sannolikhet om och varje dataset , för , .
Informellt betyder det att frågan kommer att bete sig på liknande sätt på den ursprungliga datamängden och på den syntetiska dataset . Tänk på ett vanligt problem i Data Mining. Antag att det finns en databas med poster. Varje post består av -tupler av formen där . Nu vill en användare lära sig ett linjärt halvsteg av formen . I huvudsak vill användaren ta reda på värdena för så att maximalt antal tuplar i databasen uppfyller olikheten. Algoritmen vi beskriver nedan kan generera en syntetisk databas som gör det möjligt för användaren att lära sig (ungefär) samma linjära halvrum medan han frågar i denna syntetiska databas. Motivet för en sådan algoritm är att den nya databasen kommer att genereras på ett differentiellt privat sätt och därmed säkerställa integritet till de individuella posterna i databasen .
I det här avsnittet visar vi att det är möjligt att släppa en datauppsättning som är användbar för begrepp från en polynomisk VC-Dimension- klass och samtidigt följa -differentiell integritet så länge som storleken på den ursprungliga datamängden är åtminstone polynom på VC-dimensionen av konceptklassen. För att formellt säga:
Sats: För vilken klass av funktioner som helst och vilken datauppsättning som helst såsom den där
vi kan mata ut en -användbar datauppsättning som bevarar -differentiell integritet. Som vi nämnde tidigare behöver algoritmen inte vara effektiv.
Ett intressant faktum är att algoritmen som vi ska utveckla genererar en syntetisk datauppsättning vars storlek är oberoende av den ursprungliga datauppsättningen; i själva verket beror det bara på VC-dimensionen för begreppsklassen och parametern . Algoritmen matar ut en datauppsättning av storleken
Vi lånar Uniform Convergence Theorem från kombinatoriken och anger en följd av den som är anpassad till vårt behov.
Lemma: Givet varje datauppsättning finns det en datauppsättning med storlek att .
Bevis:
Vi vet från den enhetliga konvergenssatsen att
där sannolikheten är över fördelningen av datamängden. Om RHS är mindre än ett så vet vi med säkerhet att datamängden existerar. För att binda RHS till mindre än en behöver vi där är någon positiv konstant. Eftersom vi angav tidigare att vi kommer att mata ut en datauppsättning av storleken , så genom att använda denna bunden på får vi . Därav lemma.
Nu åberopar vi den exponentiella mekanismen.
Definition: För alla funktioner D , exponentialmekanismen matar ut varje dataset med sannolikhet proportionell mot .
Från den exponentiella mekanismen vet vi att detta bevarar -differentiell integritet. Låt oss gå tillbaka till beviset för satsen.
Vi definierar .
För att visa att mekanismen uppfyller -användbarheten, bör vi visa att den matar ut något dataset med med sannolikhet . Det finns som mest utdatauppsättningar och sannolikheten att är högst proportionell mot . Genom unionsbunden är alltså sannolikheten för att mata ut en sådan datauppsättning högst proportionell mot . Återigen, vi vet att det finns någon datauppsättning för vilken . Därför matas en sådan datauppsättning ut med sannolikhet åtminstone proportionell mot .
Låt händelsen att exponentialmekanismen matar ut något dataset så att .
händelsen att exponentialmekanismen matar ut något dataset så att .
Om vi nu ställer in denna kvantitet till att vara minst finner vi att det räcker med att ha
Och därför bevisar vi satsen.
Applikationer inom andra domäner
I exemplet ovan på användningen av exponentiell mekanism kan man mata ut en syntetisk datauppsättning på ett differentiellt privat sätt och kan använda datauppsättningen för att svara på frågor med god noggrannhet. Andra privata mekanismer, såsom posterior sampling, som returnerar parametrar snarare än datauppsättningar, kan göras likvärdiga med den exponentiella.
Förutom inställningen av integritet har den exponentiella mekanismen också studerats i samband med auktionsteori och klassificeringsalgoritmer . När det gäller auktioner hjälper den exponentiella mekanismen till att uppnå en sann auktionsinställning.
externa länkar