Statistisk avslöjandekontroll

Statistical disclosure control ( SDC ), även känd som statistisk avslöjandebegränsning ( SDL ) eller avslöjande undvikande , är en teknik som används i datadriven forskning för att säkerställa att ingen person eller organisation kan identifieras från resultaten av en analys av enkäter eller administrativa data, eller i utgivningen av mikrodata . Syftet med SDC är att skydda konfidentialiteten för respondenterna och försökspersonerna i forskningen.

SDC refererar vanligtvis till 'output SDC'; se till att till exempel en publicerad tabell eller graf inte avslöjar konfidentiell information om respondenterna. SDC kan också beskriva skyddsmetoder som tillämpas på data: till exempel att ta bort namn och adresser, begränsa extrema värden eller byta problematiska observationer. Detta kallas ibland för "input SDC", men kallas oftare för anonymisering , avidentifiering eller mikrodataskydd.

Läroböcker (t.ex.) täcker vanligtvis indata-SDC och dataskydd i tabellform (men inte andra delar av utdata-SDC). Detta beror på att dessa två problem är av direkt intresse för statistikbyråer som stödde utvecklingen av området. För analytiska miljöer användes i allmänhet utdataregler som utvecklats för statistikbyråer tills datahanterare började argumentera för specifik output SDC för forskning.

Nödvändighet

Många typer av social , ekonomisk och hälsoforskning använder potentiellt känsliga uppgifter som grund för sin forskning, såsom undersöknings- eller folkräkningsdata , skatteregister, hälsojournaler, utbildningsinformation etc. Sådan information ges vanligtvis i förtroende, och i administrativa uppgifter , inte alltid för forskningsändamål.

Forskare är vanligtvis inte intresserade av information om en enda person eller företag; de letar efter trender bland större grupper av människor. Datan de använder är dock i första hand kopplad till enskilda personer och företag, och SDC säkerställer att dessa inte kan identifieras från publicerade data, oavsett hur detaljerade eller breda de är.

Det är möjligt att forskaren i slutet av dataanalysen på något sätt pekar ut en person eller ett företag genom sin forskning. En forskare kan till exempel identifiera den exceptionellt goda eller dåliga servicen på en geriatrisk avdelning inom ett sjukhus i ett avlägset område, där endast ett sjukhus tillhandahåller sådan vård. I så fall "avslöjar" dataanalysen sjukhusets identitet, även om datauppsättningen som användes för analysen var korrekt anonymiserad eller avidentifierad.

Statistisk avslöjandekontroll kommer att identifiera denna avslöjningsrisk och säkerställa att resultaten av analysen ändras för att skydda konfidentialitet. Det kräver en balans mellan att skydda konfidentialitet och att säkerställa att resultaten av dataanalysen fortfarande är användbara för statistisk forskning .

Utgång SDC

Det finns två huvudsakliga tillvägagångssätt för produktion av SDC: principbaserad och regelbaserad. I principbaserade system försöker avslöjandekontroll upprätthålla en specifik uppsättning grundläggande principer – till exempel "ingen person ska vara identifierbar i frigiven mikrodata". Regelbaserade system, däremot, bevisas av en specifik uppsättning regler som en person som utför avslöjandekontroll följer, varefter uppgifterna antas vara säkra att lämna ut. I allmänhet är officiell statistik regelbaserad; forskningsmiljöer är mer benägna att vara principbaserade.

I forskningsmiljöer kan valet av resultatkontrollsystem få betydande operativa konsekvenser.

Regelbaserad SDC

I regelbaserad SDC används en stel uppsättning regler för att avgöra om resultaten av dataanalys kan släppas eller inte. Reglerna tillämpas konsekvent, vilket gör det uppenbart vilka typer av produktion som är acceptabla. Regelbaserade system är bra för att säkerställa konsekvens över tid, över datakällor och över produktionsteam, vilket gör dem tilltalande för statistikbyråer. Regelbaserade system fungerar också bra för fjärrjobbservrar som microdata.no eller Lissy .

Men eftersom reglerna är oflexibla kan antingen avslöjande information fortfarande glida igenom, eller så är reglerna alltför restriktiva och tillåter bara resultat som är för breda för att användbar analys ska kunna publiceras. I praktiken kan forskningsmiljöer som driver regelbaserade system behöva ge flexibilitet i "ad hoc"-system.

Northern Ireland Statistics and Research Agency använder en regelbaserad metod för att publicera statistik och forskningsresultat.

Principbaserad SDC

I principbaserad SDC utbildas både forskaren och outputcheckaren i SDC. De får en uppsättning regler, som är tumregler snarare än hårda regler som i regelbaserad SDC. Detta innebär att i princip kan vilken produktion som helst godkännas eller vägras. Tumreglerna är en utgångspunkt för forskaren. En forskare kan begära utdata som bryter mot "tumreglerna" så länge som (1) de är icke-avslöjande (2) de är viktiga och (3) detta är en exceptionell begäran. Det är upp till forskaren att bevisa att alla "osäkra" utdata är icke-avslöjande, men kontrollören har sista ordet. Eftersom det inte finns några hårda regler kräver detta kunskap om avslöjningsrisker och omdöme från både forskaren och kontrollanten. Det kräver utbildning och förståelse för statistik och dataanalys, även om det har hävdats att detta kan användas för att göra processen mer effektiv än en regelbaserad modell.

UK Data Service använder en principbaserad metod för kontroll av statistisk avslöjande från sin Secure Data Service.

Kritik

Många samtida statistiska avslöjandekontrolltekniker, såsom generalisering och celldämpning, har visat sig vara sårbara för attacker av en hypotetisk dataintrångare. Till exempel visade Cox 2009 att komplementär celldämpning vanligtvis leder till "överskyddade" lösningar på grund av behovet av att undertrycka både primära och komplementära celler, och även då kan leda till att känsliga data kompromitteras när exakta intervall rapporteras.

En mer saklig kritik är att de teoretiska modeller som används för att utforska kontrollåtgärder inte är lämpliga som vägledningar för praktiskt handlande. Hafner et al ger ett praktiskt exempel på hur en förändring i perspektiv kan generera väsentligt olika resultat.

Verktyg

mu-Argus och sdcMicro är öppen källkodsverktyg för indata SDC.

tau-Argus och sdcTable är öppen källkodsverktyg för dataskydd i tabellform.

Se även