Hancock (programmeringsspråk)
Hancock är ett C-baserat programmeringsspråk , först utvecklat av forskare vid AT&T Labs 1998, för att analysera dataströmmar . Språket var avsett av dess skapare att förbättra effektiviteten och omfattningen av datautvinning. Hancock arbetar genom att skapa profiler för individer och använda data för att tillhandahålla information om beteende och sociala nätverk.
Utvecklingen av Hancock var en del av telekommunikationsindustrins användning av datautvinningsprocesser för att upptäcka bedrägerier och förbättra marknadsföringen. Men efter attackerna den 11 september 2001 och den ökade statliga övervakningen av individer, kom Hancock och liknande datautvinningstekniker i offentlig granskning, särskilt angående dess upplevda hot mot individens integritet.
Bakgrund
Datautvinningsforskning, inklusive Hancock, växte under 1990-talet, eftersom det vetenskapliga, affärsmässiga och medicinska intresset för massiv datainsamling, lagring och hantering ökade. Under det tidiga 1990-talet blev transaktionsföretag allt mer intresserade av datalagring, vilket gav lagrings-, fråge- och hanteringsmöjligheter för hela inspelad transaktionsdata. Datautvinningsforskning med fokus på databaser blev fokuserad på att skapa effektiva datastrukturer och algoritmer, särskilt för data som fanns utanför huvudminnet, till exempel på en disk. Padharic Smyth trodde att datautvinningsforskare syftade till att skriva algoritmer som kunde skala de enorma mängderna data på kortare tid.
Forskare vid AT&T Labs , inklusive Corinna Cortes , var banbrytande för Hancocks programmeringsspråk från 1998 till 2004. Hancock, ett C-baserat domänspecifikt programmeringsspråk, var avsett att göra programkod för datorsignaturer från stora transaktionsdataströmmar lättare att läsa och underhålla, fungerade således som en förbättring jämfört med de komplexa datautvinningsprogram skrivna i C. Hancock hanterade även skalafrågor för datautvinningsprogram.
De dataströmmar som Hancock-programmen analyserade var avsedda att hantera hundratals miljoner signaturer dagligen, perfekt lämpade för transaktioner som telefonsamtal, kreditkortsköp eller webbplatsförfrågningar. När Hancock utvecklades samlades dessa data vanligtvis för fakturerings- eller säkerhetssyften och i allt högre grad för att analysera hur transaktörer betedde sig. Datautvinning kan också vara användbart för att identifiera atypiska mönster i transaktordata. När det gäller antiterroristaktiviteter kan datautvinningshjälp för att hitta mönster hjälpa till att hitta kopplingar mellan terroristmisstänkta, till exempel genom finansiering eller vapenöverföringar.
Dataströmsapplikationer inkluderar även nätverksövervakning, finansiell övervakning, såsom prissättning av säkerhetsderivat , övervakning av effekt på receptbelagda läkemedel och e-handel . Datautvinning kan användas av företag för att hitta sina mest lönsamma konsumenter eller för att utföra churnanalys . Datautvinning kan också hjälpa företag att fatta beslut om kreditutlåning genom att utforma modeller som avgör en kunds kreditvärdighet. Dessa modeller är avsedda att minimera riskfylld kreditutlåning och samtidigt maximera försäljningsintäkterna.
Förutom Hancock inkluderade andra dataströmsystem som fanns 2003 Aurora, Gigascope, Niagara, STREAM, Tangram, Tapestry, Telegraph och Tribeca.
Processer
Databaser
Hancock är ett språk för dataströmsutvinningsprogram . Dataströmmar skiljer sig från traditionella lagrade databaser genom att de upplever mycket stora datavolymer och låter analytiker agera på sådan data i nästan realtid. Lagrade databaser innebär å andra sidan att data matas in för offlineförfrågningar. Datalager , som lagrar intersektionella data från olika system, kan vara kostsamma att bygga och långa att implementera. Förenklade datalager kan ta månader att bygga.
Omfattningen av massiv dataströmsutvinning ställer till problem för dataminerare. Till exempel kan datautvinning via internet och telefonnät ha till uppgift att hitta beständiga objekt, vilket är objekt som regelbundet förekommer i strömmen. Dessa föremål kan dock vara begravda i en stor mängd av nätverkets transaktionsdata; medan föremålen så småningom kan hittas strävar dataminers efter ökad tidseffektivitet i sina sökningar.
Inom databasteknik vet användarna inte nödvändigtvis var data de söker efter finns. Dessa användare behöver bara ställa frågor om data, som databashanteringssystemet returnerar. I en stor datamängd kan data finnas i -minne (Random-Access Memory ), som är den primära lagringen, eller disklagring, som är sekundär lagring. År 2000 Padharic Smyth att med den senaste tekniken kunde data som finns i RAM nås relativt snabbt, "i storleksordningen 10 −7 -10 −8 sekunder", medan sekundär lagringsdata tog betydligt längre tid att komma åt, " i storleksordningen 10 4 -10 5 " sekunder.
Data mining
Datautvinning kan delas upp i processer för input, analys och rapportering av resultat; den använder algoritmer för att hitta mönster och relationer mellan försökspersonerna och har använts av kommersiella företag för att hitta mönster i klientbeteende. Dataanalytiker behövs för att samla in och organisera data och träna algoritmer.
KianSing Ng och Huan Liu menar att även med enkla datautvinningsmål är den faktiska processen fortfarande komplex. Till exempel hävdar de att datautvinning i verkligheten kan utmanas av datafluktuationer, vilket skulle göra tidigare mönster "delvis ogiltiga." En annan komplikation är att de flesta databaser som fanns år 2000 kännetecknades av hög dimensionalitet, vilket innebär att de innehåller data om många attribut. Som Ng och Liu noterar, ger hög dimensionalitet långa beräkningstider; detta kan lösas genom datareduktion i förbehandlingssteget.
Hancocks process är som följer:
- Hancock-program analyserar data när de anländer, i realtid, till datalager.
- Hancock-program beräknade signaturerna, eller beteendeprofilerna, för transaktorer i strömmen.
- Dataströmtransaktorer inkluderar telefonnummer eller IP-adresser .
- Signaturer gör det möjligt för analytiker att upptäcka mönster som är gömda i data.
-
Telekommunikationsdataströmmar består av samtalsposter, som inkluderar information om var de som ringer, tid för samtal och ibland inkluderar inspelningar av konversationer.
- Hancock användes för att bearbeta signaturer baserat på data som längden på telefonsamtal och antalet samtal till ett visst område under ett visst tidsintervall.
- Hancock-program använde länkanalys för att hitta "communities of interest", som kopplade signaturer baserat på likheter i beteende. Länkanalys kräver att länkar mellan data uppdateras kontinuerligt och används för att upptäcka bedrägerinätverk.
- Länkanalys, som kan betraktas som en form av associationsdata mining, syftar till att hitta samband mellan relationer. Ett sådant samband är samtalsmönster inom telekommunikation. Association data mining syftar till att hitta samband mellan variabler. Till exempel föreslog en forskningsartikel att en marknad skulle kunna använda associationsanalys för att hitta sannolikheten att en kund som köper kaffe köper också bröd, marknaden kan sedan använda den informationen för att påverka butikens layout och kampanjer.
Eftersom Hancock-kod fungerade effektivt, även med stora mängder data, hävdade AT&T-forskarna att det gjorde det möjligt för analytiker att skapa applikationer som "tidigare ansågs vara omöjliga".
Ansökningar
AT&T Labs forskare analyserade telekommunikationsdataströmmar, inklusive företagets hela långdistansström, som inkluderade cirka 300 miljoner poster från 100 miljoner kundkonton dagligen. År 2004 skrevs hela AT&T:s långdistansregistreringssignaturer för telefonsamtal i Hancock och företaget använde Hancock-kod för att granska nio gigabyte nätverkstrafik varje natt.
Telekommunikationsföretag delar information som härrör från datautvinningsnätverkstrafik för forskning, säkerhet och regulatoriska ändamål.
Marknadsföring
Hancock-program hjälpte till med AT&T:s marknadsföringsinsatser. På 1990-talet gjorde stora dataströmsutvinningar och den ökade automatiseringen av statliga offentliga registersystem det möjligt för kommersiella företag i USA att anpassa marknadsföringen. Signaturprofiler utvecklades från både transaktionsregister och offentliga registerkällor. Ng och Liu tillämpade till exempel datautvinning på analys av kundretention och fann att utvinning av föreningsregler gjorde det möjligt för ett företag att förutsäga avgångar från inflytelserika kunder och deras medarbetare. De hävdade att sådan kunskap senare ger företagets marknadsföringsteam möjlighet att rikta in sig på dessa kunder och erbjuda mer attraktiva pitches.
Data mining assisterade telekommunikationsföretag i viral marknadsföring , även känd som buzz marketing eller mun-till-mun marknadsföring, som använder sociala konsumentnätverk för att förbättra varumärkesmedvetenhet och vinst. Viral marknadsföring är beroende av kopplingar mellan konsumenter för att öka varumärkesförespråkandet, vilket antingen kan vara explicit, såsom att vänner rekommenderar en produkt till andra vänner, eller implicit, såsom inflytelserika konsumenter som köper en produkt. För företag är ett av målen med viral marknadsföring att hitta inflytelserika konsumenter som har större nätverk. En annan metod för viral marknadsföring är att rikta in sig på grannar till tidigare konsumenter, känd som "nätverksinriktning". Genom att använda Hancock-program kunde analytiker på AT&T hitta "intresserade gemenskaper" eller sammanlänkade användare som hade liknande beteendeegenskaper.
En av de problem som främjare av viral marknadsföring stötte på var den stora storleken på marknadsföringsdatauppsättningar, som, när det gäller telekommunikationsföretag, kan innehålla information om transaktorer och deras beskrivande attribut och transaktioner. Marknadsföringsdatauppsättningar, när de uppgår till hundratals miljoner, kan överstiga minneskapaciteten för programvara för statistisk analys. Hancock-program tog upp dataskalningsproblem och gjorde det möjligt för analytiker att fatta beslut när data flödade in i datalagren.
Medan utvecklingen av trådlösa kommunikationsenheter gjorde det möjligt för brottsbekämpande myndigheter att spåra var användarna befinner sig, tillät det också företag att förbättra konsumentmarknadsföring, till exempel genom att skicka meddelanden enligt trådlösa användares närhet till vissa företag. Genom cellplatsdata kunde Hancock-program spåra trådlösa användares rörelser.
Enligt akademikern Alan Westin ökade ökningen av telemarketing under denna period också konsumenternas irritation. Statistikerna Murray Mackinnon och Ned Glick antog 1999 att företag gömde sin användning av kommersiell datautvinning på grund av potentiell konsumentreaktion för utvinning av kundregister. Som ett exempel citerade Mackinnon och Glick en stämningsansökan från juni 1999 där delstaten Minnesota stämde US Bancorp för att ha lämnat ut kundinformation till ett telemarketingföretag; Bancorp svarade omedelbart på stämningen genom att begränsa dess användning av kunddata.
Spårning av bedrägerier
AT&T-forskare, inklusive Cortes , visade att Hancock-relaterade datautvinningsprogram kunde användas för att hitta telekommunikationsbedrägerier.
Upptäckt av telekommunikationsbedrägerier inkluderar abonnemangsbedrägerier, obehörig användning av telefonkort och PBX -bedrägerier. Det liknar mobilkommunikation och kreditkortsbedrägerier: i alla tre måste företag bearbeta stora mängder data för att få information; de måste ta itu med oförutsägbarheten i mänskligt beteende, vilket gör det svårt att hitta mönster i data; och deras algoritmer måste tränas för att upptäcka de relativt sällsynta fallen av bedrägeri bland de många legitima transaktionerna. Enligt Daskalaki et al. 1998 ledde telekommunikationsbedrägerier till miljarder dollar i årliga förluster globalt.
Eftersom bedrägerifallen var relativt få jämfört med de hundratals miljoner dagliga telefontransaktioner som inträffade, måste algoritmer för datautvinning av telekommunikationsposter ge resultat snabbt och effektivt. Forskarna visade att intressegemenskaper kunde identifiera bedragare eftersom datanoder från bedrägliga konton vanligtvis är belägna närmare varandra än en nod från ett legitimt konto.
Genom sociala nätverksanalyser och länkanalys fann de också att den uppsättning nummer som riktades mot bedrägliga konton, som sedan kopplades bort, ofta anropades av bedragare från olika nummer; sådana kopplingar kan användas för att identifiera bedrägliga konton. Metoder för länkanalys bygger på antagandet att bedragare sällan avviker från sina samtalsvanor.
Förhållande till övervakning
2007 publicerade tidningen Wired en onlineartikel som hävdade att Hancock skapades av AT&T-forskare för "övervakningsändamål". Artikeln lyfte fram forskningsartiklar skrivna av Cortes et al. , särskilt forskarnas koncept om "intressegemenskaper". Artikeln kopplade ihop Hancocks koncept med de senaste offentliga upptäckterna att Federal Bureau of Investigation (FBI) hade gjort kravlösa förfrågningar om register över "intressanta gemenskaper" från telekommunikationsföretag enligt USA:s PATRIOT Act .
Artikeln hävdar att AT&T "uppfann konceptet och tekniken" för att skapa "community of interest"-poster, med hänvisning till företagets ägande av relaterade datautvinningspatent. Slutligen noterade artikeln hur AT&T, tillsammans med Verizon , vid den tiden stämdes i federal domstol för att ha gett National Security Agency (NSA) tillgång till miljarder telefonposter som tillhörde amerikaner. NSA, hävdar artikeln, skaffade sådana data i avsikt att databryta dem för att hitta misstänkta terrorister och avlyssningsmål utan avlyssning .
FBI telekommunikation registrerar övervakning
Federal telekommunikationsövervakning är inte en ny historisk utveckling i USA. Enligt akademikern Colin Agur blev telefonövervakning av brottsbekämpande myndigheter i USA vanligare på 1920-talet. I synnerhet blev telefonavlyssning en utbredd form av bevisinsamling av brottsbekämpande tjänstemän, särskilt federala agenter, under förbudet. Agur hävdar att Communications Act från 1934, som inrättade Federal Communications Commission, regerade i brottsbekämpande missbruk av telefonövervakning. Enligt lagen kunde telekommunikationsföretag föra register och rapportera olagliga begäranden om telekommunikationsavlyssning till FCC. Efter Federal Wiretap Act från 1968 och högsta domstolens beslut i Katz v. USA , som båda utvidgade skyddet från det fjärde tillägget till telefonkommunikation, krävde federal telekommunikationsövervakning garantier.
FBI var först auktoriserad att erhålla nationella säkerhetsbrev (NSL) för kommunikationsfakturor, inklusive de från telefontjänster, efter att kongressen antog Electronic Communications Privacy Act från 1986 . Breven tvingade telefonbolagen att förse FBI med kundinformation, såsom namn, adresser och långdistanssamtal. Kongressen skulle så småningom utöka NSL-befogenheterna till att även inkludera teckningsoptioner för lokala distanssamtal.
Efter attackerna den 11 september 2001 antog kongressen USA PATRIOT Act, som gjorde det lättare för utredare vid FBI att utfärda nationella säkerhetsbrev för terrorismutredningar (NSL). Akademikerna William Bendix och Paul Quirk hävdar att PATRIOT Act tillät FBI att komma åt och samla in privata uppgifter från många medborgare, utan godkännande av en domare. FBI fick behålla en samling register, utan tidsgräns för innehav. Det kan också tvinga NSL-mottagare att vara tysta genom att använda gag-order.
Wired -artikeln hävdade att FBI började göra förfrågningar utan garanti till telekommunikationsföretag om "communities of interest"-register över misstänkta enligt USA:s PATRIOT Act . Artikeln hävdade att brottsbekämpande myndigheter upptäckte förekomsten av sådana register baserat på forskning av Hancocks skapare.
2005 avslöjade regeringsläckor FBI:s missbruk av NSL. 2006, när PATRIOT Act förnyades, inkluderade den bestämmelser som krävde att justitiedepartementets generalinspektör årligen skulle granska NSL-användningen. Den första inspektörens allmänna rapport fann att 140 000 NSL-förfrågningar, på nästan 24 000 amerikanska personer, beviljades FBI-agenter från 2003 till 2005. Uppgifterna lades sedan till i databanker tillgängliga för tusentals agenter.
NSA telekommunikation registrerar övervakning
Telekommunikationsföretagens offentlig-privata relation sträcker sig in i hemvärnsområdet . Telekommunikationsföretag, inklusive AT&T , Verizon och BellSouth , samarbetade med NSA:s begäranden om tillgång till transaktionsregister. Telekommunikationsföretag, inklusive AT&T, har upprätthållit partnerskap med statliga myndigheter, som Department of Homeland Security, för att samarbeta för att dela information och lösa nationella cybersäkerhetsfrågor. AT&T-representanter sitter i styrelsen för National Cyber Security Alliance (NCSA), som främjar medvetenhet om cybersäkerhet och skydd av datoranvändare.
Analytiker vid NSA, under ledning av det hemliga Terrorist Surveillance Program , använde också datautvinning för att hitta terroristmisstänkta och sympatisörer. I denna sökning avlyssnade NSA kommunikation, inklusive telefonsamtal, som lämnade och gick in i USA. Agenter undersökte informationen för möjliga kopplingar till terrorism, såsom önskan att lära sig flyga flygplan eller specifika platser för kommunikationens mottagare, som Pakistan.
År 2005 rapporterade New York Times om existensen av programmet, som Bush-administrationen försvarade som nödvändigt i sina ansträngningar för att bekämpa terrorism och begränsade till terroristmisstänkta och medarbetare.
Men 2007 noterade Wired- artikeln hur AT&T och Verizon stämdes i federal domstol för att de hade gett NSA tillgång till miljarder telefonregister som tillhörde amerikaner för antiterroraktiviteter, som att använda datautvinning för att lokalisera misstänkta terrorister och utan garanti . avlyssningsmål .
2013, efter Snowden-läckorna , avslöjades det att programmet också hade minerat kommunikationen från inte bara terroristmisstänkta, utan även miljontals amerikanska medborgare. En oberoende granskning från 2014 av Privacy and Civil Liberties Oversight Board fann att programmet hade begränsade fördelar mot terrorism.
Se även
- Data mining
- C (programmeringsspråk)
- Analys av sociala nätverk
- Viral marknadsföring
- Spårning av bedrägerier
- 11 september attacker
- USA PATRIOT Act
- National Security Letter (NSL)