Befolkningsinformatik
Området befolkningsinformatik är den systematiska studien av populationer via sekundär analys av massiva datainsamlingar (som kallas " big data ") om människor. Forskare inom området hänvisar till denna massiva datainsamling som det sociala genomet , vilket betecknar vårt samhälles kollektiva digitala fotavtryck . Befolkningsinformatik tillämpar datavetenskap på sociala genomdata för att svara på grundläggande frågor om det mänskliga samhället och befolkningens hälsa ungefär som bioinformatik tillämpar datavetenskap på mänskligt genomdata för att svara på frågor om individuell hälsa. Det är ett framväxande forskningsområde i skärningspunkten mellan SBEH (Social, Behavioral, Economic, & Health) vetenskaper, datavetenskap och statistik där kvantitativa metoder och beräkningsverktyg används för att svara på grundläggande frågor om vårt samhälle.
Introduktion
Historia
Termen användes första gången i augusti 2012 när Population Informatics Lab grundades vid University of North Carolina i Chapel Hill av Dr. Hye-Cung Kum. Termen definierades först i en referentgranskad artikel 2013 och utvecklades ytterligare i en annan artikel 2014. Den första workshopen om befolkningsinformatik för Big Data hölls vid ACM SIGKDD-konferensen i Sydney, Australien, i augusti 2015.
Mål
Att studera sociala, beteendevetenskapliga, ekonomiska och hälsovetenskapliga vetenskaper med hjälp av de massiva datainsamlingarna, alias sociala genomdata , om människor. Det primära målet med befolkningsinformatik är att öka förståelsen för sociala processer genom att utveckla och tillämpa beräkningsintensiva tekniker på sociala genomdata.
Några av de viktiga underdisciplinerna är:
- Affärsanalys
- Social computing : sociala nätverksdataanalys
- Policyinformatik
- Folkhälsoinformatik
- Beräkningsjournalistik
- Beräkningsmässig transportvetenskap
- Beräkningsepidemiologi
- Beräkningsekonomi
- Beräkningssociologi
- Beräkningssamhällsvetenskap
Närmar sig
Record Linkage , uppgiften att hitta poster i en datauppsättning som refererar till samma entitet över olika datakällor, är en stor aktivitet inom befolkningsinformatikområdet eftersom de flesta digitala spår om människor är fragmenterade i många heterogena databaser som behöver länkas samman innan analys kan göras.
När relevanta datamängder väl är länkade är nästa uppgift vanligtvis att utveckla giltiga meningsfulla mått för att svara på forskningsfrågan. Att utveckla mått innebär ofta att man itererar mellan induktiva och deduktiva tillvägagångssätt med data- och forskningsfrågan tills användbara mått har utvecklats eftersom data har samlats in för andra ändamål utan avsedd användning för att besvara frågan. Att ta fram meningsfulla och användbara mått från befintlig data är en stor utmaning i många forskningsprojekt. I beräkningsfält kallas dessa mått ofta för funktioner.
Slutligen, med datamängder kopplade och nödvändiga åtgärder utvecklade, är den analytiska datamängden redo för analys. Vanliga analysmetoder inkluderar traditionell hypotesdriven forskning samt mer induktiva metoder som datavetenskap och prediktiv analys .
Relation till andra områden
Beräkningssamhällsvetenskap avser de akademiska underdiscipliner som berörs av beräkningsbaserade ansatser till samhällsvetenskap. Detta innebär att datorer används för att modellera, simulera och analysera sociala fenomen. Områden inkluderar beräkningsekonomi och beräkningssociologi . Den framträdande artikeln om beräkningssamhällsvetenskap är av Lazer et al. 2009 som var en sammanfattning av en workshop som hölls på Harvard med samma titel. Artikeln definierar dock inte termen beräkningssamhällsvetenskap exakt.
Generellt sett är beräkningssamhällsvetenskap ett bredare område och omfattar befolkningsinformatik. Förutom befolkningsinformatik innehåller den också komplexa simuleringar av sociala fenomen. Ofta använder komplexa simuleringsmodeller resultat från befolkningsinformatik för att konfigurera med verkliga parametrar.
Data Science for Social Good (DSSG) är ett annat liknande område som kommer till stånd. Men återigen, DSSG är ett större område som tillämpar datavetenskap på alla sociala problem som inkluderar studier av mänskliga populationer men också många problem som inte använder någon data om människor.
Befolkningsrekonstruktion är det tvärvetenskapliga området för att rekonstruera specifika (historiska) populationer genom att länka data från olika källor, vilket leder till rika nya resurser för studier av samhällsvetare.
Relaterade grupper och workshops
Den första Workshopen om befolkningsinformatik för Big Data hölls vid ACM SIGKDD-konferensen i Sydney, Australien, 2015. Workshopen samlade datavetenskapliga forskare, såväl som folkhälsopraktiker och forskare. Denna Wikipedia-sida startade vid workshopen.
IPDLN (International Population Data Linkage Network) underlättar kommunikationen mellan centra som är specialiserade på datalänkning och användare av den länkade datan. Både producenter och användare är engagerade i den systematiska tillämpningen av datalänkning för att skapa samhällsnytta i befolkningen och hälsorelaterade domäner.
Utmaningar
Tre stora utmaningar som är specifika för befolkningsinformatik är:
- Att bevara integriteten för ämnena för uppgifterna – på grund av ökande oro för integritet och konfidentialitet är delning eller utbyte av känslig information om ämnena mellan olika organisationer ofta inte tillåtet. Därför måste befolkningsinformatik tillämpas på krypterad data eller i en integritetsbevarande miljö.
- Behovet av fel begränsar resultaten – eftersom data från den verkliga världen ofta innehåller fel och variationer måste felgränsen användas (för ungefärlig matchning) så att verkliga beslut som har direkt inverkan på människor kan fattas baserat på dessa resultat. Forskning om felutbredning i hela datapipelinen från dataintegration till slutlig analys är också viktig.
- Skalbarhet – databaser växer kontinuerligt i storlek, vilket gör befolkningsinformatik beräkningsmässigt dyrt vad gäller storlek och antal datakällor. Skalbara algoritmer måste utvecklas för att tillhandahålla effektiva och praktiska befolkningsinformatiktillämpningar i verkliga sammanhang.
Se även
- ^ a b Kum, Hye-Chung; Ahalt, Stanley (2013-01-01). "Privacy-by-Design: Understanding Data Access Models for Secondary Data" . AMIA Joint Summits on Translational Science Proceedings AMIA Summit on Translational Science . 2013 : 126–130. ISSN 2153-4063 . PMC 3845756 . PMID 24303251 .
- ^ Kum, Hye-Chung; Krishnamurthy, A.; Machanavajjhala, A.; Ahalt, SC (2014-01-01). "Social Genome: Att sätta Big Data i arbete för befolkningsinformatik". Dator . 47 (1): 56–63. doi : 10.1109/MC.2013.405 . ISSN 0018-9162 . S2CID 6275413 .
- ^ Lazer, David; Pentland, Alex (Sandy); Adamic, Lada; Aral, Sinan; Barabasi, Albert Laszlo; Brewer, Devon; Christakis, Nicholas; Entreprenör, Noshir; Fowler, James (2009-02-06). "Livet i nätverket: den kommande tidsåldern för beräkningssamhällsvetenskap" . Vetenskap . 323 (5915): 721–723. doi : 10.1126/science.1167742 . ISSN 0036-8075 . PMC 2745217 . PMID 19197046 .
- ^ Bloothooft, G.; Christen, P.; Mandemakers, K.; Schraagen, M. (2015). Befolkningsrekonstruktion - Springer . doi : 10.1007/978-3-319-19884-2 . ISBN 978-3-319-19883-5 .
- ^ Dinusha Vatsalan, Peter Christen och Vassilios S. Verykios. "En taxonomi av integritetsbevarande tekniker för koppling av rekord." Journal of Information Systems (Elsevier), 38(6): 946-969, 2013. doi: 10.1016/j.is.2012.11.005
- ^ Kum, Hye-Chung; Krishnamurthy, Ashok; Machanavajjhala, Ashwin; Reiter, Michael K; Ahalt, Stanley (2014-03-01). "Sekretessbevarande interaktiv registreringslänkning (PPIRL)" . Journal of the American Medical Informatics Association . 21 (2): 212–220. doi : 10.1136/amiajnl-2013-002165 . ISSN 1067-5027 . PMC 3932473 . PMID 24201028 .
- ^ Peter Christen. "Datamatchning - koncept och tekniker för postlänkning, enhetsupplösning och dubblettdetektering" . Datacentrerade system och applikationer (Springer) 2012. doi: 10.1007/978-3-642-31164-2
- ^ Peter Christen, Dinusha Vatsalan och Zhichun Fu. "Avancerade metoder för koppling av rekord och integritetsaspekter för befolkningsrekonstruktion - en undersökning och fallstudier" . Befolkningsrekonstruktion: 87-110 (Springer) 2015. doi: 10.1007/978-3-319-19884-2_5
- ^ Lahiri, P.; Larsen, Michael D. (2005-03-01). "Regressionsanalys med länkad data". Journal of the American Statistical Association . 100 (469): 222–230. CiteSeerX 10.1.1.143.1706 . doi : 10.1198/016214504000001277 . JSTOR 27590532 . S2CID 15873588 .
- ^ Thilina Ranbaduge, Dinusha Vatsalan och Peter Christen. "Klusterbaserad skalbar indexering för flerparts sekretessbevarande postkoppling" . PAKDD: 549-561 (Springer) 2015 doi: 10.1007/978-3-319-18032-8_43