Beräkningsstatistik

Studenter som arbetade i Statistics Machine Room vid London School of Economics 1964

Beräkningsstatistik , eller statistisk beräkning , är bandet mellan statistik och datavetenskap . Det betyder statistiska metoder som är möjliga genom att använda beräkningsmetoder. Det är området för beräkningsvetenskap (eller vetenskaplig beräkning) som är specifikt för den matematiska vetenskapen om statistik . Detta område utvecklas också snabbt, vilket leder till uppmaningar om att ett bredare begrepp för datoranvändning bör läras ut som en del av allmän statistisk utbildning .

Som i traditionell statistik är målet att omvandla rådata till kunskap , men fokus ligger på datorintensiva statistiska metoder , såsom fall med mycket stor urvalsstorlek och icke-homogena datamängder .

Termerna "beräkningsstatistik" och "statistisk beräkning" används ofta omväxlande, även om Carlo Lauro (fd ordförande för International Association for Statistical Computing ) föreslog att man skulle göra en åtskillnad och definierade "statistisk beräkning" som "tillämpningen av datavetenskap på statistik ", och "beräkningsstatistik" som "syftar till utformningen av algoritmer för att implementera statistiska metoder på datorer, inklusive de som var otänkbara före datoråldern (t.ex. bootstrap, simulering ) , samt att hantera analytiskt svårlösta problem" [ sic ] .

Termen "beräkningsstatistik" kan också användas för att hänvisa till beräkningsintensiva statistiska metoder inklusive omsamplingsmetoder , Markov-kedjan Monte Carlo- metoder, lokal regression , kärndensitetsuppskattning , artificiella neurala nätverk och generaliserade additivmodeller .

Historia

Även om beräkningsstatistik används i stor utsträckning idag, har den faktiskt en relativt kort historia av acceptans i statistiksamhället . För det mesta förlitade sig grundarna av statistikområdet på matematik och asymptotiska approximationer i utvecklingen av beräkningsstatistisk metodik.

Inom det statistiska området kommer den första användningen av termen "dator" i en artikel i Journal of the American Statistical Associations arkiv av Robert P. Porter 1891. Artikeln diskuterar användningen av Hermann Holleriths maskin i den 11:e folkräkningen av Förenta staterna. Hermann Holleriths maskin, även kallad tabuleringsmaskin , var en elektromekanisk maskin utformad för att hjälpa till att sammanfatta information som lagrats på hålkort . Den uppfanns av Herman Hollerith (29 februari 1860 – 17 november 1929), en amerikansk affärsman, uppfinnare och statistiker. Hans uppfinning av tabuleringsmaskinen för hålkort patenterades 1884 och användes senare i 1890 års folkräkning i USA . Fördelarna med tekniken var omedelbart uppenbara. 1880 års folkräkning, med cirka 50 miljoner människor, och det tog över 7 år att tabulera. Medan i 1890 års folkräkning, med över 62 miljoner människor, tog det mindre än ett år. Detta markerar början på eran av mekaniserad beräkningsstatistik och halvautomatiska databehandlingssystem .

År 1908 utförde William Sealy Gosset sin nu välkända Monte Carlo-metodsimulering som ledde till upptäckten av Studentens t-distribution . Med hjälp av beräkningsmetoder har han också plottningar av de empiriska fördelningarna överlagrade på motsvarande teoretiska fördelningar. Datorn har revolutionerat simulering och har gjort replikeringen av Gossets experiment till lite mer än en övning.

Senare lade forskarna fram beräkningssätt för att generera pseudo-slumpmässiga avvikelser, utförde metoder för att omvandla enhetliga avvikelser till andra distributionsformer med hjälp av invers kumulativ distributionsfunktion eller acceptans-avvisande metoder, och utvecklade tillstånd-rymdmetodologi för Markov-kedjan Monte Carlo . Ett av de första försöken att generera slumpmässiga siffror på ett helt automatiserat sätt, gjordes av RAND Corporation 1947. Tabellerna som producerades publicerades som en bok 1955 , och även som en serie hålkort.

Vid mitten av 1950-talet hade flera artiklar och patent för enheter föreslagits för slumptalsgeneratorer . Utvecklingen av dessa enheter motiverades av behovet av att använda slumpmässiga siffror för att utföra simuleringar och andra grundläggande komponenter i statistisk analys. En av de mest kända av sådana enheter är ERNIE, som producerar slumpmässiga siffror som avgör vinnarna av Premium Bond , en lotteriobligation utfärdad i Storbritannien. 1958 John Tukeys jackknife. Det är som en metod för att minska förspänningen av parameteruppskattningar i prover under icke-standardiserade förhållanden. Detta kräver datorer för praktiska implementeringar. Hittills har datorer gjort många tråkiga statistiska studier genomförbara.

Metoder

Maximal sannolikhetsuppskattning

Maximal sannolikhetsuppskattning används för att uppskatta parametrarna för en antagen sannolikhetsfördelning , givet vissa observerade data. Det uppnås genom att maximera en sannolikhetsfunktion så att de observerade data är mest sannolika under den antagna statistiska modellen .

Monte Carlo metoden

Monte Carlo en statistisk metod bygger på upprepade slumpmässiga urval för att få numeriska resultat. Konceptet är att använda slumpmässighet för att lösa problem som i princip kan vara deterministiska . De används ofta i fysiska och matematiska problem och är mest användbara när det är svårt att använda andra tillvägagångssätt. Monte Carlo-metoder används huvudsakligen i tre problemklasser: optimering , numerisk integration och generering av drag från en sannolikhetsfördelning .

Markov-kedjan Monte Carlo

Markovkedjan Monte Carlo- metoden skapar prover från en kontinuerlig slumpvariabel , med sannolikhetstäthet proportionell mot en känd funktion. Dessa sampel kan användas för att utvärdera en integral över den variabeln, eftersom dess förväntade värde eller varians . Ju fler steg som ingår, desto bättre matchar fördelningen av urvalet den faktiska önskade fördelningen.

Ansökningar

Beräkningsstatistiska tidskrifter

Föreningar

Se även

  1. ^ Nolan, D. & Temple Lang, D. (2010). "Computing in the Statistics Curricula", The American Statistician 64 (2), s.97-107.
  2. ^ a b Wegman, Edward J. “ Beräkningsstatistik: En ny agenda för statistisk teori och praktik. Journal of the Washington Academy of Sciences , vol. 78, nr. 4, 1988, sid. 310–322. JSTOR
  3. ^ Lauro, Carlo (1996), "Computational statistics or statistic computing, är det frågan?", Computational Statistics & Data Analysis , 23 (1): 191–193, doi : 10.1016/0167-9473(96)88920-1
  4. ^    Watnik, Mitchell (2011). "Tidig beräkningsstatistik" . Journal of Computational and Graphical Statistics . 20 (4): 811–817. doi : 10.1198/jcgs.2011.204b . ISSN 1061-8600 . S2CID 120111510 .
  5. ^    Hendrickson, WA; Ward, KB (1975-10-27). "Atommodeller för polypeptidryggraden i myohemerytrin och hemerytrin" . Biokemisk och biofysisk forskningskommunikation . 66 (4): 1349–1356. doi : 10.1016/0006-291x(75)90508-2 . ISSN 1090-2104 . PMID 5 .
  6. ^ "Los Alamos vetenskap, nummer 14" . 1986-01-01. doi : 10.2172/6935980 . {{ citera journal }} : Citera journal kräver |journal= ( hjälp )
  7. ^   Trahan, Travis John (2019-10-03). "Senaste framstegen i Monte Carlo-metoder vid Los Alamos National Laboratory" . doi : 10.2172/1569710 . OTI 1569710 . {{ citera journal }} : Citera journal kräver |journal= ( hjälp )
  8. ^    Metropolis, Nicholas; Ulam, S. (1949). "Monte Carlo-metoden" . Journal of the American Statistical Association . 44 (247): 335–341. doi : 10.1080/01621459.1949.10483310 . ISSN 0162-1459 . PMID 18139350 .
  9. ^    Robert, Christian; Casella, George (2011-02-01). "En kort historia av Markov Chain Monte Carlo: Subjektiva minnen från ofullständiga data" . Statistisk vetenskap . 26 (1). doi : 10.1214/10-sts351 . ISSN 0883-4237 . S2CID 2806098 .
  10. ^ https://hal.inria.fr/hal-01561551/document
  11. ^   QUENOUILLE, MH (1956). "Anmärkningar om bias i uppskattning" . Biometrika . 43 (3–4): 353–360. doi : 10.1093/biomet/43.3-4.353 . ISSN 0006-3444 .
  12. ^   Teichroew, Daniel (1965). "En historia av distributionssampling före datorns era och dess relevans för simulering" . Journal of the American Statistical Association . 60 (309): 27–49. doi : 10.1080/01621459.1965.10480773 . ISSN 0162-1459 .

Vidare läsning

Artiklar

Böcker

externa länkar

Föreningar

Tidskrifter