Datorexperiment

Ett datorexperiment eller simuleringsexperiment är ett experiment som används för att studera en datorsimulering, även kallat ett in silico- system. Detta område inkluderar beräkningsfysik , beräkningskemi , beräkningsbiologi och andra liknande discipliner.

Bakgrund

Datorsimuleringar är konstruerade för att efterlikna ett fysiskt system. Eftersom dessa är avsedda att replikera någon aspekt av ett system i detalj, ger de ofta ingen analytisk lösning. används metoder som diskret händelsesimulering eller finita elementlösare. En datormodell används för att dra slutsatser om systemet den replikerar. Till exempel används ofta klimatmodeller eftersom det är omöjligt att experimentera på ett objekt i jordstorlek.

Mål

Datorexperiment har använts med många syften i åtanke. Några av dessa inkluderar:

Osäkerhetskvantifiering : Karakterisera osäkerheten som finns i en datorsimulering som härrör från okända under datorsimuleringens konstruktion.
Omvända problem : Upptäck de underliggande egenskaperna hos systemet från fysiska data.
Bias correction: Använd fysisk data för att korrigera för bias i simuleringen.
Dataassimilering : Kombinera flera simuleringar och fysiska datakällor till en komplett prediktiv modell.
Systemdesign : Hitta indata som resulterar i optimala systemprestandamått.

Datorsimuleringsmodellering

Modellering av datorexperiment använder vanligtvis ett Bayesian ramverk. Bayesiansk statistik är en tolkning av statistikområdet där alla bevis om världens sanna tillstånd uttryckligen uttrycks i form av sannolikheter . Inom datorexperimentens område skulle den Bayesianska tolkningen innebära att vi måste bilda en förfördelning som representerar vår tidigare tro på datormodellens struktur. Användningen av denna filosofi för datorexperiment började på 1980-talet och sammanfattas fint av Sacks et al. (1989) [1] . Medan den bayesianska metoden används flitigt, frekventistiska tillvägagångssätt nyligen diskuterats [2] .

Grundidén med detta ramverk är att modellera datorsimuleringen som en okänd funktion av en uppsättning ingångar. Datorsimuleringen är implementerad som en bit datorkod som kan utvärderas för att producera en samling utdata. Exempel på indata till dessa simuleringar är koefficienter i den underliggande modellen, initiala förhållanden och forceringsfunktioner . Det är naturligt att se simuleringen som en deterministisk funktion som mappar dessa indata till en samling utdata . På basis av att se vår simulator på detta sätt är det vanligt att referera till samlingen av indata som ${\displaystyle x} ,$ själva datorsimuleringen som $f$ , och den resulterande utdata som $f(x)$ . Både $x$ och $f(x)$ är vektorkvantiteter, och de kan vara mycket stora samlingar av värden, ofta indexerade med rum eller tid, eller med både rum och tid.

Även om $f(\cdot )$ är känd i princip, är detta inte fallet i praktiken. Många simulatorer består av tiotusentals rader med datorkod på hög nivå, som inte är tillgänglig för intuition. För vissa simuleringar, till exempel klimatmodeller, kan utvärdering av utdata för en enda uppsättning indata kräva miljontals datortimmar [ 3] .

Gaussisk process före

Den typiska modellen för en datorkodutmatning är en Gaussisk process. För enkelhetens skull, antag att $f(x)$ är en skalär. På grund av det bayesianska ramverket fixar vi vår övertygelse att funktionen $f$ följer en gaussisk process , $f\sim \operatorname {GP} (m(\cdot ),C(\cdot ,\cdot )),$ där $m$ är medelfunktionen och $C$ är kovariansfunktionen. Populära medelvärdefunktioner är polynom av låg ordning och en populär kovariansfunktion är Matern kovarians , som inkluderar både exponential ( $\nu =1/2$ ) och Gaussisk kovarians (som $\ nu \rightarrow \infty$ ).

Design av datorexperiment

Designen av datorexperiment har avsevärda skillnader från designen av experiment för parametriska modeller. Eftersom en Gauss-process prior har en oändlig dimensionell representation, kan begreppen A och D-kriterier (se Optimal design ), som fokuserar på att reducera felet i parametrarna, inte användas. Replikationer skulle också vara slösaktiga i fall då datorsimuleringen inte har några fel. Kriterier som används för att bestämma en bra experimentell design inkluderar integrerat medelkvadratförutsägelsefel [4] och avståndsbaserade kriterier [5] .

Populära strategier för design inkluderar sampling av latinska hyperkuber och sekvenser med låga avvikelser .

Problem med massiva provstorlekar

Till skillnad från fysiska experiment är det vanligt att datorexperiment har tusentals olika inputkombinationer. Eftersom standardinferensen kräver matrisinversion av en kvadratisk matris av storleken på antalet sampel ( $n$ ), växer kostnaden på ${\mathcal {O}}(n ^{3})$ . Matrisinversion av stora, täta matriser kan också orsaka numeriska felaktigheter. För närvarande löses detta problem med giriga beslutsträdstekniker, vilket möjliggör effektiva beräkningar för obegränsad dimensionalitet och provstorlekspatent WO2013055257A1 , eller undviks genom att använda approximationsmetoder, t.ex. [6] .

Se även

Vidare läsning

Santner, Thomas (2003). Design och analys av datorexperiment . Berlin: Springer. ISBN 0-387-95420-1 .

Fehr, Jörg; Heiland, Jan; Himpe, Christian; Saak, Jens (2016). "Bästa praxis för replikerbarhet, reproducerbarhet och återanvändbarhet av datorbaserade experiment exemplifierade av modellreduktionsprogramvara". SYFTE Matematik . 1 (3): 261-281. arXiv : 1607.01191 . doi : 10.3934/Math.2016.3.261 . S2CID 14715031 .