Surrogatdatatestning

Surrogatdatatestning (eller metoden för surrogatdata ) är ett statistiskt bevis genom motsägelseteknik och liknar permutationstester och som en omsamplingsteknik relaterad (men annorlunda) till parametrisk bootstrapping . Den används för att detektera icke-linjäritet i en tidsserie . Tekniken innebär i princip att specificera en nollhypotes som beskriver en linjär process och sedan generera flera surrogatdatauppsättningar enligt med Monte Carlo -metoder. En särskiljande statistik beräknas sedan för den ursprungliga tidsserien och hela surrogatuppsättningen. Om värdet på statistiken är signifikant annorlunda för den ursprungliga serien än för surrogatuppsättningen, förkastas nollhypotesen och icke-linjäritet antas.

Den särskilda testmetod för surrogatdata som ska användas är direkt relaterad till nollhypotesen. Vanligtvis liknar detta följande: Data är en realisering av ett stationärt linjärt system, vars utsignal möjligen har mätts av en monotont ökande möjligen ickelinjär (men statisk) funktion . Här linjär att varje värde är linjärt beroende av tidigare värden eller på nuvarande och tidigare värden av någon oberoende identiskt fördelad (iid) process, vanligtvis också Gaussisk. Detta motsvarar att säga att processen är av ARMA- typ. I fallet med flöden (kontinuerliga avbildningar) innebär systemets linearitet att det kan uttryckas med en linjär differentialekvation. I den här hypotesen är den statiska mätfunktionen en funktion som endast beror på nuvärdet av dess argument, inte på tidigare.

Metoder

Många algoritmer för att generera surrogatdata har föreslagits. De delas vanligtvis in i två grupper:

  • Typiska realiseringar : dataserier genereras som utdata av en väl anpassad modell till originaldata.
  • Begränsade realiseringar : dataserier skapas direkt från originaldata, vanligtvis genom någon lämplig transformation av den.

De sista surrogatdatametoderna beror inte på en viss modell eller på några parametrar, så de är icke-parametriska metoder. Dessa surrogatdatametoder är vanligtvis baserade på att bevara den linjära strukturen av den ursprungliga serien (till exempel genom att bevara autokorrelationsfunktionen eller ekvivalent periodogrammet , en uppskattning av provspektrumet). Bland de begränsade realiseringsmetoderna är de mest använda (och kan därför kallas de klassiska metoderna ):

  1. Algoritm 0, eller RS ​​(för Random Shuffle ): Ny data skapas helt enkelt genom slumpmässiga permutationer av den ursprungliga serien. Detta koncept används också i permutationstester . Permutationerna garanterar samma amplitudfördelning som den ursprungliga serien, men förstör all tidsmässig korrelation som kan ha funnits i originaldata. Denna metod är associerad med nollhypotesen att data är okorrelerat iid brus (möjligen Gaussiskt och mätt med en statisk olinjär funktion).
  2. Algoritm 1, eller RP (för Random Phases ; även känd som FT, för Fourier Transform ): För att bevara den linjära korrelationen (periodogrammet) för serien skapas surrogatdata av den inversa Fouriertransformen av modulerna i Fourier Transform. av originaldata med nya (likformigt slumpmässiga) faser. Om surrogaten måste vara verkliga, måste Fourier-faserna vara antisymmetriska med avseende på det centrala värdet av data.
  3. Algoritm 2, eller AAFT (för Amplitude Adjusted Fourier Transform ): Denna metod har ungefär fördelarna med de två föregående: den försöker bevara både den linjära strukturen och amplitudfördelningen. Denna metod består av dessa steg:
    • Skala data till en Gaussisk fördelning ( Gaussianization ) .
    • Utföra en RP-transformation av den nya datan.
    • Äntligen gör en transformation invers av den första ( de-Gaussianisering) .
    Nackdelen med denna metod är just att det sista steget ändrar den linjära strukturen något.
  4. Iterativ algoritm 2, eller IAAFT (för Iterativ amplitudjusterad Fouriertransform ): Denna algoritm är en iterativ version av AAFT. Stegen upprepas tills autokorrelationsfunktionen är tillräckligt lik originalet, eller tills det inte sker någon förändring i amplituderna.

Många andra surrogatdatametoder har föreslagits, några baserade på optimeringar för att uppnå en autokorrelation nära den ursprungliga, några baserade på wavelettransform och några som kan hantera vissa typer av icke-stationär data.

De ovan nämnda teknikerna kallas linjära surrogatmetoder, eftersom de är baserade på en linjär process och adresserar en linjär nollhypotes. I stort sett är dessa metoder användbara för data som visar oregelbundna fluktuationer (kortsiktiga variationer) och data med ett sådant beteende finns i överflöd i den verkliga världen. Men vi observerar ofta data med uppenbar periodicitet, till exempel årliga antal solfläckar, elektrokardiogram (EKG) och så vidare. Tidsserier som uppvisar starka periodiciteter är helt klart inte förenliga med de linjära nollhypoteserna. För att tackla detta fall har några algoritmer och nollhypoteser föreslagits.

Se även