Ungefärlig entropi

Inom statistik är en ungefärlig entropi ( ApEn ) en teknik som används för att kvantifiera mängden regelbundenhet och oförutsägbarheten av fluktuationer över tidsseriedata . Tänk till exempel två serier av data:

Serie A: (0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, ...), som alternerar 0 och 1. Serie B

: (0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 1, 0, 0, 1, ...), som har antingen värdet 0 eller 1, slumpmässigt valt , var och en med sannolikhet 1/2.

Momentstatistik , såsom medelvärde och varians , kommer inte att skilja mellan dessa två serier. Inte heller kommer rangordningsstatistiken att skilja mellan dessa serier. Ändå är serie A helt regelbunden: att veta att en term har värdet 1 gör det möjligt för en att med säkerhet förutsäga att nästa term kommer att ha värdet 0. Däremot värderas serie B slumpmässigt: att veta att en term har värdet 1 ger ingen insikt i vilket värde nästa termin kommer att ha.

Regularitet mättes ursprungligen med exakt regularitetsstatistik, som huvudsakligen har fokuserat på olika entropimått. Men noggrann entropiberäkning kräver stora mängder data, och resultaten kommer att påverkas mycket av systembrus, därför är det inte praktiskt att tillämpa dessa metoder på experimentella data. ApEn utvecklades av Steve M. Pincus för att hantera dessa begränsningar genom att modifiera en exakt regularitetsstatistik, Kolmogorov–Sinai-entropi . ApEn utvecklades ursprungligen för att analysera medicinska data, såsom hjärtfrekvens, och senare spred dess tillämpningar inom finans , fysiologi , mänskliga faktorteknik och klimatvetenskap.

Algoritm

En omfattande steg-för-steg handledning med en förklaring av de teoretiska grunderna för Approximate Entropy är tillgänglig. Algoritmen är:

Steg 1

Antag en tidsserie av data

u(1),u(2),\ldots ,u(N)

. Dessa är

N

rådatavärden från mätningar jämnt fördelade i tid.

Steg 2

Låt

m\in \mathbb {Z} ^{+}

vara ett positivt heltal , med

m\leq N

, som representerar längden på en datakörning (i huvudsak ett fönster ). Låt

r\in \mathbb {R} ^{+}

vara ett positivt reellt tal , som anger en filtreringsnivå. Låt

n=N-m+1

.

Steg 3

Definiera

\mathbf {x} (i)={\big [}u (i),u(i+1),\ldots ,u(i+m-1){\big ]}

för varje

i

där

1\leq i\ leq n

. Med andra ord,

\mathbf {x} (i)

är en

m

-dimensionell vektor som innehåller datakörningen som börjar med

u(i)

. Definiera avståndet mellan två vektorer

\mathbf {x} (i)

och

\mathbf {x} (j)

som maximum av avstånden mellan deras respektive komponenter, ges av

{\begin{aligned}d[\mathbf {x} (i),\mathbf {x} (j)]&=\max _{k}{\big (}|\ mathbf {x} (i)_{k}-\mathbf {x} (j)_{k}|{\big )}\\&=\max _{k}{\big (}|u(i+ k-1)-u(j+k-1)|{\big )}\\\end{aligned}}

för

1\leq k\leq m

.

Steg 4

Definiera ett antal

C_{i}^{m}

som

C_{i}^{m}(r)={({\text{antal }}j{\text{ så att }}d[\mathbf {x} (i),\mathbf {x} (j)]\leq r) \over n}

för varje

i

där

1\leq i,j\leq n

. Observera att eftersom

j

tar på sig alla värden mellan 1 och

n

, kommer matchningen att räknas när

j=i

(dvs. när testföljden,

\mathbf {x} (j)

, matchas mot sig själv,

\mathbf {x} (i)

).

Steg 5

Definiera

\phi ^{m}(r)={1 \over n}\summa _{i =1}^{n}\log(C_{i}^{m}(r))

där

\log

är den naturliga logaritmen , och för en fast

m

,

{\ displaystyle r}

, och

n

enligt steg 2.

Steg 6

Definiera ungefärlig entropi (

\mathrm {ApEn}

) som

\mathrm {ApEn} (m,r,N)(u)=\phi ^{m}(r)-\phi ^{m +1}(r)

Parameterval: Välj vanligtvis $m=2$ eller $m=3$ , medan $r$ beror mycket på applikationen.

En implementering på Physionet, som är baserad på Pincus, använd $d[\mathbf {x} (i),\mathbf {x} (j)]< r$ istället för $d[\mathbf {x} (i),\mathbf {x} (j)]\leq r$ i steg 4. Medan en oro för artificiellt konstruerade exempel, är det vanligtvis inte ett bekymmer i praktiken.

Exempel

Illustration av hjärtfrekvenssekvensen

Betrakta en sekvens av $N=51$ prover av hjärtfrekvens jämnt fördelade i tid:

\ S_{N}=\{85,80,89,85,80,89,\ldots \}

Observera att sekvensen är periodisk med en period på 3. Låt oss välja $m=2$ och $r=3$ (värdena för $m$ och $r$ kan varieras utan att resultatet påverkas).

Bilda en sekvens av vektorer:

{\begin{aligned}\mathbf {x} (1)&= [u(1)\ u(2)]=[85\ 80]\\\mathbf {x} (2)&=[u(2)\ u(3)]=[80\ 89]\\\mathbf {x} (3)&=[u(3)\ u(4)]=[89\ 85]\\\mathbf {x} (4)&=[u(4)\ u(5)]=[ 85\ 80]\\&\ \ \vdots \end{aligned}}

Avståndet beräknas upprepade gånger enligt följande. I den första beräkningen,

\ d[\mathbf {x} (1),\mathbf {x} (1)]=\max _{k}|\mathbf {x} (1)_{k}-\mathbf {x } (1)_{k}|=0

som är mindre än

r

.

I den andra beräkningen, notera att ${\displaystyle |u(2)-u(3)|>|u(1)-u(2)|} ,$ så

\ d[\mathbf {x} (1),\mathbf {x} (2)]=\max _{k}|\mathbf {x} (1)_{k}-\mathbf { x} (2)_{k}|=|u(2)-u(3)|=9

som är större än

r

.

Liknande,

{\begin{aligned}d[\mathbf {x} (1)&,\mathbf {x} (3)]= |u(2)-u(4)|=5>r\\d[\mathbf {x} (1)&,\mathbf {x} (4)]=|u(1)-u(4)| =|u(2)-u(5)|=0<r\\&\vdots \\d[\mathbf {x} (1)&,\mathbf {x} (j)]=\cdots \\& \vdots \\\end{aligned}}

Resultatet är totalt 17 termer $\mathbf {x} (j)$ så att $d[\mathbf {x} (1),\mathbf {x} (j)]\leq r$ . Dessa inkluderar $\mathbf {x} (1),\mathbf {x} (4),\mathbf {x} ( 7),\ldots ,\mathbf {x} (49)$ . I dessa fall är $C_{i}^{m}(r)$

\ C_{1}^{2}(3)={\frac {17}{50}}

\ C_ {2}^{2}(3)={\frac {17}{50}}

\ C_{3}^{2}(3)={\frac {16}{50}}

\ C_{4}^{2}(3)={\frac {17}{50}}\ \cdots

Notera i steg 4, $1\leq i\leq n$ för $\mathbf {x} (i)$ . Så termerna $\mathbf {x} (j)$ så att $d[\mathbf {x} (3),\ mathbf {x} (j)]\leq r$ inkluderar ${\displaystyle \mathbf {x} (3),\mathbf {x } (6),\mathbf {x} (9),\ldots ,\mathbf {x} (48)} ,$ och det totala antalet är 16.

I slutet av dessa beräkningar har vi

\phi ^{2}(3)={1 \över 50}\summa _{i =1}^{50}\log(C_{i}^{2}(3))\approx -1,0982

Sedan upprepar vi ovanstående steg för $m=3$ . Bilda först en sekvens av vektorer:

{\begin{aligned}\mathbf {x} (1)&=[u(1)\ u(2)\ u(3)]=[85\ 80\ 89]\\\mathbf {x } (2)&=[u(2)\ u(3)\ u(4)]=[80\ 89\ 85]\\\mathbf {x} (3)&=[u(3)\ u( 4)\ u(5)]=[89\ 85\ 80]\\\mathbf {x} (4)&=[u(4)\ u(5)\ u(6)]=[85\ 80\ 89]\\&\ \ \vdots \end{aligned}}

Genom att beräkna avstånd mellan vektorn $\mathbf {x} (i),\mathbf {x} (j),1\leq i\leq 49$ , Vi finner att vektorerna som uppfyller filtreringsnivån har följande egenskaper:

d[\mathbf {x} (i),\mathbf {x} (i+3)]=0<r

Därför,

\ C_{1}^{3}(3)={\frac {17}{49}}

\ C_ {2}^{3}(3)={\frac {16}{49}}

\ C_{3}^{3}(3)={\frac {16}{49}}

\ C_{4}^{3}(3)={\frac {17}{49}}\ \cdots

I slutet av dessa beräkningar har vi

\phi ^{3}(3)={1 \över 49}\summa _{i =1}^{49}\log(C_{i}^{3}(3))\approx -1,0982

Till sist,

\mathrm {ApEn} =\phi ^{2}(3)-\phi ^{3}(3)\approx 0,000010997

Värdet är mycket litet, så det antyder att sekvensen är regelbunden och förutsägbar, vilket överensstämmer med observationen.

Python implementering

   


     
    

      
                 

     
                             
          
                           
               
        
                 

      

          importera  numpy  som  np  def  ApEn  (  U  ,  m  ,  r  )  ->  float  :  """Approximate_entropy."""  def  _maxdist  (  x_i  ,  x_j  ):  return  max  ([  abs  (  ua  -  va  )  för  ua  ,  va  in  zip  (  x_i  ,  x_j  )])  def  _phi  (  m  ):  x  =  [[  U  [  j  ]  för  j  i  intervall  (  i  ,  i  +  m  -  1  +  1  )]  för  i  i  intervall  (  N  -  m  +  1  )]  C  =  [  len  ([  1  för  x_j  i  x  om  _maxdist  (  x_i  ,  x_j  )  <=  r  ])  /  (  N  -  m  +  1,0  )  för  x_i  i  x  ]  returnera  (  N  -  m  +  1,0  )  **  (  -  1  )  *  summa  (  np  .  log  (  C  ))  N  =  len  (  U  )  return  abs  (  _phi  (  m  +  1  )  -  _phi  (  m  ))

Användningsexempel:

      
  

     
  
 >>>  U  =  np  .  array  ([  85  ,  80  ,  89  ]  *  17  )  >>>  print  (  ApEn  (  U  ,  2  ,  3  ))  1.0996541105257052e-05  >>>  randU  =  np  .  slumpmässigt  .  val  ([  85  ,  80  ,  89  ],  storlek  =  17  *  3  )  >>>  print  (  ApEn  (  randU  ,  2  ,  3  ))  0,8626664154888908

MATLAB implementering

Snabb Ungefärlig Entropi från MatLab Central
ungefärlig Entropi

Tolkning

Närvaron av repetitiva fluktuationsmönster i en tidsserie gör den mer förutsägbar än en tidsserie där sådana mönster saknas. ApEn återspeglar sannolikheten att liknande observationsmönster inte kommer att följas av ytterligare liknande observationer. En tidsserie som innehåller många repetitiva mönster har en relativt liten ApEn; en mindre förutsägbar process har en högre ApEn.

Fördelar

Fördelarna med ApEn inkluderar:

Lägre beräkningsbehov. ApEn kan utformas för att fungera för små dataprover ( $N<50$ punkter) och kan appliceras i realtid.
Mindre effekt från buller. Om data är bullriga kan ApEn-måttet jämföras med brusnivån i data för att bestämma vilken kvalitet på sann information som kan finnas i data.

Begränsningar

ApEn-algoritmen räknar varje sekvens som matchande sig själv för att undvika förekomsten av $\log(0)$ i beräkningarna. Detta steg kan introducera bias i ApEn, vilket gör att ApEn har två dåliga egenskaper i praktiken:

ApEn är starkt beroende av rekordlängden och är jämnt lägre än förväntat för korta skivor.
Det saknar relativ konsekvens. Det vill säga, om ApEn för en datamängd är högre än den för en annan, bör den, men inte, förbli högre för alla testade förhållanden.

Ansökningar

ApEn har använts för att klassificera elektroencefalografi (EEG) vid psykiatriska sjukdomar, såsom schizofreni, epilepsi och beroende.

Se även