Förtroenderegion
I statistik är en konfidensregion en multidimensionell generalisering av ett konfidensintervall . Det är en uppsättning punkter i ett n -dimensionellt utrymme, ofta representerat som en ellipsoid runt en punkt som är en uppskattad lösning på ett problem, även om andra former kan förekomma.
Tolkning
Konfidensregionen beräknas på ett sådant sätt att om en uppsättning mätningar upprepades många gånger och en konfidensregion beräknas på samma sätt för varje uppsättning mätningar, så skulle en viss procentandel av tiden (t.ex. 95 %) konfidensregionen inkludera punkten som representerar de "sanna" värdena för uppsättningen av variabler som uppskattas. Men om inte vissa antaganden om tidigare sannolikheter görs, betyder det inte , när en konfidensregion har beräknats, att det finns en 95% sannolikhet att de "sanna" värdena ligger inom regionen, eftersom vi inte antar någon speciell sannolikhet distribution av de "sanna" värdena och vi kanske har eller inte har annan information om var de sannolikt kommer att ligga.
Fallet med oberoende, identiskt normalfördelade fel
Anta att vi har hittat en lösning på följande överbestämda problem:
där Y är en n -dimensionell kolumnvektor som innehåller observerade värden av den beroende variabeln , X är en n -by- p matris av observerade värden av oberoende variabler (som kan representera en fysisk modell) som antas vara exakt känd, är en kolumnvektor som innehåller p -parametrarna som ska uppskattas, och är en n -dimensionell kolumnvektor av fel som är antas vara oberoende fördelade med normalfördelningar med nollmedelvärde och var och en med samma okända varians .
En gemensam 100(1 − α ) % konfidensregion för elementen i representeras av uppsättningen värden för vektorn b som uppfyller följande olikhet:
där variabeln b representerar vilken punkt som helst i konfidensområdet, är p antalet parametrar, dvs antalet element i vektorn är vektorn för uppskattade parametrar, och s 2 är den reducerade chi-kvadraten , en opartisk uppskattning av lika med
Vidare är F kvantilfunktionen för F-fördelningen , med p och frihetsgrader , är den statistiska signifikansnivån och symbolen betyder transponeringen av .
Uttrycket kan skrivas om som:
där är den minsta kvadraters skalade kovariansmatrisen för .
Olikheten ovan definierar ett ellipsoidalt område i det p -dimensionella kartesiska parameterutrymmet Rp . Mitten av ellipsoiden är vid uppskattningen . Enligt Press et al. är det lättare att plotta ellipsoiden efter att ha gjort singularvärdesuppdelning . Längden på ellipsoidens axlar är proportionella mot de reciproka värdena på diagonalerna i diagonalmatrisen, och riktningarna för dessa axlar ges av raderna i den 3:e matrisen av nedbrytningen.
Viktade och generaliserade minsta kvadrater
Betrakta nu det mer allmänna fallet där vissa distinkta element av har känd kovarians som inte är noll (med andra ord, felen i observationerna är inte oberoende fördelade) och/eller standardavvikelserna av felen är inte alla lika. Antag att kovariansmatrisen för är där V är en n -by- n ickesingular matris som var lika med i det mer specifika fallet som hanterades i föregående avsnitt, (där I är identitetsmatrisen ,) men här är tillåtet att ha icke-noll off-diagonala element som representerar kovariansen av par av individuella observationer, samt att inte nödvändigtvis ha alla diagonala element lika.
Det är möjligt att hitta en icke-singular symmetrisk matris P så att
I själva verket är P en kvadratrot av kovariansmatrisen V .
Det minsta kvadratiska problemet
kan sedan transformeras genom att vänstermultiplicera varje term med inversen av P , vilket bildar den nya problemformuleringen
var
- och
En gemensam konfidensregion för parametrarna, dvs för elementen i begränsas sedan av ellipsoiden som ges av:
Här representerar F procenten av F -fördelningen och storheterna p och np är de frihetsgrader som är parametrarna för denna fördelning.
Icke-linjära problem
Konfidensregioner kan definieras för vilken sannolikhetsfördelning som helst. Försöksledaren kan välja signifikansnivå och formen på regionen, och sedan bestäms storleken på regionen av sannolikhetsfördelningen. Ett naturligt val är att använda som gräns en uppsättning punkter med konstanta ( chi-kvadrat ) värden.
Ett tillvägagångssätt är att använda en linjär approximation till den olinjära modellen, som kan vara en nära approximation i närheten av lösningen, och sedan tillämpa analysen för ett linjärt problem för att hitta en ungefärlig konfidensregion. Detta kan vara ett rimligt tillvägagångssätt om konfidensregionen inte är särskilt stor och modellens andraderivator inte heller är särskilt stora.
Bootstrapping- metoder kan också användas.
Se även
Anteckningar
- Draper, NR; H. Smith (1981) [1966]. Tillämpad regressionsanalys (2:a upplagan). USA: John Wiley and Sons Ltd. ISBN 0-471-02995-5 .
- Tryck, WH; SA Teukolsky; WT Vetterling; BP Flannery (1992) [1988]. Numeriska recept i C: The Art of Scientific Computing (2:a upplagan). Cambridge Storbritannien: Cambridge University Press.