Korrespondensanalys

Korrespondensanalys ( CA ) är en multivariat statistisk teknik föreslagen av Herman Otto Hartley (Hirschfeld) och senare utvecklad av Jean-Paul Benzécri . Det liknar begreppsmässigt principal komponentanalys , men gäller för kategoriska snarare än kontinuerliga data. På ett liknande sätt som huvudkomponentanalys tillhandahåller den ett sätt att visa eller sammanfatta en uppsättning data i tvådimensionell grafisk form. Dess syfte är att visa i en biplot vilken struktur som helst som är gömd i den multivariata inställningen av datatabellen. Som sådan är det en teknik från området för multivariat ordination . Eftersom varianten av CA som beskrivs här kan tillämpas antingen med fokus på raderna eller på kolumnerna borde den i själva verket kallas enkel (symmetrisk) korrespondensanalys .

Den tillämpas traditionellt på beredskapstabellen för ett par nominella variabler där varje cell innehåller antingen ett antal eller ett nollvärde. Om fler än två kategoriska variabler ska sammanfattas bör istället en variant som kallas multipel korrespondensanalys väljas. CA kan också appliceras på binära data förutsatt att närvaro/frånvarokodningen representerar förenklade räknedata, dvs en 1 beskriver ett positivt räknevärde och 0 står för ett räknevärde på noll. Beroende på de poäng som används bevarar CA chi-kvadratavståndet mellan antingen raderna eller kolumnerna i tabellen. Eftersom CA är en beskrivande teknik, kan den tillämpas på tabeller oavsett ett signifikant chisquared test . Även om -statistiken som används i inferentialstatistik och chi-kvadratavståndet är beräkningsrelaterade bör de inte förväxlas eftersom det senare fungerar som ett multivariat statistiskt avståndsmått i CA medan statistik är i själva verket en skalär inte ett mått .

Detaljer

Liksom huvudkomponentanalys skapar korrespondensanalys ortogonala komponenter (eller axlar) och, för varje objekt i en tabell, dvs. för varje rad, en uppsättning poäng (ibland kallade faktorpoäng, se Faktoranalys ) . Korrespondensanalys utförs på datatabellen, tänkt som matris C med storleken m × n där m är antalet rader och n är antalet kolumner. I den följande matematiska beskrivningen av metoden avser versaler i kursiv stil en matris medan bokstäver i kursiv stil avser vektorer . För att förstå följande beräkningar krävs kunskap om matrisalgebra .

Förbearbetning

Innan man fortsätter till det centrala beräkningssteget i algoritmen måste värdena i matris C transformeras. Beräkna först en uppsättning vikter för kolumnerna och raderna (ibland kallade massor ), där rad- och kolumnvikter ges av rad- respektive kolumnvektorerna:

Här är summan av alla cellvärden i matris C , eller kort summan av C , och är en kolumnvektor av ettor med lämplig dimension.

Med enkla ord, är bara en vektor vars element är radsummorna av C dividerat med summan av C , och är en vektor vars element är kolumnsummorna av C dividerat med summan av C .

Vikterna omvandlas till diagonala matriser

och

där de diagonala elementen i är och de för är respektive dvs vektorelementen är inverserna av massornas kvadratrötter. De off-diagonala elementen är alla 0.

Beräkna sedan matrisen genom att dividera med dess summa

Med enkla ord, matris är bara datamatrisen (kontingenstabell eller binär tabell) omvandlad till delar, dvs varje cellvärde är bara celldelen av summan av hela tabellen.

Beräkna slutligen matrisen , ibland kallad matrisen av standardiserade residualer , genom matrismultiplikation som

Observera att vektorerna och kombineras i en yttre produkt vilket resulterar i en matris med samma dimensioner som . I ord lyder formeln: matrix subtraheras från matrisen och den resulterande matrisen skalas (vägs) av de diagonala matriserna och . Att multiplicera den resulterande matrisen med de diagonala matriserna är ekvivalent med att multiplicera den i:te raden (eller kolumnen) av den med det i:te elementet i diagonalen för eller respektive .

Tolkning av förbearbetning

Vektorerna och är rad- och kolumnmassorna eller marginalsannolikheterna för raderna respektive kolumnerna. Att subtrahera matris från matris är matrisalgebraversionen av dubbelcentrering av data. Att multiplicera denna skillnad med de diagonala viktningsmatriserna resulterar i en matris som innehåller viktade avvikelser från ursprunget för ett vektorrum . Detta ursprung definieras av matris .

Faktum är att matris är identisk med matrisen av förväntade frekvenser i chi-kvadrattestet . Därför beräkningsmässigt relaterad till oberoendemodellen som används i det testet. Men eftersom CA inte är en inferentiell metod är termen självständighetsmodell olämplig här.

Ortogonala komponenter

Tabellen bryts sedan upp av en singularvärdesuppdelning som

där och är de vänstra och högra singularvektorerna för och är en kvadratisk diagonal matris med singularvärdena av på diagonalen. har dimensionen därför har dimensionen m×p och är av n×p . A s ortonormala vektorer och uppfyller

.

Med andra ord, den multivariata informationen som finns i såväl som i är nu fördelad över två (koordinat)matriser och och en diagonal (skalnings)matris . Vektorutrymmet som definieras av dem har som antal dimensioner p, det vill säga det minsta av de två värdena, antal rader och antal kolumner, minus 1.

Tröghet

Medan en huvudkomponentanalys kan sägas dekomponera (ko)variansen , och följaktligen dess mått på framgång är mängden (sam)varians som täcks av de första PCA-axlarna - mätt i egenvärde -, arbetar en CA med en viktad (ko-)varians som kallas tröghet . Summan av de kvadratiska singularvärdena är den totala trögheten i datatabellen, beräknad som

Den totala trögheten i datatabellen kan också beräknas direkt från som

Mängden tröghet som täcks av den i:te uppsättningen av singulära vektorer är den huvudsakliga trögheten. Ju högre del av tröghet som täcks av de första singularvektorerna, dvs ju större summan av de huvudsakliga trögheterna är jämfört med den totala trögheten, desto mer framgångsrik är en CA. Därför uttrycks alla huvudsakliga tröghetsvärden som del av den totala trögheten

och presenteras i form av en scree plot . I själva verket är en scree plot bara ett stapeldiagram av alla huvudsakliga tröghetsdelar .

Koordinater

För att transformera singularvektorerna till koordinater som bevarar chisquadratavstånden mellan rader eller kolumner är ett ytterligare viktningssteg nödvändigt. De resulterande koordinaterna kallas huvudkoordinater i CA-läroböcker. Om huvudkoordinater används för rader kallas deras visualisering en rad isometrisk skalning i ekonometri och skalning 1 i ekologi. Eftersom viktningen inkluderar singularvärdena för matrisen av standardiserade residualer kallas dessa koordinater ibland för singulära skalade singularvektorer eller, lite missvisande, som egenvärdeskalade egenvektorer . Faktum är att de icke-triviala egenvektorerna för är de vänstra singularvektorerna för och de för är de högra singularvektorerna av medan egenvärdena för någon av dessa matriser är kvadraterna av singularvärdena . Men eftersom alla moderna algoritmer för CA är baserade på en singular värdenedbrytning bör denna terminologi undvikas. I den franska traditionen av CA kallas koordinaterna ibland för (faktor) poäng .

Faktorpoäng eller huvudkoordinater för raderna i matris C beräknas av

dvs de vänstra singularvektorerna skalas med inversen av kvadratrötterna av radmassorna och med singularvärdena. Eftersom huvudkoordinater beräknas med singulära värden innehåller de information om spridningen mellan raderna (eller kolumnerna) i den ursprungliga tabellen. Att beräkna de euklidiska avstånden mellan entiteterna i principiella koordinater resulterar i värden som är lika med deras chisquare avstånd vilket är anledningen till att CA sägs " bevara chisquare distanser" .

Beräkna huvudkoordinater för kolumnerna med


För att representera resultatet av CA i en riktig biplot bör de kategorier som inte är plottade i huvudkoordinater, dvs i chisquare distansbevarande koordinater, plottas i så kallade standardkoordinater . De kallas standardkoordinater eftersom varje vektor av standardkoordinater har standardiserats för att uppvisa medelvärde 0 och varians 1. Vid beräkning av standardkoordinater utelämnas singularvärdena, vilket är ett direkt resultat av att tillämpa biplotregeln enligt vilken en av de två uppsättningarna av singular vektormatriser måste skalas med singularvärden upphöjda till noll, dvs multiplicerat med ett, dvs beräknas genom att utelämna singularvärdena om den andra uppsättningen singularvektorer har skalats med singularvärdena. Detta försäkrar existensen av en inre produkt mellan de två uppsättningarna av koordinater, dvs det leder till meningsfulla tolkningar av deras rumsliga relationer i en biplot.

Rent praktiskt kan man tänka på standardkoordinaterna som hörn i vektorrummet där uppsättningen av huvudkoordinater (dvs. respektive punkter) "finns". Standardkoordinaterna för raderna är

och de för kolumnerna är

Observera att en skalning 1 biplot i ekologi innebär att raderna ska vara i princip och kolumnerna att vara i standardkoordinater medan skalning 2 innebär att raderna är i standard och kolumnerna att vara i huvudsakliga koordinater. Dvs skalning 1 innebär en biplot av tillsammans med medan skalning 2 innebär en biplot av tillsammans med .

Grafisk återgivning av resultatet

Visualiseringen av ett CA-resultat börjar alltid med att visa skärmdiagrammet för de huvudsakliga tröghetsvärdena för att utvärdera framgången med att sammanfatta spridningen av de första singularvektorerna.

Den faktiska ordinationen presenteras i en graf som vid första blick kan förväxlas med ett komplicerat spridningsdiagram . I själva verket består den av två spridningsdiagram tryckta på varandra, en uppsättning punkter för raderna och en för kolumnerna. Men eftersom det är en biplot relaterar en tydlig tolkningsregel de två använda koordinatmatriserna.

Vanligtvis plottas de två första dimensionerna av CA-lösningen eftersom de omfattar maximal information om datatabellen som kan visas i 2D även om andra kombinationer av dimensioner kan undersökas av en biplot. En biplot är i själva verket en lågdimensionell kartläggning av en del av informationen i den ursprungliga tabellen.

Som en tumregel visas den uppsättning (rader eller kolumner) som bör analyseras med avseende på dess sammansättning mätt av den andra uppsättningen i huvudkoordinater medan den andra uppsättningen visas i standardkoordinater. Exempelvis kan en tabell som visar röstdistrikt i rader och politiska partier i kolumner med cellerna som innehåller de räknade rösterna visas med distrikten (raderna) i huvudkoordinater när fokus ligger på att sortera distrikten enligt liknande röstning.

Traditionellt, med ursprung i den franska traditionen i CA, kartlade tidiga CA-biplots båda enheterna i samma koordinatversion, vanligtvis huvudkoordinater, men denna typ av visning är missvisande såtillvida att: "Även om detta kallas en biplot, har den inte någon användbar inre produktrelation mellan rad- och kolumnpoängen" som Brian Ripley , underhållare av R-paketet MASS påpekar korrekt. Idag bör den typen av visning undvikas eftersom lekmän vanligtvis inte är medvetna om den bristande relationen mellan de två poängsättningarna.

En skalande 1 biplot (rader i huvudkoordinater, kolumner i standardkoordinater) tolkas enligt följande:

  • Avstånden mellan radpunkterna approximerar deras chi-kvadratavstånd. Punkter nära varandra representerar rader med mycket liknande värden i den ursprungliga datatabellen. Dvs de kan uppvisa ganska likartade frekvenser vid räkningsdata eller närbesläktade binära värden vid närvaro/frånvarodata.
  • (Kolumn)punkter i standardkoordinater representerar vektorrummets hörn, dvs det yttre hörnet av något som i flerdimensionellt rymden har formen av en oregelbunden polyeder. Projektraden pekar på linjen som förbinder origo och standardkoordinaten för en kolumn; om den projicerade positionen längs den anslutningslinjen är nära positionen för standardkoordinaten, är den radpunkten starkt associerad med denna kolumn, dvs vid räkningsdata har raden en hög frekvens av den kategorin och vid närvaro/frånvarodata raden kommer sannolikt att ha en 1 i den kolumnen. Radpunkter vars projektion skulle kräva att förlänga anslutningslinjen bortom origo har ett lägre värde än genomsnittet i den kolumnen.

Tillägg och applikationer

Flera varianter av CA finns tillgängliga, inklusive detrended correspondence analysis (DCA) och kanonisk korrespondensanalys (CCA). Den senare (CCA) används när det finns information om möjliga orsaker till likheterna mellan de undersökta enheterna. Utvidgningen av korrespondensanalys till många kategoriska variabler kallas multipel korrespondensanalys . En anpassning av korrespondensanalys till problemet med diskriminering baserad på kvalitativa variabler (dvs. motsvarigheten till diskriminantanalys för kvalitativ data) kallas diskriminant korrespondensanalys eller barycentrisk diskriminantanalys.

Inom samhällsvetenskapen gjordes korrespondensanalys, och särskilt dess utvidgning av multipel korrespondensanalys , känd utanför Frankrike genom den franske sociologen Pierre Bourdieus tillämpning av den.

Genomföranden

  • Datavisualiseringssystemet Orange inkluderar modulen: orngCA.
  • Det statistiska programmeringsspråket R innehåller flera paket, som erbjuder en funktion för (enkel symmetrisk) korrespondensanalys. Med R-notationen [paketnamn::funktionsnamn] är paketen och respektive funktioner: ade4::dudi.coa() , ca::ca() , ExPosition::epCA() , FactoMineR::CA() , MASS:: corresp() , vegan::cca() . Det enklaste tillvägagångssättet för nybörjare är ca::ca() eftersom det finns en omfattande lärobok som medföljer det paketet.
  • Freeware PAST (PAleontological STatistics) erbjuder (enkel symmetrisk) korrespondensanalys via menyn "Multivariate/Ordination/Correspondence (CA)".

Se även

externa länkar

  • Greenacre, Michael (2008), La Práctica del Análisis de Correspondencias , BBVA Foundation, Madrid, spansk översättning av Correspondence Analysis in Practice , tillgänglig för gratis nedladdning från BBVA Foundations publikationer
  • Greenacre, Michael (2010), Biplots in Practice , BBVA Foundation, Madrid, tillgänglig för gratis nedladdning på multivariatestatistics.org