Multipelfaktoranalys

Multipelfaktoranalys (MFA) är en faktoriell metod ägnad åt att studera tabeller där en grupp individer beskrivs av en uppsättning variabler (kvantitativa och/eller kvalitativa) strukturerade i grupper. Det är en multivariat metod från ordinationsområdet som används för att förenkla flerdimensionella datastrukturer . MFA behandlar alla inblandade tabeller på samma sätt (symmetrisk analys). Det kan ses som en förlängning av:

Inledande exempel

Varför införa flera aktiva grupper av variabler i samma faktoranalys?

data

Betrakta fallet med kvantitativa variabler, det vill säga inom ramen för PCA. Ett exempel på data från ekologisk forskning ger en användbar illustration. Det finns, för 72 stationer, två typer av mätningar:

  1. Överflödsdominanskoefficienten för 50 växtarter (koefficient som sträcker sig från 0 = växten saknas, till 9 = arten täcker mer än tre fjärdedelar av ytan). Hela uppsättningen av de 50 koefficienterna definierar den floristiska profilen för en station.
  2. Elva pedologiska mätningar ( Pedology = markvetenskap): partikelstorlek, fysikalisk, kemi, etc. Uppsättningen av dessa elva mätningar definierar den pedologiska profilen för en station.

Tre analyser är möjliga:

  1. PCA för flora (pedologi som kompletterande): denna analys fokuserar på variationen i de floristiska profilerna. Två stationer ligger nära varandra om de har liknande floristiska profiler. I ett andra steg är huvuddimensionerna av denna variabilitet (dvs. huvudkomponenterna) relaterade till de pedologiska variabler som införts som kompletterande.
  2. PCA för pedologi (flora som kompletterande): denna analys fokuserar på variationen i markprofiler. Två stationer ligger nära om de har samma markprofil. Huvuddimensionerna av denna variabilitet (dvs. huvudkomponenterna) är sedan relaterade till mängden växter.
  3. PCA av de två grupperna av variabler som aktiva: man kan vilja studera variabiliteten hos stationer både ur flora och jordmån. I detta tillvägagångssätt bör två stationer vara nära om de har både liknande flora " och" liknande jordar.

Balans mellan grupper av variabler

Metodik

Den tredje analysen av det inledande exemplet förutsätter implicit en balans mellan flora och jord. Men i detta exempel innebär bara det faktum att floran representeras av 50 variabler och jorden av 11 variabler att PCA med 61 aktiva variabler kommer att påverkas huvudsakligen av floran åtminstone på den första axeln). Detta är inte önskvärt: det finns ingen anledning att önska att en grupp spelar en viktigare roll i analysen.

Kärnan i MFA bygger på en faktoriell analys (PCA vid kvantitativa variabler, MCA vid kvalitativa variabler) där variablerna viktas. Dessa vikter är identiska för variablerna i samma grupp (och varierar från en grupp till en annan). De är sådana att den maximala axiella trögheten för en grupp är lika med 1: med andra ord, genom att tillämpa PCA (eller, i förekommande fall, MCA) på en grupp med denna viktning, får vi ett första egenvärde lika med 1. För att hämta den här egenskapen, tilldelar MFA till varje variabel i grupp en vikt som är lika med inversen av det första egenvärdet för analysen (PCA eller MCA beroende på typen av variabel) för gruppen j {\ .

Formellt, genom att notera det första egenvärdet för faktoranalys av en grupp , tilldelar MFA vikt för varje variabel i gruppen .

Att balansera maximal axiell tröghet snarare än den totala trögheten (= antalet variabler i standard PCA) ger MFA flera viktiga egenskaper för användaren. Mer direkt framgår dess intresse i följande exempel.

Exempel

Låt två grupper av variabler definieras på samma uppsättning individer.

  1. Grupp 1 består av två okorrelerade variabler A och B.
  2. Grupp 2 är sammansatt av två variabler {C1, C2} identiska med samma variabel C okorrelerade med de två första.

Detta exempel är inte helt orealistiskt. Det är ofta nödvändigt att samtidigt analysera flerdimensionella och (ganska) endimensionella grupper.

Varje grupp som har samma antal variabler har samma totala tröghet.

I det här exemplet sammanfaller PCA:s första axel nästan med C. I variablernas rymd finns det faktiskt två variabler i riktningen C: grupp 2, med all sin tröghet koncentrerad i en riktning, påverkar övervägande den första axeln . Grupp 1, som består av två ortogonala variabler (= okorrelerade), har å sin sida sin tröghet likformigt fördelad i ett plan (planet som genereras av de två variablerna) och väger knappast på första axeln.

Sifferexempel

Tabell 1. MFA. Testdata. A och B (grupp 1) är okorrelerade. Cl och C2 (grupp 2) är identiska.
1 1 1 1
2 3 4 4
3 5 2 2
4 5 2 2
5 3 4 4
6 1 2 2
Tabell 2. Testdata. Nedbrytning av trögheten i PCA och i MFA tillämpad på data i tabell 1.
PCA
Tröghet 2,14 (100 %) 1
grupp 1 0,24 (11 %) 1
grupp 2 1,91 (89 %) 0
MFA
Tröghet 1,28 (100 %) 1
grupp 1 0,64 (50 %) 1
grupp 2 0,64 (50 %) 0

Tabell 2 sammanfattar trögheten för de två första axlarna i PCA och för MFA som tillämpas på Tabell 1.

Grupp 2-variabler bidrar till 88,95 % av trögheten för axel 1 i PCA. Den första axeln ( ) sammanfaller nästan med C: korrelationen mellan C och är .976;

Den första axeln i MFA (på tabell 1-data) visar balansen mellan de två grupperna av variabler: bidraget från varje grupp till denna axels tröghet är strikt lika med 50 %.

Den andra axeln beror under tiden bara på grupp 1. Detta är naturligt eftersom denna grupp är tvådimensionell medan den andra gruppen, som är endimensionell, i hög grad kan relateras till endast en axel (här den första axeln).

Slutsats om balansen mellan grupper

Att introducera flera aktiva grupper av variabler i en faktoriell analys förutsätter implicit en balans mellan dessa grupper.

Denna balans måste ta hänsyn till att en flerdimensionell grupp påverkar naturligt fler axlar än en endimensionell grupp gör (vilket kanske inte är nära relaterat till en axel).

Viktningen av MFA, som gör den maximala axiella trögheten för varje grupp lika med 1, spelar denna roll.

Applikationsexempel

Enkätenkäter är alltid uppbyggda efter olika teman. Varje tema är en grupp av variabler, till exempel frågor om åsikter och frågor om beteende. I det här exemplet kan vi alltså vilja utföra en faktoranalys där två individer är nära varandra om de båda har uttryckt samma åsikter och samma beteende.

Sensorisk analys Samma uppsättning produkter har utvärderats av en expertpanel och en panel av konsumenter. För sin utvärdering använder varje jury en lista med deskriptorer (sur, bitter, etc.). Varje domare poängsätter varje deskriptor för varje produkt på en intensitetsskala som sträcker sig till exempel från 0 = noll eller mycket lågt till 10 = mycket stark. I tabellen associerad med en jury, i skärningspunkten mellan raden och kolumn , är medelpoängen tilldelad produkt för deskriptor .

Individer är produkterna. Varje jury är en grupp av variabler. Vi vill åstadkomma en faktoranalys där två produkter är lika om de utvärderades på samma sätt av båda juryerna.

Multidimensionella tidsserier -variabler mäts på -individer. Dessa mätningar görs vid -datum. Det finns många sätt att analysera sådan datamängd. Ett sätt som MFA föreslår är att betrakta varje dag som en grupp av variabler i analysen av tabellerna (varje tabell motsvarar ett datum) radvis (tabellen som analyseras har alltså I {\displaystyle I} J x kolumner).

Slutsats : Dessa exempel visar att variabler i praktiken mycket ofta är organiserade i grupper.

Grafik från MFA

Utöver viktningen av variabler ligger intresset för MFA i en serie grafik och indikatorer som är värdefulla i analysen av en tabell vars kolumner är organiserade i grupper.

Grafik som är gemensam för alla enkla faktoranalyser (PCA, MCA)

Kärnan i MFA är en viktad faktoriell analys: MFA tillhandahåller först de klassiska resultaten av faktoranalyserna.

1. Representationer av individer där två individer står nära varandra om de uppvisar liknande värden för många variabler i de olika variabelgrupperna; i praktiken studerar användaren speciellt det första faktorplanet.

2. Representationer av kvantitativa variabler som i PCA (korrelationscirkel).

Figur 1. MFA. Testdata. Representation av individer på det första planet.
Figur 2. MFA. Testdata. Representation av variabler på det första planet.

I exemplet:

  • Den första axeln motsätter sig huvudsakligen individerna 1 och 5 (Figur 1).
  • De fyra variablerna har en positiv koordinat (Figur 2): den första axeln är en storlekseffekt. Således har individ 1 låga värden för alla variabler och individ 5 har höga värden för alla variabler.

3. Indikatorer som underlättar tolkningen : beräknad tröghet, bidrag och representationens kvalitet. I exemplet är bidraget från individerna 1 och 5 till trögheten för den första axeln 45,7 % + 31,5 % = 77,2 %, vilket motiverar tolkningen fokuserad på dessa två punkter.

4. Representationer av kategorier av kvalitativa variabler som i MCA (en kategori ligger i centrum för de individer som besitter den). Inga kvalitativa variabler i exemplet.

Grafik som är specifik för denna typ av multipeltabell

5. Överlagrade representationer av individer "sedda" av varje grupp. En individ betraktad ur en enskild grupps synvinkel kallas partiell individ (parallellt sägs en individ betraktad ur alla variablers synvinkel medelindivid eftersom den ligger i tyngdpunkten för sina delpunkter). Partiell moln samlar -individerna från perspektivet av den enskilda gruppen (dvs ): det är molnet som analyseras i den separata faktoranalysen (PCA eller MCA) för gruppen . Den överlagrade representationen av som tillhandahålls av MFA liknar i sitt syfte den som tillhandahålls av Procrustes-analysen .

Figur 3. MFA. Testdata. Överlagd representation av medel- och partiella moln.

I exemplet (figur 3) kännetecknas individ 1 av en liten storlek (dvs små värden) både vad gäller grupp 1 och grupp 2 (delpunkter för individ 1 har en negativ koordinat och ligger nära varandra). Tvärtom kännetecknas individ 5 mer av höga värden för variablerna i grupp 2 än för variablerna i grupp 1 (för individen 5 ligger grupp 2 delpunkt längre från origo än grupp 1 delpunkt). Denna läsning av grafen kan kontrolleras direkt i data.

6. Representationer av grupper av variabler som sådana. I dessa grafer representeras varje grupp av variabler av en enda punkt. Två grupper av variabler ligger nära varandra när de definierar samma struktur på individer. Extremfall: två grupper av variabler som definierar homotetiska moln av individer sammanfaller. Koordinaten för grupp längs axeln är lika med bidraget från gruppen till trögheten för MFA-dimensionen för rang . Detta bidrag kan tolkas som en indikator på samband (mellan gruppen och axeln , därav namnet relationskvadrat som ges till denna typ av representation). Denna representation finns också i andra faktoriella metoder (MCA och FAMD i synnerhet) i vilket fall var och en av variablerna reduceras till en enda variabel.

Figur 4. MFA. Testdata. Representation av grupper av variabler.

I exemplet (Figur 4) visar denna representation att den första axeln är relaterad till de två grupperna av variabler, medan den andra axeln är relaterad till den första gruppen. Detta överensstämmer med representationen av variablerna (figur 2). I praktiken är denna representation särskilt värdefull när grupperna är många och innehåller många variabler.

Annan läsruta . De två grupperna av variabler har gemensamt storlekseffekten (första axeln) och skiljer sig åt enligt axel 2 eftersom denna axel är specifik för grupp 1 (han motsätter sig variablerna A och B).

7. Representationer av faktorer av separata analyser av de olika grupperna. Dessa faktorer representeras som kompletterande kvantitativa variabler (korrelationscirkel).

Figur 5. MFA. Testdata. Representation av huvudkomponenterna i separat PCA för varje grupp.

I exemplet (figur 5) är den första axeln i MFA relativt starkt korrelerad (r = .80) till den första komponenten i grupp 2. Denna grupp, som består av två identiska variabler, har endast en huvudkomponent (förväxlas med variabeln). Grupp 1 består av två ortogonala variabler: vilken riktning som helst av underrummet som genereras av dessa två variabler har samma tröghet (lika med 1). Det finns alltså osäkerhet i valet av huvudkomponenter och det finns ingen anledning att vara särskilt intresserad av någon av dem. De två komponenterna som tillhandahålls av programmet är dock väl representerade: MFA-planet ligger nära planet som spänner över av de två variablerna i grupp 1.

Slutsats

Det numeriska exemplet illustrerar resultatet av MFA. Förutom att balansera grupper av variabler och förutom vanliga grafik av PCA (av MCA i fallet med kvalitativa variabler), tillhandahåller MFA resultat som är specifika för gruppstrukturen för uppsättningen av variabler, det vill säga i synnerhet:

  • En överlagd representation av partiella individer för en detaljerad analys av data;
  • En representation av grupper av variabler som ger en syntetisk bild som blir mer och mer värdefull eftersom dessa data inkluderar många grupper;
  • En representation av faktorer från separata analyser.

Den lilla storleken och enkelheten i exemplet tillåter enkel validering av tolkningsreglerna. Men metoden blir mer värdefull när datamängden är stor och komplex. Andra metoder som är lämpliga för denna typ av data finns tillgängliga. Procrustes analys jämförs med MFA i.

Historia

MFA utvecklades av Brigitte Escofier och Jérôme Pagès på 1980-talet. Det är kärnan i två böcker skrivna av dessa författare: och. MFA och dess förlängningar (hierarkisk MFA, MFA om beredskapstabeller, etc.) är ett forskningsämne för tillämpad matematiklaboratoriet Agrocampus ( LMA ² ) som publicerade en bok som presenterar grundläggande metoder för explorativ multivariat analys.

programvara

MFA finns i två R-paket ( FactoMineR och ADE4 ) och i många mjukvarupaket, inklusive SPAD, Uniwin, XLSTAT, etc. Det finns även en funktion SAS [ permanent dead link ] . Graferna i den här artikeln kommer från R-paketet FactoMineR.

externa länkar

  • FactoMineR AR-programvara ägnad åt utforskande dataanalys.