Slumpmässig subrymdsmetod

Inom maskininlärning är den slumpmässiga subspace-metoden , även kallad attributbagging eller feature bagging , en ensembleinlärningsmetod som försöker minska korrelationen mellan estimatorer i en ensemble genom att träna dem på slumpmässiga urval av funktioner istället för hela funktionsuppsättningen.

Motivering

I ensembleinlärning försöker man kombinera de modeller som produceras av flera elever till en ensemble som presterar bättre än de ursprungliga eleverna. Ett sätt att kombinera elever är bootstrap aggregation eller bagging , som visar varje elev en slumpmässigt utvald delmängd av träningspoängen så att eleverna kommer att producera olika modeller som kan beräknas på ett förnuftigt sätt. I påspackning provar man träningspunkter med ersättning från hela träningssetet.

Metoden med slumpmässiga delrum liknar bagging förutom att funktionerna ( "attribut", "prediktorer", "oberoende variabler") tas slumpmässigt, med ersättning, för varje elev. Informellt gör detta att enskilda elever inte överfokuserar på egenskaper som verkar mycket prediktiva/beskrivande i träningsuppsättningen, men misslyckas med att vara lika förutsägande för poäng utanför den uppsättningen. Av denna anledning är slumpmässiga delutrymmen ett attraktivt val för högdimensionella problem där antalet funktioner är mycket större än antalet träningspunkter, som att lära sig från fMRI-data eller genuttrycksdata.

Metoden för slumpmässiga delrum har använts för beslutsträd ; i kombination med "vanlig" säckläggning av beslutsträd kallas de resulterande modellerna slumpmässiga skogar . Det har också tillämpats på linjära klassificerare , stödvektormaskiner , närmaste grannar och andra typer av klassificerare. Den här metoden är även tillämpbar på enklassificerare . Metoden med slumpmässiga delrum har också tillämpats på portföljvalsproblem som visar dess överlägsenhet gentemot den konventionella omsamplade portföljen huvudsakligen baserad på Bagging.

För att ta itu med högdimensionella glesa problem utvecklades ett ramverk vid namn Random Subspace Ensemble (RaSE) . RaSE kombinerar svaga elever som tränats i slumpmässiga delrum med en tvåskiktsstruktur och iterativ process. RaSE har visat sig åtnjuta tilltalande teoretiska egenskaper och praktiska prestanda.

Algoritm

En ensemble av modeller som använder den slumpmässiga subrymdmetoden kan konstrueras med hjälp av följande algoritm :

  1. Låt antalet träningspoäng vara N och antalet funktioner i träningsdatan vara D .
  2. Låt L vara antalet individuella modeller i ensemblen.
  3. För varje enskild modell l , välj n l (n l < N) för att vara antalet inmatningspunkter för l. Det är vanligt att bara ha ett värde på n l för alla de enskilda modellerna.
  4. För varje enskild modell l, skapa ett träningsset genom att välja d l funktioner från D med utbyte och träna upp modellen.

För att nu tillämpa ensemblemodellen på en osynlig punkt, kombinera utdata från de L individuella modellerna genom majoritetsomröstning eller genom att kombinera de posteriora sannolikheterna .

Fotnoter