Ensemblemedelvärde (maskininlärning)

Inom maskininlärning , särskilt vid skapandet av artificiella neurala nätverk , är ensemblemedelvärde processen att skapa flera modeller och kombinera dem för att producera en önskad utdata, i motsats till att bara skapa en modell. Ofta presterar en ensemble av modeller bättre än någon enskild modell, eftersom de olika felen i modellerna "går i genomsnitt".

Översikt

Ensemble medelvärde är en av de enklaste typerna av kommittémaskiner . Tillsammans med förstärkning är det en av de två huvudtyperna av statiska kommittémaskiner. I motsats till standardnätverksdesign där många nätverk genereras men bara ett behålls, håller ensemblemedelvärde de mindre tillfredsställande nätverken runt, men med mindre vikt. Teorin om ensemblemedelvärde bygger på två egenskaper hos artificiella neurala nätverk:

  1. I vilket nätverk som helst kan förspänningen minskas till bekostnad av ökad varians
  2. I en grupp av nätverk kan variansen minskas utan kostnad för partiskhet

Ensemble medelvärde skapar en grupp nätverk, var och en med låg bias och hög varians, och kombinerar dem sedan till ett nytt nätverk med (förhoppningsvis) låg bias och låg varians. Det är alltså en lösning av bias-varians-dilemmat . Idén att kombinera experter har spårats tillbaka till Pierre-Simon Laplace .

Metod

Teorin som nämns ovan ger en uppenbar strategi: skapa en uppsättning experter med låg bias och hög varians, och sedan genomsnitt dem. Generellt sett innebär detta att skapa en uppsättning experter med olika parametrar; ofta är dessa de initiala synaptiska vikterna, även om andra faktorer (såsom inlärningshastigheten, momentum etc.) också kan varieras. Vissa författare avråder från varierande viktnedgång och tidigt stopp. Stegen är därför:

  1. Generera N experter, var och en med sina egna initiala värden. (Initiala värden väljs vanligtvis slumpmässigt från en fördelning.)
  2. Utbilda varje expert separat.
  3. Kombinera experterna och snitt deras värden.

Alternativt kan domänkunskap användas för att generera flera klasser av experter. En expert från varje klass utbildas och kombineras sedan.

En mer komplex version av ensemblegenomsnitt ser det slutliga resultatet inte som ett rent medelvärde av alla experter, utan snarare som en viktad summa. Om varje expert är det totala resultatet definieras som:

där är en uppsättning vikter. Optimeringsproblemet med att hitta alfa löses enkelt genom neurala nätverk, därav ett "metanätverk" där varje "neuron" i själva verket är ett helt neuralt nätverk kan tränas, och de synaptiska vikterna för det slutliga nätverket är vikten som appliceras på varje expert. Detta är känt som en linjär kombination av experter .

Det kan ses att de flesta former av neurala nätverk är någon delmängd av en linjär kombination: standardneuralnätet (där endast en expert används) är helt enkelt en linjär kombination med alla α j = {\displaystyle \alpha _ och en . Ett råmedelvärde är där alla är lika med något konstant värde, nämligen ett över det totala antalet experter.

En nyare ensemblemedelvärdesmetod är negativ korrelationsinlärning, föreslagen av Y. Liu och X. Yao. Nu har denna metod använts i stor utsträckning inom evolutionär datoranvändning .

Fördelar

  • Den resulterande kommittén är nästan alltid mindre komplex än ett enda nätverk som skulle uppnå samma prestationsnivå
  • Den resulterande kommittén kan lättare tränas på mindre insatsuppsättningar
  • Den resulterande kommittén har ofta förbättrad prestanda över ett enskilt nätverk
  • Risken för övermontering minskar eftersom det är färre parametrar (vikter) som behöver ställas in

Se även

  1. ^ a b c Haykin, Simon. Neurala nätverk: en omfattande grund. 2:a uppl. Upper Saddle River NJ: Prentice Hall, 1999.
  2. ^ a b c d Hashem, S. "Optimala linjära kombinationer av neurala nätverk." Neural Networks 10, nr. 4 (1997): 599-614.
  3. ^ a b Naftaly, U., N. Intrator och D. Horn. "Optimalt ensemblemedelvärde för neurala nätverk." Nätverk: Computation in Neural Systems 8, nr. 3 (1997): 283-296.
  4. ^ Geman, S., E. Bienenstock och R. Doursat. "Neurala nätverk och bias/varians-dilemmat." Neural beräkning 4, nr. 1 (1992): 1-58.
  5. ^ Clemen, RT "Kombinera prognoser: En recension och kommenterad bibliografi." International Journal of Forecasting 5, nr. 4 (1989): 559-583.
  6. ^ Y. Liu och X. Yao, Ensemble Learning via Negative Correlation Neural Networks, volym 12, nummer 10, december 1999, s. 1399-1404. doi : 10.1016/S0893-6080(99)00073-8
  7. ^ Pearlmutter, BA och R. Rosenfeld. "Chaitin-Kolmogorov komplexitet och generalisering i neurala nätverk." I Proceedings of the 1990 conference on Advances in neural information processing systems 3, 931. Morgan Kaufmann Publishers Inc., 1990.

Vidare läsning