Distributionsinlärningsteori

Den fördelningsmässiga inlärningsteorin eller inlärning av sannolikhetsfördelning är ett ramverk inom beräkningslärandeteori . Det har föreslagits från Michael Kearns , Yishay Mansour, Dana Ron , Ronitt Rubinfeld , Robert Schapire och Linda Sellie 1994 och det var inspirerat av PAC-ramverket som introducerades av Leslie Valiant .

I detta ramverk är indata ett antal stickprov från en distribution som tillhör en specifik klass av distributioner. Målet är att hitta en effektiv algoritm som utifrån dessa stickprov med stor sannolikhet bestämmer fördelningen från vilken stickproven har tagits. På grund av dess generella karaktär har detta ramverk använts inom ett stort antal olika områden som maskininlärning , approximationsalgoritmer , tillämpad sannolikhet och statistik .

Den här artikeln förklarar de grundläggande definitionerna, verktygen och resultaten i detta ramverk utifrån beräkningsteorin.

Definitioner

Låt vara stödet för fördelningarna av intresse. Som i originalverket av Kearns et al. om är ändlig kan det utan förlust av generalitet antas att där är antalet bitar som måste användas för att representera någon . Vi fokuserar på sannolikhetsfördelningar över .

Det finns två möjliga representationer av en sannolikhetsfördelning över .

  • sannolikhetsfördelningsfunktion (eller utvärderare) en utvärderare för tar som indata någon och matar ut en reella tal som anger sannolikheten för enligt , dvs om .
  • generera en generator för tar som indata en sträng med verkligt slumpmässiga bitar och matar ut enligt fördelningen . Generator kan tolkas som en rutin som simulerar sampling från distributionen givet en sekvens av rättvisa myntkast.

En fördelning kallas för att ha en polynomgenerator (respektive evaluator) om dess generator (respektive evaluator) finns och kan beräknas i polynomtid.

Låt en klass av distribution över X, det vill säga är en mängd så att varje är en sannolikhetsfördelning med stöd . C kan också skrivas som för enkelhetens skull.

Innan man definierar inlärningsbarhet är det nödvändigt att definiera bra approximationer av en distribution . Det finns flera sätt att mäta avståndet mellan två distributioner. De tre vanligaste möjligheterna är

Det starkaste av dessa avstånd är Kullback-Leibler-divergensen och det svagaste är Kolmogorov-avståndet . Detta betyder att för alla distributionspar , :

Därför, till exempel om och är nära med avseende på Kullback-Leibler-divergensen så är de också nära med avseende på alla andra avstånd.

Nästa definitioner gäller för alla avstånd och därför anger symbolen avståndet mellan fördelningen och fördelningen med ett av avstånden som vi beskriver ovan. Även om inlärningsförmågan för en klass av distributioner kan definieras med någon av dessa avstånd, hänvisar applikationer till ett specifikt avstånd.

Den grundläggande input som vi använder för att lära oss en distribution är ett antal stickprov som dras av denna distribution. För beräkningssynpunkt är antagandet att ett sådant sampel ges under en konstant tidsperiod. Så det är som att ha tillgång till ett orakel som returnerar ett sampel från distributionen . Ibland är intresset, förutom att mäta tidskomplexiteten, att mäta antalet sampel som måste användas för att lära sig en specifik distribution i distributionsklassen . Denna kvantitet kallas provkomplexitet för inlärningsalgoritmen.

För att problemet med distributionsinlärning ska bli tydligare, överväg problemet med övervakat lärande enligt definitionen i. I denna ram för statistisk inlärningsteori är en träningsuppsättning målfunktion som minimerar någon förlustfunktion, t.ex. kvadratförlustfunktionen. Mer formellt , där är förlustfunktionen, t.ex. och sannolikhetsfördelningen enligt vilken elementen i träningsuppsättningen samplas. Om den villkorliga sannolikhetsfördelningen är känd så har målfunktionen den slutna formen . Så mängden är en uppsättning sampel från sannolikhetsfördelningen . Nu är målet för fördelningsinlärningsteori om att hitta givet som kan användas för att hitta målfunktionen .

Definition av lärbarhet

En klass av distributioner kallas effektivt inlärbar om för varje och ges åtkomst till för en okänd distribution , det finns en polynomisk tidsalgoritm , kallad inlärningsalgoritm för , som matar ut en generator eller en utvärderare av en distribution så att

Om vi ​​vet att så kallas korrekt inlärningsalgoritm , annars kallas den felaktig inlärningsalgoritm .

I vissa inställningar är distributionsklassen en klass med välkända distributioner som kan beskrivas med en uppsättning parametrar. Till exempel vara klassen för alla gaussfördelningarna . I detta fall bör algoritmen kunna uppskatta parametrarna . I det här fallet kallas parameterinlärningsalgoritm .

Uppenbarligen är parameterinlärningen för enkla distributioner ett mycket väl studerat område som kallas statistisk uppskattning och det finns en mycket lång bibliografi om olika skattare för olika typer av enkla kända distributioner. Men distributionslärandeteori handlar om inlärningsklass av distributioner som har en mer komplicerad beskrivning.

Första resultaten

I deras framstående arbete, Kearns et al. ta itu med fallet där beskrivs i termen av en krets med ändlig polynomstorlek och de bevisade följande för vissa specifika distributionsklasser.

  • grinddistributioner för denna typ av distributioner finns det ingen utvärderare av polynomstorlek, såvida inte . Å andra sidan är den här klassen effektivt lärbar med generator.
  • Paritetsgrinddistributioner denna klass är effektivt lärbara med både generator och utvärderare.
  • Blandningar av Hamming Balls denna klass är effektivt lärbara med både generator och utvärderare.
  • Probabilistic Finite Automata denna klass är inte effektivt lärbar med utvärderare under Noisy Parity Assumption som är ett omöjlighetsantagande i PAC-inlärningsramverket.

Omslag

En mycket vanlig teknik för att hitta en inlärningsalgoritm för en klass av distributioner är att först hitta en liten omslag till .

Definition

En uppsättning kallas -omslag av om för varje finns en så att . Ett omslag är litet om det har polynomstorlek med avseende på parametrarna som beskriver .

När det väl finns en effektiv procedur som för varje hittar en liten omslag av C då är den enda kvarvarande uppgiften att välja från fördelningen som är närmare distribution som måste läras in.

Problemet är att givet är det inte trivialt hur vi kan jämföra och för att avgöra vilken som är närmast , eftersom är okänd. Därför måste samplen från Uppenbarligen har resultatet av jämförelsen alltid en sannolikhet för fel. Så uppgiften är liknande med att hitta minimum i en uppsättning element med hjälp av bullriga jämförelser. Det finns många klassiska algoritmer för att uppnå detta mål. Den senaste som uppnår de bästa garantierna föreslogs av Daskalakis och Kamath. Denna algoritm sätter upp en snabb turnering mellan elementen i där vinnaren i denna turnering är elementet som är nära (dvs ) med sannolikhet minst . För att göra det använder deras algoritm sampel från och körs i tid, där .

Lärande summor av slumpvariabler

Att lära sig enkla välkända distributioner är ett väl studerat område och det finns många estimatorer som kan användas. En mer komplicerad klass av distributioner är fördelningen av en summa av variabler som följer enkla distributioner. Dessa inlärningsförfaranden har ett nära samband med gränssatser som den centrala gränssatsen eftersom de tenderar att undersöka samma objekt när summan tenderar till en oändlig summa. Nyligen finns det två resultat som beskrivs här inkluderar inlärningsPoissons binomialfördelningar och inlärningssummor av oberoende heltalsslumpvariabler. Alla resultat nedan gäller med det totala variationsavståndet som ett avståndsmått.

Att lära sig Poissons binomialfördelningar

Betrakta oberoende Bernoullis slumpvariabler med sannolikheter för framgång . En Poisson Binomial Fördelning av ordning är fördelningen av summan . För att lära sig klassen . Det första av följande resultat handlar om fallet med felaktig inlärning av och det andra med korrekt inlärning av .

Sats

Låt så finns det en algoritm som ger ϵ , och tillgång till hittar ett så att . Exempelkomplexiteten för denna algoritm är och körtiden är .

Sats

Låt så finns det en algoritm som ger ϵ , och tillgång till hittar en så att . Exempelkomplexiteten för denna algoritm är och körtiden är .

En del av resultaten ovan är att provkomplexiteten för inlärningsalgoritmen inte beror på även om beskrivningen av är linjär i . Även det andra resultatet är nästan optimalt med avseende på provets komplexitet eftersom det också finns en nedre gräns för .

Beviset använder ett litet omslag av som har producerats av Daskalakis och Papadimitriou, för att få denna algoritm.

Inlärningssummor av oberoende heltals slumpmässiga variabler

Betrakta oberoende slumpvariabler som var och en följer en godtycklig fördelning med stöd för . A summan av oberoende heltals slumpvariabel av ordningen är fördelningen av summan . För att lära sig klassen

det är följande resultat

Sats

Låt så finns det en algoritm som ger ϵ och åtkomst till hittar ett så att . Exempelkomplexiteten för denna algoritm är och körtiden är också .

En annan del är att samplet och tidskomplexiteten inte beror på . Det är möjligt att sluta detta oberoende för föregående avsnitt om vi sätter .

Inlärningsblandningar av Gausser

Låt slumpvariablerna och . Definiera slumpvariabeln som tar samma värde som med sannolikhet och samma värde som med sannolikhet . Sedan om är densiteten för och är densiteten för densiteten för är . I detta fall sägs Pearson var den första som introducerade begreppet blandningar av Gausser i sitt försök att förklara sannolikhetsfördelningen från vilken han fick samma data som han ville analysera. Så efter att ha gjort många beräkningar för hand anpassade han äntligen sina data till en blandning av gausser. Inlärningsuppgiften i detta fall är att bestämma parametrarna för blandningen .

Det första försöket att lösa detta problem var från Dasgupta. I detta verk antar Dasgupta att Gaussernas två medel är tillräckligt långt från varandra. Det betyder att det finns en nedre gräns för avståndet . Med detta antagande kunde Dasgupta och många forskare efter honom lära sig parametrarna för blandningen. Inlärningsproceduren börjar med att gruppera proverna i två olika kluster, vilket minimerar en viss metrik. Med antagandet att Gaussernas medel är långt borta från varandra med hög sannolikhet motsvarar samplen i det första klustret sampel från det första Gaussian och samplen i det andra klustret till samples från det andra. Nu när proverna är partitionerade kan beräknas från enkla statistiska estimatorer och genom att jämföra storleken på klustren.

Om är mängden av alla blandningar av två Gausser, kan man med hjälp av ovanstående procedursatser som följande bevisas

Sats

Låt med 1/2 och det största egenvärdet av , då finns det en algoritm som ger , och tillgång till hittar en approximation av parametrarna så att i och Exempelkomplexiteten för denna algoritm är och körtiden är .

Ovanstående resultat kan också generaliseras i blandning av Gausser.

För fallet med blandning av två Gausser finns det inlärningsresultat utan antagande om avståndet mellan deras medel, som den följande som använder den totala variationsdistansen som ett avståndsmått.

Sats

Låt så finns det en algoritm som ger , och åtkomst till hittar så att om , där sedan . Provkomplexiteten och körtiden för denna algoritm är .

Avståndet mellan och påverkar inte kvaliteten på resultatet av algoritmen utan bara provets komplexitet och körtiden.

  1. ^ a b c M. Kearns, Y. Mansour, D. Ron, R. Rubinfeld, R. Schapire, L. Sellie Om lärbarheten av diskreta distributioner . ACM Symposium on Theory of Computing, 1994 [1]
  2. ^ L. Valiant En teori om det lärbara . Communications of ACM, 1984
  3. ^ Lorenzo Rosasco, Tomaso Poggio, "A Regularization Tour of Machine Learning - MIT-9.520 Lectures Notes" Manuskript, dec. 2014 [2]
  4. ^ C. Daskalakis, G. Kamath snabbare och prover nästan optimala algoritmer för korrekta lärande blandningar av Gaussians . Årlig konferens om lärandeteori, 2014 [3]
  5. ^ C. Daskalakis, I. Diakonikolas, R. Servedio som lär Poisson binomialdistributioner . ACM Symposium on Theory of Computing, 2012 [4]
  6. ^ C. Daskalakis, C. Papadimitriou Gles täcker för summor av indikatorer . Sannolikhetsteori och relaterade fält, 2014 [5]
  7. ^ C. Daskalakis, I. Diakonikolas, R. O'Donnell, R. Servedio, L. Tan Lärande summor av oberoende heltals slumpmässiga variabler . IEEE Symposium on Foundations of Computer Science, 2013 [6]
  8. ^ K. Pearsons bidrag till den matematiska evolutionsteorin . Philosophical Transactions of the Royal Society i London, 1894 [7]
  9. ^ a b c d S. Dasgupta Lärande blandningar av Gaussians . IEEE Symposium on Foundations of Computer Science, 1999 [8]
  10. ^ a b A. Kalai, A. Moitra, G. Valiant effektivt lärande blandningar av två Gausser ACM Symposium on Theory of Computing, 2010 [9]