Inom maskininlärning innefattar kärninbäddningen av distributioner (även kallad kärnmedelvärde eller medelkarta ) en klass av icke-parametriska metoder där en sannolikhetsfördelning representeras som ett element i ett reproducerande kärna Hilbert-utrymme (RKHS). En generalisering av kartläggningen av individuella datapunktsfunktioner som görs i klassiska kärnmetoder , inbäddningen av distributioner i oändligt dimensionella funktionsutrymmen kan bevara alla statistiska egenskaper hos godtyckliga distributioner, samtidigt som man kan jämföra och manipulera distributioner med hjälp av Hilbert-rymdoperationer som t.ex. som inre produkter , avstånd, projektioner , linjära transformationer och spektralanalys . Detta inlärningsramverk är mycket generellt och kan tillämpas på distributioner över vilket utrymme på vilket en vettig kärnfunktion (mäter likhet mellan element i kan definieras. Till exempel har olika kärnor föreslagits för att lära av data som är: vektorer i diskreta klasser/kategorier, strängar , grafer / nätverk , bilder, tidsserier , grenrör , dynamiska system och andra strukturerade objekt. Teorin bakom kärninbäddningar av distributioner har i första hand utvecklats av Alex Smola , Le Song , Arthur Gretton och Bernhard Schölkopf . En recension av senaste arbeten om kärninbäddning av distributioner finns i.
Analysen av distributioner är grundläggande inom maskininlärning och statistik , och många algoritmer inom dessa områden förlitar sig på informationsteoretiska tillvägagångssätt som entropi , ömsesidig information eller Kullback–Leibler-divergens . Men för att uppskatta dessa kvantiteter måste man först antingen utföra densitetsuppskattning eller använda sofistikerade rymduppdelnings-/biaskorrigeringsstrategier som vanligtvis är omöjliga för högdimensionella data. Metoder för att modellera komplexa distributioner förlitar sig vanligtvis på parametriska antaganden som kan vara ogrundade eller beräkningsmässigt utmanande (t.ex. Gaussiska blandningsmodeller ), medan icke-parametriska metoder som kärndensitetsuppskattning (Obs: utjämningskärnorna i detta sammanhang har en annan tolkning än de kärnor som diskuteras här ) eller karakteristisk funktionsrepresentation (via Fouriertransformen av fördelningen) bryts ner i högdimensionella inställningar.
Metoder baserade på kärninbäddning av distributioner kringgår dessa problem och har även följande fördelar:
- Data kan modelleras utan restriktiva antaganden om formen på fördelningarna och sambanden mellan variabler
- Mellanliggande densitetsuppskattning behövs inte
- Utövare kan specificera egenskaperna för en distribution som är mest relevant för deras problem (inkludera förkunskaper via val av kärna)
- Om en karakteristisk kärna används kan inbäddningen unikt bevara all information om en distribution, medan tack vare kärntricket kan beräkningar på den potentiellt oändliga dimensionella RKHS implementeras i praktiken som enkla grammatrisoperationer
- Dimensionalitetsoberoende konvergenshastigheter för det empiriska kärnmedelvärdet (uppskattat med hjälp av prover från distributionen) till kärninbäddningen av den verkliga underliggande fördelningen kan bevisas.
- Inlärningsalgoritmer baserade på detta ramverk uppvisar god generaliseringsförmåga och finit urvalskonvergens, samtidigt som de ofta är enklare och effektivare än informationsteoretiska metoder
Således erbjuder inlärning via kärninbäddning av distributioner en principiell drop-in ersättning för informationsteoretiska tillvägagångssätt och är ett ramverk som inte bara subsumerar många populära metoder inom maskininlärning och statistik som specialfall, utan också kan leda till helt nya inlärningsalgoritmer.
Definitioner
Låt beteckna en slumpvariabel med domänen och fördelningen Givet en kärna på hävdar Moore–Aronszajns sats existensen av en RKHS (ett Hilbert-rum med funktioner utrustad med inre produkter och normer där elementet uppfyller den reproducerande egenskapen
Man kan alternativt betrakta som en implicit funktionsmappning från till (som därför också kallas egenskapsutrymmet), så att kan ses som ett mått på likheten mellan punkterna Även om likhetsmåttet är linjärt i funktionsutrymmet, kan det vara mycket olinjärt i det ursprungliga utrymmet beroende på valet av kärna.
Kärninbäddning
Kärninbäddningen av distributionen i (även kallad kärnans medelvärde eller medelkarta ) ges av:
Om tillåter en kvadratisk integrerbar densitet , då , där är Hilbert–Schmidt-integraloperatorn . En kärna är karakteristisk om medelinbäddningen är injektiv. Varje distribution kan således representeras unikt i RKHS och alla statistiska egenskaper för distributioner bevaras av kärnans inbäddning om en karakteristisk kärna används.
Empirisk kärna inbäddning
Givet träningsexempel ritade oberoende och identiskt fördelade (iid) från kärninbäddningen av kan empiriskt uppskattas som
Gemensam distribution inbäddning
Om betecknar en annan slumpvariabel (för enkelhetens skull, anta att samdomänen för också är med samma kärna som uppfyller gemensamma fördelningen kan mappas till ett tensor-produktfunktionsutrymme H via
Genom ekvivalensen mellan en tensor och en linjär karta kan denna gemensamma inbäddning tolkas som en ocentrerad korskovariansoperator { från vilka korskovariansen av funktioner kan beräknas som
Givet par av träningsexempel ritad iid från , kan vi också empiriskt uppskatta den gemensamma distributionskärninbäddningen via
Villkorlig distribution inbäddning
Givet en villkorlig fördelning kan man definiera motsvarande RKHS-inbäddning som
Observera att inbäddningen av således definierar en familj av punkter i RKHS indexerad av värdena tagna av konditioneringsvariabel . Genom att fixera till ett visst värde får vi ett enda element i och därför är det naturligt att definiera operatorn
som givet funktionsmappningen av matar ut den villkorliga inbäddningen av givet Antag att för alla kan det visas att
Detta antagande är alltid sant för ändliga domäner med karakteristiska kärnor, men kanske inte nödvändigtvis gäller för kontinuerliga domäner. Icke desto mindre, även i de fall där antagandet misslyckas, fortfarande användas för att approximera den villkorliga kärnan bäddar in och i praktiken ersätts inversionsoperatorn med en regulariserad version av sig själv ( (där betecknar identitetsmatrisen ).
Givet träningsexempel den empiriska kärnans villkorliga inbäddningsoperator kan uppskattas som
där är implicit bildade funktionsmatriser, grammatrisen för exempel på , och är en regulariseringsparameter som behövs för att undvika överanpassning .
Således ges den empiriska uppskattningen av kärnans villkorliga inbäddning av en viktad summa av sampel av i funktionsutrymmet:
där och
Egenskaper
- Förväntningen på vilken funktion i RKHS kan beräknas som en inre produkt med kärnans inbäddning:
- I närvaro av stora provstorlekar, manipulationer av Gram matris kan vara beräkningskrävande. Genom att använda en approximation med låg rangordning av Gram-matrisen (såsom den ofullständiga Cholesky-faktoriseringen ), kan körtid och minneskrav för kärninbäddningsbaserade inlärningsalgoritmer minskas drastiskt utan att drabbas av stor förlust i approximationsnoggrannhet.
Konvergens av empirisk kärna betyder till den sanna distributionsinbäddningen
- Om är definierad så att värden i för alla med (som är fallet för de allmänt använda radiella basfunktionskärnorna ), då med sannolikhet minst :
- där betecknar enhetskulan i och är grammatrisen med
- Konvergenshastigheten (i RKHS-norm) för den empiriska kärnans inbäddning till dess distributionsmotsvarighet är och beror inte på dimensionen på .
- Statistik baserad på kärninbäddningar undviker alltså dimensionalitetens förbannelse , och även om den verkliga underliggande fördelningen är okänd i praktiken kan man (med hög sannolikhet) få en approximation inom av den sanna kärninbäddningen baserat på ett ändligt urval av storleken .
- För inbäddning av villkorsfördelningar kan den empiriska uppskattningen ses som ett viktat medelvärde av särdragsmappningar (där vikterna beror på värdet av konditioneringsvariabeln och fånga effekten av konditioneringen på kärnans inbäddning). I detta fall konvergerar den empiriska uppskattningen till den villkorliga fördelningen RKHS inbäddning med hastighet om regulariseringsparametern minskas som även om snabbare konvergenshastigheter kan uppnås genom att lägga ytterligare antaganden på gemensam distribution.
Universella kärnor
- Om vi låter beteckna utrymmet för kontinuerligt avgränsade funktioner på kompakt domän kallar vi en kärna universell om är kontinuerlig för alla och RKHS inducerad av är tät i .
- Om inducerar en strikt positiv bestämd kärnmatris för någon uppsättning av distinkta punkter, så är det en universell kärna. Till exempel, den mycket använda gaussiska RBF-kärnan
- på kompakta delmängder av är universell.
- Om är skiftinvariant och dess representation i Fourier-domänen är
- och stöd för är ett helt utrymme, då är universell. Till exempel är Gaussisk RBF universell, eftersom kärnan inte är universell.
- Om är universell, så är den karakteristisk , dvs kärninbäddningen är en-till-en.
Parameterval för villkorlig distributions kärna inbäddningar
- Den empiriska kärnans villkorliga distributionsinbäddningsoperator kan alternativt ses som lösningen på följande regulariserade minsta kvadraters (funktionsvärde) regressionsproblem
- S är Hilbert–Schmidt-normen .
- Man kan alltså välja regulariseringsparametern genom att utföra korsvalidering baserat på den kvadratiska förlustfunktionen för regressionsproblemet.
Sannolikhetsregler som verksamhet i RKHS
Det här avsnittet illustrerar hur grundläggande probabilistiska regler kan omformuleras som (multi)linjära algebraiska operationer i kärnans inbäddningsramverk och är i första hand baserad på Song et al. Följande notation antas:
-
gemensam fördelning över slumpvariabler
-
marginalfördelning av ; marginalfördelning av
-
villkorlig fördelning av givet med motsvarande villkorlig inbäddningsoperator
-
tidigare distribution över
-
används för att särskilja distributioner som inkorporerar föregående från distributioner som inte förlitar sig på föregående
I praktiken uppskattas alla inbäddningar empiriskt från data och det antog att en uppsättning sampel kan användas för att uppskatta kärninbäddningen av den tidigare fördelningen .
Kärnsummeregel
I sannolikhetsteorin kan marginalfördelningen av beräknas genom att integrera från fogdensiteten (inklusive den tidigare fördelningen på )
Analogen till denna regel i kärnans inbäddningsramverk säger att RKHS-inbäddningen av , kan beräknas via
där är kärninbäddningen av I praktiska implementeringar har kärnsummeregeln följande form
var
är den empiriska kärninbäddningen av den tidigare fördelningen, och är grammatriser med poster .
Kärnkedjeregel
I sannolikhetsteorin kan en gemensam fördelning faktoriseras till en produkt mellan betingade och marginalfördelningar
Analogen av denna regel i kärnans inbäddningsramverk säger att den gemensamma inbäddningen av kan faktoriseras som en sammansättning av villkorlig inbäddningsoperator med auto-kovariansoperatorn associerad med
var
I praktiska implementeringar tar kärnkedjeregeln följande form
Kernel Bayes regel
I sannolikhetsteorin kan en posterior fördelning uttryckas i termer av en tidigare fördelning och en sannolikhetsfunktion som
-
där
Analogen av denna regel i kärninbäddningsramverket uttrycker kärninbäddningen av den villkorliga distributionen i termer av villkorliga inbäddningsoperatorer som modifieras av den tidigare distributionen
varifrån kedjeregeln:
I praktiska implementeringar tar kärnan Bayes regel följande form
var
Två regulariseringsparametrar används i detta ramverk: för uppskattning av och för uppskattning av den slutliga villkorliga inbäddningsoperatorn
Den senare regleringen görs på kvadraten av eftersom kanske inte är positiv definitiv .
Ansökningar
Mätning av avstånd mellan distributioner
Den maximala medeldiskrepansen (MMD) är ett avståndsmått mellan fördelningarna och som definieras som det kvadratiska avståndet mellan deras inbäddningar i RKHS
Medan de flesta avståndsmått mellan distributioner, såsom den allmänt använda Kullback–Leibler-divergensen, antingen kräver densitetsuppskattning (antingen parametriskt eller icke-parametriskt) eller strategier för rymdpartitionering/biaskorrigering, uppskattas MMD lätt som ett empiriskt medelvärde som är koncentrerat kring det verkliga värdet av MMD. Karakteriseringen av detta avstånd som den maximala medeldiskrepansen hänvisar till det faktum att beräkning av MMD är likvärdig med att hitta RKHS-funktionen som maximerar skillnaden i förväntningar mellan de två sannolikhetsfördelningarna
Kärna två-prov test
Givet n träningsexempel från och m sampel från , kan man formulera en teststatistik baserad på den empiriska skattningen av MMD
för att få ett tvåprovstest av nollhypotesen att båda samplen härrör från samma fördelning (dvs ) mot det breda alternativet .
Densitetsuppskattning via kärninbäddningar
Även om inlärningsalgoritmer i kärnans inbäddningsramverk kringgår behovet av uppskattning av mellandensitet, kan man ändå använda den empiriska inbäddningen för att utföra densitetsuppskattning baserat på n sampel dragna från en underliggande distribution . Detta kan göras genom att lösa följande optimeringsproblem
-
beroende av
där maximeringen görs över hela utrymmet av distributioner på Här är kärninbäddningen av den föreslagna densiteten och är en entropiliknande storhet (t.ex. Entropi , KL-divergens , Bregman-divergens ). Fördelningen som löser denna optimering kan tolkas som en kompromiss mellan att anpassa provens empiriska kärnmedel väl, samtidigt som man ändå allokerar en betydande del av sannolikhetsmassan till alla regioner i sannolikhetsutrymmet (av vilka mycket kanske inte är representerade i träningsexempel). I praktiken kan en bra ungefärlig lösning av den svåra optimeringen hittas genom att begränsa utrymmet för kandidatdensiteter till en blandning av M kandidatfördelningar med reguljära blandningsproportioner. Kopplingar mellan de idéer som ligger bakom Gauss-processer och villkorliga slumpmässiga fält kan dras med uppskattningen av villkorliga sannolikhetsfördelningar på detta sätt, om man ser särdragsmappningarna associerade med kärnan som tillräcklig statistik i generaliserade (möjligen oändliga dimensionella) exponentiella familjer .
Mätning av slumpvariablers beroende
Ett mått på det statistiska beroendet mellan slumpvariablerna och (från alla domäner där vettiga kärnor kan definieras) kan formuleras baserat på Hilbert–Schmidts oberoende kriterium
och kan användas som en principiell ersättning för ömsesidig information , Pearson-korrelation eller något annat beroendemått som används i inlärningsalgoritmer. Mest anmärkningsvärt är att HSIC kan upptäcka godtyckliga beroenden (när en karakteristisk kärna används i inbäddningarna är HSIC noll om och endast om variablerna är oberoende ), och kan användas för att mäta beroendet mellan olika typer av data (t.ex. bilder och texttexter) ). Givet n iid sampel av varje slumpvariabel kan en enkel parameterfri opartisk skattare av HSIC som uppvisar koncentration kring det sanna värdet beräknas i tid, där grammatriserna för de två datamängderna approximeras med med . De önskvärda egenskaperna hos HSIC har lett till formuleringen av ett flertal algoritmer som använder detta beroendemått för en mängd vanliga maskininlärningsuppgifter såsom: funktionsval (BAHSIC), klustring (CLUHSIC) och dimensionsreduktion (MUHSIC).
HSIC kan utökas för att mäta beroendet av flera slumpvariabler. Frågan om när HSIC fångar oberoende i detta fall har nyligen studerats: för mer än två variabler
- på : den karakteristiska egenskapen för de individuella kärnorna förblir ett ekvivalent villkor.
- på allmänna domäner: den karakteristiska egenskapen hos kärnkomponenterna är nödvändig men inte tillräcklig .
Utbredning av kärnan
Trospridning är en grundläggande algoritm för slutledning i grafiska modeller där noder upprepade gånger skickar och tar emot meddelanden som motsvarar utvärderingen av villkorade förväntningar. I kärnans inbäddningsramverk kan meddelandena representeras som RKHS-funktioner och de villkorliga distributionsinbäddningarna kan tillämpas för att effektivt beräkna meddelandeuppdateringar. Givet n urval av slumpvariabler representerade av noder i ett Markov slumpfält , kan det inkommande meddelandet till nod t från nod u uttryckas som
om det antogs ligga i RKHS. Uppdateringsmeddelandet för kärntrosutbredning från t till nod s ges sedan av
där anger den elementmässiga vektorprodukten, är uppsättningen av noder kopplade till t exklusive nod s , , är grammatriserna för samplen från variablerna respektive från .
Således, om de inkommande meddelandena till nod t är linjära kombinationer av särdrag mappade sampel från , så är det utgående meddelandet från denna nod också en linjär kombination av särdrag mappade sampel från . Denna RKHS-funktionsrepresentation av meddelandeöverföringsuppdateringar producerar därför en effektiv trosutbredningsalgoritm i vilken potentialerna är icke-parametriska funktioner som härleds från data så att godtyckliga statistiska samband kan modelleras.
Icke-parametrisk filtrering i dolda Markov-modeller
I den dolda Markov-modellen (HMM) är två nyckelkvantiteter av intresse övergångssannolikheterna mellan dolda tillstånd och emissionssannolikheterna för observationer. Genom att använda inbäddningsramverket för villkorad distribution av kärnan kan dessa kvantiteter uttryckas i termer av prover från HMM. En allvarlig begränsning av inbäddningsmetoderna i denna domän är behovet av träningsprov som innehåller dolda tillstånd, eftersom det annars inte är möjligt att sluta sig till godtyckliga distributioner i HMM.
En vanlig användning av HMM är filtrering där målet är att uppskatta den bakre fördelningen över det dolda tillståndet vid tidssteg t givet en historia av tidigare observationer från systemet. Vid filtrering upprätthålls ett trostillstånd rekursivt via ett prediktionssteg (där uppdaterar det tidigare dolda tillståndet) följt av ett konditioneringssteg (där uppdateringar beräknas genom att tillämpa Bayes regel för att villkora en ny observation). RKHS-inbäddningen av trostillståndet vid tidpunkten t+1 kan uttryckas rekursivt som
genom att beräkna inbäddningarna av prediktionssteget via kärnsummeregeln och inbäddningen av konditioneringssteget via kärnan Bayes regel . Om vi antar ett träningsprov ges, kan man i praktiken uppskatta
och filtrering med kärninbäddningar implementeras således rekursivt med hjälp av följande uppdateringar för vikterna
där betecknar grammatriserna för och respektive, är en överförings grammatris definierad som och
Stöd mätmaskiner
Stödmätmaskinen (SMM) är en generalisering av stödvektormaskinen (SVM) träningsexemplen är sannolikhetsfördelningar parade med etiketter , . SMM:er löser standardproblemet med SVM- dubbeloptimering med hjälp av följande förväntade kärna
som är beräkningsbar i sluten form för många vanliga specifika distributioner (som den Gaussiska distributionen) kombinerat med populära inbäddningskärnor (t.ex. den Gaussiska kärnan eller polynomkärnan), eller kan exakt empiriskt uppskattas från iid sampel via
Under vissa val av inbäddningskärnan tillämpades SMM på träningsexempel är ekvivalent med en SVM tränad på prov , och därmed kan SMM ses som en flexibel SVM där en annan databeroende kärna (specificerad av den antagna formen av distributionen kan placeras på varje träning punkt.
Domänanpassning under kovariat-, mål- och villkorsskifte
Målet med domänanpassning är formuleringen av inlärningsalgoritmer som generaliserar väl när tränings- och testdata har olika fördelning. Givet träningsexempel och en testuppsättning y är okända , tre typer av skillnader antas vanligtvis mellan fördelningen av träningsexemplen och testfördelningen :
-
Kovariatskifte där marginalfördelningen av kovariaterna ändras mellan domäner:
-
Målskifte där marginalfördelningen av utdata ändras mellan domäner:
-
Villkorsförskjutning där förblir densamma över domäner, men de villkorliga fördelningarna skiljer sig: . I allmänhet leder förekomsten av villkorlig förskjutning till ett illa ställt problem , och det ytterligare antagandet att ändras endast under lokaliseringsskala (LS) transformationer på påtvingas vanligtvis för att göra problemet löst.
Genom att använda kärninbäddningen av marginella och villkorliga distributioner kan praktiska tillvägagångssätt för att hantera förekomsten av dessa typer av skillnader mellan tränings- och testdomäner formuleras. Kovariatförskjutning kan förklaras genom att omvikta exempel via uppskattningar av förhållandet erhålls direkt från kärninbäddningarna av marginaldistributionerna av i varje domän utan behov av explicit uppskattning av distributionerna. Målskifte, som inte kan hanteras på liknande sätt eftersom inga prover från är tillgängliga i testdomänen, redovisas genom att vikta träningsexempel med vektorn som löser följande optimeringsproblem (där i praktiken empiriska approximationer måste användas)
-
för
För att hantera platsskalans villkorsförskjutning kan man utföra en LS-transformation av träningspunkterna för att erhålla nya transformerade träningsdata (där anger den elementmässiga vektorprodukten). För att säkerställa liknande fördelningar mellan de nya transformerade träningsproven och testdata, genom att minimera följande empiriska kärninbäddningsavstånd
Generellt sett kan kärninbäddningsmetoderna för att hantera LS villkorligt skift och målskift kombineras för att hitta en omviktad transformation av träningsdata som efterliknar testfördelningen, och dessa metoder kan fungera bra även i närvaro av andra villkorade skift än plats -skalförändringar.
Domängeneralisering via invariant funktionsrepresentation
Givet N uppsättningar av träningsexempel samplade iid från distributioner som fungerar bra på testexempel samplade från en tidigare osynlig domän där ingen data från testdomänen är tillgänglig vid träningstillfället. Om villkorsfördelningar antas vara relativt lika över alla domäner, måste en elev som kan generalisera domänen uppskatta ett funktionellt samband mellan variablerna som är robust för förändringar i marginalerna . Baserat på kärninbäddningar av dessa distributioner, är Domain Invariant Component Analysis (DICA) en metod som bestämmer transformationen av träningsdata som minimerar skillnaden mellan marginella distributioner samtidigt som en gemensam villkorlig fördelning som delas mellan alla träningsdomäner bevaras. DICA extraherar således invarianter , funktioner som överförs över domäner, och kan ses som en generalisering av många populära dimensionsreduceringsmetoder såsom kärnans huvudkomponentanalys , överföringskomponentanalys och kovariansoperator invers regression.
Definiera en sannolikhetsfördelning på RKHS med
DICA mäter olikheter mellan domäner via distributionsvarians som beräknas som
var
så är en grammatris över fördelningarna från vilka träningsdata samplas. Genom att hitta en ortogonal transformation till ett lågdimensionellt delrum B (i funktionsutrymmet) som minimerar fördelningsvariansen, säkerställer DICA samtidigt att B ligger i linje med baserna för ett centralt delrum C för vilket blir oberoende av ges över alla domäner. I avsaknad av målvärden kan en oövervakad version av DICA formuleras som hittar ett lågdimensionellt delutrymme som minimerar fördelningsvariansen samtidigt som variansen för (i funktionsutrymmet) över alla domäner (snarare än att bevara ett centralt delområde).
Fördelningsregression
Vid distributionsregression är målet att regressera från sannolikhetsfördelningar till reella (eller vektorer). Många viktiga maskininlärnings- och statistiska uppgifter passar in i detta ramverk, inklusive multi-instans-inlärning och punktuppskattningsproblem utan analytisk lösning (som hyperparameter eller entropiuppskattning ). I praktiken är endast stickprov från stickprovsfördelningar observerbara, och uppskattningarna måste förlita sig på likheter som beräknas mellan uppsättningar av punkter . Distributionsregression har framgångsrikt tillämpats till exempel i övervakad entropiinlärning och aerosolprediktion med hjälp av multispektrala satellitbilder.
Givet träningsdata, där { och den utdataetiketten är , man kan ta itu med distributionsregressionsuppgiften genom att ta inbäddningarna av distributionerna och lära sig regressorn från inbäddningarna till utgångarna. Med andra ord, man kan överväga följande kärn- ryggregressionsproblem (
var
med en kärna på domänen av -s , är en kärna i de inbäddade distributionerna, och är RKHS som bestäms av . Exempel på inkluderar den linjära kärnan kärnan , den exponentiella kärnan , Cauchy-kärnan , den generaliserade t-studentkärnan kärnan .
Förutsägelsen om en ny distribution tar den enkla, analytiska formen
där , , , . Under milda regularitetsförhållanden kan denna estimator visas vara konsekvent och den kan uppnå den enstegs samplade (som om man hade tillgång till den sanna -s) minimax optimala hastigheten. I objektivfunktionen är -s reella tal; resultaten kan också utökas till fallet när -s är -dimensionella vektorer, eller mer generellt element av ett separerbart Hilbert-utrymme med operatorvärde kärnor.
Exempel
I detta enkla exempel, som är hämtat från Song et al., antas vara diskreta slumpvariabler som tar värden i mängden och kärnan är vald att vara Kronecker deltafunktionen , så . Funktionskartan som motsvarar denna kärna är standardbasvektorn ( . Kärninbäddningarna av en sådan distribution är alltså vektorer av marginella sannolikheter medan inbäddningarna av gemensamma distributioner i denna inställning är -matriser som specificerar gemensamma sannolikhetstabeller, och den explicita formen av dessa inbäddningar är
Operatören för inbäddning av villkorlig distribution,
är i denna inställning en villkorad sannolikhetstabell
och
Således kan inbäddningarna av den villkorliga fördelningen under ett fast värde på beräknas som
I denna diskreta inställning med Kronecker-deltatkärnan blir kärnsummeregeln
Kärnkedjeregeln i detta fall ges av
externa länkar