Återskapa kärnan Hilbert space
I funktionell analys (en gren av matematik ) är en reproducerande kärna Hilbert-rymd ( RKHS ) ett Hilbert-rum av funktioner där punktutvärdering är en kontinuerlig linjär funktionell . Grovt sett betyder detta att om två funktioner och i RKHS är nära i norm, dvs. är liten, då och är också punktvis nära, dvs är liten för alla . Det omvända behöver inte vara sant. Informellt kan detta visas genom att titta på den högsta normen : sekvensen av funktioner konvergerar punktvis, men konvergerar inte enhetligt dvs konvergerar inte med respekt till den högsta normen (detta är inte ett motexempel eftersom den högsta normen inte härrör från någon inre produkt på grund av att den inte uppfyller parallellogramlagen ) .
Det är inte helt okomplicerat att konstruera ett Hilbert-rum av funktioner som inte är ett RKHS. Några exempel har dock hittats.
L 2 -utrymmen är inte Hilbert-rum med funktioner (och därmed inte RKHSs), utan snarare Hilbert-rum med ekvivalensklasser av funktioner (till exempel funktionerna och definierade av och är ekvivalenta i L 2 ). Det finns dock RKHS:er där normen är en L 2 -norm, såsom utrymmet för bandbegränsade funktioner (se exemplet nedan).
En RKHS är associerad med en kärna som reproducerar varje funktion i rummet i den meningen att för varje i uppsättningen som funktionerna definieras på, kan "utvärdering vid utföras av ta en inre produkt med en funktion som bestäms av kärnan. En sådan reproducerande kärna existerar om och bara om varje utvärderingsfunktion är kontinuerlig.
Den reproducerande kärnan introducerades först i 1907 års arbete av Stanisław Zaremba angående problem med gränsvärde för harmoniska och biharmoniska funktioner . James Mercer undersökte samtidigt funktioner som uppfyller den reproducerande egenskapen i teorin om integralekvationer . Idén om den reproducerande kärnan förblev orörd i nästan tjugo år tills den dök upp i Gábor Szegős , Stefan Bergmans och Salomon Bochners avhandlingar . Ämnet utvecklades så småningom systematiskt i början av 1950-talet av Nachman Aronszajn och Stefan Bergman.
Dessa utrymmen har breda tillämpningar, inklusive komplex analys , harmonisk analys och kvantmekanik . Reproducera kärnan Hilbert-utrymmen är särskilt viktiga inom området för statistisk inlärningsteori på grund av den berömda representationssatsen som säger att varje funktion i en RKHS som minimerar en empirisk riskfunktion kan skrivas som en linjär kombination av kärnfunktionen som utvärderas vid träningspunkterna . Detta är ett praktiskt användbart resultat eftersom det effektivt förenklar det empiriska riskminimeringsproblemet från ett oändligt dimensionellt till ett finitdimensionellt optimeringsproblem.
För att underlätta förståelsen tillhandahåller vi ramverket för verkligt värdefulla Hilbert-utrymmen. Teorin kan lätt utvidgas till utrymmen med komplext värderade funktioner och inkluderar därför de många viktiga exemplen på att reproducera kärnan Hilbert-utrymmen som är utrymmen för analytiska funktioner .
Definition
Låt vara en godtycklig mängd och ett Hilbertrum med verkliga funktioner på utrustad med punktvis addition och punktvis skalär multiplikation. Utvärderingsfunktionen över Hilbert-utrymmet av funktioner är en linjär funktion som utvärderar varje funktion i en punkt } ,
Vi säger att H är en reproducerande kärna Hilbert-rymd om, för alla i , är kontinuerlig vid varje i eller, ekvivalent, om är en avgränsad operator på , dvs det finns några såsom den där
-
()
Även om antas för alla , kan det fortfarande vara så att .
Även om egenskapen ( 1 ) är det svagaste villkoret som säkerställer både existensen av en inre produkt och utvärderingen av varje funktion i vid varje punkt i domänen, lämpar den sig inte för enkel tillämpning i praktiken. En mer intuitiv definition av RKHS kan erhållas genom att observera att denna egenskap garanterar att utvärderingsfunktionen kan representeras genom att ta den inre produkten av med en funktion i . Denna funktion är den så kallade reproducerande kärnan [ citation needed ] för Hilbert-utrymmet från vilket RKHS har fått sitt namn. Mer formellt Riesz-representationssatsen att det för alla i finns ett unikt element av med den reproducerande egenskapen ,
-
()
Eftersom i sig är en funktion definierad på med värden i fältet (eller i fallet med komplexa Hilbert-mellanslag) och eftersom är i har vi det
där är elementet i som är associerat med .
Detta gör att vi kan definiera den reproducerande kärnan av som en funktion av
Från denna definition är det lätt att se att (eller i det komplexa fallet) är både symmetrisk (resp. konjugatsymmetrisk) och positiv definit , dvs
för Moore–Aronszajns sats (se nedan) är en sorts motsats till detta: om en funktion uppfyller dessa villkor så finns det ett Hilbert-rum med funktioner på för vilken det är en reproducerande kärna.
Exempel
Utrymmet för bandbegränsade kontinuerliga funktioner är en RKHS, som vi nu visar. Formellt, fixa någon gränsfrekvens och definiera Hilbert-utrymmet
där är uppsättningen av kontinuerliga kvadratintegrerbara funktioner, och f { \ . Som den inre produkten av detta Hilbert-rum använder vi
Från Fourier inversionssatsen har vi
Det följer sedan av Cauchy–Schwarz-olikheten och Plancherels teorem att för alla ,
Denna olikhet visar att utvärderingsfunktionen är begränsad, vilket bevisar att verkligen är en RKHS.
Kärnfunktionen i detta fall ges av
Fouriertransformen av som definierats ovan ges av
vilket är en konsekvens av Fouriertransformens tidsförskjutande egenskap . Följaktligen, med hjälp av Plancherels sats , har vi
På så sätt får vi kärnans reproducerande egenskap.
i det här fallet är den "bandbegränsade versionen" av Dirac delta-funktionen , och att konvergerar till i svag mening eftersom gränsfrekvensen tenderar till oändlighet.
Moore–Aronszajns sats
Vi har sett hur en reproducerande kärna Hilbert-rymden definierar en reproducerande kärnfunktion som är både symmetrisk och positiv bestämd . Moore–Aronszajns sats går åt andra hållet; den anger att varje symmetrisk, positiv bestämd kärna definierar ett unikt reproducerande kärn-Hilbert-utrymme. Satsen dök först upp i Aronszajns Theory of Reproducing Kernels , även om han tillskriver det EH Moore .
- Sats . Antag att K är en symmetrisk, positiv bestämd kärna på en mängd X . Sedan finns det ett unikt Hilbert-utrymme med funktioner på X där K är en reproducerande kärna.
00 Bevis . För alla x i X , definiera K x = K ( x , ⋅ ). Låt H vara det linjära spannet av { K x : x ∈ X }. Definiera en inre produkt på H by
vilket innebär . Symmetrin hos denna inre produkt följer av symmetrin hos K och icke-degenerationen följer av det faktum att K är positivt definitivt.
0 Låt H vara kompletteringen av H med avseende på denna inre produkt. Då H av funktioner av formen
Nu kan vi kontrollera den reproducerande egenskapen ( 2 ):
För att bevisa unikhet, låt G vara ytterligare ett Hilbert-rum med funktioner för vilket K är en reproducerande kärna. För varje x och y i X innebär ( 2 ) det
0 Genom linjäritet, spann av . Sedan eftersom G är komplett och innehåller H och därför innehåller dess komplettering.
Nu måste vi bevisa att varje element i G finns i H . Låt vara ett element av G . Eftersom H är ett slutet delrum av G kan vi skriva där och . Om nu då, eftersom K är en reproducerande kärna av G och H :
där vi har använt det faktum att tillhör H så att dess inre produkt med i G är noll. Detta visar att i G och avslutar beviset.
Integraloperatorer och Mercers sats
Vi kan karakterisera en symmetrisk positiv bestämd kärna via integraloperatorn med hjälp av Mercers sats och få en ytterligare bild av RKHS. Låt vara ett kompakt utrymme utrustat med ett strikt positivt ändligt borelmått och en kontinuerlig, symmetrisk och positiv bestämd funktion. Definiera integraloperatorn som
där är utrymmet för kvadratintegrerbara funktioner med avseende på .
Mercers sats säger att den spektrala nedbrytningen av integraloperatorn av ger en serierepresentation av i termer av egenvärden och egenfunktioner för . Detta innebär då att är en reproducerande kärna så att motsvarande RKHS kan definieras i termer av dessa egenvärden och egenfunktioner. Vi tillhandahåller detaljerna nedan.
Under dessa antaganden är en kompakt, kontinuerlig, självadjoint och positiv operator. Spektralsatsen för självadjoinerande operatorer innebär att det finns en högst räknebar avtagande sekvens så att och där utgör en ortonormal bas för . Genom positiviteten hos för alla Man kan också visa att avbildas kontinuerligt i utrymmet för kontinuerliga funktioner och därför kan vi välja kontinuerliga funktioner som egenvektorer, det vill säga för alla Sedan kan genom Mercers sats skrivas i termer av egenvärdena och kontinuerliga egenfunktioner som
för alla så att
Denna serierepresentation ovan kallas en Mercer-kärna eller Mercer-representation av .
Dessutom kan det visas att RKHS för ges av
där den inre produkten av ges av
Denna representation av RKHS har tillämpning inom sannolikhet och statistik, till exempel på Karhunen-Loève-representationen för stokastiska processer och kärn-PCA .
Funktionskartor
En funktionskarta är en karta , där är ett Hilbert-utrymme som vi kommer att kalla egenskapsutrymmet. De första avsnitten presenterade sambandet mellan avgränsade/kontinuerliga utvärderingsfunktioner, positiva bestämda funktioner och integraloperatorer och i detta avsnitt ger vi en annan representation av RKHS i termer av funktionskartor.
Varje funktionskarta definierar en kärna via
-
()
Klart är symmetrisk och positiv definititet följer av egenskaperna hos inre produkt i . Omvänt har varje positiv bestämd funktion och motsvarande reproducerande kärna Hilbert-utrymme oändligt många associerade funktionskartor så att ( 3 ) gäller.
Till exempel kan vi trivialt ta och för alla . Då ( 3 ) är uppfyllt av den reproducerande egenskapen. Ett annat klassiskt exempel på en funktionskarta relaterar till föregående avsnitt om integraloperatorer genom att ta och .
Denna koppling mellan kärnor och funktionskartor ger oss ett nytt sätt att förstå positiva bestämda funktioner och därmed reproducera kärnor som inre produkter i . Dessutom kan varje funktionskarta naturligtvis definiera en RKHS med hjälp av definitionen av en positiv bestämd funktion.
Slutligen tillåter funktionskartor oss att konstruera funktionsutrymmen som avslöjar ett annat perspektiv på RKHS. Tänk på det linjära utrymmet
Vi kan definiera en norm på med
Det kan visas att är en RKHS med kärnan definierad av . Denna representation antyder att elementen i RKHS är inre produkter av element i funktionsutrymmet och kan följaktligen ses som hyperplan. Denna syn på RKHS är relaterad till kärntricket i maskininlärning.
Egenskaper
Följande egenskaper hos RKHS kan vara användbara för läsare.
- Låt vara en sekvens av mängder och vara en samling av motsvarande positiva definitiva funktioner på följer sedan att
- är en kärna på
- Låt då är begränsningen av till också en reproducerande kärna .
- Betrakta en normaliserad kärna så att för alla . Definiera en pseudometrik på X som
- Genom Cauchy–Schwarz-olikheten ,
- K som ett mått på likhet mellan ingångar. Om är lika så kommer att vara närmare 1 medan om är olika så kommer att vara närmare 0.
- Stängningen av spannet för sammanfaller med .
Vanliga exempel
Bilinjära kärnor
RKHS som motsvarar denna kärna är det dubbla utrymmet, bestående av funktionerna som uppfyller .
Polynomkärnor
Radiella basfunktionskärnor
Dessa är en annan vanlig klass av kärnor som uppfyller . Några exempel inkluderar:
-
Gaussisk eller kvadratisk exponentiell kärna :
-
Laplacian kärna :
- Kvadratnormen för en funktion i RKHS med denna kärna är:
Bergman kärnor
Vi ger även exempel på Bergman-kärnor . Låt X vara ändlig och låt H bestå av alla komplext värderade funktioner på X . Då kan ett element av H representeras som en matris av komplexa tal. Om den vanliga inre produkten används är K x funktionen vars värde är 1 vid x och 0 överallt annars, och kan ses som en identitetsmatris eftersom
I det här fallet är H isomorft till .
Fallet (där anger enhetsskivan ) är mer sofistikerat. Här är Bergman-utrymmet utrymmet för kvadratintegrerbara holomorfa funktioner på . Det kan visas att den reproducerande kärnan för är
Slutligen är utrymmet för bandbegränsade funktioner i med bandbredd en RKHS med reproducerande kärna
Utökning till vektorvärderade funktioner
I det här avsnittet utvidgar vi definitionen av RKHS till utrymmen av vektorvärderade funktioner eftersom denna utvidgning är särskilt viktig i multi-task inlärning och mångfaldig regularisering . Huvudskillnaden är att den reproducerande kärnan är en symmetrisk funktion som nu är en positiv semidefinitiv matris för varje i . Mer formellt definierar vi en vektorvärderad RKHS (vvRKHS) som ett Hilbert-rum med funktioner så att för alla och
och
Denna andra egenskap är parallell med den reproducerande egenskapen för det skalärvärderade fallet. Denna definition kan också kopplas till integraloperatorer, begränsade utvärderingsfunktioner och funktionskartor som vi såg för den skalärvärderade RKHS. Vi kan på motsvarande sätt definiera vvRKHS som ett vektorvärderat Hilbert-utrymme med en begränsad utvärderingsfunktion och visa att detta antyder existensen av en unik reproducerande kärna enligt Riesz-representationsteoremet. Mercers sats kan också utökas för att ta itu med den vektorvärderade inställningen och vi kan därför få en vy över vvRKHS. Slutligen kan det också visas att stängningen av spännvidden av sammanfaller med , en annan egenskap som liknar det skalära fallet.
Vi kan få intuition för vvRKHS genom att ta ett komponentmässigt perspektiv på dessa utrymmen. I synnerhet finner vi att varje vvRKHS är isometriskt isomorf till ett skalärt värderat RKHS på ett visst ingångsutrymme. Låt . Betrakta utrymmet och motsvarande reproducerande kärna
-
()
Som noterats ovan ges RKHS associerad med denna reproducerande kärna av stängningen av spannet för där för varje uppsättning par .
Kopplingen till den skalärt värderade RKHS kan då göras genom att varje matrisvärderad kärna kan identifieras med en kärna av formen ( 4 ) via
Dessutom definierar varje kärna med formen av ( 4 ) en matrisvärderad kärna med uttrycket ovan. Låter nu kartan definieras som
där är den komponenten av den kanoniska grunden för , man kan visa att är bijektiv och en isometri mellan och .
Även om denna syn på vvRKHS kan vara användbar vid multi-task-inlärning, reducerar denna isometri inte studiet av det vektorvärderade fallet till det skalärvärderade fallet. Faktum är att denna isometriprocedur kan göra både den skalärvärdade kärnan och inmatningsutrymmet för svårt att arbeta med i praktiken eftersom egenskaperna hos de ursprungliga kärnorna ofta går förlorade.
En viktig klass av reproducerande kärnor med matrisvärde är separerbara kärnor som kan faktoriseras som produkten av en skalärt värderad kärna och en -dimensionell symmetrisk positiv semidefinitiv matris. I ljuset av vår tidigare diskussion är dessa kärnor av formen
för alla i och i . Eftersom kärnan med skalärt värde kodar beroenden mellan ingångarna kan vi observera att den matrisvärdade kärnan kodar beroenden mellan både ingångarna och utgångarna.
Vi noterar slutligen att teorin ovan kan utökas ytterligare till funktionsutrymmen med värden i funktionsutrymmen, men att få kärnor för dessa utrymmen är en svårare uppgift.
Anslutning mellan RKHS med ReLU-funktion
ReLU -funktionen definieras vanligtvis som och är en stöttepelare i arkitekturen för neurala nätverk där den används som en aktiveringsfunktion. Man kan konstruera en ReLU-liknande olinjär funktion med hjälp av teorin om att reproducera kärnan Hilbert-utrymmen. Nedan härleder vi denna konstruktion och visar hur det innebär representationskraften hos neurala nätverk med ReLU-aktiveringar.
Vi kommer att arbeta med Hilbert-utrymmet av absolut kontinuerlig funktioner med och kvadratintegrerbar (dvs ) derivata. Den har den inre produkten
För att konstruera den reproducerande kärnan räcker det med att betrakta ett tätt delrum, så låt och . Den grundläggande satsen för kalkyl ger sedan
var
och dvs
Detta innebär att återger .
Dessutom har minimifunktionen på följande representationer med ReLu-funktionen:
Med hjälp av denna formulering kan vi tillämpa representationssatsen på RKHS, så att man kan bevisa det optimala med att använda ReLU-aktiveringar i neurala nätverksinställningar. [ citat behövs ]
Se även
Anteckningar
- Alvarez, Mauricio, Rosasco, Lorenzo och Lawrence, Neil, "Kernels for Vector-Valued Functions: a Review," https://arxiv.org/abs/1106.6251 , juni 2011.
- Aronszajn, Nachman (1950). "Teorin om att reproducera kärnor" . Transaktioner från American Mathematical Society . 68 (3): 337–404. doi : 10.1090/S0002-9947-1950-0051437-7 . JSTOR 1990404 . MR 0051437 .
- Berlinet, Alain och Thomas, Christine. Reproducering av kärnan Hilbert-utrymmen i Probability and Statistics , Kluwer Academic Publishers, 2004.
- Cucker, Felipe; Smale, Steve (2002). "Om lärandets matematiska grunder" . Bulletin från American Mathematical Society . 39 (1): 1–49. doi : 10.1090/S0273-0979-01-00923-5 . MR 1864085 .
- De Vito, Ernest, Umanita, Veronica och Villa, Silvia. "En utvidgning av Mercer-satsen till vektorvärderade mätbara kärnor," arXiv : 1110.4017 , juni 2013.
- Durrett, Greg. 9.520 Course Notes, Massachusetts Institute of Technology, https://www.mit.edu/~9.520/scribe-notes/class03_gdurett.pdf , februari 2010.
- Kimeldorf, George; Wahba, Grace (1971). "Några resultat på Tchebycheffian Spline Functions" (PDF) . Journal of Mathematical Analysis and Applications . 33 (1): 82–95. doi : 10.1016/0022-247X(71)90184-3 . MR 0290013 .
- Okutmustur, Baver. "Reproducing Kernel Hilbert Spaces," MS-avhandling, Bilkent University, http://www.thesis.bilkent.edu.tr/0002953.pdf , augusti 2005.
- Paulsen, Vern. "En introduktion till teorin om att reproducera kärnan Hilbert-utrymmen," http://www.math.uh.edu/~vern/rkhs.pdf .
- Steinwart, Ingo; Scovel, Clint (2012). "Mercers teorem om allmänna domäner: om interaktionen mellan mått, kärnor och RKHS". Constr. Ca . 35 (3): 363–417. doi : 10.1007/s00365-012-9153-3 . MR 2914365 .
- Rosasco, Lorenzo och Poggio, Thomas. "A Regularization Tour of Machine Learning – MIT 9.520 Lecture Notes" Manuskript, dec. 2014.
- Wahba, Grace , Spline Models for Observational Data , SIAM , 1990.
- Zhang, Haizhang; Xu, Yuesheng; Zhang, Qinghui (2012). "Förfining av operatörsvärderade reproducerande kärnor" (PDF) . Journal of Machine Learning Research . 13 : 91–136.