Vapnik – Chervonenkis teori - Vapnik–Chervonenkis theory

Vapnik – Chervonenkis -teorin (även känd som VC -teorin ) utvecklades under 1960–1990 av Vladimir Vapnik och Alexey Chervonenkis . Teorin är en form av beräkningslärningsteori , som försöker förklara inlärningsprocessen ur en statistisk synvinkel.

VC -teori är relaterat till statistisk inlärningsteori och till empiriska processer . Bland annat Richard M. Dudley och Vladimir Vapnik har tillämpat VC-teori på empiriska processer .

Introduktion

VC -teorin omfattar minst fyra delar (som förklaras i The Nature of Statistical Learning Theory ):

  • Teori om konsekvens av inlärningsprocesser
  • Nonasymptotisk teori om inlärningsprocessernas konvergenshastighet
    • Hur snabb är inlärningsprocessens konvergenshastighet?
  • Teori om att kontrollera inlärningsprocessernas generaliseringsförmåga
  • Teori om att konstruera inlärningsmaskiner
    • Hur kan man konstruera algoritmer som kan styra generaliseringsförmågan?

VC Theory är en viktig delgren av statistisk inlärningsteori . En av dess huvudsakliga tillämpningar inom statistisk inlärningsteori är att tillhandahålla generaliseringsvillkor för inlärningsalgoritmer. Ur denna synvinkel är VC -teorin relaterad till stabilitet , vilket är ett alternativt tillvägagångssätt för att karakterisera generalisering.

Dessutom är VC -teori och VC -dimension avgörande för teorin om empiriska processer , när det gäller processer som indexeras av VC -klasser. Detta är förmodligen de viktigaste tillämpningarna av VC -teorin och används för att bevisa generalisering. Flera tekniker kommer att introduceras som används i stor utsträckning i den empiriska processen och VC -teorin. Diskussionen bygger huvudsakligen på boken Weak Convergence and Empirical Processes: With Applications to Statistics .

Översikt över VC -teori i empiriska processer

Bakgrund om empiriska processer

Låt vara slumpmässiga element definierade på ett mätbart utrymme . För alla mått på och mätbara funktioner , definiera

Mätbarhetsfrågor ignoreras här, för mer teknisk detalj se. Låt oss vara en klass av mätbara funktioner och definiera:

Definiera det empiriska måttet

där δ här står för Dirac -måttet . Det empiriska måttet inducerar en karta som ges av:

Antag nu att P är den underliggande sanna fördelningen av data, vilket är okänt. Empiriska processer teori syftar till att identifiera klasser för vilka uttalanden som följande håller:

  • enhetlig lag av stora antal :

Det vill säga , som

enhetligt för alla .

I det förra fallet kallas Glivenko -Cantelli -klassen, och i det senare fallet (under antagandet ) kallas klassen Donsker eller P -Donsker. En Donsker-klass är Glivenko-Cantelli i sannolikhet genom en tillämpning av Slutskys sats .

Dessa påståenden är sanna för ett enda , med standard LLN , CLT -argument under regelbundenhetsförhållanden, och svårigheten i de empiriska processerna kommer in eftersom gemensamma uttalanden görs för alla . Intuitivt då kan uppsättningen inte vara för stor, och det visar sig att geometrin spelar en mycket viktig roll.

Ett sätt att mäta hur stor funktionsuppsättningen är att använda de så kallade täckningsnumren . Täckningsnumret

är det minimala antal bollar som behövs för att täcka uppsättningen (här antas det uppenbarligen att det finns en underliggande norm på ). Entropin är logaritmen för täckningsnumret.

Två tillräckliga villkor finns nedan, under vilka det kan bevisas att uppsättningen är Glivenko-Cantelli eller Donsker.

En klass är P -Glivenko -Cantelli om den är P -mätbar med kuvert F så att den uppfyller:

Nästa villkor är en version av den berömda Dudleys teorem . Om är en funktionsklass så att

då är P -Donsker för varje sannolikhetsmått P så att . I den sista integralen betyder notationen

.

Symmetrisering

Majoriteten av argumenten för hur man ska binda den empiriska processen, förlitar sig på symmetrisering, maximal och koncentration ojämlikhet och kedja. Symmetrisering är vanligtvis det första steget i bevisen, och eftersom det används i många maskininlärningsprov om begränsande empiriska förlustfunktioner (inklusive beviset för VC -ojämlikhet som diskuteras i nästa avsnitt) presenteras det här.

Tänk på den empiriska processen:

Visar sig att det finns ett samband mellan den empiriska och följande symmetriserade process:

Den symmetrerade processen är en Rademacher -process , villkorat av data . Därför är det en sub-gaussisk process genom Hoeffdings ojämlikhet .

Lemma (symmetrisering). För varje icke -minskande, konvex Φ: RR och klass av mätbara funktioner ,

Beviset för Symmetrization lemma bygger på att införa oberoende kopior av de ursprungliga variablerna (ibland kallat ett spökprov ) och att ersätta den inre förväntan av LHS med dessa kopior. Efter en tillämpning av Jensens ojämlikhet kunde olika tecken införas (därav namnet symmetrization) utan att ändra förväntan. Beviset kan hittas nedan på grund av dess lärorika karaktär.

Bevis  -

Presentera "spökprovet" för att vara oberoende kopior av . För fasta värden på en har:

Därför genom Jensens ojämlikhet :

Att ta förväntningar med avseende på ger:

Observera att att lägga till ett minustecken framför en term inte ändrar RHS, eftersom det är en symmetrisk funktion av och . Därför förblir RHS densamma under "teckenstörning":

för någon . Därför:

Slutligen använder du den första triangelns ojämlikhet och sedan konvexiteten i ger:

Där de två sista uttrycken på RHS är desamma, vilket avslutar beviset.

Ett typiskt sätt att bevisa empiriska CLT, använder först symmetrisering för att vidarebefordra den empiriska processen till och sedan argumentera villkorat om data, med hjälp av att Rademacher -processer är enkla processer med fina egenskaper.

VC -anslutning

Det visar sig att det finns ett fascinerande samband mellan vissa kombinatoriska egenskaper hos uppsättningen och entropinumren. Enhetliga täckningsnummer kan styras av begreppet Vapnik -Chervonenkis -uppsättningar - eller inom kort VC -uppsättningar .

Tänk på en samling delmängder av provutrymmet . sägs välja en viss delmängd av den ändliga uppsättningen om för vissa . sägs krossa S om den väljer ut var och en av sina 2 n delmängder. Den VC-index (liknande VC dimensionen + 1 för en lämpligt vald klassificerare uppsättning) av är den minsta n för vilka ingen uppsättning av storlek n splittras av .

Sauer's lemma säger sedan att antalet delmängder som väljs ut av en VC-klass uppfyller:

Vilket är ett polynomiskt antal delmängder snarare än ett exponentiellt tal. Intuitivt betyder detta att ett ändligt VC-index innebär att det har en uppenbar förenklad struktur.

En liknande gräns kan visas (med en annan konstant, samma hastighet) för de så kallade VC-subgrafklasserna . För en funktion av subgraf är en delmängd av sådan att: . En samling kallas en VC-subgrafklass om alla undergrafer utgör en VC-klass.

Överväga en uppsättning indikatorfunktioner i för diskret empirisk typ av åtgärd Q (eller ekvivalent för någon sannolikhet åtgärd Q ). Det kan då visas att det är anmärkningsvärt, för :

Tänk vidare på det symmetriska konvexa skrovet på en uppsättning : att vara en samling funktioner i formen med . Sedan om

följande gäller för det konvexa skrovet på :

Den viktiga konsekvensen av detta faktum är att

vilket är tillräckligt för att entropi -integralen ska konvergera, och därför kommer klassen att vara P -Donsker.

Slutligen övervägs ett exempel på en VC-subgrafklass. Varje ändligt dimensionellt vektorutrymme för mätbara funktioner är VC-subgraf för index som är mindre än eller lika med .

Bevis: Ta poäng . Vektorerna:

är i ett n - 1 dimensionellt delrum av R n . Ta en ≠ 0 , en vektor som är ortogonal till detta delrum. Därför:

Tänk på uppsättningen . Den här uppsättningen kan inte plockas ut eftersom om det finns något sådant som skulle kunna innebära att LHS är strikt positivt men RHS är icke-positivt.

Det finns generaliseringar av begreppet VC-subgrafklass, t.ex. finns det begreppet pseudodimension. Den intresserade läsaren kan titta in.

VC Ojämlikhet

En liknande inställning övervägs, vilket är vanligare för maskininlärning . Låt är ett funktionsutrymme och . En funktion kallas en klassificerare. Låt vara en uppsättning klassificerare. På samma sätt som i föregående avsnitt definierar du krossningskoefficienten (även känd som tillväxtfunktion):

Observera här att det går en 1: 1 mellan var och en av funktionerna i och uppsättningen som funktionen är 1. Vi kan alltså definiera att vara samlingen av delmängder som erhålls från ovanstående kartläggning för varje . Därför är krossningskoefficienten exakt i det föregående avsnittet

.

Denna ekvivalens tillsammans med Sauer's Lemma innebär att det kommer att vara polynom i n , för tillräckligt stort n förutsatt att samlingen har ett ändligt VC-index.

Let är en observerad dataset. Antag att data genereras av en okänd sannolikhetsfördelning . Definiera att vara den förväntade förlusten på 0/1 . Naturligtvis eftersom det är okänt i allmänhet har man ingen tillgång till . Emellertid den empiriska risken , given av:

kan säkert utvärderas. Då har man följande sats:

Sats (VC -ojämlikhet)

För binär klassificering och 0/1 förlustfunktionen har vi följande generaliseringsgränser:

I ord säger VC -ojämlikheten att när urvalet ökar, förutsatt att det har en ändlig VC -dimension, blir den empiriska 0/1 -risken en bra proxy för den förväntade 0/1 -risken. Observera att båda RHS för de två ojämlikheterna kommer att konvergera till 0, förutsatt att det växer polynomt i n .

Kopplingen mellan denna ram och den empiriska processramen är uppenbar. Här har man att göra med en modifierad empirisk process

men inte överraskande är idéerna desamma. Beviset för (första delen av) VC -ojämlikhet, förlitar sig på symmetrisering och argumenterar sedan villkorat om data med hjälp av koncentrationsskillnader (särskilt Hoeffdings ojämlikhet ). Den intresserade läsaren kan kolla boken satser 12.4 och 12.5.

Referenser

  • ^ Vapnik, Vladimir N (2000). Statistisk inlärningsteoris natur . Informationsvetenskap och statistik. Springer-Verlag . ISBN 978-0-387-98780-4.
  • Vapnik, Vladimir N (1989).Statistisk inlärningsteori. Wiley-Interscience . ISBN 978-0-471-03003-4.
  • ^ van der Vaart, Aad W .; Wellner, Jon A. (2000). Svag konvergens och empiriska processer: med tillämpningar på statistik (andra upplagan). Springer. ISBN 978-0-387-94640-5.
  • ^ Gyorfi, L .; Devroye, L .; Lugosi, G. (1996). En probabilistisk teori om mönsterigenkänning (1: a upplagan). Springer. ISBN 978-0387946184.
  • Se referenser i artiklar: Richard M. Dudley , empiriska processer , Shattered set .
  • ^ Pollard, David (1990).Empiriska processer: teori och tillämpningar. NSF-CBMS Regional Conference Series in Probability and Statistics Volume 2. ISBN 978-0-940600-16-4.
  • Bousquet, O .; Boucheron, S .; Lugosi, G. (2004). "Introduktion till statistisk inlärningsteori". I O. Bousquet; U. von Luxburg; G. Ratsch (red.). Avancerade föreläsningar om maskininlärning . Föreläsningsanteckningar i artificiell intelligens. 3176 . Springer. s. 169–207.
  • Vapnik, V .; Chervonenkis, A. (2004). "Om den enhetliga konvergensen av relativa frekvenser av händelser till deras sannolikheter". Teori Probab. Appl . 16 (2): 264–280. doi : 10.1137/1116025 .