Chomsky–Schützenbergers uppräkningssats

I formell språkteori är Chomsky –Schützenbergers uppräkningssats en sats som härleds av Noam Chomsky och Marcel-Paul Schützenberger om antalet ord av en given längd som genereras av en entydig kontextfri grammatik . Teoremet ger en oväntad koppling mellan teorin om formella språk och abstrakt algebra .

Påstående

För att kunna ange satsen behövs några föreställningar från algebra och formell språkteori.

Låt beteckna mängden icke-negativa heltal. En potensserie över är en oändlig serie av formen

med koefficienter i . Multiplikationen av två formella potensserier och definieras på det förväntade sättet som faltningen av sekvenserna a och :

I synnerhet skriver vi , och så vidare. I analogi med algebraiska tal kallas en potensserie algebraisk över , om det finns en ändlig uppsättning polynom var och en med rationella koefficienter så att

En kontextfri grammatik sägs vara otvetydig om varje sträng som genereras av grammatiken tillåter ett unikt analysträd eller, motsvarande, bara en härledning längst till vänster . Efter att ha fastställt de nödvändiga begreppen, anges satsen enligt följande.

Chomsky–Schützenbergers sats . Om är ett sammanhangsfritt språk som tillåter en entydig sammanhangsfri grammatik, och är antalet ord med längden i , sedan en potensserie över som är algebraisk över .

Bevis för detta teorem ges av Kuich & Salomaa (1985) och av Panholzer (2005) .

Användande

Asymptotiska uppskattningar

Satsen kan användas i analytisk kombinatorik för att uppskatta antalet ord med längden n som genereras av en given entydig kontextfri grammatik, när n växer sig stort. Följande exempel ges av Gruber, Lee & Shallit (2012) : den entydiga kontextfria grammatiken G över alfabetet {0,1} har startsymbolen S och följande regler

S M | U
M → 0 M 1 M | ε
U → 0 S | 0 M 1 U .

För att få en algebraisk representation av potensserien associerad med en given kontextfri grammatik G , transformerar man grammatiken till ett ekvationssystem. Detta uppnås genom att ersätta varje förekomst av en terminalsymbol med x , varje förekomst av ε med heltal '1', varje förekomst av '→' med '=' och varje förekomst av '|' med '+', respektive. Sammankopplingsoperationen till höger om varje regel motsvarar multiplikationsoperationen i de sålunda erhållna ekvationerna. Detta ger följande ekvationssystem:

S = M + U
M = M ² x ² + 1
U = Sx + MUx ²

I detta ekvationssystem är S , M och U funktioner av x , så man kan också skriva M och . Ekvationssystemet kan lösas efter S , vilket resulterar i en enda algebraisk ekvation:

.

Denna andragradsekvation har två lösningar för S , varav en är den algebraiska potensserien . Genom att tillämpa metoder från komplex analys på denna ekvation kan antalet av ord med längden n som genereras av G uppskattas, när n växer sig stort. I detta fall får man men för varje . Se ( Gruber, Lee & Shallit 2012) för en detaljerad utläggning.

Följande exempel är från:

vilket förenklar till

Inneboende tvetydighet

I klassisk formell språkteori kan teoremet användas för att bevisa att vissa kontextfria språk är i sig tvetydiga . Till exempel består Goldstine-språket över alfabetet av orden med , för och för vissa .

Det är jämförelsevis lätt att visa att språket är kontextfritt ( Berstel & Boasson 1990) . Den svårare delen är att visa att det inte finns en entydig grammatik som genererar . Detta kan bevisas enligt följande: Om anger antalet ord med längden i , gäller för den tillhörande potensserien . Med hjälp av metoder från komplex analys kan man bevisa att denna funktion inte är algebraisk över . Genom Chomsky-Schützenbergers sats kan man dra slutsatsen att inte medger en entydig kontextfri grammatik. Se ( Berstel & Boasson 1990 ) för detaljerad redogörelse.

  •   Berstel, Jean; Boasson, Luc (1990). "Kontextfria språk" (PDF) . I van Leeuwen, Jan (red.). Handbook of Theoretical Computer Science, Volym B: Formella modeller och semantik . Elsevier och MIT pressar. s. 59–102. ISBN 0-444-88074-7 .
  • Chomsky, Noam ; Schützenberger, Marcel-Paul (1963). "Den algebraiska teorin om sammanhangsfria språk" (PDF) . I P. Braffort och D. Hirschberg, red., Computer Programming and Formal Systems (s. 118–161) . Amsterdam: Nord-Holland.
  •   Flajolet, Philippe ; Sedgewick, Robert (2009). Analytisk kombinatorik . Cambridge: Cambridge University Press . ISBN 978-0-521-89806-5 .
  • Gruber, Hermann; Lee, Jonathan; Shallit, Jeffrey (2012). "Räkna upp reguljära uttryck och deras språk". arXiv : 1204.4982 [ cs.FL ].
  •   Kuich, Werner; Salomaa, Arto (1985). Semirings, automater, språk . Berlin: Springer-Verlag . ISBN 978-3-642-69961-0 .
  • Panholzer, Alois (2005). "Gröbner-baser och det definierande polynomet för en kontextfri grammatikgenererande funktion". Journal of Automata, Languages ​​and Combinatorics . 10 : 79–97.