Théorie des langages : Analyse lexicale

L'analyse lexicale est la partie la plus facile à vérifier. Nous devons isoler les différents jetons, les symboles terminaux du code.

Nous utiliserons Lex3 pour écrire notre spécification lexicale.

Définition du langage

Comme nous allons spécifier notre langage, nous devons d'abord définir ce qu'est un langage. Nous pouvons utiliser un certain nombre de convensions qui nous seront utiles par la suite4 :

  • Nous utiliserons le symbole grec sigma majuscule (Σ) pour désigner l'alphabet, qui est un ensemble fini de caractères (par exemple ASCII [“American Standard Code for Information Interchange”5], UNICODE, EBCDIC [Extended Binary Coded Decimal Interchange Code], etc.).
  • Nous utiliserons les termes de texte, mot, et phrase pour désigner une suite de caractères. Ces termes sont identiques au début de notre analyse, mais prendront une signification particulière par la suite.
  • Le langage est un ensemble de phrases.
  • Nous utiliserons le symbole grec epsilon (ε) pour désigner une phrase vide.
  • Nous utiliserons le point comme opérateur de concaténation (comme en PHP)89.

Propriétés du langage sous forme de monoïde

Comme nous avons défini le langage comme un ensemble, nous pouvons appliquer certaines propriétés algébriques sous la forme du monoïde10 suivant :

neutralité | X.ε = X = ε.X | ε (une phrase vide) est neutre pour la concaténation. |
associativité | X.(Y.Z); = (X.Y).Z | L'ordre d'association est sans importance. |

Contents Haut

Ordres

  • X est un préfixe de Y si Y commence par X.
  • X est un suffixe de Y si Y finit par X.
  • X est une sous-chaîne de Y si X est obtennu par la suppression d'un suffixe et d'un préfixe de X.

Contents Haut

Opérations et propriétés

union | L1L2 = {p|pL1 ∨ pL2} | L'union prend en compte des ensembles de chaînes. |
concaténation | L1.L2 = {x.y|xL1 ∧ xL2} | La concaténation prend en compte des chaînes. |
complément | C(L) = {x|x est une phrase sur Σ ∧ xL} | |
exponentielle ou puissance | Ln = L.L.L. ... .L | L'exponentielle est en fait une succession de concaténations9. |
exponentielle ou puissance | L0 = {$epsilon;} | L'exposant 0 correspond au neutre, dans notre cas une phrase vide. |
étoile de Kleene11 | L* = ∪Ln|n≥0 | De 0 à n fois. Par exemple {"a"}* = {ε,"a","aa","aaa",...} |
“instance unique”12 | a = {"a"} | Forme courte. Nous utilisons a, qui devrait normalement s'écrire {"a"} |
langage vide | ∅ = { } | Attention à ne pas confondre le langage vide () avec un mot vide (ε) |
mot vide | ε = {ε} | Neutre |

Contents Haut

Propriétés des langages

Les quelques propriétés suivantes ne sont pas exhaustives; quel que soit le nombre de règles que nous pouvons définir, nous en manquerons toujours...

commutativité | L1 ∪ L2 = L2 ∪ L1 | |
associativité | L1 ∪ (L2 ∪ L3) = (L1 ∪ L2) ∪ L3 | |
associativité | L1 . (L2 . L3) = (L1 . L2) . L3 | |
idempotence | L ∪ L = L | |
distributivité | L . (L1 ∪ L2) = L . L1 ∪ L . L2 | |
distributivité | (L1 ∪ L2) . L = L1 . L ∪ L2 . L  | |
neutralité | L ∪ ∅ = L | |
neutralité | L . ε = L = ε . L | |
langage vide absorbant | ∅ . L = ∅ = L . ∅ | |
expansion du vide | * = ε | car expr* ⊃ expr0 ∧ expr0 = ε |
expansion de l'étoile | L* = ε ∪ L . L* | ε ∪ L car l'étoile de Kleene correspond à zéro, une ou plusieurs fois. |
redondance de l'étoile | (L*)* = L* | |

Contents Haut

English translation

You have asked to visit this site in English. For now, only the interface is translated, but not all the content yet.

If you want to help me in translations, your contribution is welcome. All you need to do is register on the site, and send me a message asking me to add you to the group of translators, which will give you the opportunity to translate the pages you want. A link at the bottom of each translated page indicates that you are the translator, and has a link to your profile.

Thank you in advance.

Document created the 01/02/2010, last modified the 28/10/2018
Source of the printed document:https://www.gaudry.be/en//langages-analyse-lexicale.html

The infobrol is a personal site whose content is my sole responsibility. The text is available under CreativeCommons license (BY-NC-SA). More info on the terms of use and the author.

Notes

  1.  Gnu's Not Unix : corresponds to « GNU n'est pas UNIX » en français

  2.  GNU : “Gnu's Not Unix” (en français, « GNU n'est pas UNIX ») Groupement de logiciels libres. Il s'agit d'un acronyme récursif, car nous retrouvons l'acronyme dans sa propre définition.

  3.  Lex : Nous emploierons le terme Lex pour désigner l'outil d'analyse lexicale, mais il peut s'agir de Flex, son équivalant GNU

  4.  Langage : Nos différentes tentatives de définition du langage ne s'appliquent qu'aux langages séquentiels comme la parole (un mot avant l'autre) ou l'écriture (dans notre cas, de gauche à droite), mais pas aux langages graphiques tels que par exemple UML.

  5. a,b American Standard Code for Information Interchange : corresponds to « Code américain normalisé pour l'échange d'information » en français

  6.  ASCII : “American Standard Code for Information Interchange” (en français, « Code américain normalisé pour l'échange d'information ») Mode de codage des caractères nécessaires pour écrire en anglais. Consulter la table ASCII.

  7.  EBCDIC : Extended Binary Coded Decimal Interchange Code Mode de codage des caractères sur 8 bits, créé par IBM.

  8.  Représentation de la concaténation : Par la suite, nous ne représenterons plus systématiquement l'opérateur de concaténation.

  9. a,b Comportement de la concaténation : La concaténation se comporte exactement comme la multiplication.

  10.  Langage : Les monoïdes sont des structures utilisées en théorie des langages.

  11.  Kleene : Stephen Cole Kleene, mathématicien et logicien américain, inventeur des concepts d'expression rationnelle et de langage rationnel. L'étoile de Kleene (ou la fermeture de Kleene) est un opérateur unaire utilisé sur un ensemble de chaînes ou de symboles, utilisé dans les expressions rationnelles pour désigner la cardinalité 0 ou plus.

  12.  instance unique : corresponds to « singleton » en français

Contents Haut

References

  1. book Language of the document:fr IHDCB332 - Théorie des langages : Syntaxe et sémantique : PY Schobbens, Syntaxe et sémantique (January 2010)

These references and links indicate documents consulted during the writing of this page, or which may provide additional information, but the authors of these sources can not be held responsible for the content of this page.
The author This site is solely responsible for the way in which the various concepts, and the freedoms that are taken with the reference works, are presented here. Remember that you must cross multiple source information to reduce the risk of errors.

Contents Haut