Analyse de fréquence
Aussi appelé : Comptage de lettres
L’analyse de fréquence est la première grande arme de la cryptanalyse. Elle repose sur une observation simple : dans toute langue naturelle, les lettres n’apparaissent pas avec la même probabilité. Cette inégalité, qui semble triviale, est ce qui permet de casser des siècles de chiffres artisanaux en quelques minutes.
La signature statistique d’une langue
En français, le E représente environ 17 % des occurrences, suivi par A (8 %), S (8 %), I (7 %), T (7 %), N (7 %), R (6,5 %)… alors que W ou K plafonnent à 0,1 %. La phrase mnémotechnique « ESARTILUNOC » récapitule l’ordre approximatif des onze lettres les plus fréquentes en français.
En anglais, l’ordre change : E (12,7 %), T (9,1 %), A (8,2 %), O (7,5 %), I (7 %), N (6,7 %), S (6,3 %), H (6,1 %), R (6 %)… La mnémotechnique anglaise est « ETAOIN SHRDLU » (les douze plus fréquentes, ordre décroissant). Connue depuis le XIXᵉ siècle, elle vient des typographes : c’est l’ordre des touches d’une linotype.
D’autres langues ont leur propre signature : en allemand, le E reste premier mais le N grimpe à la deuxième place ; en italien, les voyelles A, E, I prennent les trois premières places ; en russe, on travaille sur l’alphabet cyrillique avec un autre profil.
Le mode opératoire
Dans un chiffre monoalphabétique (substitution simple, César, Atbash), chaque lettre du clair est remplacée systématiquement par la même autre lettre dans le chiffré. Conséquence : la fréquence ne fait que se déplacer, elle ne s’efface pas.
Procédons sur un exemple. Soit le chiffré (français) :
LH UDSSRUW DUULYHUD GHPDLQ DX SOXV WDUG. Étapes :
- Compter : on liste chaque lettre du chiffré et le nombre d’occurrences. Ici :
H5 fois,D5 fois,U4 fois,L2 fois,R2 fois… - Comparer :
HetDplafonnent. Hypothèse :H = EouH = A. Le E étant largement plus fréquent en français, on poseH = E. - Vérifier : si
H = E, alors le décalage du chiffre César estH − E = 3. On déchiffre :LE RAPPORT ARRIVERA DEMAIN AU PLUS TARD. Vérification immédiate.
Sur un chiffre par substitution générale (où chaque lettre du clair est remplacée par n’importe laquelle des 25 autres, sans contrainte de décalage), on procède table par table : repérer le E, puis chercher les digrammes LE, DE, ES, EN qui suivent presque toujours le E ; déduire les lettres adjacentes, et la chaîne se ferme rapidement.
Digrammes et trigrammes : le niveau supérieur
Les fréquences à l’unité ne suffisent pas toujours, surtout sur les chiffres bien construits. On regarde alors les digrammes (paires) et trigrammes (triplets) :
- Digrammes français les plus fréquents :
ES,EN,ON,ER,LE,DE,NT,RE,TE,AN. - Digrammes anglais :
TH,HE,IN,ER,AN,RE,ON,AT,EN,ND. - Trigrammes français :
ENT,LES,EDE,DES,QUE,AIT,LLE,SDE. - Trigrammes anglais :
THE,AND,ING,ION,ENT,FOR.
Repérer un digramme ou trigramme courant dans un chiffré donne plusieurs lettres d’un coup et accélère considérablement la cassure.
Le rôle historique : Al-Kindi, IXᵉ siècle
L’analyse de fréquence est formalisée par le savant arabe Al-Kindi au IXᵉ siècle dans son Manuscrit sur le déchiffrement des messages cryptographiques, redécouvert au XXᵉ siècle dans les archives ottomanes. C’est la première vraie méthode de cryptanalyse documentée. Elle a tué d’un coup une bonne partie des chiffres en usage à l’époque, et a rendu la cryptographie occidentale obsolète pendant 700 ans face aux cryptanalystes arabes — jusqu’à l’invention du chiffre polyalphabétique (Alberti, 1467) qui a brièvement remis du brouillard.
Au-delà de Al-Kindi, l’analyse de fréquence reste l’outil de premier secours du cryptanalyste de tous siècles : Babbage et Kasiski l’utilisent (sur les sous-messages d’un Vigenère cassé), les services de Bletchley Park la combinent avec les cribs (mots probables comme « WETTER » dans un bulletin météo allemand), et tout débutant en CTF la sort dès qu’il voit du texte qui sent la substitution.
Limites de l’analyse de fréquence
- Inopérante contre les chiffres polyalphabétiques (Vigenère, Beaufort) qui aplatissent la distribution — il faut d’abord déterminer la longueur de la clé (test de Kasiski, indice de Friedman) puis appliquer l’analyse de fréquence à chaque sous-message.
- Sensible à la longueur : sur un texte de moins de 100 caractères, le bruit statistique masque les pics. Plus le message est long, plus la signature de fréquence est nette. Les Apocalypses minimalistes (chiffrés très courts comme un seul mot) résistent souvent.
- Sensible à la langue : appliquer un profil français à un texte anglais donne des résultats faussés (le E reste fréquent, mais T et A grimpent en anglais).
- Inopérante contre les chiffres modernes (AES, ChaCha20) : la sortie est statistiquement uniforme, le E ne se distingue plus du Z.
À retenir :
- Tout chiffre qui préserve la fréquence des lettres (mono-alphabétique pur) tombe en quelques minutes à l’analyse de fréquence. Pas d’exception.
- Mnémotechniques utiles : ESARTILUNOC (FR), ETAOIN SHRDLU (EN).
- Niveau supérieur : digrammes (
ES,TH) et trigrammes (ENT,THE) pour confirmer les hypothèses. - L’analyse de fréquence est la première étape d’une cryptanalyse classique. Devant un chiffre inconnu, on la lance toujours en premier.