Analyse de texte fréquentielle : fonctionnalités et exemples

Table des matières:

Analyse de texte fréquentielle : fonctionnalités et exemples
Analyse de texte fréquentielle : fonctionnalités et exemples
Anonim

Vous avez rencontré ce concept plus d'une fois dans votre vie si vous deviez travailler avec des textes. Vous pourriez notamment vous tourner vers des calculatrices en ligne qui réalisent exactement l'analyse fréquentielle du texte. Ces outils pratiques montrent combien de fois un caractère ou une lettre particulière apparaît dans n'importe quel passage de texte. Souvent, un pourcentage est également indiqué. Pourquoi est-ce nécessaire ? Comment l'analyse fréquentielle du texte contribue-t-elle au "craquage" des chiffrements simples ? Quelle est son essence, qui l'a inventé ? Nous répondrons à ces questions et à d'autres questions importantes sur le sujet au cours de l'article.

Définition

L'analyse de fréquence est l'une des variétés de la cryptanalyse. Il est basé sur l'hypothèse des scientifiques sur l'existence d'une distribution statistique non triviale des caractères individuels et de leurs séquences régulières dans le texte brut et chiffré.

On pense qu'une telle distribution, jusqu'au remplacement de caractères individuels, sera également préservée dans les processus de chiffrement/déchiffrement.

analyse fréquentielle des systèmes
analyse fréquentielle des systèmes

Caractéristiques de processus

Maintenant, regardons l'analyse des fréquences en termes simples. Cela implique que le nombre d'occurrences du même caractère alphabétique dans des textes suffisamment longs est le même dans différents textes écrits dans la même langue.

Et maintenant, qu'en est-il du chiffrement monoalphabétique ? On suppose que s'il existe un caractère avec une telle probabilité d'occurrence similaire dans la section avec le texte chiffré, alors il est réaliste de supposer qu'il s'agit de cette lettre chiffrée.

Les adeptes de l'analyse fréquentielle de texte appliquent le même raisonnement aux digrammes (séquences de deux lettres). Trigrammes - c'est pour le cas de chiffrements déjà polyalphabétiques.

Historique de la méthode

L'analyse fréquentielle des mots n'est pas une trouvaille de modernité. Il est connu du monde scientifique depuis le IXe siècle. Sa création est associée au nom Al-Kindi.

Mais les cas connus d'application de la méthode d'analyse fréquentielle appartiennent à une période bien plus tardive. L'exemple le plus frappant est ici le déchiffrement des hiéroglyphes égyptiens, réalisé en 1822 par J.-F. Champollion.

Si nous nous tournons vers la fiction, nous pouvons trouver de nombreuses références intéressantes à cette méthode de décryptage:

  • Conan Doyle - "The Dancing Men".
  • Jules Verne - "Enfants du Capitaine Grant".
  • Edgar Poe - "Gold Bug".

Cependant, depuis le milieu du siècle dernier, la plupart des algorithmes utilisés dans le chiffrement ont été développés en tenant compte de leur résistance à une telle cryptanalyse fréquentielle. Par conséquent ilaujourd'hui, ils ne sont le plus souvent utilisés que pour former les futurs cryptographes.

analyse de fréquence de texte
analyse de fréquence de texte

Méthode de base

Présentons maintenant l'analyse de la réponse en fréquence en détail. Ce type d'analyse est directement basé sur le fait que le test est constitué de mots, et ceux-ci, à leur tour, de lettres. Le nombre de lettres qui remplissent les alphabets nationaux est limité. Les lettres peuvent simplement être listées ici.

Les caractéristiques les plus importantes d'un tel texte seront à la fois la répétition de lettres, divers bigrammes, trigrammes et n-grammes, ainsi que la compatibilité de diverses lettres entre elles, l' alternance de consonnes/voyelles et autres variétés de ces symboles.

L'idée principale des méthodes est de compter les occurrences de n-grammes possibles (notés par nm) dans des textes clairs suffisamment longtemps pour l'analyse (notés par T=t1t2…tl) composés de lettres de l'alphabet national (noté {a1, a2, …, an}). Tout ce qui précède provoque quelques m-grammes consécutifs du texte:

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

Si c'est le nombre d'occurrences du m-gramme ai1ai2…aim dans un certain texte T, et L est le nombre total de m-grammes analysés par le chercheur, alors il est possible d'établir empiriquement que pour suffisamment grand L, les fréquences pour un tel m-gramme seront peu différentes les unes des autres.

analyse de fréquence
analyse de fréquence

Lettres fréquentes de l'alphabet russe

Mais l'analyse temps-fréquence, malgré son nom similaire, n'a rien à voir avec le sujet de notre conversation. Ce type d'analyse est effectué poursignaux provenant de stations radar peu observables utilisant une transformée en ondelettes spéciale.

Revenons maintenant au sujet principal. Lors d'une analyse de fréquence, vous pouvez savoir quelles lettres de l'alphabet russe se retrouvent le plus souvent dans des textes assez volumineux (pourcentage de 0,062 à 0,018):

  • A.
  • V.
  • D.
  • F.
  • I.
  • K.
  • M.
  • O.
  • R.
  • T.
  • F.
  • T.
  • Sh.
  • b.
  • E.
  • I.

Même une règle mnémotechnique spéciale a été introduite, qui aide à apprendre les lettres les plus courantes de l'alphabet russe. Pour ce faire, il suffit de retenir un seul mot - "grenier à foin".

Dans les cas généraux, la fréquence d'utilisation des lettres en termes de pourcentage est définie simplement: le spécialiste compte le nombre de fois où la lettre apparaît dans le texte, puis divise la valeur résultante par le nombre total de caractères dans le texte. Et pour exprimer cette valeur en pourcentage, il suffit de la multiplier par 100.

Il est important de considérer que la fréquence dépendra non seulement du volume du texte, mais aussi de sa nature. Par exemple, dans les sources techniques, la lettre "F" apparaît beaucoup plus souvent que dans la fiction. Par conséquent, pour des résultats objectifs, un spécialiste doit taper des textes de nature et de style variés pour la recherche.

programmes d'analyse de fréquence de texte
programmes d'analyse de fréquence de texte

Bi-, tri-, quatre-grammes

Dans les textes significatifs, vous pouvez également trouver les plus courants (respectivement, les plusrépétées) combinaisons de deux lettres ou plus. Les spécialistes ont également compilé plusieurs tableaux, qui indiquent les fréquences de digrammes similaires de divers alphabets.

Comme pour le russe, l'analyse fréquentielle des systèmes de textes significatifs volumineux a permis d'établir les bigrammes et trigrammes les plus courants:

  • FR.
  • ST.
  • MAIS.
  • PAS.
  • ON.
  • RA.
  • OV.
  • KO.
  • VO.
  • STO.
  • NOUVEAU
  • ENO.
  • TOV.
  • OVA.
  • OVO.

Relations préférées des lettres entre elles

Et ce ne sont pas toutes les possibilités que l'analyse fréquentielle peut offrir aux chercheurs textuels. En systématisant les informations de tableaux similaires de bigrammes et de trigrammes, il est possible d'extraire des données sur les combinaisons de lettres les plus courantes. Ou, en d'autres termes, leurs relations préférées entre eux.

Une telle étude approfondie a déjà été réalisée par des experts. Il en résulta un tableau où, à côté de chaque lettre de l'alphabet, ses voisins étaient indiqués. De plus, ces personnages que l'on trouve souvent à la fois immédiatement avant et après. Les lettres du tableau ne sont pas épelées par hasard. Plus près du symbole, les voisins les plus fréquents sont indiqués, plus loin - les plus rares.

Prenons des exemples:

  • Lettre "A". On distingue ici les connexions préférées suivantes: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. De là, nous voyons que le plus souvent avant "A" dans les textes, il y a "H" ("NA"). Et après "A" le plus souvent dans les textes en russe on peut rencontrer "L"("AL").
  • Lettre "M". Les experts ont identifié ces connexions préférées: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
  • Lettre "b". Les connexions préférées sont les suivantes: "n-s-t-l-b-n-k-v-p-s-e-o-i".
  • Lettre "Sh". Connexions préférées: "e-b-a-i-u-Sch-e-i-a".
  • Lettre "P". Liaisons préférées avec ce symbole de l'alphabet russe: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
analyse temps-fréquence
analyse temps-fréquence

Qu'est-ce qui définit l'analyse ?

Les programmes d'analyse de texte de fréquence modernes aident à étudier de grands volumes d'une grande variété d'articles, d'essais, de passages, etc. Les informations suivantes sont fournies au chercheur en standard:

  • Nombre total de caractères dans le texte.
  • Nombre d'espaces utilisés par l'auteur.
  • Nombre de chiffres.
  • Informations sur les signes de ponctuation utilisés - points, virgules, etc.
  • Le nombre de lettres dans chacun des alphabets disponibles - cyrillique, latin, etc.
  • Informations sur la fréquence d'utilisation de chaque lettre et symbole dans le texte - le nombre de mentions et le pourcentage par rapport à l'ensemble du texte.

Lutte contre la suroptimisation et la sursaturation

Pourquoi l'analyse de la fréquence des textes est-elle effectuée ? Est-ce juste à des fins de curiosité - pour établir quels caractères du texte écrit se sont avérés être fréquemment rencontrés ? Non, l'application principale de l'analyse est pratique, et elle se situe ailleurs.

N-grammes n'incluent pas seulement les bigrammes et les trigrammes stables. À la mêmeles catégories incluent les mots-clés (tags), les collocations. C'est-à-dire des combinaisons stables composées de deux mots ou plus. Ils se distinguent par le fait que de telles compositions apparaissent ensemble dans le texte et portent en même temps une certaine charge sémantique.

Cela fait le jeu de spécialistes SEO peu scrupuleux. Dans leur travail, ils abusent parfois de la répétition de balises et de mots-clés dans le texte afin d'augmenter artificiellement la pertinence d'une page Web particulière. Ils essaient de tromper le système avec un tel "truc": transformer une combinaison naturelle avec la combinaison habituelle de mots, traditionnelle pour la langue russe ("acheter un manteau de vison") en une combinaison incohérente. C'est-à-dire obtenu en réarrangeant les mots dans un tel N-gramme naturel ("acheter un manteau de vison").

Mais aujourd'hui, les algorithmes de recherche ont appris à détecter la suroptimisation aussi efficacement que le spam - la sursaturation du texte avec des mots-clés, des balises qui affectent le classement des résultats sur la page de recherche. Les pages sur-optimisées sont désormais, au contraire, moins bien classées par la requête de l'internaute. Et les gens eux-mêmes n'ont pas tendance à lire des textes vides de sens, sursaturés de balises, préférant des informations utiles sur une autre ressource.

méthode d'analyse de fréquence
méthode d'analyse de fréquence

Aide à l'analyse privée pour les spécialistes SEO

Ainsi, les filtres de texte des moteurs de recherche modernes privilégient aujourd'hui les pages Internet dont les informations sont non seulement faciles à lire, mais également utiles aux visiteurs. Pour optimiser leur travail aux nouvelles normes, les spécialistes SEOet se tourner vers l'analyse fréquentielle du texte. De nombreux services populaires le proposent aujourd'hui.

L'analyse de fréquence permet d'examiner le texte en cours de préparation pour publication à des fins d'information. Éliminez la redondance inutile des balises et des phrases clés. Cela vous permet également d'attirer l'attention de l'auteur sur des combinaisons de mots non naturelles qui éveillent les soupçons dans les filtres de texte des moteurs de recherche.

analyse de la réponse en fréquence
analyse de la réponse en fréquence

L'analyse fréquentielle du texte permet ainsi de déterminer la fréquence de mention d'un caractère particulier dans la source. La méthode est utilisée aujourd'hui pour évaluer la surcharge de texte avec des balises, des permutations de mots non naturelles.

Conseillé: