Le concept d'entropie informationnelle implique le logarithme négatif de la fonction de masse de probabilité pour une valeur. Ainsi, lorsque la source de données a une valeur avec une probabilité plus faible (c'est-à-dire lorsqu'un événement avec une faible probabilité se produit), l'événement porte plus "d'informations" ("surprise") que lorsque la donnée source a une valeur avec une probabilité plus élevée.
La quantité d'information véhiculée par chaque événement ainsi défini devient une variable aléatoire dont la valeur attendue est l'entropie de l'information. Généralement, l'entropie fait référence au désordre ou à l'incertitude, et sa définition utilisée dans la théorie de l'information est directement analogue à celle utilisée en thermodynamique statistique. Le concept d'IE a été introduit par Claude Shannon dans son article de 1948 "Une théorie mathématique de la communication". C'est de là que vient le terme "entropie informationnelle de Shannon".
Définition et système
Le modèle de base d'un système de transmission de données se compose de trois éléments: une source de données, un canal de communication et un récepteur,et, comme le dit Shannon, le "problème de communication de base" est que le récepteur soit capable d'identifier quelles données ont été générées par la source en fonction du signal qu'il reçoit sur le canal. L'entropie fournit une contrainte absolue sur la longueur de codage sans perte moyenne la plus courte possible des données source compressées. Si l'entropie de la source est inférieure à la bande passante du canal de communication, les données qu'elle génère peuvent être transmises de manière fiable au récepteur (du moins en théorie, en négligeant peut-être certaines considérations pratiques telles que la complexité du système nécessaire pour transmettre les données et le temps nécessaire pour transmettre les données).
L'entropie de l'information est généralement mesurée en bits (également appelés "shannons") ou parfois en "unités naturelles" (nats) ou décimales (appelées "dits", "bans" ou "hartleys"). L'unité de mesure dépend de la base du logarithme, qui est utilisée pour déterminer l'entropie.
Propriétés et logarithme
La distribution de probabilité logarithmique est utile comme mesure de l'entropie car elle est additive pour les sources indépendantes. Par exemple, l'entropie d'un pari équitable d'une pièce est de 1 bit, tandis que l'entropie de m-volumes est de m bits. Dans une représentation simple, il faut log2(n) bits pour représenter une variable pouvant prendre l'une des n valeurs si n est une puissance de 2. Si ces valeurs sont également probables, l'entropie (en bits) est égal à ce nombre. Si l'une des valeurs est plus probable que les autres, l'observation qu'elle estsens se produit, est moins informatif que si un résultat moins général se produisait. À l'inverse, des événements plus rares fournissent des informations de suivi supplémentaires.
Parce que l'observation d'événements moins probables est moins fréquente, il n'y a rien de commun que l'entropie (considérée comme une information moyenne) obtenue à partir de données inégalement réparties soit toujours inférieure ou égale à log2(n). L'entropie est nulle lorsqu'un résultat est défini.
L'entropie de l'information de Shannon quantifie ces considérations lorsque la distribution de probabilité des données sous-jacentes est connue. La signification des événements observés (la signification des messages) n'est pas pertinente dans la définition de l'entropie. Ce dernier ne prend en compte que la probabilité de voir un événement particulier, de sorte que les informations qu'il encapsule sont des données sur la distribution sous-jacente des possibilités, et non sur la signification des événements eux-mêmes. Les propriétés de l'entropie de l'information restent les mêmes que celles décrites ci-dessus.
Théorie de l'information
L'idée de base de la théorie de l'information est que plus on en sait sur un sujet, moins on peut obtenir d'informations à son sujet. Si un événement est très probable, il n'est pas surprenant lorsqu'il se produit et n'apporte donc que peu d'informations nouvelles. Inversement, si l'événement était improbable, il était beaucoup plus informatif que l'événement se soit produit. Par conséquent, la charge utile est une fonction croissante de la probabilité inverse de l'événement (1 / p).
Maintenant, si plus d'événements se produisent, l'entropiemesure le contenu informatif moyen auquel vous pouvez vous attendre si l'un des événements se produit. Cela signifie que lancer un dé a plus d'entropie que lancer une pièce car chaque résultat de cristal a une probabilité plus faible que chaque résultat de pièce.
Caractéristiques
Ainsi, l'entropie est une mesure de l'imprévisibilité d'un état ou, ce qui revient au même, de son contenu informationnel moyen. Pour avoir une compréhension intuitive de ces termes, considérons l'exemple d'un sondage politique. Habituellement, de tels sondages ont lieu parce que, par exemple, les résultats des élections ne sont pas encore connus.
En d'autres termes, les résultats de l'enquête sont relativement imprévisibles et, en fait, sa réalisation et l'examen des données fournissent de nouvelles informations; ce sont juste des façons différentes de dire que l'entropie a priori des résultats du sondage est grande.
Considérez maintenant le cas où le même sondage est effectué une deuxième fois peu de temps après le premier. Puisque le résultat de la première enquête est déjà connu, les résultats de la deuxième enquête peuvent être bien prédits et les résultats ne devraient pas contenir beaucoup de nouvelles informations; dans ce cas, l'entropie a priori du résultat du second sondage est faible par rapport au premier.
Jeu de pièces
Considérons maintenant l'exemple du lancer d'une pièce. En supposant que la probabilité de pile est la même que la probabilité de face, l'entropie d'un tirage au sort est très élevée, car c'est un exemple particulier de l'entropie informationnelle d'un système.
C'est parce quequ'il est impossible de prédire que le résultat d'une pièce est lancé à l'avance: si nous devons choisir, le mieux que nous puissions faire est de prédire que la pièce tombera sur pile, et cette prédiction sera correcte avec une probabilité de 1 / 2. Un tel tirage au sort a un bit d'entropie, puisqu'il y a deux résultats possibles qui se produisent avec une probabilité égale, et l'étude du résultat réel contient un bit d'information.
Au contraire, lancer une pièce en utilisant les deux faces avec pile et sans face a une entropie nulle car la pièce atterrira toujours sur ce signe et le résultat peut être parfaitement prédit.
Conclusion
Si le schéma de compression est sans perte, ce qui signifie que vous pouvez toujours récupérer l'intégralité du message d'origine en le décompressant, le message compressé contient la même quantité d'informations que l'original, mais est transmis avec moins de caractères. Autrement dit, il a plus d'informations ou une entropie plus élevée par caractère. Cela signifie que le message compressé a moins de redondance.
En gros, le théorème de codage du code source de Shannon stipule qu'un schéma de compression sans perte ne peut pas réduire les messages en moyenne pour avoir plus d'un bit d'information par bit de message, mais toute valeur inférieure à un bit d'information par bit peut être obtenue. messages en utilisant le schéma de codage approprié. L'entropie d'un message en bits multiplié par sa longueur est une mesure de la quantité d'informations générales qu'il contient.