Probabilité et quantité d'information

La thermodynamique et l'entropie :

L'objet principal de la thermodynamique est l'étude des transformations de la chaleur en travail mécanique et inversement. Elle met en œuvre une méthode de raisonnement et une approche intuitive globale qui peut être utilisée dans d'autres domaines. Historiquement, elle constitue une science à part avec ses propres lois fondamentales (postulats tirés de l'évidence expérimentale). Aujourd'hui cette science est réunifiée avec la mécanique grâce à une de ces branches appelées mécanique statistique qui a été principalement développée par Maxwell, Boltzmann, Gibbs et Fermi. Ses lois fondamentales sont maintenant celle de la mécanique statistique et quantique.

L'entropie est une variable d'état proportionnelle au logarithme du nombre d'états microscopique possibles du système pour le même état macroscopique présent. C'est une variable d'état extensive, c-a-d que l'entropie de plusieurs systèmes, configurés dans un ordre total, est la somme des entropies des systèmes.

Table des matières

  1. Introduction
  2. Définition de la probabilité
  3. Quantification régulière
  4. La quantité d'information d'un message
    1. Quelques exemples
  5. Mesure de la quantité d'information d'une information ensembliste
  6. Entropie et quantité d'information
  7. La probabilité dans un cadre fini
  8. Définition éxogène de la probabilité

1) Introduction

L'étude des probabilités permet de définir la quantité d'information, et réciproquement l'étude de la quantité d'information permet de définir la probabilité. La probabilité est une notion subjective. Elle dépend de beaucoup d'hypothèses choisies arbitrairement qui généralement ne sont pas explicites et constituent en cela une source de paradoxes inépuisable. Formaliser la probabilité consiste à poser les seuls axiomes auxquels on se réfèrera pour la calculer. En construisant une structure de données appelée univers, nous pouvons définir la probabilité d'une façon totalement constructive.

Le choix le plus simple est de poser un univers fini, d'évènements exclusifs, exhaustifs et équiprobables. En effet, il est toujours possible abstractivement de décomposer les évenements en une disjonction d'évènements élémentaires (comme les tables de vérité), d'en rajouter un pour rendre la liste exhaustive et de subdiviser chacun d'eux afin de les rendre équiprobables. Cela constitue une quantification régulière : Les évènements élémentaires sont des quanta de probabilité tous égaux, égal à l'inverse de la cardinalité de l'univers, et disjoints. Un évènement est alors un ensemble d'évènements élémentaires, et correspond logiquement à leur disjonction.

Considérons l'univers, notée W, comme un ensemble fini d'évènements élémentaire exclusifs, exhaustifs et équiprobables.

Une variable x est une suite finie d'évènements élémentaires de l'univers. Elle correspond à une suite de tirages au sort. Le nombre de tirages au sort est très grand mais fixé à N.

x1, x2, x3... sont des résultats du tirage au sort. On désigne abusivement par x le résultat d'un tirage au sort quelconque. Les éléments de l'univers sont appelés évènements élémentaires. Un évènement est un ensemble d'évènements élémentaires, et correspond à la disjonctions de tous ses éléments qui sont des évènements élémentaires. On dira qu'un évènement s'est produit lorsque l'évènement élémentaire qui s'est produit appartient à cet évènement. L'évènement (A ou B) égale l'évènement (A ⋃ B), et l'évènement (A et B) égale l'évènement (A ⋂ B). Si l'évènement (A et B) se produit, c'est à dire si un tirage au sort produit un évènement élémentaire appartenant à la fois à A et à B, alors l'évènement A se produit. Et si B est inclus dans A, nous voyons que lorsque l'évènement B se produit, l'évènement A se produit aussi, et que l'inverse n'est pas toujours vrai.

On compte le nombre de fois que se produit l'évènement A au cours des N tirages, c'est à dire le nombre de fois que le tirage au sort a produit un évènement élémentaire appartenant à A. On note N(A) ce nombre de tirages où l'évènement A s'est produit. La fréquence de l'évènement A est définie par le rapport N(A)/N.

2) Définition de la probabilité

La probabilité que x soit égale à un évènement élémentaire appartenant à A est notée P(x∈A) ou, de façon abrégée, P(A). Par définition, la probabilité P(A) est égale à la fréquence de l'évènement A, c'est à dire au rapport du nombre d'évènement A sur le nombre total de tirages:

P(A) = N(A) / N

Les évènement sont des ensembles. L'intersection correspond à la conjonction, l'union à la disjonction.... et par commodité nous adoptons la notation propositionnelle comme suivante pour désigner un sous-ensemble de W :

(A et B) =  A ⋂ B
(A ou B) =  A ⋃ B
(A =>B) =  (W-A) ⋃ B
(A<=>B) =  ((W-A) ⋂ (W-B)) ⋃ (A ⋂ B)
(A w B) =  (A-B) ⋃ (B-A)
(¬A) =  W-A

Il découle de la règle de dénombrement suivante N(A ⋃ B) = N(A) + N(B) - N(A ⋂ B) que :

P(A ou B) = P(A) + P(B) - P(A et B)

La probabilité conditionnelle de A sachant B, notée P(A/B), est égale par définition à la fréquence de l'évènement (A et B) parmi les évènements B, d'où :

P(A/B) = P(A et B) / P(B)

Si la probabilité de A sachant B est égale à la probabilité de A, cela signifie que A et B sont indépendants. Les trois propositions suivantes sont équivalentes :

{A, B} indépendants
P(A et B) = P(A)*P(B)
P(A/B) = P(A)
P(B/A) = P(B)

P(A/B) désigne la probabilité de A dans l'univers W restreint à B. On peut opérer des restrictions successives. La probabilité de A sachant B, sachant C est égale à la fréquence de l'évènement (A et B et C) parmi les évènements (B et C) et donc nous pouvons écrire :

P((A/B)/C) = P(A/(B et C )) = P((A et B et C) / (B et C )) = P(A et B et C) / P(B et C).

Ainsi la probabilité conditionnelle comprend toujours que deux parties séparées par le symbôle " / " , l'une désignant l'évènement rechercher, l'autre désignant l'évènement connu.

Chaque règle de dénombrement correspond à une propriété remarquable sur les probabilités. Ainsi quelque soit deux évènements quelconquesA,B nous avons la propriété suivante :

P(A et B) + P(A et ¬B) = P(A)
P(A/B)*P(B) + P(A/¬B)*P(¬B) = P(A)

3) Quantification régulière

L'univers W est un ensemble fini d'évènements exclusifs, exhaustifs et équiprobables, dits élémentaires. De là nous déduisons les relations fondamentales suivantes : La probabilité de l'évènement A est égale au rapport des cardinalités des ensembles A et W.

P(W) = 1
P(ø) = 0
P(A) = |A| / |W|
P(A/B) = |A ⋂ B| / |B|

A et B indépendants ssi |W|*|A ⋂ B| = |A|*|B|

4) La quantité d'information d'un message

Hartley (1928) : La quantité d'information d'un message doit varier linéairement avec la taille du message, un message 2 fois plus long contient potentiellement 2 fois plus d'informations. Or le nombre de messages distincts possibles croit exponentiellement. La quantité d'information est donc proportionnelle au logarithme du nombre de messages distincts possibles.

Le gain d'information sur la valeur d'un caractère, noté I, résultant de la transmission d'un message, traduit l'évolution entre notre connaissance, avant réception, exprimée par la probabilité P1, et notre connaissance après réception, exprimée par la probabilité P2.

I = log (P2) - log(P1)

Le logarithme est en base 2 car l'unité d'information est le bit. P1 est la probabilité de la valeur du caractère estimé par le système avant reception du message, et P2 est la probabilité de la valeur du caractère estimé par le système aprés reception du message (qui peut être inférieur à 1 si la transmission du message n'est pas sûr, et que cette transmission a peut être été perturbée faisant que le caractère reçu n'est pas le bon caractère).

4.1) Quelques exemples :

1) Source binaire équiprobable "101001001110110100…", p(0) = 0.5, p(1) = 0.5
A chaque bit reçu, notre connaissance du bit en question passe de la probabilité initiale de 0.5, à la certitude (probabilité égale à 1). La quantité d'information est égale à log(1) - log(0.5) = 1 bit.

2) Source binaire biaisée "11110111001111110111…", p(0)=0.2, p(1)=0.8
La quantité d'information transportée par un 0 vaut -log(0.2) = 2,3 bit
La quantité d'information transportée par un 1 vaut -log(0.8) = 0,3 bit

3) Source alphabétique équiprobable "ahsdgslehfndjekhzhd…." p(a) = p(b) = p(c)… = p(z) = 1/26
La quantité d'information transportée par une lettre vaut log(1/26) = 4.7 bits.

4) Source binaire biaisée p(0)=0.2, p(1)=0.8, avec bruit, qui se traduit par les probabilités conditionnelles p(0/0)=0.9, p(1/0)=0.1 et p(1/1)=0.8, p(0/1)=0.2p(x/y) signifie la probabilité que le symbole émis soit x sachant que le symbole reçus est y. Lorsque l'on tient compte d'un bruit brouillant le message, la réception d'un symbole ne se traduit plus par la certitude qu'il a été émis, mais par la probabilité conditionnelle correspondante.
La quantité d'information apportée par la réception d'un 0 est log(p(0/0)) - log(p(0)) = 2.2
La quantité d'information apportée par la réception d'un 1 est log(p(1/1)) - log(p(1)) = 0 c'est à dire aucune.

5) Texte en langue française "LES SANGLOTS LONG DE…". A chaque lettre reçue, notre connaissance de la lettre en question passe d'une certaine probabilité initiale calculable selon un modèle de langue choisi, à la certitude. Les modèles donnent une probabilité moyenne de prédiction d'une lettre en fonction des lettres précédente de l'ordre de 0.4. La quantité d'information en moyenne apportée par une lettre est donc approximativement égale à - log(0.4) = 1,7 bit.

5) Mesure de la quantité d'information d'une information ensembliste

La connaissance d'un élément précis e, parmis les éléments de l'ensemble W, représente une quantité d'information égale à log(|W|) exprimée en bits. L'unité étant le bit, le logarithme est en base deux. Et cela représente exactement le nombre de bits nécessaire pour mémoriser cette information. Plus exactement, cela représente le nombre de bits nécessaire pour compter les éléments de W, et cela correspond à la quantité de mémoire minimum qu'il faut réserver pour une variable devant parcourir tous les éléments de W. Néanmoins le raisonnement suppose qu'il existe un ordre canonique. (Cette ordre existe car on se place d'un point de vue constructif faisant que l'ensemble W possède necessairement un énumérateur qui induit un ordre totale sur W).

La représentation des éléments d'un ensemble fini, est obtenue en les numérotant. Et un entier compris entre 0 et 2^n - 1 tient exactement sur n bits, dans sa représentation binaires. La représentation est dite totalement dense si toutes les configurations de bits correspondent à un et un seul élément.

Lorsque l'ensemble W possède un nombre d'éléments intermédiaire qui n'est pas exactement une puissance de 2, la représentation d'un élément est alors quasi-totalement dense (totalement dense mais à un bit près), mais la quantité d'information est toujours égale à log(|W|) même si cette valeur n'est pas entière.

Au lieu de connaitre précisement un élément e, on peut seulement avoir une connaissance sur l'élément e, comme quoi il appartient à un sous ensemble A. Cette information que nous qualifions d'ensembliste, nous informe que e se trouve dans l'ensemble A. Quelle est la quantité d'information apportée par cette information ensembliste ?. Nous souhaitons en trouver une mesure, c'est à dire une application I de l'ensemble des sous-ensemble non vide de W vers les nombres réels positifs vérifiant les propriétés suivantes :

Intuitivement I(A) est égale à la quantité d'information sur un élément e appartenant à W, apportée par l'information suivante : e∈A

Mais ces 3 axiomes ne suffisent pas pour déduire la mesure de l'information décrite par Hartley & C.E.Shannon. Il faut ajouter la règle de sommation de l'information qui correspond au produit des probabilités, et définir la notion de quantité d'information relative qui correspond à la probabilité conditionnelle.

En effet la quantité d'information apportée par une information, est conditionnelle à l'information déja acquise. Et en particulier si l'information en question n'apporte aucune connaissance supplémentaire, la quantité d'information transmise est nulle. Pour formaliser cela, nous devons étendre l'application I aux couples d'ensembles. I(A / B) désigne la quantité d'information sur l'élément e apportée par l'information e∈A transmise à un système qui possède déjà la connaissance que e∈B. Il s'agit bien d'une extension car nous avons :

I(A) = I(A / W)

Pareillement avec les probabilités, nous adoptons la notation propositionnelle pour désigner un sous-ensemble de W. Ainsi nous avons :

I(A et B) = I(A ⋂ B)
I(non A) = I(W-A)
I(A ou B) =  I(A ⋃ B)
etc....

De façon analogue à la probabilité conditionnelle, la quantité d'information apporté par e∈A sachant e∈B, notée I(A/B) obéit à l'axiome suivant :

P(A et B) = P(B) * P(A/B)
I(A et B)  =  I(B) + I(A/B)

L'ensemble de ces 4 axiomes détermine alors une façon de calculer la quantité d'information I qui est la suivante :

I(A)  =  log( |W| / |A| ) 
I(A)  =  log( |W| )  -   log( |A| )

I(A/B)  =  log( |B| / |A et B| )
I(A/B)  =  log( |B| )  -  log( |A et B| )

I(A/B) désigne la quantité d'information de la selection A dans un univers W restreint à B. On peut opérer des restrictions successives. La quantité d'information de A sachant B, sachant C est égale à la quantité d'information de A dans l'univers (B et C) et donc nous pouvons écrire :

P((A/B)/C) = P(A/(B et C )) = P((A et B et C)/(B et C ))
I((A/B)/C) =  I(A/(B et C )  =  I((A et B et C)/(B et C ))

Ainsi la quantité d'information conditionnelle comprend toujours que deux parties séparées par le symbôle " / " , l'une désignant l'évènement annoncé, l'autre désignant l'évènement connu.

6) Entropie et quantité d'information

Thermodynamique : L'entropie est une variable d'état proportionnelle au logarithme du nombre d'états microscopiques équiprobables distincts d'un système pour le même état macroscopique. C'est une variable d'état extensive, c'est à dire que l'entropie de plusieurs systèmes est la somme des entropies des systèmes.

R.Hartley (1928) : La quantité d'information d'un message doit varier linéairement avec la taille du message, un message 2 fois plus long contient potentiellement 2 fois plus d'informations. Or le nombre de messages distincts possibles croit exponentiellement. La quantité d'information est donc proportionnelle au logarithme du nombre de messages distincts possibles.

On se place dans un cadre fini, où il n'existe qu'un nombre fini N d'objets x appartenant à l'ensemble mère W. Pour chaque fonction propositionnelle unaire A, dont le domaine de définition est W, on définie l'ensemble de même nom A={x/A(x)}. Ce plongement implicite met en exergue la nature propositionnelle de l'ensemble. Et par commodité on utilise les opérations logiques aussi bien sur les fonctions propositionnelles unaires que sur leurs ensembles :

   ¬A        =      {x / ¬A(x)}            =      {x / (¬A)(x)}       =   Complément de A dans W
 A et B     =   {x / A(x) et B(x)}      =   {x / (A et B)(x)}     =                A ⋂ B
 A ou B    =   {x / A(x) ou B(x)}     =   {x / (A ou B)(x)}    =                A ⋃ B
 A => B   =   {x / A(x) => B(x)}     
=   {x / (A => B)(x)}   =               (¬A) ⋃ B
A <=> B  =  {x / A(x) <=> B(x)}   =  {x / (A <=> B)(x)}  =     (A ⋂ B) ⋃ (¬A ⋂ ¬B)
etc...

On appellera théorie, un ensemble fini de fonctions propositionnelles unaires définies sur W et correspondant à leur conjonction, constituant elle-même une fonction propositionnelle unaire définie sur W. On notera la fonction propositionelle qui retourne toujours vrai, W, appelé aussi théorie vide ou totologique, et son ensemble associé W={x/W(x)}, appelé l'univers.

On s'inspire de la thérmodynamique, et on définie un système possédant une variable d'état macroscopique A égale à une théorie avec son ensemble associé A={x/A(x)}, et qui représente la connaissance du système sur lui-même, sur l'inconnue x, de son état microscopique. Les états microscopiques possibles du système sont les éléments de W satisfaisant la théorie A, c'est à dire les éléments x tel que A(x) soit vrai. La fonction propositionnelle A représente l'état macroscopique du système. Le nombre d'éléments x satisfaisant A représente le nombre d'états microscopiques pour un même état macroscopique A. Le logarithme de cette valeur définie donc une entropie :

S(A) = log(|A|)

On choisie 2 comme base du logarithme, afin que l'entropie représente le nombre de bits nécessaires pour numéroter les |A| états microscopiques, les |A| éléments de l'ensemble A. L'entropie représente la quantité d'information nécessaire pour déterminer un élément unique de A.

Si notre connaissance de l'inconnue x passe de la théorie B à la théorie (A et B), alors la quantité d'information aquise est égale à la réduction d'entropie correspondante S(B) - S(A et B). C'est ainsi que l'on définie la quantité d'information apportée par la connaissance de A sachant B, que l'on note I(A/B). Cela s'appelle une quantité d'information conditionnelle :

I(A/B) = S(B) - S(A et B)
I(A/B) = log(|B|) - log(|A et B|)
I(A/B) = log(|B| / |A et B|)

On note I(A) la quantité d'information apportée par la connaissance de A ne sachant rien, c'est à dire à partir d'une connaisance nulle, ou de la théorie W :

I(A) = I(A/W)
I(A) = S(W) - S(A)
I(A) = log(|W|) - log(|A|)
I(A) = log(|W| / |A|)

I(A) comme S(A) ne dépend que du nombre d'éléments de l'ensemble A. On peut donc les écrire comme des fonctions agissant sur des entiers. Posons N = |W| et posons n = |A|, Nous avons :

I(n) = log(N) - log(n)
I(n) = log(N/n)

S(n) = log(n)

La mesure de l'information décrite par R.Hartley & C.E.Shannon, obéit à la règle de sommation de l'information : L'information (A et B) est égale à l'information A, plus l'information apportée par B sachant A, et est aussi égale à l'information B plus l'information apportée par A sachant B :

I(A et B) = I(B) + I(A/B)
I(A et B) = I(A) + I(B/A)

I(A/B) s'exprime dans sa forme totale en exprimant l'ensemble des connaissances sur x avant et apprès, par I(A et B / B), et se note également par I(B-->(A et B)). Cela dénote la quantité d'information aquise par le système en passant de l'état B à l'état A et B, et qui correspond à une diminution de l'entropie.

I(B-->A et B) = I(A/B)
I(B-->A et B) = log(|B|) - log(|A et B|)

I(B-->(A et B)) dépend seulement du nombre n d'éléments de l'ensemble B et du nombre m d'éléments de l'intersection des ensembles A et B. C'est pourquoi on peut l'identifier à une fonction sur deux entiers. En posant n = |B| et en posant m = |A et B| nous avons :

I(n-->m) = S(n) - S(m)
I(n-->m) = log(n) - log(m)
I(n-->m) = log(n/m)

I(n-->m) représente la quantité d'information aquise par le système en passant d'un état macroscopique possédant n états microscopiques possibles, à un état macroscopique ayant un nombre plus failbe, m, d'états microscopiques possibles. On peut étendre cette fonction pour n<m, ce qui traduit une perte de connaisance et donc une augmentation du nombre d'états microscopiques possibles.

7) La probabilité dans un cadre fini

La probabilité est une notion subjective. Elle dépend de beaucoup d'hypothèses choisies arbitrairement qui généralement ne sont pas explicites, et peuvent donc cacher des contradictions, et constituer en cela des paradoxes apparants. Formaliser la probabilité consiste à poser les seuls axiomes auxquels on se réfèrera pour la calculer.

Une méthode radicale pour contourner la difficulté consiste à remplacer l'infini par un grand nombre, ainsi on se place dans le cadre d'une succession finie de tirages. La définition de la probabilité devient alors une simple définition combinatoire, une simple fréquence, un simple rapport de deux quantités entières.

La probabilité est subdivisable canoniquement en un ensemble fini d'évènements équiprobables, exclusifs, et exaustifs. En effet, il est toujours possible de décomposer les évenements en une disjonction d'évènements élémentaires (comme les tables de vérité), d'en rajouter un pour rendre la liste exhaustive et de subdiviser chacun d'eux afin de les rendre équiprobables, la nature rationnelle des fréquences étant assurée par la finitude du nombre de tirages.

Cela constitue une quantification, les évènements élémentaires sont des quantas de probabilité tous égaux, égal à l'inverse de la cardinalité de l'univers, et disjoints. Un évènement est alors un ensemble d'évènements élémentaires, et correspond à leur disjonctions. On dit qu'un évènement se réalise si un évènement élémentaire appartenant à cette évènement se réalise. La disjonction d'évènement correspond à leur réunion, et la conjonction d'événement correspond à leur intersection (de même pour les fonctions propositionelles caracterisant les ensembles). La probabilité d'un évènement est égale à la sommes des probabilités des évènements élémentaires qu'il contient, c'est à dire au rapport des cardinalités de l'évènement et de l'univers.

L'univers W, est un ensemble fini d'évènements élémentaires exclusifs, exhaustifs et équiprobables.

On note P(A) la probabilité que le sous-ensemble A de W se réalise. C'est la probabilité que lors d'un tirage, l'unique évenement élémentaire se réalisant soit dans A. La probabilité est proportionnelle au nombres d'état microscopiques, posés exclusifs et équiprobables. Elle est normée à 1. Donc nous avons la définition suivante :

P(A) = |A| / |W|

On a définie ainsi une mesure sur les sous-ensemble de W, appelée probabilité P. Mais P(A) ne dépend que du nombre d'éléments de l'ensemble A. On peut donc écrire la probabilité P comme une fonction d'un entier. Posons N = |W|. Nous avons :

P(n) = n/N

Si A => B, c'est à dire si A est inclus dans B, alors P(A) ≤ P(B), et S(A) ≤ S(B), et I(A) ≥ I(B). La probabilité de la cause est plus faible que celle de la conséquence. L'entropie de la cause est plus faible que celle de la conséquence. Et la quantité d'information apporté par la prise de connaissance de la cause est plus grande que celle apporté par la la prise de connaissance de la conséquence.

Les théories peuvent se combiner par opération logique. Les opérations logiques sont engendrées par les deux opérations que sont la négation et la disjonction.

P(¬A) = 1 - P(A)
P(A ou B) = P(A) + P(B) - P(A et B)


S(¬A) = log(N - 2S(A))
S(A ou B) = log(2S(A) + 2S(B) -2S(A et B))

I(¬A) = log(N) - log(N - 2S(A))
I(A ou B) = log(N) - log(2S(A) + 2S(B) - 2S(A et B))

A la règle de sommation de l'information correspond la règle de produit des probabilités :

I(A et B) = I(B) + I(A/B)
P(A et B) = P(B)*P(A/B)

Les fonctions I et P ne dépendent que du nombre d'éléments de l'ensemble auquel ils s'appliquent. Aussi on peut les remplacer par des fonctions d'entiers. La définition de ces fonctions est alors :

I(n) = log(N/n)
P(n) = n/N

Et on passe de la quantité d'information à la la probabilité en prenant l'inverse de l'exponentielle dans la base 2. On remarquera que I est décroissant et que P est croissant :

I(n) = log(1/P(n))
P(n) = 1 / 2I(n)

Et les quantité d'informations conditionnelles ainsi que les probabilités conditionnelles peuvent s'expriment sous forme de fonctions de couple d'entiers comme suit selon la notation dite absolue, utilisant le symbôle "-->" :

I(A/B) = I(A et B) - I(B)
I(A/B) = I(B --> A et B)

P(A/B) = P(A et B) / P(B)
P(A/B) = P(B --> A et B)

On pose n=|B|, et on pose m=|A et B|, nous avons :

I(n-->m) = log(n/m)
P(n-->m) = m/n

I(n-->m) désigne la quantité d'information apportée au système pour le transformer d'un système à n états équiprobables en un système à m états équiprobables.

P(n-->m) désigne le coefficient multiplicatif du nombre d'éléments appliqué au système pour le transformer d'un système à n états équiprobables à un système à m états équiprobables.

Le lien entre probabilité et quantité d'information permet de traduire les propriétés remarquables sur les probabilités en des propriétés remarquables sur les quantités d'information et vis-versa. Ainsi quelque soit deux évènements quelconques A,B nous avons la propriété suivante :

P(A et B) + P(A et ¬B) = P(A)
P(A/B)*P(B) + P(A/¬B)*P(¬B) = P(A)

et donc :

log( 2I(A et B) + 2I(A et ¬B) ) = I(A)
log( 2I(A/B)+I(B) + 2I(A/¬B)+I(B) ) = I(A)

En définissant l'opération d'addition logarithmique comme suit :

x ⚬ y = log(2x + 2y)

et dont la priorité syntaxique s'inscrit dans cette ordre *, +, ⚬ du plus prioritaire au moins prioritaire. Noter que l'opération + est distributive sur l'opération comme l'est * sur +, c'est à dire que :

z+(x ⚬ y) = z+x ⚬ z+y
(x ⚬ y)+z = x+z ⚬ y+z

Nous pouvons alors écrire :

I(A et B) ⚬ I(A et ¬B) = I(A)
I(A/B)+I(B) ⚬ I(A/¬B)+I(B) = I(A)

8) Définition éxogène de la probabilité

On part d'un univers constitué par un ensemble fini de N évènements élémentaires équiprobables exclusifs et exhaustifs.

On pose la définition de la quantité d'information I(A) apportée par la connaissance que l'évènement A va se réaliser. Elle est égale au logarithme en base deux du rapport du nombre N d'éléments de l'univers sur celui n de l'ensemble A. Cette quantité d'information pour un ensemble de n éléments est notée I(n). Les deux notations sont équivalentes I(A)=I(n) avec n=|A|. Nous avons par définition :

I(n) = log(N/n)

N désigne le nombre d'éléments de l'univers. Noter que le logarithme est en base 2 car la quantité d'information est exprimée en nombre de bits. Noter que la quantité d'information respecte la règle de sommation. Pour deux ensembles A et B inclus dans W nous avons :

I(A et B) = I(A) + I(B/A)

Rappelons que I(B/A) = log(|A| / |A et B|). Ces règles sont posées comme des propriétés remarquables de dénombrement.

La probabilité P(A) est la probabilité que l'évènement A se réalise, ou plus exactement qu'un évènement élémentaire appartenant à A se réalise. Mais au lieu de poser tous les axiomes définissant la probabilité telle qu'on la conçoit classiquement, on va se restreindre qu'à une partie d'entre eux, afin de pouvoir les compléter différemment et obtenir ainsi une définition exogène de la probabilité. On exige seulement le respect de la règle de produit de la probabilité P, c'est à dire plus précisément d'un lien exponentiel avec la quantité d'information.

P(A et B) = P(A)*P(B/A)
I(A et B) = I(A) + I(B/A)

Rappelons que P(B/A) = |A et B| / |A|. Cela fait que l'on peut passer de la quantité d'information à la la probabilité en prenant l'inverse de l'exponentielle dans une base arbitraire (I décroissant, P croissant). Si nous posons 2 comme base de exponentielle. On obtient la définition classique de la probabilité :

I(n) = log(1/P(n))
P(n) = 1 / 2I(n)

I(n) = log(N/n)
P(n) = n/N

Mais si nous prenons une autre valeur b comme base exponentielle définissant la probabilité à partir de la quantité d'information. On obtient une définition exogène de la probabilité. (Les logarithmes sont toujours dans la base deux.)

I(n) = log(1/P(n)) / log(b)
P(n) = 1 / bI(n)

I(n) = log(N/n)
P(n) = 1 / blog(N/n)

Nous pouvons développer :

P(n) = 1 / blog(N/n)
P(n) = 1 / (2log(b))log(N/n)
P(n) = 1 / (2log(b)*log(N/n))
P(n) = 1 / (2log((N/n)log(b)))
P(n) = 1 / (N/n)log(b)
P(n) = (n/N)log(b)

On définie la probabilité de base b d'un sous-ensemble A de W comme étant égale à :

P(A) = (|A| / |W|)log(b)

Lorsque b = 2 on obtient la probabilité classique. Dans les autres cas il est nécessaire pour simuler une telle situation d'établir un lien de dépendance entre les évèvenements attendus et leur réalisations.

Lorsque b<2, la probabilité est augmentée comme si les évènements élémentaires devançaient leur annoncement.

Lorsque b>2, la probabilité est diminué comme si les évènements fuyaient leur annoncement.

Lorsque b=1 la probabilité est toujours égale à 1 sauf pour l'ensemble vide qui est toujours de probabilité nulle . Tous les évènements attendus se réalisent assurément.

Lorsque b<1 la probabilité est comme inversés, les évènements rares se produise plus souvent, et les évènements fréquents deviennent rares.

Lorsque b=0 la probabilité est toujours égale à 0 sauf pour l'ensemble W qui est toujours de probabilité 1. Aucuns évènements attendus autre que W ne se réalisent.

 

Suite de la discussion : Introduction des probabilités dans la logique


D. Mabboux-Stromberg