Introduction des probabilités dans la logique

  1. Introduction
  2. Les transformations aléatoires atomiques
  3. Language et structure de données
  4. La quantité d'information
  5. Les messages
  6. Le calcul des probabilités à partir d'un message m = x~P
  7. Les variables d'univers et leur notation évènementielle
  8. Le calcul des probabilités à partir d'un message m = x~P (suite)
  9. Le calcul des probabilités à partir d'un message x = P|m
  10. Le calcul des probabilités élémentaires
  11. Le calcule des probabilités de base et des probabilités conditionelles
  12. Le calcul des probabilités à partir d'un message x = P|m (suite)
  13. Le cas anisotrope
  14. Formalisation de la probabilité
  15. Variables d'univers et variable locales

 

1) Introduction

On cherche un mécanisme de construction qui pourra permettre à un système de calcul des probabilités, de s'auto-construire, et de calculer des probabilités de plus en plus sophistiquées intégrant les connaissances nouvelles exprimées dans un langage qui constitura son squelette. Les probabilités sont définies dans un univers. On cherche un cadre conceptuel qui permet de définir les symétries devant être conservées dans ces univers et dans déduire les lois invariantes qui en sont leurs duales d'une certaine manière.

On part de la situation la plus élémentaire que l'on puisse rencontrer, la valeur d'un bit x transmis dans un canal brouillé et ce qu'il en sort, le message m, une pâle copie de x. Nous formalisons la connaissance qu'un système peut avoir sur ce bit, nous formalisons comment un système peut définir la probabilité d'un bit, concevoir l'univers dans lequel cette probabilité peut être définie, et les symétries auxquelles cette probabilité doit satisfaire. Dans le cas de brouillage simple, le temps n'intervient pas, l'ordre des tirages n'apporte rien.

Dans certaine condition la probabilité que le bit x soit égale à 1 vaudra P et la probabilité qu'il soit égale à 0 vaudra 1-P. Et le système se sera auto-construit, au lieu de contenir dans sa mémoire un simple booléen x, il contiendra une probabilité P, c'est à dire un flottant compris entre 0 et 1. Et plus encore il contiendra une conception de l'univers permettant de définir cette probabilité.

Il faut toujours avoir à l'esprit que le sens de la probabilité ne se concrétise réelement que statistiquement, c'est à dire lorsqu'il y a un grands nombre d'essais. C'est pourquoi il faudra utiliser un grand nombre de bits, des messages trés longs, ou bien un grand nombre d'essais pour bien comprendre le rôle de ces probabilités.

Considérons un grand nombre de bits x1,x2,x3...xN. Considérons le message m1,m2,m3...,mN transmettant une copie brouillées des bits x1,x2,x3...xN à un système ne possédant pas de connaissance préalable sur les bits x1,x2,x3...,xN. Supposons que la transmission soit brouillée aléatoirement avec une probabilité P de non-erreur. Par définition, P est égale à la probabilité que m = x. Comme N est grand, idéalement grand pour que la sommation obéïsse aux lois de probabilités, on peut alors définir concrètement la probabilité P comme étant égale au nombre d'indices imi = xi, divisé par N. L'univers est bien défini, il comprend 2*N variables booléennes x1,x2,x3...xN, m1,m2,m3...,mN, appelées variables d'état de l'univers, ou simplement variables d'univers, et possède donc 2(2*N) états possibles, appelés mondes, et possèdant chacun une probabilité dite élémentaires qui déterminent toutes les probabilités d'évènement envisageable dans cet univers.

Constructivement, la probabilité d'un évènement E de l'univers, que l'on note P(E), est définie comme étant la somme des probabilités des évènements élémentaires appartenant à l'évènement E, c'est à dire la sommes des probabilités de chaque monde possibles de l'univers où l'évènement E est réalisé.

Sémantiquement, la probabilité P(E) prend concrètement tous sont sens probabiliste, que relativement à un nombre d'essais N idéalement grand. Après avoir tiré au sort N mondes possibles de l'univers, P(E) est égale à la fréquence de l'évènement E, c'est à dire au nombre de mondes tirés au sort où l'évenement est réalisé divisé par le nombre totale de mondes tirés au sort N(E)/N. On peut préciser sans trop savoir ce que cela veut dire exactement que cette notion de nombre N idéalement grand appliquée ici, est la même quelque soit l'évènement E de l'univers.

2) Les transformations aléatoires atomiques

Considérons un bit x, une valeur booléenne sur laquelle nous n'avons pas de connaissance préalable. Là, nous avons bien atteint un niveau atomique de la donnée. Considérons un message m nous informant de la valeur de x. Le message m est un bit également qui est une copie de x, émise, transmise via un conduit, puis reçue par notre système. La valeur m est par définition la valeur reçu par notre système. Si nous n'avons pas de connaissance préalable sur x et que le message m n'est pas brouillé alors le message m transporte une quantité d'information d'1 bit qui s'ajoutera intégralement à la quantité d'information de notre système (si tant soit peut que l'on puisse évaluer la quantité d'information...). Si le message est brouillé, la quantité d'information transmise sera plus faible que 1 bits.

On modèlise un brouillage simple dans lequel le message boolean est aléatoirement négativé selon une probabilité. On retiendra comme caractéristique, la probabilité P de non-erreur plutôt que celle de l'erreur 1-P. Le brouillage est propre au conduit et est caractérisé par P. Nous avons connaissance de cette probabilité P, ainsi que de cette caractéristique du hasard qu'est l'indépendance du brouillage par rapport au message boolean transmis et au temps et lieux (pas de clône possible du brouillage). La probabilité que m=x que l'on note par P(m=x) est égale à P. Pour décrire complètement la situation, il faut rajouter que la probabilité P est liée au canal et est indépendante de x, ce qui est indiqué par ce schéma :

P(m=x / x=0) = P
P(m=x / x=1) = P

Avons-nous construit une transformation aléatoire atomique ?..., non. Nous pouvons encore spécifer l'opération et la diviser sans franchir d'étape majeur modifiant la nature de l'opération. Le brouillage peut être spécifique selon la valeur de x, de tel sorte qu'il y ait en faite deux brouillages, un pour les valeurs de x=0 et un autre pour les valeur de x=1, c'est à dire un brouillage anisotrope. Noter alors que les probabilités deviennent conditionnelles. La probabilité que m=x est égale à p lorsque x=0 et à q lorsque x=1 :

P(m=x / x=0) = p
P(m=x / x=1) = q

Ces deux brouillages p et q sont dit brouillage du 0 et brouillage du 1. Le brouillage du 0 change aléatoirement les valeurs booléennes 0, de 0 en 1 avec une probabilité conditionnelle de non-changement égale à p, et est représenté par un rectangle étiqueté 0. Le brouillage du 1 change aléatoirement les valeurs booléennes 1, de 1 en 0 avec une probabilité conditionelle de non-changement égale à q, et est représenté par un rectangle étiqueté 1.

Brouillage du 0 avec une probabilité de non changement égale à p
P(m=x / x=0) = p
P(m=x / x=1) = 1


Brouillage du 1 avec une probabilité de non changement égale à q
P(m=x / x=0) = 1
P(m=x / x=1) = q

Nous avons ainsi construit deux transformations aléatoires atomiques que sont le brouillage du 0 de valeur p et le brouillage du 1 de valeur q, à partir desquels on pourra construire les autres transformations aléatoires. Mais sont-elles vraiment atomiques ?..., non. Nous pouvons encore les décomposer en un produit série de deux transformations de même genre avec des probabilités de non-changement plus grande. Mais avant d'aller plus loin dans la recherche des transformations aléatoires atomiques, nous allons calculer les probabilitées obtenues par combinaison série ou parallèle.

3) Language et structure de données

"Tout est langage"

Le résultat de cette configuration est que maintenant on mémorise non seulement le bit m reçu, mais également la probabilité P de non-erreur du canal utilisé. Le système récepteur ne contient plus seulement une seul valeur booléenne comme c'était le cas avant d'introduire ces opérations de brouillage, mais contient les deux valeurs (P,m), ou bien les trois valeurs (p,q,m) dans le cas du brouillage anisotrope. Le système complexifie sa structure de données pour intégrer ces nouvelles données.

On s'inspire des systèmes de typage, tel celui de Hindley-Milner utilisé par le langage fonctionnel et logique Haskell, pour décrire notre structure de donnée, ce qui nous simplifie le travail en le concrétisant et en levant toute ambiguité sur ce quoi on raisonne. Le langage joue un rôle majeur dans la structuration des données, proposant des opérateurs dynamiques appelées constructeurs qui, comme leur nom l'indique, construisent des données structurées. Et ces constructeurs sont également vue mathématiquement comme des opérateurs propres à un langage, vérifiant des propriétés et théories. On avance par tatonnement, en essayant une notation, regardant ses propriétés et transformations possibles, pour l'adapter ou finalement en changer.

Le message nous informant de l'arrivé d'un message m via un canal brouillé de probabilité P (probabilité de non-changement), se note P|m. On utilise le constructeur | qui représente le pipe en Unix. m doit être un boolean et P une probabilité c'est à dire un flotant compris entre 0 et 1. On a choisie cette ordre P|m pour nous rappeler que la probabilité P possède une direction de x vers m et non de m vers x. En effet x et P sont les causes de m et non l'inverse, m et P ne sont pas les causes de x.

Nous définissons aussi (p,q)|m comme étant le message nous informant de l'arrivé d'un message m via un canal brouillé anisotrope de probabilités p et q (probabilité conditionnelle p de non-changement sachant que x=0, et probabilité conditionnelle q de non-changement sachant que x=1, notées p = P(m=x / x=0) et q = P(m=x / x=1)). Nous avons par définition P|m = (P,P)|m ce qui signifie que le brouillage P est indépendant de x et est donc isotrope.

Si le système ne veut perdre aucune donnée, il doit mémoriser ce message. Peut être le mémorisera-t-il sous une autre forme. Mais pour l'instant proposons qu'il le mémorise sous cette forme P|m. Le système possède deux niveaux de données. Un premier niveau qui ne contient que m. L'interprétation en est facile. C'est la valeur que le système croie être pour x. Et un second niveau plus sophistiqué qui contient P|m. Quelle est la signification de P|m ? Cela ne représente qu'un tirage opéré par le canal de transmission, et cela n'apporte aucune certitude concernant le boolean x, son interprétation n'est pas trivial, car pour l'interpréter correctement il faut opérer quelque chose de similaire à une inversion de la flêche du temps.

Pour être complet, il faut expliciter et donc ajouter à cela une autre information, dite topologique, qui désigne le bit en question. Cela peut se faire par l'égalité x = P|m où le nom "x" contient cette information topologique. Cela signifie que concernant le bit de nom "x", nous avons comme unique information P|m, une pale copie de celui-ci transmis par un canal brouillé.

4) La quantité d'information

La quantité d'information se mesure en nombre de bits. Un système possèdant une mémoire de n bits peut contenir une quantité d'information de n bits et pas plus. Parcontre il peut en contenir moins si la donnée mémorisée est redondante. Mais ce qui détermine la redondance de la donnée fait intervenir des typages, des métadonnées qui caractérisent la structure de données, et qui ne sont pas comptabilisées de la même façon, ou alors sur un autre plan lorsqu'elles sont elles-mêmes mémorisées dans une structure dite de type.

Par exemple, considérons la mémorisation d'un entier en bâtons compris entre 1 et n, cela utilise n bits. Mais si nous choisissons de représenter l'entier en binaire, cela n'utilisera que log(n) bits. Autre exemple, si nous considérons la mémorisation d'un multi-ensemble de n booleans sous forme d'une liste de n bits, cela occupe physiquement n bits, offrant 2^n représentations distinctes possibles alors que la donnée possède un nombre de valeurs distinctes possibles beaucoup plus faible égale à |{(a,b)/a+b=n et a>=0 et b>=0}| = n et peut donc tenir sur log(n) bits.

On note I(P) la quantité d'information apportée par le message m copie d'un bit x brouillé aléatoire et de façon isotrope avec une probabilité P de non-erreur et reçue par un système ne possédant pas de connaissance préalable sur x, mais connaissant la probabilté P caractéristique du brouillage. Dans le cas où P=1, le message m apporte une quantité d'information de 1 bit qui s'ajoute intégralement au systéme. Cela signifie que le système ne peut pas réduire cette quantité de donnée sans occasionner une perte de donnée, qu'il lui faut donc au moins un bit de mémoire non déjà utilisé pour mémoriser cette information.

I(1) = 1 bit

Dans le cas où P=1/2, la quantité d'information transportées est nulle. C'est l'effet absorbant. Voyez par l'expérience !. Aucune information ne peut être extraite d'un message boolean brouillé avec une probabilité 1/2. Le brouillage est total. Pour forcer ce mur, il est nécessaire d'accéder aux failles du brouillage, tel que par exemple, l'existance d'un brouillage clone.

I(1/2) = 0

Dans le cas où P<1/2 on prend la négation du message, ce qui inverse le message en un message brouillé aléatoirement avec une probabilité 1-P de non-erreur. On se ramène ainsi au cas de la probabilité > 1/2. Cette opération peut s'apparenter à une opération élémentaire d'apprentissage d'un reseau de neurone booléen.

I(P) = I(1-P)

5) Les messages

Comment traduisons-nous le fait de ne pas avoir de connaissance préalable sur x ? Cela revient au même que de recevoir pour la première fois une copie de x brouillée avec une probabilité P=1/2. Le système mémorise x = P|m, et lorsque ces valeurs sont 0.5|0 ou 0.5|1 cela signifie exactement que le système n'a pas d'information sur x. Cela est donc identique à l'absence de valeur.

Un message x = P|m va nous informer sur x, mais l'interpretation de cette information reste encore obscure. En particulier elle ne nous permet pas de définir la probabilité de x en fonction de m et de P, c'est à dire une propabilité conditionelle sachant m, alors que la probabilité de m en fonction de x et de P, c'est à dire une propabilité conditionelle sachant x, est trivial. En effet nous avons :

P(m=1 / x=1) = P
P(m=0 / x=0) = P

Le brouillage possède un sens de déroulement, et dans le bon sens il s'interprète simplement. Il s'agit du sens causal, partant de la cause et finissant par l'effet.

On peut définir un message analogue mais informant d'un brouillage dans l'autre sens, c-à-d informant le système de l'émission vers un destinataire exterieur d'une copie de x via un canal brouillé de probabilité P, et dont le but est d'estimer la valeur résultante m de ce brouillage qui a été finalement reçue par le destinataire exterieur. Formalisons cet autre message par l'expression x~P.

Le système est informé par ce message d'une valeur x exacte, qu'une copie de cette valeur est émise à travers un canal brouillé de probabilité P, et qu'elle est transmise sous le nom de bit m à un destinataire. Et le message x~P a pour but d'acroître nos connaissances sur le bit m. On utilise le constructeur ~ qui représente intuitivement le canal perturbé aléatoirement. Et x doit être un boolean, et P un flotant compris entre 0 et 1. On a respecté cet ordre x~P pour nous rappeler que x est la valeur de départ qui est émise et qui subit une transformation aléatoire de probabilité P de non-changement, dans le canal utilisé, pour produire une valeur m inconnue. Le but du message est de nous informer sur m.

Pour être complet, il faut ajouter à cela une information dite topologique désignant le bit m reçu par le destinataire extèrieur, résultat de la transmission perturbée, ce qui se fait en notant l'égalité m = x~P où le nom "m" contient cette information topologique. Cela signifie que concernant le bit reçu par le destinataire exterieur et que nous nommons "m", nous avons comme unique information x~P.

Dans les deux cas, c'est la même transformation aléatoire qui est mise en oeuvre, ce sont les mêmes probabilités qui sont calculés, seul change le statut d'inconnue des variables x et m. La transformation aléatoire possède un sens de x vers m et non de m vers x. En effet, x et P sont les causes de m, parcontre m et P ne sont pas les causes de x. C'est ce qu'on appel le sens causal, partant de la cause pour aller vers l'effet. Dans une suite causale, des causes nouvelles peuvent s'insérer mais leurs effets ne portent que sur les termes suivants.

6) Le calcul des probabilités à partir d'un message m = x~P

Le message m = x~P nous informe de la probabilité de m sachant x. La probabilté que m=x vaut exactement P c'est à dire :

P(m=x) = P

Mais davantage encore, le message nous informe que le brouillage est isotrope, c'est à dire que l'évènement m=x est indépendant de l'évènement x, et donc que les probabilités conditionnelles de non-changement selon x sont toutes les deux égales à P :

P(m=x / x=0) = P
P(m=x / x=1) = P

Pour deux évènements quelconques A, B, la probabilité d'un évènement A sachant l'évènement B se note P(A / B). Elle suppose que l'évènemen B se réalise, faisant que cette évènement peut être ajouté sous forme d'une conjonction à l'évènement attendu : P(A / B) = P(A et B / B). Appliquer à notre cas en en déduit :

P(m=x et x=0 / x=0) = P
P(m=x et x=1 / x=1) = P

et donc que :

P(m=0 / x=0) = P
P(m=1 / x=1) = P

Puis en inversant une probabilité, on obtient :

P(m=0 / x=0) = P
P(m=0 / x=1) = 1-P

7) Les variables d'univers et leur notation évènementielle

L'univers possède un certain nombre de variables dites d'univers. Et il comprend un nombre fini de mondes possibles représentant les différentes configurations de valeurs possibles des variables d'univers. Un monde représente un tirage au sort dans cet univers, et correspond donc exactement à un évènement élémentaire. Les mondes sont donc exclusifs et exhaustifs, et possède chacun une probabilitée élémentaires. Ces probabilités élémentaires sont les paramètres de l'univers.

Un univers avec n variables booléennes libres possède 2n mondes possibles.

Considérons une variable d'univers x booléenne. L'évènement x=1 n'est pas élémentaire, car il correspond à la disjonction de tous les évènements élémentaires, appelés mondes possibles, où x=1. Il en est de même pour l'évènement x=0. Néanmoins ces évènements jouent un rôle particulier et sont appelés évènements de base. Leur probabilités se notent P(x=1) et P(x=0).

L'évènement x=1 peut être désigné par l'évenement x, et l'évènement x=0 peut être désigné par l'évènement ¬x. On laissera au contexte le soin de lever l'ambiguité, à savoir si c'est une variable d'univers ou un évènement de base. Leur probabilités peuvent alors se noter par P(x) et P(¬x).

La probabilité d'un évènement est égale à la fréquence de l'évènement calculé sur un nombre idéalement grand de tirages. Mais la notion de nombre idéalement grand de tirages est a intérpréter ici comme une limite pour approcher autant qu'on le souhaite les probabilités élémentaires des fréquences.

Si on ajoute une hypothèse de finitude du nombre de tirage, faisant que celui-ci se répète après à l'identique de façon cyclique, alors ce nombre idéalement grand correspond à un nombre fixé N correspondant au nombre de tirages sur un cycle. La notion d'indépendance par rapport à l'ordre de tirage sans trouve changée et adaptée à un tirages N-cyclique. On parlera d'indépendance N-cyclique. Avec cette hypothèse, chaque probabilité élémentaire est une fraction égale à la fréquence de l'évènement élémentaire sur N tirages consécutifs.

On adopte la convention de noter (1-P) par ¬P pour n'importe quelle reel P, et on pose que l'opérateur ¬ est syntaxiquement prioritaire aux autres opérateurs, faisant que ¬P*Q est égale à (1-P)*Q et non à 1 - P*Q.

Le résultat précédent (chapitre 7.5) s'écrit :

P(m / x)   =    P
P(m / ¬x)     =   ¬P

L'évènement x représente l'évènement x=1, et l'évènement ¬x représente l'évènement x=0.

La variable x est une variable d'univers. Elle possède deux états possibles et une probabilité de base P(x). Cette probabilité est dite atemporelle car posée en dehors de toutes considération causale, c'est à dire une probabilité non conditionelle. P(x) est la sommes des probabilités élémentaires des mondes où x=1.

8) Le calcul des probabilités à partir d'un message m = x~P (suite)

Le message m = x~P reçu par un système ne possédant aucune connaissance préalable sur m, lui apporte comme information, une valeur de x, une valeur de P, et les deux probabilités suivantes :

P(m / x)       =     P
P(m / ¬x)     =    ¬P

Noter que l'on ne cherche pas la probabilité de intemporelle de m, mais la probabilité de m connaissant la valeur de x, qui est appelée la probabilité contingente de m et qui vaut P ou ¬P selon que x vaut 1 ou 0.

Message
Schéma
Inconnue
Conclusion
m = x~P
m
P(m / x) = P
P(m / ¬x) = ¬P

Il convient de vérifier le résultat par un autre calcule. L'évènement (x et m) et l'évènement (¬x et ¬m) étant disjoint, les probabilités s'ajoutent. Nous avons bien :

P(x=m) = P(x et m) + P(¬x et ¬m)
             = P(x)*P(x et m)/p(x) + P(¬x)*P(¬x et ¬m)/P(¬x)
             = P(x)*P(m/x) + P(¬x)*P(¬m/¬x)
             = P(x)*P(m/x) + ¬P(x)*¬P(m/¬x)
             = P(x)*P + ¬P(x)*¬¬P
             = P(x)*P + ¬P(x)*P
             = P(x)*P + (1-P(x))*P
             = P

La cohérence du résultat constitue un élément de preuve.

9) Le calcul des probabilités à partir d'un message x = P|m

Parcontre dans l'autre sens, le message x = P|m ne permet pas de calculer la probabilité de x. En effet, P|m ne représente qu'un tirage opéré par le canal, et cela n'apporte aucune certitude concernant le bit x, son interprétation n'est pas trivial, car pour l'interpréter correctement il faut opérer quelque chose de similaire à une inversion de la flêche du temps.

La probabilté de x dont il est question, et que nous cherchons, est en faite une probabilité conditionnelle. C'est la probabilité de x sachant ce que l'on sait, c'est à dire sachant la valeur de m. Il existe une probabilité de x non conditionelle dite atemporelle notée P(x) = µ.

Nous connaissons la probabilité P(m=x) = P, et nous voulons connaitre la probabilité P(x / ¬m) et P(x / m). Cela ne peut se faire complètement car il reste un paramètre inaccessible qu'est la probabilité atemporelle de x, notée P(x) = µ. Mais nous pouvons développer P(x / ¬m) et P(x / m) en fonction du brouillage P et de cette probabilité µ.

Une erreur commune consiste à dire : Si l'évènement m a lieu alors P(x=m) = P(x), erreur ! En effet, si m a lieu alors la probabilité devient obligatoirement conditionnelle, et nous ne pouvons pas oublier que m=1, et cela s'écrit donc P(x=m / m) = P(x / m). Et ce n'est pas du tout pareil, car nous ne connnaissons pas P(x=m / m), nous connaissons seulement P(x=m) qui est par ailleur indépendant de x. Aussi, si vous n'êtes pas aux faites des manipulations des probabilités conditionnelles, mieux vaut d'abord appréhender le problème globalement en établissant la table de vérité de tous les états possibles de l'univers, c'est à dire la liste de tous les mondes possibles avec leur probabilités élémentaires respectives, et puis établire sous forme d'équation les contraintes imposées par la configuration.

Pour définir la probabilité de x, dite atemporelle, nous considérons la liste de tous les états microscopiques possibles de l'univers avec chacun leurs probabilitées dites élémentaires, qui constituent la table de vérité de l'univers. Une vision plus tactile utiliserait les termes que voici : Pour définir la probabilité de x, nous allons considérer la liste des mondes parallèles possibles avec leurs probabilitées respectives. La probabilité de x est égale à la somme des probabilités des mondes où x=1.

Un monde, est un évènement élémentaires, c'est aussi un état microscopique de l'univers, et il possède une probabilité élémentaires. La liste de ces probabilités élémentaires constituent les paramètres de l'univers, et sont liés par une seul contrainte : La sommes des probabilité élémentaire doit être égale à 1.

10) Le calcul des probabilités élémentaires

L'univers comprend 2 variables d'état booleénnes x et m, ou simplement appelées variables d'univers, soit 4 états microscopiques possibles, 4 mondes possibles, décrits par la table de vérité avec leurs 4 probabilitées élémentaires inconnues P0, P1, P2, P3. On remarquera que la numérotation choisie correspond au nombre binaire constitué par les deux chiffres (x,m) avec x comme bit de point fort et m comme bit de point faible, c'est à dire égale à 2*x + m. On remarquera que par une opération logique on peut construire l'évènement m=x,

x
m
Probabilité élémentaire
m=x
0
0
P0
P(¬x et ¬m)
1
0
1
P1
P(¬x et m)
0
1
0
P2
P(x et ¬m)
0
1
1
P3
P(x et m)
1

La table de vérité est exhaustive :

P0 + P1 + P2 + P3 = 1

L'hypothèse consiste en une copie du bit x qui est transmise via un canal brouillé de façon isotrope de probabilité de non-erreur égale à P pour produire le bit m :

Le canal de transmission est de probabilité P(x=m)=P :

P0 + P3 = P

La probabilité de base de x est une probabilité inconnue P(x)=µ :

P2 + P3 = µ

Il reste un degré de liberté qui pour des raisons de symétrie est choisie égale à L = P1 + P3, c'est la probabilité de base de m notée P(m) = L :

P1 + P3 = L

La table de vérité se réécrit ainsi :

x
m
Probabilité élémentaire
m=x
0
0
P0
P(¬x et ¬m)
(   P - L - µ + 1 )/2
1
0
1
P1
P(¬x et m)
( - P + L - µ + 1 )/2
0
1
0
P2
P(x et ¬m)
( - P - L + µ + 1 )/2
0
1
1
P3
P(x et m)
(   P + L + µ - 1 )/2
1

Avons nous épuisé toutes les hypothèses de la configuration ?..., non !, il manque l'hypothèse de l'indépendance du brouillage P. Cette hypothèse joue un rôle capital dans la configuration, un rôle centrale qui donne tous son sens à la configuration. Elle se transcrit de manière subtile :

Pour rappel, deux évènements X et Y sont indépendants si et seulement si la probabilité de leur conjonction est égale au produit des probabilités. C'est à dire que X et Y sont indépendants ssi P(X et Y) = P(X)*P(Y).

La configuration étant trés simple, et faute de candidat, le brouillage est seulement indépendant de x, autrement dit, il est isotrope. Cela signifie que les événements m=x et x sont indépendants, et donc que :

P(m=x)*P(x)   =   P(m=x et x)
             P*µ    =   P3

Le brouillage n'est pas indépendant de m, car m résulte de x et du brouillage P. Le brouillage fait partie d'une des causes de m.

Avec cette dernière équation P*µ = P3 on élimine L, et la table de vérité se réécrit ainsi :

x
m
Probabilité élémentaire
m=x
0
0
P0
P(¬x et ¬m)
µ*P
1
0
1
P1
P(¬x et m)
¬µ*¬P
0
1
0
P2
P(x et ¬m)
µ*¬P
0
1
1
P3
P(x et m)
µ*P
1

Les 4 probabilités élémentaires comprennent deux paramètres, l'un connu P qui caractérise le brouillage isotrope du canal, l'autre inconnu µ qui est la probabilité de base de x. Et nous avons bien :

1  =  ¬µ*P  +  ¬µ*¬P  +  µ*¬P  +  µ*P

11) Le calcule des probabilités de base et des probabilités conditionelles

On rappel la définition des probabilités conditionnelles et comment on peut diviser un évènement en deux évènements exclusifs. Quelques soients deux évènements A,B, nous avons ces propriétés remarquables :

P(¬A) = ¬P(A)
P(¬A / B) = ¬P(A / B)
P(A / B) = P(A et B / B)
P(A / B) = P(A et B) / P(B)
P(A) = P(A et B) + P(A et ¬B)
P(A) = P(A / B)*P(B) + P(A / ¬B)*P(¬B)

A partir des probabilités élémentaires calculées au chapitre précedent, les probabilités de base s'obtiennent comme suit :

P(¬m)    =     P(¬x et ¬m) + P(x et ¬m)     =     P0 + P2
P(m)      =     P(¬x et m) + P(x et m)          =     P1 + P3
P(¬x)     =     P(¬x et ¬m) + P(¬x et m)      =     P0 + P1
P(x)       =     P(x et ¬m) + P(x et m)           =     P2 + P3

Et nous avons la propriété : P0 + P1 + P2 + P3 = 1

On peut alors s'intéroger sur la signification des deux autres sommes P0+P3 et P1+P2 qui n'apparaissent pas. Leur interprétation est encore une probabilité de base, mais dans une autre base, c'est à dire dans un autre univers obtenu par changement de base, où l'évènement x=m correspond à une variable d'univers.

P(x=m)     =     P(¬x et ¬m) + P(x et m)     =     P0 + P3
P(x≠m)     =     P(¬x et m) + P(¬x et m)     =     P1 + P2

Les probabilités conditionnelles s'obtiennent comme suit :

P(¬m / ¬x)    =     P(¬x et ¬m) / P(¬x)    =    P0/(P0+P1)
P(m / ¬x)      =     P(¬x et m) / P(¬x)      =    P1/(P0+P1)
P(¬m / x)      =     P(x et ¬m) / P(x)        =    P2/(P2+P3)
P(m / x)        =     P(x et m) / P(x)          =    P3/(P2+P3)

P(¬x / ¬m)    =     P(¬x et ¬m) / P(¬m)    =    P0/(P0+P2)
P(x / ¬m)      =     P(x et ¬m) / P(¬m)      =    P2/(P0+P2)
P(¬x / m)      =     P(¬x et m) / P(m)        =    P1/(P1+P3)
P(x / m)        =     P(x et m) / P(m)          =    P3/(P1+P3)

P(¬m / x≠m)    =     P(¬m et x≠m) / P(x≠m)    =    P(x et ¬m) / P(x≠m)      =    P2/(P1+P2)
P(m / x≠m)      =     P(m et x≠m) / P(x≠m)      =    P(¬x et m) / P(x≠m)       =    P1/(P1+P2)
P(¬m / x=m)    =     P(¬m et x=m) / P(x=m)    =    P(¬x et ¬m) / P(x=m)    =    P0/(P0+
P3)
P(m / x=m)      =     P(m et x=m) / P(x=m)      =    P(x et m) / P(x=m)         =    P3/(P0+P3)

P(¬x / x≠m)    =     P(¬x et x≠m) / P(x≠m)    =    P(m et ¬x) / P(x≠m)       =    P1/(P1+P2)
P(x / x≠m)      =     P(x et x≠m) / P(x≠m)      =    P(¬m et x) / P(x≠m)       =    P2/(P1+P2)
P(¬x / x=m)    =     P(¬x et x=m) / P(x=m)    =    P(¬m et ¬x) / P(x=m)    =    P0/(P0+
P3)
P(x / x=m)      =     P(x et x=m) / P(x=m)      =    P(m et x) / P(x=m)         =    P3/(P0+P3)

P(x≠m / x)     =     P(x≠m et x) / P(x)           =    P(x et ¬m) / P(x)          =    P2/(P2 + P3)
P(x=m / x)     =     P(x=m et x) / P(x)           =    P(x et m) / P(x)            =    P3/(P2 + P3)
P(x≠m / ¬x)   =     P(x≠m et ¬x) / P(¬x)      =    P(¬x et m) / P(¬x)        =    P1/(P0 + P1)
P(x=m / ¬x)   =     P(x=m et ¬x) / P(¬x)      =    P(¬x et ¬m) / P(¬x)      =    P0/(P0 + P1)

P(x≠m / m)     =     P(x≠m et m) / P(m)       =    P(¬x et m) / P(m)        =    P1/(P1 + P3)
P(x=m / m)     =     P(x=m et m) / P(m)       =    P(x et m) / P(m)          =    P3/(P1 + P3)
P(x≠m / ¬m)   =     P(x≠m et ¬m) / P(¬m)   =    P(x et ¬m) / P(¬m)     =    P2/(P0 + P2)
P(x=m / ¬m)   =     P(x=m et ¬m) / P(¬m)   =    P(¬x et ¬m) / P(¬m)   =    P0/(P0 + P2)

12) Le calcul des probabilités à partir d'un message x = P|m (suite)

Le message x = P|m reçu par un système ne possédant aucune connaissance préalable sur x, lui apporte comme information, une valeur de P, une valeur de m, et les deux probabilités suivantes :

P(m / x)     =    P
P(m / ¬x)   =   ¬P

C'est le même schéma qui est mis en oeuvre mais à la différence du message m = x~P , ce n'est plus m qui tient le rôle de l'inconnue, c'est x. Noter que l'on ne cherche pas la probabilité atemporelle de x, qui de toute façon est inaccessible, mais la probabilité de x connaissant la valeur de m, qui est appelée la probabilité contingente de x.

On connait la probabilité de m sachant la valeur de x. Et en inversant en quelque sorte le sens de la flêche du temps, on peut calculer la probabilité de x sachant la valeur de m. Celle-ci sera fonction du brouillage P et de la probabilité de base P(x) = µ.

On reprend les 4 probabilités P0, P1, P2, P3 décrites au chapitre (7.9) :

P0 = P(¬x et ¬m)   =   ¬µ*P
P1 = P(¬x et m)     =   ¬µ*¬P
P2 = P(x et ¬m)     =   µ*¬P
P3 = P(x et m)       =   µ*P

Rappelons que nous avons : ¬µ = (1-µ) et ¬P = (1-P).

Nous avons alors :

P(¬x / ¬m)   =   P(¬x et ¬m) / P(¬m)
                     =   P(¬x et ¬m) / (P(¬x et ¬m) + P(x et ¬m))
                     =   P0 / (P0+P2)
                     =   ¬µ*P / (¬µ*P + µ*¬P)

P(¬x / m)    =   P(¬x et m) / P(m)
                    =   P(¬x et m) / (P(¬x et m) + P(x et m))
                    =   P1 / (P1+P3)
                    =   ¬µ*¬P / (¬µ*¬P + µ*P)

P(x / ¬m)   =   P(x et ¬m) / P(¬m)
                   =   P(x et ¬m) / (P(¬x et ¬m) + P(x et ¬m))
                   =   P2 / (P0+P2)
                   =   µ*¬P / (¬µ*P + µ*¬P)

P(x / m)    =   P(x et m) / P(m)
                  =   P(x et m) / (P(¬x et m) + P(x et m))
                  =   P3 / (P1+P3)
                  =   µ*P / (¬µ*¬P + µ*P)

Nous obtenons une sorte de table de vérité mettant en exergue le sens inverse du temps, car d'après l'hypothèse, m est la cause de x et non l'inverse.

x
m
Probabilité conditionelle
m=x
0
0
P(¬x / ¬m)
¬µ*P / (¬µ*P + µ*¬P)
1
0
1
P(¬x / m)
¬µ*¬P / (¬µ*¬P + µ*P)
0
1
0
P(x / ¬m)
µ*¬P / (¬µ*P + µ*¬P)
0
1
1
P(x / m)
µ*P / (¬µ*¬P + µ*P)
1

Par symétrie de la négation, cela constitue un système de 2 équations :

P(x / m)      =    µ*P / (¬µ*¬P + µ*P)
P(x / ¬m)    =   µ*¬P / (¬µ*P + µ*¬P)

Noter que l'on ne cherche pas la probabilité atemporelle de x qui est un paramètre inconnu et inaccessible µ = P(x), mais la probabilité de x connaissant la valeur de m, qui est appelée la probabilité contingente de x et qui vaut µ*P / (¬µ*¬P + µ*P) ou µ*¬P / (¬µ*P + µ*¬P) selon que m vaut 1 ou 0.

Message
Schéma
Inconnue
Conclusion
x = P|m
x
P(x / m) = µ*P / (¬µ*¬P + µ*P)
P(x / ¬m) = µ*¬P / (¬µ*P + µ*¬P)

Il convient de vérifier le résultat par un autre calcule. Les probabilités P(m) et P(x) se décomposent comme suit :

P(m) = P(m/x)*P(x) + P(m/¬x)*P(¬x)
         = P*µ + ¬P*¬µ

P(x) = P(x/m)*P(m) + P(x/¬m)*P(¬m)
        = P(m)*P(x/m) + ¬P(m)*P(x/¬m)
        = (P*µ + ¬P*¬µ)*P(x/m) + ¬(P*µ + ¬P*¬µ)*P(x/¬m)
        = (P*µ + ¬P*¬µ)*µ*P/(¬µ*¬P + µ*P) + ¬(P*µ + ¬P*¬µ)*µ*¬P/(¬µ*P + µ*¬P)
        = µ*P + (1 - P*µ - (1-P)*(1-µ))*µ*(1-P)/((1-µ)*P + µ*(1-P))
        = µ

La cohérence du résultat constitue un élément de preuve.

13) Le cas anisotrope

Dans le cas anisotrope, l'univers possède toujours 2 variables booléennes libres x et m, et donc possède 4 mondes possibles décrits dans sa table de vérité. Le brouillage anisotrope est un hasard indépendant, mais pas de x, et il est caractérisé par les deux probabilités conditionnelles suivantes qui sont posées comme des paramètres de l'univers :

P(m=x / ¬x) = p
P(m=x / x) = q

On remarque que :

P(m=x / ¬x) = P(m=x et ¬x / ¬x)
P(m=x / ¬x) = P(¬m / ¬x)

P(m=x / ¬x) = ¬P(m / ¬x)

P(m=x / x) = P(m=x et x / x)
P(m=x / x) = P(m / x)

donc le système initial est équivalent à :

P(m / ¬x) = ¬p
P(m / x) = q

Conclusion : La réception du message m = x~(p,q) par un système ne possédant aucune connaissance préalable sur m, lui apporte comme information, une valeur de x, une valeur de (p,q), et les deux probabilités suivantes :

P(m / ¬x) = ¬p
P(m / x) = q

Noter que l'on ne cherche pas la probabilité atemporelle de m, mais la probabilité de m connaissant la valeur de x, qui est appelée la probabilité contingente de m et qui vaut ¬p ou q selon que x vaut 0 ou 1.

Message
Schéma
Inconnue
Conclusion
m = x~(p,q)
m
P(m / ¬x) = ¬p
P(m / x) = q

Puis pour interpréter le message x = (p,q)|m, il faut calculer les probabilités de x sachant m.

On rappel que selon la définition des probabilités conditionnelles, la probabilité d'une conjonction d'évènements quelconques A, B se décompose en un produit de probabilités comme suit :

P(A et B) = P(A) * P(B / A)

Et cette règle se généralise (et correspond à la sommation de la quantité d'information) : L'ajout d'un évènement C à la conjonction A et B se traduit par la multiplication par la probabilité conditionnelle de cet évènement C sachant les autres évènements :

P(A et B et C) = P(A) * P(B / A) * P(C / A et B)

En appliquant cette règle de calcul, on obtient :

P(¬x et ¬m)   =   P(¬x) * P(¬m / ¬x)
                       =   P(¬x) * P(m=x / ¬x)           car (¬m et ¬x) <=> (m=x et ¬x)
                       =   ¬µ * p

P(¬x et m)   =   P(¬x) * P(m / ¬x)
                     =   P(¬x) * P(m≠x / ¬x)           car (m et ¬x) <=> (m≠x et ¬x)
                     =   ¬µ * ¬p

P(x et ¬m)   =   P(x) * P(¬m / x)
                     =   P(x) * P(m≠x / x)           car (¬m et x) <=> (m≠x et x)
                     =   µ * ¬q

P(x et m)   =   P(x) * P(m / x)
                   =   P(x) * P(m=x / x)           car (m et x) <=> (m=x et x)
                   =   µ * q

On obtient la table de vérité suivante :

x
m
Probabilité élémentaire
m=x
0
0
P(¬x et ¬m)
µ*p
1
0
1
P(¬x et m)
¬µ*¬p
0
1
0
P(x et ¬m)
µ*¬q
0
1
1
P(x et m)
µ*q
1

Cette table de vérité comprend trois paramètres, deux connus p et q qui caractérisent le brouillage anisotrope du canal, l'autre inconnue µ qui est la probabilité de base de x. Et nous avons bien :

1   =   ¬µ*p    +   ¬µ*¬p    +   µ*¬q   +    µ*q

En appliquant la définition des probabilités conditionnelles P(A / B) = P(A et B) / P(B). On peut calculer la probabilité de x sachant m, comme si x dépendait de m par une relation de cause à effet en inversant en quelque sorte le sens de la flêche du temps.

P(¬x / ¬m)   =   P(¬x et ¬m) / P(¬m)
                     =   P(¬x et ¬m) / (P(¬x et ¬m) + P(x et ¬m))
                     =   ¬µ*p / (¬µ*p + µ*¬q)

P(¬x / m)   =   P(¬x et m) / P(m)
                   =   P(¬x et m) / (P(¬x et m) + P(x et m))
                   =   ¬µ*¬p / (¬µ*¬p + µ*q)

P(x / ¬m)   =   P(x et ¬m) / P(¬m)
                   =   P(x et ¬m) / (P(¬x et ¬m) + P(x et ¬m))
                   =   µ*¬q / (¬µ*p + µ*¬q)

P(x / m)   =   P(x et m) / P(m)
                 =   P(x et m) / (P(¬x et m) + P(x et m))
                 =   µ*q / (¬µ*¬p + µ*q)

On obtient une sorte de table de vérité méttant en exergue le sens inverse du temps, car dans le schéma, m est une conséquence de x et non l'inverse :

x
m
Probabilité élémentaire
m=x
0
0
P(¬x / ¬m)
¬µ*p / (¬µ*p + µ*¬q)
1
0
1
P(¬x / m)
¬µ*¬p / (¬µ*¬p + µ*q)
0
1
0
P(x / ¬m)
µ*¬q / (¬µ*p + µ*¬q)
0
1
1
P(x / m)
µ*q / (¬µ*¬p + µ*q)
1

Conclusion : La reception du message x = (p,q)|m par un système ne possédant aucune connaissance préalable sur x, lui apporte comme information, la valeur de m, la valeur de (p,q), et les deux probabilités suivantes :

P(x / m)       =    µ*q / (¬µ*¬p + µ*q)
P(x / ¬m)    =    µ*¬q / (¬µ*p + µ*¬q)  

Noter qu'elles contiennent un paramètre inconnu µ correspondant à la probabilité atemporelle de x, qui reste inaccessible. Noter que l'on ne cherche pas cette probabilité atemporelle de x, mais la probabilité de x connaissant la valeur de m, qui est appelée la probabilité contingente de x et qui vaut µ*q / (¬µ*¬p + µ*q) ou µ*¬q / (¬µ*p + µ*¬q)  selon que m vaut 1 ou 0.

Message
Schéma
Inconnue
Conclusion
x = (p,q)|m
x
P(x / m) = µ*q / (¬µ*¬p + µ*q)
P(x / ¬m) = µ*¬q / (¬µ*p + µ*¬q)

Il convient de vérifier le résultat par un autre calcule. Les probabilités P(m) et P(x) se décompose comme suit :

P(m) = P(m/x)*P(x) + P(m/¬x)*P(¬x)
         = q*µ + ¬p*¬µ

P(x) = P(x/m)*P(m) + P(x/¬m)*P(¬m)
        = P(m)*P(x/m) + ¬P(m)*P(x/¬m)
        = (q*µ + ¬p*¬µ)*P(x/m) + ¬(q*µ + ¬p*¬µ)*P(x/¬m)
        = (q*µ + ¬p*¬µ)*µ*q / (¬µ*¬p + µ*q) + ¬(q*µ + ¬p*¬µ)*µ*¬q / (¬µ*p + µ*¬q)
        = µ*q + (1 - q*µ - (1-p)*(1-µ))*µ*(1-q) / ((1-µ)*p + µ*(1-q))
        = µ

La cohérence du résultat constitue un élément de preuve.

14 Formalisation de la probabilité

La probabilité de x sachant m est représentée par 4 probabilités conditionnelles P(¬x / ¬m), P(¬x / m), P(x / ¬m), P(x / m). On peut ramener ces 4 probabilités aux deux probabilités conditionnelles P(x / ¬m) et P(x / m) puisque les deux autres sont leur négation. La redondance dans la description des probabilités provient de la symétrie que constitue la négation et qui s'applique à chaque degrés de liberté booléen du modèle. Et si nous n'avons pas pu exprimer clairement ces symétries, c'est que la notation que nous utilisons est incomplète et garde des paramètres implicites. Pour les expliciter, il faut formaliser davantage le cadre du problème.

La probabilité doit préciser l'univers dans lequel elle est calculée. Et si l'univers est paramétré, celui-ci fait alors partie d'un modèle d'univers. Un monde est un état microscopique d'un univers c-à-d caractérisé par les valeurs de toutes les variables d'univers de cet univers. Et l'univers posséde en plus des paramétres tels que des probabilités caractérisant les brouillages, et fait partie d'un modèle d'univers.

Dans notre cas d'étude, le modèle d'univers comprend deux variables booléennes x et m, et un canal allant de x vers m générant un brouillage de probabilité anisotropique (a,b). Noter bien la distinction entre variables et parmètres. x et m sont des variables d'univers, alors que a et b et µ sont des paramètres de l'univers. Chaque univers de ce modèle est déterminé en fixant les valeurs des paramètres a, b, µ, qui sont suffisants pour calculer toutes les probabilités élémentaires de l'univers. Chaque monde de l'univers est déterminé en fixant les valeurs de ses variables d'univers x et m. Les paramètres a et b sont des probabilités conditionnelles dont la définition est donnée par le modèle : a = P(m=x / ¬x) et b = P(m=x / x), et µ est la probabilité atemporelle de x définie comme suit : µ = P(x). Ces trois paramètres a,b,µ sont réels et compris entre 0 et 1, et sont fixés librement et arbitrairement. On dira que le modèle possède 3 degrés de probabilité de liberté, et que ses univers possèdent 2 degrés booléens de libertés.

On étend le modèle d'univers pour qu'il puisse modéliser une composition série de plusieurs canaux, il possède autant de paramètres (a1,b1), (a2,b2), (a3,b3)..., (an,bn) qu'il y a de canaux se succédant. Soit n leur nombre. Il y a alors n+1 variables booléennes notées x, m1, m2, m3...., mn.

Cette suite de canaux modélise une suite causale d'où l'analogie avec la flêche du temps : x et (a1,b1) sont causes de m1, puis m1 et (a2,b2) sont causes de m2 et ainsi de suite alors que l'inverse est faux, m2 et (a2,b2) ne sont pas la cause de m1, de même m1 et (a1,b1) ne sont pas la cause de x.

Les messages ont une traduction sous forme de schéma définissant un univers avec des probabilité conditionnelles. Ci-dessous un tableau récapitulatif :

Message
Schéma
Inconnue
Conclusion
m = x~P
m
P(m / x) = P
P(m / ¬x) = ¬P
x = P|m
x

P(x / m) = µ*P / (¬µ*¬P + µ*P)
P(x / ¬m) = µ*¬P / (¬µ*P + µ*¬P)

m = x~(p,q)
m
P(m / ¬x) = ¬p
P(m / x) = q
x = (p,q)|m
x
P(x / m) = µ*q / (¬µ*¬p + µ*q)
P(x / ¬m) = µ*¬q / (¬µ*p + µ*¬q)

Les messages m = x~P et x = P|m décrivent un même schéma où seul l'inconnue change. Les messages m = x~(p,q) et x = (p,q)|m décrivent également un même schéma où seul l'inconnue change.

15) Variables d'univers et variables locales

Si nous posons une égalité entre la probabilité d'un évènement et une formule, cette formule ne peut pas contenir de variable d'univers. En effet la probabilité est calculer en dehors de tout tirage, et la valeur d'une variable d'univers correspond à un tirage. Aussi nous pouvons utiliser des variables locales de même nom que les variables d'univers sans qu'il y est d'ambiguités, et définir ainsi des probabilités paramétrées telle que P(m=M / x=X) sans avoir besoin d'utiliser des noms de variables supplémentaires M et X.

On définie une nouvelle notation, en utilisant des variables locales de même nom que les variables d'univers, et on écrira P(m / @x) égale à une expression fonction de la variable locale x, pour désigner la probabilité conditionnelle que m=1 sachant que la variable d'univers x est égale à la variable locale x. Cela évite d'utiliser une variable muette d'un autre nom tel que précédement avec X. L'évènement @x, désigne l'égalité entre la variable d'univers x et la variable locale x qui posséde le même nom, et l'évènement ¬@x désigne l'égalité entre la variable d'univers x et la négation de la variable locale x.

Ainsi nous avons :

Expression
Description
P(m / x)
Probabilté que m = 1 sachant que x = 1
P(@m / x)
Probabilté que m = variable_locale_m sachant que x = 1
P(m / @x)
Probabilté que m = 1 sachant que x = variable_locale_x
P(@m / @x)
Probabilté que m = variable_locale_m sachant que x = variable_locale_x

On rappel que l'opérateur de négation ¬ est étendu à l'ensemble des réels. Pour tout réel r nous avons : ¬r = (1-r)

Avec le schémat suivant :

nous avons :

P(m / x)       =     P
P(m / ¬x)     =    ¬P

P(@m / x)       =     m*P   +   ¬m*¬P
P(@m / ¬x)    =    m*¬P  +   ¬m*P

P(m / @x )       =    x*P     +   ¬x*¬P

P(@m / @x )   =    m*x*P + m*¬x*¬P + ¬m*x*¬P + ¬m*¬x*P

Parmis ces 4 systèmes d'équations équivalents, le premier d'entre-eux semble le plus simple, et servira de référence.

En utilisant ainsi le symbole @, le système suivant :

P(m / x) = P
P(m / ¬x) = P

est équivalent à :

P(m / @x) = P

Selon le contexte, x est soit, une variable d'univers, un évènement x=1, ou une variable locale.

La variable d'univers booléenne x possèdant deux états possibles et une probabilité de base, qui est dite atemporelle, car posée en dehors de toutes considération causale, c'est à dire une probabilité non conditionelle. Cette probabilité P(x) est la sommes des probabilités élémentaires des mondes où x=1.

@x est un évènement qui définie une varianle locale x. Si nous notons par U.x la variable d'univers x de l'univers U, et si nous notons simplement par x la variable locale x. L'évènement @x représente l'évènement U.x = x, et l''évènement ¬@x représente l'évènement U.x ≠ x. Tandis que x représente l'évènement U.x = 1 et ¬x représente l'évènement U.x = 0.

La notation se généralise pour deux évènements quelconques E, F, non nécesairement de base. Délors E n'est plus une variable d'univers mais une variable dite liée à l'évènement qu'elle représente c'est à dire égale à une expression logique de variables d'univers. Et il en est de même pour F. On note la variable liée par U.E et on crée une variable locale E. Et on fait de même pour F. On peut alors définir la probabilité P(@E / @F) en fonction des variables locales E et F. C'est la probabiliité que l'évènement U.E = E soit réalisé sachant que l'évènement U.F = F est réalisé.

 

Suite de la discussion : L'indépendance


D. Mabboux-Stromberg

---- 19 avril 2013 ----