On cherche un mécanisme de construction qui pourra permettre à un système, calculant des probabilités, de s'auto-construire, et de calculer des probabilités de plus en plus sophistiquées, intégrant les connaissances nouvelles exprimées dans un langage qui constitura son squelette. Les probabilités sont définies dans un univers. On cherche un cadre conceptuel qui permet de percevoir les symétries existantes dans ces univers et dans déduire les lois invariantes qui en sont leurs duales d'une certaine manière.
On part de la situation la plus élémentaire que l'on puisse rencontrer, la valeur d'un bit `x` transmis dans un canal brouillé et, ce qu'il en sort, le message `m`, une pâle copie de `x`.
Nous formalisons la connaissance qu'un système peut avoir sur ce bit, nous formalisons comment un système peut définir la probabilité d'un bit, concevoir l'univers dans lequel cette probabilité peut être définie, et les symétries auxquelles cette probabilité doit satisfaire. Dans le cas de brouillage simple, l'ordre des mesures, l'ordre des tirages au sort, n'intervient pas. Il n'apporte rien. On dit que les tirages au sort d'une même variable sont indépendants entre eux.
Dans certaine condition la probabilité que le bit `x` soit égale à `1` vaudra `P`, et la probabilité qu'il soit égale à `0` vaudra `1"-"P`. Et le système se sera auto-construit. Au lieu de contenir dans sa mémoire un simple booléen `x`, il contiendra une probabilité `P`, c'est à dire un flottant compris entre `0` et `1`. Et plus encore il contiendra une conception de l'univers permettant de définir cette probabilité.
Il faut toujours avoir à l'esprit que le sens de la probabilité ne se concrétise réelement que statistiquement, c'est à dire lorsqu'il y a un grands nombre d'essais. C'est pourquoi il faudra utiliser un grand nombre de bits, des messages trés longs, ou bien un grand nombre d'essais pour bien comprendre le rôle de ces probabilités.
Considérons un grand nombre de bits `x_1,x_2,x_3,...,x_N`. Considérons le message `m_1,m_2,m_3,...,m_N` transmettant une copie brouillées des bits `x_1,x_2,x_3,...,x_N` à un système ne possédant pas de connaissance préalable sur ces bits. Supposons que la transmission soit brouillée aléatoirement avec une probabilité `P` de non-erreur. Par définition, `P` est égale à la probabilité que `m "=" x`. Comme `N` est grand, idéalement grand pour que la sommation obéïsse aux lois de probabilités, on peut alors définir concrètement la probabilité `P` comme étant égale au nombre d'indices `i` où `m_i=x_i`, divisé par `N`.
L'univers est bien défini, il comprend `2N` variables booléennes `x_1,x_2,x_3,...,x_N`, `m_1,m_2,m_3,...,m_N`, appelées variables d'état de l'univers, ou simplement variables d'univers, et possède donc `2^(2N)` états possibles, appelés mondes, et possèdant chacun une probabilité dite élémentaire qui déterminent toutes les probabilités d'évènement envisageable dans cet univers.
Constructivement, la probabilité d'un évènement `E` de l'univers, que l'on note `P(E)`, est définie comme étant la somme des probabilités des évènements élémentaires appartenant à l'évènement `E`, c'est à dire la sommes des probabilités de chaque monde possibles de l'univers où l'évènement `E` est réalisé. Cela est simplement parceque les évènements élémentaires sont disjoints et exaustifs. Nous avons les égalités suivantes où `Omega` désigne l'univers :
`P(E) = sum_(e in E) P(e)`
`P(Omega) = sum_(e in Omega) P(e)=1`
Sémantiquement, la probabilité `P(E)` prend concrètement tout son sens probabiliste, que relativement à un nombre d'essais `N` idéalement grand. Après avoir tiré au sort `N` mondes possibles de l'univers, `P(E)` est égale à la fréquence de l'évènement `E`, c'est à dire au nombre de mondes tirés au sort où l'évenement est réalisé divisé par le nombre totale de mondes tirés au sort :
`P(E) = (N(E))/N`
On peut préciser sans trop savoir ce que cela veut dire exactement que cette notion de nombre `N` idéalement grand appliquée ici, est la même quelque soit l'évènement `E` de l'univers.
Considérons un bit `x`, une valeur booléenne sur laquelle nous n'avons pas de connaissance préalable. Là, nous avons bien atteint un niveau atomique de la donnée.
Considérons un message `m` nous informant de la valeur de `x`. Le message `m` est un bit également qui est une copie de `x`, émise, transmise via un conduit, puis reçu par notre système. La valeur `m` est par définition la valeur reçu par notre système. Si nous n'avons pas de connaissance préalable sur `x` et que le message `m` n'est pas brouillé alors le message `m` transporte toute l'information sur `x`, c'est à dire qu'il transporte une quantité d'information d'`1` bit qui s'ajoutera intégralement à la quantité d'information de notre système (si tant soit peut que l'on puisse évaluer la quantité d'information...). Si le message est brouillé, la quantité d'information transmise sera plus faible que `1` bit.
On modèlise un brouillage simple dans lequel le message boolean est aléatoirement négativé selon une probabilité. On retiendra comme caractéristique, la probabilité `P` de non-erreur plutôt que celle de l'erreur `1"-"P`. Le brouillage est propre au conduit et est caractérisé par `P`. Nous avons connaissance de cette probabilité `P`, ainsi que de cette caractéristique du hasard qu'est l'indépendance du brouillage par rapport au message boolean source (brouillage isotrope) et indépendance du brouillage par rapport aux temps et lieux (pas de clône possible du brouillage). La probabilité que `m"="x` que l'on note par `P(m"="x)` est égale à `P`. Pour décrire complètement la situation, il faut rajouter que la probabilité `P` est liée au canal et est indépendante de `x`, ce qui est indiqué par ce schéma :
`P(m"="x "/" x"="0) = P`
`P(m"="x "/" x"="1) = P`
Avons-nous construit une transformation aléatoire atomique ?..., non. Nous pouvons encore spécifier l'opération et la diviser sans franchir d'étape majeur modifiant la nature de l'opération. Le brouillage peut être spécifique selon la valeur de `x`, de tel sorte qu'il y ait en faite deux brouillages, un brouillage pour les valeurs de `x"="0`, et un autre brouillage pour les valeur de `x"="1`, c'est à dire un brouillage anisotrope. Noter alors que les probabilités deviennent conditionnelles. La probabilité que `m"="x` est égale à `p` lorsque `x"="0` et à `q` lorsque `x"="1` :
`P(m"="x "/" x"="0) = p`
`P(m"="x "/" x"="1) = q`
Ces deux brouillages `p` et `q` sont dits ; brouillage du `0`, et brouillage du `1`. Le brouillage du `0` change aléatoirement les valeurs booléennes `0`, de `0` en `1` avec une probabilité conditionnelle de non-changement égale à `p`, et est représenté par un rectangle étiqueté en entrée par `0` :
Brouillage du 0 avec une probabilité de non changement égale à p`P(m"="x "/" x"="0) = p`
`P(m"="x "/" x"="1) = 1`
Le brouillage du `1` change aléatoirement les valeurs booléennes `1`, de `1` en `0` avec une probabilité conditionelle de non-changement égale à `q`, et est représenté par un rectangle étiqueté en entrée par `1` :
Brouillage du 1 avec une probabilité de non changement égale à q`P(m"="x "/" x"="0) = 1`
`P(m"="x "/" x"="1) = q`
Nous avons ainsi construit deux transformations aléatoires atomiques que sont le brouillage du `0` de valeur `p` et le brouillage du `1` de valeur `q`, à partir desquels on pourra construire les autres transformations aléatoires. Mais sont-elles vraiment atomiques ?..., non. Nous pouvons encore les décomposer en un produit série de deux transformations de même genre avec des probabilités de non-changement plus grande. Mais avant d'aller plus loin dans la recherche des transformations aléatoires atomiques, nous allons calculer les probabilitées obtenues par combinaison série ou parallèle.
Le résultat de cette configuration est que maintenant on mémorise non seulement le bit `m` reçu, mais également la probabilité `P` de non-erreur du canal utilisé. Le système récepteur ne contient plus seulement une seul valeur booléenne comme c'était le cas avant d'introduire ces opérations de brouillage, mais contient les deux valeurs `(P,m)`, ou bien les trois valeurs `(p,q,m)` dans le cas du brouillage anisotrope. Le système complexifie sa structure de données pour intégrer ces nouvelles données.
On s'inspire des systèmes de typage, tel celui de Hindley-Milner utilisé par le langage fonctionnel et logique Haskell, pour décrire notre structure de donnée, ce qui nous simplifie le travail en le concrétisant et en levant les ambiguités sans alourdire le raisonnement. Le langage joue un rôle majeur dans la structuration des données, proposant des opérateurs dynamiques appelées constructeurs qui, comme leur nom l'indique, construisent des données structurées. Et ces constructeurs sont également vue mathématiquement comme des opérateurs propres à un langage, vérifiant des propriétés et théories. On avance par tatonnement, en essayant une notation, regardant ses propriétés et transformations possibles, pour l'adapter ou finalement en changer.
Le message nous informant de l'arrivé d'un message `m` via un canal brouillé de probabilité `P` (probabilité de non-changement), se note `P"|"m`. On utilise le constructeur `"|"` qui représente le pipe (tuyau) en Unix. `m` est un boolean, et `P` est une probabilité c'est à dire un flotant compris entre `0` et `1`. On a choisie cet ordre `P"|"m` pour nous rappeler que la probabilité `P` possède une direction de `x` vers `m` et non de `m` vers `x`. En effet `x` et `P` sont les causes de `m` et non l'inverse, `m` et `P` ne sont pas les causes de `x`.
Nous définissons aussi `(p,q)"|"m` comme étant le message nous informant de l'arrivé d'un message `m` via un canal brouillé anisotrope de probabilités `p` et `q`, probabilité conditionnelle `p` de non-changement sachant que `x"="0`, et probabilité conditionnelle `q` de non-changement sachant que `x"="1`. Nous avons par définition `P"|"m = (P,P)"|"m` ce qui signifie que le brouillage P est indépendant de x et est donc isotrope.
Si le système ne veut perdre aucune donnée, il doit mémoriser ce message. Peut être le mémorisera-t-il sous une autre forme. Mais pour l'instant proposons qu'il le mémorise sous cette forme `P"|"m`. Le système possède deux niveaux de données. Un premier niveau qui ne contient que `m`. L'interprétation en est facile. C'est la valeur que le système croie être pour `x`. Et un second niveau plus sophistiqué qui contient `P"|"m`. Quelle est la signification de `P"|"m` ? ... Cela ne représente qu'un tirage opéré par le canal de transmission, et cela n'apporte aucune certitude concernant le boolean `x`, son interprétation n'est pas trivial, car pour l'interpréter correctement il faut opérer quelque chose de similaire à une inversion de la flêche du temps.
Pour être complet, il faut expliciter et donc ajouter à cela une autre information, dite topologique, qui désigne le bit en question. Cela peut se faire par l'égalité `x = P"|"m` où le nom "`x`" contient cette information topologique. Cela signifie que concernant le bit de nom "`x`", nous avons comme unique information `P"|"m`, une pale copie de celui-ci transmis par un canal brouillé.
La quantité d'information se mesure en nombre de bits. Un système possèdant une mémoire de n bits peut contenir une quantité d'information de n bits et pas plus. Parcontre il peut en contenir moins si la donnée mémorisée est redondante. Mais ce qui détermine la redondance de la donnée fait intervenir des typages, des métadonnées qui caractérisent la structure de données, et qui ne sont pas comptabilisées en quantité d'information de la même façon, ou alors sur un autre plan lorsqu'elles sont elles-mêmes mémorisées dans une structure dite de type.
Par exemple, considérons la mémorisation d'un entier en bâtons compris entre `1` et `n`, cela utilise `n` bits. Mais si nous choisissons de représenter l'entier en binaire, cela n'utilisera que `log(n)` bits.
Autre exemple, si nous considérons la mémorisation d'un multi-ensemble de `n` booleans sous forme d'une liste de n bits, cela occupe physiquement `n` bits, offrant `2^n` représentations distinctes possibles alors que la donnée possède un nombre de valeurs distinctes possibles beaucoup plus faible égale à :
`|{(a,b) "/" a"+"b"="n∧a"⩾"0∧b"⩾"0}| = n`
Donc seul `log(n)` bits est nécessaire pour mémoriser les multi-ensembles de `n` booléens à la seul fin de les distinguer.
On note `I(P)` la quantité d'information apportée par le message `m` copie d'un bit `x` brouillé aléatoire et de façon isotrope avec une probabilité `P` de non-erreur et qui est reçue par un système ne possédant pas de connaissance préalable sur `x`, mais connaissant la probabilté `P` caractéristique du brouillage.
Dans le cas où `P"="1`, le message `m` apporte une quantité d'information de `1` bit qui s'ajoute intégralement au systéme. Cela signifie que le système ne peut pas réduire cette quantité de donnée sans occasionner une perte de donnée, qu'il lui faut donc au moins un bit de mémoire non déjà utilisé pour mémoriser cette information.
`I(1) = 1` bit
Dans le cas où `P"="1"/"2`, la quantité d'information transportées est nulle. C'est l'effet absorbant. Voyez par l'expérience !. Aucune information ne peut être extraite d'un message boolean brouillé avec une probabilité `1"/"2`. Le brouillage est total. Pour forcer ce mur, il est nécessaire d'accéder aux failles du brouillage, tel que par exemple, l'existence d'un brouillage clone.
`I(1"/"2) = 0`
Dans le cas où `P<1"/"2`, on prend la négation du message, ce qui inverse le message en un message brouillé aléatoirement avec une probabilité `1"-"P` de non-erreur. On se ramène ainsi toujours au cas d'une probabilité supérieure à `1"/"2`. Cette opération constitue une opération élémentaire d'apprentissage d'un reseau de neurone booléen. En mettant en oeuvre ce mécanisme d'apprentissage, comme un aspect, nous optenons la définition suivante :
`I(P) = I(1"-"P) = "max"(I(P), I(1"-"P))`
Comment traduisons-nous le fait de ne pas avoir de connaissance préalable sur `x` ? Cela revient au même que de recevoir pour la première fois une copie de `x` brouillée avec une probabilité `P"="1"/"2`. Le système mémorise `x = P"|"m`, et lorsque ces valeurs sont `0.5"|"0` ou `0.5"|"1`, cela signifie exactement que le système n'a pas d'information sur `x`. Cela est donc identique à l'absence de valeur.
Un message `x = P"|"m` va nous informer sur `x`, mais l'interpretation de cette information reste encore obscure. En particulier elle ne nous permet pas de définir la probabilité de `x` en fonction de `m` et de `P`, c'est à dire de déterminer la propabilité conditionelle de `x` sachant `m`. Alors que la probabilité de `m` en fonction de `x` et de `P`, c'est à dire la propabilité conditionelle de `m` sachant `x`, est donnée par l'hypothèse :
`P(m"="1 "/" x"="1) = P`
`P(m"="0 "/" x"="0) = P`
Le brouillage possède un sens de déroulement, et dans le bon sens il s'interprète simplement. Il s'agit du sens causal, partant de la cause et finissant par l'effet.
On peut définir un message analogue mais informant d'un brouillage dans l'autre sens, c-à-d informant le système de l'émission vers un destinataire exterieur d'une copie de `x` via un canal brouillé de probabilité `P`, et dont le but est d'estimer la valeur résultante `m` de ce brouillage qui a été finalement reçue par le destinataire exterieur. Formalisons cet autre message par l'expression `x~P`.
Le système est informé par ce message d'une valeur booléenne `x`, qu'une copie de cette valeur est émise à travers un canal brouillé de probabilité `P`, et qu'elle est transmise sous le nom de `m` à un destinataire. Et le message `x~P` a pour but d'acroître nos connaissances sur le bit `m`. On utilise le constructeur `~` qui représente intuitivement le canal perturbé aléatoirement. Et `x` doit être un boolean, et `P` un flotant compris entre `0` et `1`. On a respecté cet ordre `x~P` pour nous rappeler que `x` est la valeur de départ qui est émise et qui subit une transformation aléatoire de probabilité `P` de non-changement, dans le canal utilisé, pour produire une valeur `m` inconnue. Le but du message est de nous informer sur `m`.
Pour être complet, il faut ajouter à cela une information dite topologique désignant le bit `m` reçu par le destinataire extèrieur, résultat de la transmission perturbée, ce qui se fait en notant l'égalité `m = x~P` où le nom "`m`" contient cette information topologique. Cela signifie que concernant le bit reçu par le destinataire exterieur et que nous nommons "`m`", nous avons comme unique information `x~P`.
Dans les deux cas, c'est la même transformation aléatoire qui est mise en oeuvre, ce sont les mêmes probabilités qui sont calculés, seul change le statut d'inconnue des variables `x` et `m`. La transformation aléatoire possède un sens de `x` vers `m` et non de `m` vers `x`. En effet, `x` et `P` sont les causes de `m`, parcontre `m` et `P` ne sont pas les causes de `x`. C'est ce qu'on appel le sens causal, partant de la cause pour aller vers l'effet. Dans une suite causale, des causes nouvelles peuvent s'insérer mais leurs effets ne portent que sur les termes suivants.
Le message `m = x~P` nous informe de la probabilité de `m` sachant `x`. La probabilté que `m"="x` vaut exactement `P` c'est à dire :
`P(m"="x) = P`
Ce message nous informe aussi que le brouillage est isotrope, c'est à dire que l'évènement `m=x` est indépendant de l'évènement `x`, et donc que les probabilités conditionnelles de non-changement selon `x` sont toutes les deux égales à `P` :
`P(m"="x "/" x"="0) = P`
`P(m"="x "/" x"="1) = P`
Pour deux évènements quelconques `A`, `B`, la probabilité d'un évènement `A` sachant l'évènement `B` se note `P(A "/" B)`. Elle suppose que l'évènement `B` se réalise, faisant que cet évènement peut être ajouté sous forme d'une conjonction à l'évènement attendu : `P(A "/" B) = P(A" et "B "/" B)`. Appliquer à notre cas, on en déduit :
`P(m"="x" et "x"="0 "/" x"="0) = P`
`P(m"="x" et "x"="1 "/" x"="1) = P`
et donc que :
`P(m"="0 "/" x"="0) = P`
`P(m"="1 "/" x"="1) = P`
Puis en inversant une probabilité, on obtient :
`P(m"="1 "/" x"="0) = 1"-"P`
`P(m"="1 "/" x"="1) = P`
L'univers possède un certain nombre de variables dites d'univers. Et il comprend un nombre fini de mondes possibles représentant les différentes configurations de valeurs possibles de ses variables d'univers. Un monde représente un tirage au sort dans cet univers, et correspond donc exactement à un évènement élémentaire. Les mondes sont donc exclusifs et exhaustifs, et possède chacun une probabilitée élémentaires. Ces probabilités élémentaires sont les paramètres de l'univers.
Un univers avec `n` variables booléennes libres possède `2^n` mondes possibles.
Considérons une variable d'univers `x` booléenne. L'évènement `x"="1` n'est pas élémentaire, car il correspond à la disjonction de tous les évènements élémentaires, appelés mondes possibles, où `x"="1`. Il en est de même pour l'évènement `x"="0`. Néanmoins ces évènements jouent un rôle particulier et sont appelés évènements de base. Leur probabilités se notent `P(x"="1)` et `P(x"="0)`.
L'évènement `x"="1` peut être désigné par l'évenement `x`, et l'évènement `x"="0` peut être désigné par l'évènement `"¬"x`. On laissera au contexte le soin de lever l'ambiguité, à savoir si c'est une variable d'univers ou un évènement de base. Leur probabilités peuvent alors se noter par `P(x)` et `P("¬"x)`.
La probabilité d'un évènement est égale à la fréquence de l'évènement calculé sur un nombre idéalement grand de tirages. Mais la notion de nombre idéalement grand de tirages est a intérpréter ici comme une limite pour approcher autant qu'on le souhaite les probabilités des évènements élémentaires avec leurs fréquences d'apparitions.
Si on ajoute une hypothèse de finitude du nombre de tirage, faisant que celui-ci se répète après à l'identique de façon cyclique, alors ce nombre idéalement grand correspond à un nombre fixé `N` correspondant au nombre de tirages sur un cycle. La notion d'indépendance par rapport à l'ordre de tirage sans trouve changée et adaptée à un tirages `N`-cyclique. On parlera d'indépendance `N`-cyclique. Avec cette hypothèse, chaque probabilité élémentaire est une fraction égale à la fréquence de l'évènement élémentaire sur `N` tirages consécutifs.
On adopte la convention de noter `(1"-"P)` par `"¬"P` pour n'importe quelle reel `P`, et on pose que l'opérateur `"¬"` est syntaxiquement prioritaire aux autres opérateurs, faisant que `"¬"PQ` est égale à `(1"-"P)Q` et non à `1 "-" PQ`.
Le résultat précédent (chapitre 6) s'écrit :
`P(m "/" "¬"x) = "¬"P`
`P(m "/" x) = P`
L'évènement `x` représente l'évènement `x"="1`, et l'évènement `"¬"x` représente l'évènement `x"="0`.
La variable `x` est une variable d'univers. Elle possède deux états possibles et une probabilité de base `P(x)`. Cette probabilité est dite atemporelle car posée en dehors de toutes considération causale, c'est à dire une probabilité non conditionelle. `P(x)` est la sommes des probabilités élémentaires des mondes où `x"="1`.
Le message `m = x~P` reçu par un système ne possédant aucune connaissance préalable sur `m`, lui apporte comme information sur `m` ; une valeur de `x` et une valeur de `P` qui signifient les deux probabilités suivantes :
`P(m "/" x) = P`
`P(m "/" "¬"x) = "¬"P`
Noter que l'on ne cherche pas la probabilité intemporelle de `m`, mais la probabilité de `m` connaissant la valeur de `x`, c'est à dire la propabilité conditionnelle de `m` sachant `x`, et qui est aussi appelée la probabilité contingente de `m` et qui vaut `P` ou `"¬"P` selon que `x` vaut `1` ou `0`.
Message Schéma Inconnue Conclusion `m = x~P` `m` `P(m "/" x) = P`
`P(m "/" "¬"x) = "¬"P`
Il convient de vérifier le résultat par un autre calcul. L'évènement `(x" et "m)` et l'évènement `("¬"x" et ""¬"m)` étant disjoint, les probabilités s'ajoutent. Nous avons bien :
`P(x"="m) = P(x" et "m) + P("¬"x" et ¬"m)`
`= (P(x)P(x" et "m))/(P(x)) + (P("¬"x)P("¬"x" et ¬"m))/(P("¬"x))`
`= P(x)P(m "/" x) + P("¬"x)P("¬"m "/" "¬"x)`
`= P(x)P(m "/" x) + ¬P(x)"¬"P(m "/" "¬"x)`
`= P(x)P + "¬"P(x)"¬¬"P`
`= P(x)P + "¬"P(x)P`
`= (P(x) + "¬"P(x))P`
`= P`
La cohérence du résultat constitue un élément de preuve.
Parcontre dans l'autre sens, le message `x = P"|"m` ne permet pas de calculer la probabilité de `x`. En effet, `P"|"m` ne représente qu'un tirage opéré par le canal, et cela n'apporte aucune certitude concernant le bit `x`, son interprétation n'est pas trivial, car pour l'interpréter correctement, il faut opérer quelque chose de similaire à une inversion de la flêche du temps.
La probabilté de `x` dont il est question, et que nous cherchons, est en faite une probabilité conditionnelle. C'est la probabilité de `x` sachant ce que l'on sait, c'est à dire sachant la valeur de `m`. Il existe une probabilité de `x` non conditionelle dite atemporelle notée `P(x) = µ`.
Nous connaissons la probabilité `P(m) = P` et de façon plus complète, les probabilités `P(m "/" x) = P` et `P(m "/" "¬"x) = "¬"P`, et nous voulons connaitre les probabilités `P(x "/" m)` et `P(x "/" "¬"m)`. Cela ne peut se faire complètement car il reste un paramètre inaccessible qu'est la probabilité atemporelle de `x`, notée `P(x) = µ`. Mais nous pouvons développer `P(x "/"m)` et `P(x "/" "¬"m)` en fonction du brouillage `P` et de cette probabilité `µ`.
Une erreur commune consiste à dire : Si l'évènement `m` a lieu alors `P(x"="m) = P(x)`, erreur ! En effet, si `m` a lieu alors la probabilité devient obligatoirement conditionnelle, et nous ne pouvons pas oublier que `m"="1`, et cela s'écrit donc `P(x"="m "/" m) = P(x "/" m)`. Et ce n'est pas du tout pareil, car nous ne connnaissons pas `P(x"="m "/" m)`, nous connaissons seulement `P(x"="m)` qui est par ailleur indépendant de `x`. Aussi, si vous n'êtes pas aux faites des manipulations des probabilités conditionnelles, mieux vaut d'abord appréhender le problème globalement en établissant la table de vérité de tous les états possibles de l'univers, c'est à dire la liste de tous les mondes possibles avec leur probabilités élémentaires respectives, et puis établire sous forme d'équation les contraintes imposées par la configuration.
Pour définir la probabilité de `x`, dite atemporelle, nous considérons la liste de tous les états microscopiques possibles de l'univers avec chacun leurs probabilitées dites élémentaires, qui constituent la table de vérité de l'univers. Une vision plus tactile utiliserait les termes que voici : Pour définir la probabilité de `x`, nous allons considérer la liste des mondes parallèles possibles avec leurs probabilités respectives. La probabilité de `x` est égale à la somme des probabilités des mondes où `x"="1`.
Un monde, est un évènement élémentaires, c'est aussi un état microscopique de l'univers, et il possède une probabilité élémentaires. La liste de ces probabilités élémentaires constituent les paramètres de l'univers, et sont liés par une seul contrainte : La sommes des probabilité élémentaire doit être égale à 1.
L'univers comprend 2 variables d'état booleénnes `x` et `m`, ou simplement appelées variables d'univers, soit 4 états microscopiques possibles, 4 mondes possibles, décrits par la table de vérité avec leurs 4 probabilitées élémentaires inconnues `P_0, P_1, P_2, P_3`. On remarquera que la numérotation choisie correspond au nombre binaire constitué par les deux chiffres `(x,m)` avec `x` comme bit de point fort et `m` comme bit de point faible, c'est à dire égale à `2x + m`. On remarquera que par une opération logique on peut construire l'évènement `m"="x`,
`x` `m` Probabilité élémentaire `m"="x` `1` `1` `P_3` `P(x" et "m)` `1` `1` `0` `P_2` `P(x" et ""¬"m)` `0` `0` `1` `P_1` `P("¬"x" et "m)` `0` `0` `0` `P_0` `P("¬"x" et ""¬"m)` `1`
La table de vérité est exhaustive :
`P_0 + P_1 + P_2 + P_3 = 1`
L'hypothèse consiste en une copie du bit `x` qui est transmise via un canal brouillé de façon isotrope de probabilité de non-erreur égale à `P` pour produire le bit `m` :
Le canal de transmission est de probabilité `P(x"="m)=P` :
`P_0 + P_3 = P`
La probabilité de base de `x` est une probabilité inconnue `P(x)=µ` :
`P_2 + P_3 = µ`
Il reste un degré de liberté qui pour des raisons de symétrie est choisie égale à `L = P_1 + P_3`, c'est la probabilité de base de `m` notée `P(m) = L` :
`P_1 + P_3 = L`
La table de vérité se réécrit ainsi :
`x` `m` Probabilité élémentaire `m"="x` `1` `1` `P_3` `P(x" et "m)` `( P + L + µ - 1 )/2` `1` `1` `0` `P_2` `P(x" et ""¬"m)` `( - P - L + µ + 1 )/2` `0` `0` `1` `P_1` `P("¬"x" et "m)` `( - P + L - µ + 1 )/2` `0` `0` `0` `P_0` `P("¬"x" et ""¬"m)` `( P - L - µ + 1 )/2` `1`
Avons nous épuisé toutes les hypothèses de la configuration ?..., non !, il manque l'hypothèse de l'indépendance du brouillage `P`. Cette hypothèse joue un rôle capital dans la configuration, un rôle centrale qui donne tout son sens à la configuration. Elle se transcrit de manière subtile :
Pour rappel, deux évènements `X` et `Y` sont indépendants si et seulement si la probabilité de leur conjonction est égale au produit des probabilités. C'est à dire que :
`{X,Y}` indépendant `<=> P(X" et "Y) "=" P(X)P(Y)`
La configuration étant trés simple, et faute de candidat, le brouillage est seulement indépendant de `x`, autrement dit, il est isotrope. Cela signifie que les événements `m"="x` et `x` sont indépendants, et donc que :
`P(m"="x)P(x) = P(m"="x" et "x)`
`Pµ = P_3`
Par contre, le brouillage n'est pas indépendant de `m`, car `m` résulte de `x` et du brouillage `P`. Le brouillage fait partie d'une des causes de `m`.
Avec cette dernière équation `Pµ = P_3` on élimine `L`, et la table de vérité se réécrit ainsi :
`x` `m` Probabilité élémentaire `m"="x` `1` `1` `P_3` `P(x" et "m)` `µP` `µP` `1` `1` `0` `P_2` `P(x" et ""¬"m)` `µ"¬"P` `µ-µP` `0` `0` `1` `P_1` `P("¬"x" et "m)` `"¬"µ"¬"P` `1-µ-P+µP` `0` `0` `0` `P_0` `P("¬"x" et ""¬"m)` `"¬"µP` `P-µP` `1`
Les 4 probabilités élémentaires comprennent deux paramètres, l'un connu `P` qui caractérise le brouillage isotrope du canal, l'autre inconnu `µ` qui est la probabilité de base de `x`. Et nous avons bien :
`1 = "¬"µP + "¬"µ"¬"P + µ"¬"P + µP`
Et nous avons la propriété : `P_0 + P_1 + P_2 + P_3 = 1`
On rappel la définition des probabilités conditionnelles et comment on peut diviser un évènement en deux évènements exclusifs. Quelques soients deux évènements `A, B`, nous avons ces propriétés remarquables :
`P("¬"A) = "¬"P(A)`
`P("¬"A "/" B) = "¬"P(A "/" B)`
`P(A "/" B) = P(A" et "B "/" B)`
`P(A "/" B) = (P(A" et "B)) / (P(B))`
`P(A) = P(A" et "B) + P(A" et ""¬"B)`
`P(A) = P(A "/" B)P(B) + P(A "/" "¬"B)P("¬"B)`
A partir des probabilités élémentaires calculées au chapitre précedent, les probabilités de base s'obtiennent comme suit :
Probabilité
de base Exprimée en somme de
probabilités élémentaires Exprimée en fonction
de `µ` et `P` `P(x)` `P(x" et ""¬"m) + P(x" et "m)` `P_2 + P_3` `µ` `µ` `P("¬"x)` `P("¬"x" et ""¬"m) + P("¬"x" et "m)` `P_0 + P_1` `¬µ` `1-µ` `P(m)` `P("¬"x" et "m) + P(x" et "m)` `P_1 + P_3` `"¬"µ"¬"P+µP` `1-µ-P+2µP` `P("¬"m) ` `P("¬"x" et ""¬"m) + P(x" et ""¬"m)` `P_0 + P_2` `"¬"µP+µ"¬"P` `µ+P-2µP`
Nous avons bien : `"¬"("¬"µ"¬"P+µP) = "¬"µP+µ"¬"P`
On peut alors s'intéroger sur la signification des deux autres sommes `P_0+P_3` et `P_1+P_2` qui n'apparaissent pas. Leur interprétation est encore une probabilité de base, mais dans une autre base, c'est à dire dans un autre univers obtenu par changement de base, où l'évènement `x"="m` correspond à une variable d'univers.
`P(x"="m) = P("¬"x" et ""¬"m) + P(x" et "m) = P_0 + P_3 = P`
`P(x"≠"m) = P("¬"x" et "m) + P("¬"x" et "m) = P_1 + P_2 = ¬P`
En conclusion :
`P(m) = "¬"µ"¬"P + µP = 1-µ-P+2µP`
Les probabilités conditionnelles s'obtiennent comme suit :
`P("¬"m "/" "¬"x) = (P("¬"x" et ""¬"m)) / (P("¬"x)) = P_0/(P_0+P_1)` `P(m "/" "¬"x)=(P("¬"x" et "m)) / (P("¬"x))=P_1/(P_0+P_1)` `P("¬"m "/" x)=(P(x" et ""¬"m)) / (P(x))=P_2/(P_2+P_3)` `P(m "/" x)=(P(x" et "m)) / (P(x))=P_3/(P_2+P_3)`
`P("¬"x "/" "¬"m)=(P("¬"x" et ""¬"m)) / (P("¬"m))=P_0/(P_0+P_2)` `P(x "/" "¬"m)=(P(x" et ""¬"m)) / (P("¬"m))=P_2/(P_0+P_2)` `P("¬"x "/" m)=(P("¬"x" et "m)) / (P(m))=P_1/(P_1+P_3)` `P(x "/" m)=(P(x" et "m)) / (P(m))=P_3/(P_1+P_3)`
|
|
|
|
Le message `x = P"|"m` reçu par un système ne possédant aucune connaissance préalable sur `x`, lui apporte comme information sur `x` ; une valeur de `m` et une valeur de `P` qui signifient les deux probabilités suivantes :
`P(m "/" x) = P`
`P(m "/" "¬"x) = "¬"P`
C'est le même schéma qui est mis en oeuvre mais à la différence du message `m = x~P` , ce n'est plus `m` qui tient le rôle de l'inconnue, c'est `x`. Noter que l'on ne cherche pas la probabilité atemporelle de `x`, qui de toute façon est inaccessible, mais la probabilité de `x` connaissant la valeur de `m`, qui est appelée la probabilité contingente de `x`.
On connait la probabilité de `m` sachant la valeur de `x`. Et en inversant en quelque sorte le sens de la flêche du temps, on peut calculer la probabilité de `x` sachant la valeur de `m`. Celle-ci sera fonction du brouillage `P` et de la probabilité de base `P(x) = µ`.
On reprend les 4 probabilités `P_0, P_1, P_2, P_3` décrites au chapitre 11 :
`P_0 = P("¬"x" et ""¬"m) = "¬"µP`
`P_1 = P("¬"x" et "m) = "¬"µ"¬"P`
`P_2 = P(x" et ""¬"m) = µ"¬"P`
`P_3 = P(x" et "m) = µP`
Avec les probabilité de base correspondantes :
`P(x) = µ`
`P(m) = "¬"µ"¬"P + µP`
`P(m"="x) = P`
Rappelons que pour tout réel ou booléen `r`, nous avons par définition : `"¬"r = 1"-"r`.
Nous avons alors :
`P(x "/" m) = (P(x" et "m)) / (P(m))` `= (P(x" et "m)) / (P("¬"x" et "m) + P(x" et "m))` `= P_3 / (P_1+P_3)` `= (µP) / ("¬"µ"¬"P + µP)` |
`P("¬"x "/" m)=(P("¬"x" et "m)) / (P(m))` `=(P("¬"x" et "m)) / (P("¬"x" et "m) + P(x" et "m))` `=P_1 / (P_1+P_3)` `=("¬"µ"¬"P) / ("¬"µ"¬"P + µP)` |
`P(x "/" "¬"m)=(P(x" et ""¬"m)) / (P("¬"m))` `=(P(x" et ""¬"m)) / (P("¬"x" et ""¬"m) + P(x" et ""¬"m))` `=P_2 / (P_0+P_2)` `=(µ"¬"P) / ("¬"µP + µ"¬"P)` |
`P("¬"x "/" "¬"m)=(P("¬"x" et ""¬"m)) / (P("¬"m))` `=(P("¬"x" et ""¬"m)) / (P("¬"x" et ""¬"m) + P(x" et ""¬"m))` `=P_0 / (P_0+P_2)` `=("¬"µP) / ("¬"µP + µ"¬"P)` |
Nous obtenons une sorte de table de vérité mettant en exergue le sens inverse du temps, car d'après l'hypothèse, `m` est la cause de `x` et non l'inverse.
`x` `m` Probabilité conditionnelle `m"="x` `0` `0` `P("¬"x "/" "¬"m)` `("¬"µP) / ("¬"µP + µ"¬"P)` `1` `0` `1` `P("¬"x "/" m)` `("¬"µ"¬"P) / ("¬"µ"¬"P + µP)` `0` `1` `0` `P(x "/" "¬"m)` `(µ"¬"P) / ("¬"µP + µ"¬"P)` `0` `1` `1` `P(x "/" m)` `(µP) / ("¬"µ"¬"P + µP)` `1`
Par symétrie de la négation, cela constitue un système de 2 équations :
`P(x "/" m) = (µP) / ("¬"µ"¬"P + µP)`
`P(x "/" "¬"m) = (µ"¬"P) / ("¬"µP + µ"¬"P)`
Noter que l'on ne cherche pas la probabilité atemporelle de `x` qui est un paramètre inconnu et inaccessible `µ = P(x)`, mais la probabilité de `x` connaissant la valeur de `m`, qui est appelée la probabilité contingente de `x` et qui vaut `µP"/"("¬"µ"¬"P + µP)` ou `µ"¬"P"/"("¬"µP + µ"¬"P)` selon que `m` vaut `1` ou `0`.
Message Schéma Inconnue Conclusion `x = P"|"m` `x` `P(x "/" m) = µP"/"("¬"µ"¬"P + µP)`
`P(x "/" "¬"m) = µ"¬"P"/"("¬"µP + µ"¬"P)`
Dans le cas anisotrope, l'univers possède toujours `2` variables booléennes libres `x` et `m`, et donc possède `4` mondes possibles décrits dans sa table de vérité. Le brouillage anisotrope est un hasard indépendant, mais pas de `x`, et il est caractérisé par les deux probabilités conditionnelles suivantes `(p,q)` qui sont posées comme des paramètres de l'univers :
L'univers peut être décrit par l'expression `x=(p,q)"|"m`, qui nous informe de l'arrivé d'un message `m` qui est une copie de l'inconnue `x` qui a été transmise via un canal brouillé anisotrope de probabilités `(p,q)`, une probabilité conditionnelle `p` de non-changement sachant que `x"="0`, et une probabilité conditionnelle `q` de non-changement sachant que `x"="1`.
Ou l'univers peut être décrit par l'expression `m=x~(p,q)`, qui nous informe de l'envoi d'un message `x` transmis via un canal brouillé anisotrope de probabilités `(p,q)` pour former ainsi une copie inconnue `m`. Les probabilité évoquées sont la probabilité conditionnelle `p` de non-changement sachant que `x"="0`, et la probabilité conditionnelle `q` de non-changement sachant que `x"="1`.
Dans les deux cas nous avons :
`P(m"="x "/" "¬"x) = p`
`P(m"="x "/" x) = q`
On remarque que :
`P(m"="x "/" "¬"x) = P(m"="x" et ""¬"x "/" "¬"x)`
`P(m"="x "/" "¬"x) = P("¬"m "/" "¬"x)`
`P(m"="x "/" "¬"x) = "¬"P(m "/" "¬"x)`
`P(m"="x "/" x) = P(m"="x" et "x "/" x)`
`P(m"="x "/" x) = P(m "/" x)`
donc le système initial est équivalent à :
`P(m "/" "¬"x) = "¬"p`
`P(m "/" x) = q`
Conclusion : La réception du message `m = x~(p,q)` par un système ne possédant aucune connaissance préalable sur `m`, lui apporte comme information, une valeur de `x`, une valeur de `(p,q)`, qui désignent les deux probabilités suivantes :
`P(m "/" "¬"x) = "¬"p`
`P(m "/" x) = q`
Noter que l'on ne cherche pas la probabilité atemporelle de `m`, mais la probabilité de `m` connaissant la valeur de `x`, qui est appelée la probabilité contingente de `m` et qui vaut `"¬"p` ou `q` selon que `x` vaut `0` ou `1`.
Message Schéma Inconnue Conclusion `m = x~(p,q)` `m` `P(m "/" "¬"x) = "¬"p`
`P(m "/" x) = q`
Puis pour interpréter le message `x = (p,q)"|"m`, il faut calculer les probabilités de `x` sachant `m`.
On rappel que selon la définition des probabilités conditionnelles, la probabilité d'une conjonction d'évènements quelconques `A, B` se décompose en un produit de probabilités comme suit :
`P(A" et "B) = P(A)P(B "/" A)`
Et cette règle se généralise (et correspond à la sommation de la quantité d'information) : L'ajout d'un évènement `C` à la conjonction `A" et "B` se traduit en multipliant par la probabilité conditionnelle de cet évènement `C` sachant les autres évènements :
`P(A" et "B" et "C) = P(A) P(B "/" A) P(C "/" A" et "B)`
En appliquant cette règle de calcul, on obtient :
`P(x" et "m) = P(x) P(m "/" x)`
`= P(x) P(m"="x "/" x)` Notez que `(m" et "x) <=> (m"="x" et "x)`
`= µq``P(x" et ""¬"m) = P(x) P("¬"m "/" x)`
`= P(x) P(m"≠"x "/" x)` Notez que `("¬"m" et "x) <=> (m"≠"x" et "x)`
`= µ"¬"q``P("¬"x" et "m) = P("¬"x) P(m "/" "¬"x)`
`= P("¬"x) P(m"≠"x "/" "¬"x)` Notez que `(m et "¬"x) <=> (m"≠"x et "¬"x)`
`= "¬"µ"¬"p``P("¬"x" et ""¬"m) = P("¬"x) P("¬"m "/" "¬"x)`
`= P("¬"x) P(m"="x "/" "¬"x)` Notez que `("¬"m" et ""¬"x) <=> (m"="x" et ""¬"x)`
`= "¬"µp`
On obtient la table de vérité suivante :
`x` `m` Probabilité élémentaire `m"="x` `1` `1` `P(x" et "m)``E_3` `µq` `1` `1` `0` `P(x" et ""¬"m)``E_2` `µ"¬"q` `0` `0` `1` `P("¬"x" et "m)``E_1` `"¬"µ"¬"p` `0` `0` `0` `P("¬"x" et ""¬"m)``E_0` `"¬"µp` `1`
Cette table de vérité comprend trois paramètres, deux connus `p` et `q` qui caractérisent le brouillage anisotrope du canal, l'autre inconnue `µ` qui est la probabilité de base de `x`. Et nous avons bien :
`1 = "¬"µp + "¬"µ"¬"p + µ"¬"q + µq`
En appliquant la définition des probabilités conditionnelles :
`P(A "/" B) = (P(A" et "B)) / (P(B))`
On peut calculer la probabilité de `x` sachant `m`, comme si `x` dépendait de `m` par une relation de cause à effet en inversant en quelque sorte le sens de la flêche du temps.
`P(x "/" m) = (P(x" et "m)) / (P(m))` `= (P(x" et "m)) / (P("¬"x" et "m) + P(x" et "m))` `= (µq) / ("¬"µ"¬"p + µq)` |
`P("¬"x "/" m) = (P("¬"x" et "m)) / (P(m))` `= (P("¬"x" et "m)) / (P("¬"x" et "m) + P(x" et "m))` `= ("¬"µ"¬"p) / ("¬"µ"¬"p + µq)` |
`P(x "/" "¬"m) = (P(x" et ""¬"m)) / (P("¬"m))` `= (P(x" et ""¬"m)) / (P("¬"x" et ""¬"m) + P(x" et ""¬"m))` `= (µ"¬"q) / ("¬"µp + µ"¬"q)` |
`P("¬"x "/" "¬"m) = (P("¬"x" et ""¬"m)) / (P("¬"m))` `= (P("¬"x" et ""¬"m)) / (P("¬"x" et ""¬"m) + P(x" et ""¬"m))` `= ("¬"µp) / ("¬"µp + µ"¬"q)` |
On obtient une sorte de table de vérité méttant en exergue le sens inverse du temps, car dans le schéma, `m` est une conséquence de `x` et non l'inverse :
`x` `m` Probabilité élémentaire `m"="x` `1` `1` `P(x "/" m)` `(µq) / ("¬"µ"¬"p + µq)` `1` `1` `0` `P(x "/" "¬"m)` `(µ"¬"q) / ("¬"µp + µ"¬"q)` `0` `0` `1` `P("¬"x "/" m)` `("¬"µ"¬"p) / ("¬"µ"¬"p + µq)` `0` `0` `0` `P("¬"x "/" "¬"m)` `("¬"µp) / ("¬"µp + µ"¬"q)` `1`
Conclusion : La réception du message `x = (p,q)"|"m` par un système ne possédant aucune connaissance préalable sur `x`, lui apporte comme information, la valeur de `m` et la valeur de `(p,q)` qui sont les deux probabilités suivantes :
`P(x "/" m) = (µq) / ("¬"µ"¬"p + µq)`
`P(x "/" "¬"m) = (µ"¬"q) / ("¬"µp + µ"¬"q)`
Noter qu'elles contiennent un paramètre inconnu `µ` correspondant à la probabilité atemporelle de `x`, qui reste inaccessible. Noter que l'on ne cherche pas cette probabilité atemporelle de `x`, mais la probabilité de `x` connaissant la valeur de `m`, qui est appelée la probabilité contingente de `x` et qui vaut `µq "/" (¬µ¬p + µq)` ou `µ¬q "/" (¬µp + µ¬q)` selon que `m` vaut `1` ou `0`.
Message Schéma Inconnu Conclusion `x = (p,q)"|"m` `x` `P(x "/" m) = (µq) / ("¬"µ"¬"p + µq)`
`P(x "/" "¬"m) = (µ"¬"q) / ("¬"µp + µ"¬"q)`
Il convient de vérifier le résultat par un autre calcule. Les probabilités `P(m)` et `P(x)` se décompose comme suit :
`P(m) = P(m "/" x)P(x) + P(m "/" "¬"x)P("¬"x)`
`= qµ + "¬"p"¬"µ``P(m) = P(x" et "m) +P("¬"x" et "m)`
`= E_3+E_1`
`= µq + "¬"µ"¬"p``P(x) = P(x" et "m) +P(x" et ""¬"m)`
`= E_3+E_2`
`= µq + µ"¬"q`
`= µ(q + ¬"q)`
`= µ`
La probabilité de `x` sachant `m` est représentée par `4` probabilités conditionnelles `P(x "/" m)`, `P(x "/" "¬"m)`, `P("¬"x "/" m)`, `P("¬"x "/" "¬"m)`. On peut ramener ces 4 probabilités aux deux probabilités conditionnelles `P(x "/" m)` et `P(x "/" "¬"m)` puisque les deux autres sont leur négation. La redondance dans la description des probabilités provient de la symétrie que constitue la négation et qui s'applique à chaque degrés de liberté booléen du modèle. Et si nous n'avons pas pu exprimer clairement ces symétries, c'est que la notation que nous utilisons est incomplète et garde des paramètres implicites. Pour les expliciter, il faut formaliser davantage le cadre du problème.
La probabilité doit préciser l'univers dans lequel elle est calculée. Et si l'univers est paramétré, celui-ci fait alors partie d'un modèle d'univers. Un monde est un état microscopique d'un univers c-à-d caractérisé par les valeurs de toutes les variables d'univers de cet univers. Et l'univers posséde en plus des paramétres tels que des probabilités caractérisant les brouillages, et fait partie d'un modèle d'univers.
Dans notre cas d'étude, le modèle d'univers comprend deux variables booléennes `x` et `m`, et un canal allant de `x` vers `m` générant un brouillage de probabilité anisotropique `(a,b)`. Noter bien la distinction entre variables et parmètres. `x` et `m` sont des variables d'univers, alors que `a` et `b` et `µ` sont des paramètres de l'univers. Chaque univers de ce modèle est déterminé en fixant les valeurs des paramètres `a`, `b`, `µ`, qui sont suffisants pour calculer toutes les probabilités élémentaires de l'univers. Chaque monde de l'univers est déterminé en fixant les valeurs de ses variables d'univers `x` et `m`. Les paramètres `a` et `b` sont des probabilités conditionnelles dont la définition est donnée par le modèle : `a = P(m"="x "/" "¬"x)` et `b = P(m"="x "/" x)`, et `µ` est la probabilité atemporelle de `x` c'est à dire `µ = P(x)`. Ces trois paramètres `a,b,µ` sont réels et compris entre `0` et `1`, et sont fixés librement et arbitrairement. On dira que le modèle possède `3` degrés de probabilité de liberté, et que ses univers possèdent `2` degrés booléens de libertés.
On étend le modèle d'univers pour qu'il puisse modéliser une composition série de plusieurs canaux, il possède autant de paramètres `(a_1,b_1)`, `(a_2,b_2)`, `(a_3,b_3)`,...,`(a_n,b_n)` qu'il y a de canaux se succédant. Soit `n` leur nombre. Il y a alors `n+1` variables booléennes notées `x`, `m_1`, `m_2`, `m_3`,...., `m_n`.
Cette suite de canaux modélise une suite causale d'où l'analogie avec la flêche du temps : `x` et `(a_1,b_1)` sont causes de `m_1`, puis `m_1` et `(a_2,b_2)` sont causes de `m_2` et ainsi de suite alors que l'inverse est faux, `m_2` et `(a_2,b_2)` ne sont pas la cause de `m_1`, de même `m_1` et `(a_1,b_1)` ne sont pas la cause de `x`.
Les messages ont une traduction sous forme de schéma définissant un univers avec des probabilité conditionnelles. Ci-dessous un tableau récapitulatif :
Message Schéma Inconnue Conclusion `m = x~P` `m` `P(m "/" x) = P`
`P(m "/" "¬"x) = "¬"P` `x = P"|"m` `x``P(x "/" m) = (µP) / ("¬"µ"¬"P + µP)`
`P(x "/" "¬"m) = (µ"¬"P) / ("¬"µP + µ"¬"P)`
Message Schéma Inconnue Conclusion `m = x~(p,q)` `m` `P(m "/" "¬"x) = "¬"p`
`P(m "/" x) = q` `x = (p,q)"|"m` `x` `P(x "/" m) = (µq) / ("¬"µ"¬"p + µq)`
`P(x "/" "¬"m) = (µ"¬"q) / ("¬"µp + µ"¬"q)`
Les messages `m = x~P` et `x = P"|"m` décrivent un même schéma où seul l'inconnue change. Les messages `m = x~(p,q)` et `x = (p,q)"|"m` décrivent également un même schéma où seul l'inconnue change.
On définie une nouvelle notation en utilisant des variables locales de même nom que les variables d'univers mais avec un chapeau, et on écrira `P(m "/" hatx)` pour désigner la probabilité conditionnelle que `m"="1` sachant que la variable d'univers `x` est égale à la variable locale `hatx`. Cela évite d'utiliser une variable muette d'un autre nom. L'évènement `hatx`, désigne l'égalité entre la variable d'univers `x` et la variable locale `hatx` qui posséde le même nom, et l'évènement `"¬"hatx` désigne l'égalité entre la variable d'univers `x` et la négation de la variable locale `hatx`. Ainsi nous avons :
Expression Description `P(m "/" x)`Probabilté que `m"="1` sachant que `x "=" 1` `P(hatm "/" x)`Probabilté que `m "="hatm` sachant que `x "=" 1` `P(m "/" hatx)`Probabilté que `m "=" 1` sachant que `x"=" hatx` `P(hatm "/" hatx)`Probabilté que `m = hatm` sachant que `x=hatx`
Si on définie une probabilité d'un évènement par une formule, cette formule ne peut pas contenir de variable d'univers. En effet la probabilité est calculer en dehors de tout tirage, et la valeur d'une variable d'univers correspond à un tirage. Aussi nous pouvons utiliser dans ces formules des variables locales de même nom que les variables d'univers sans qu'il y est d'ambiguités, c'est pourquoi on ommet le chapeau dans ce cas .
Avec le schémat suivant :
nous avons :
`P(m "/" x) = P`
`P(m "/" "¬"x) = "¬"P`
`P(hatm "/" x) = mP + "¬"m"¬"P`
`P(hatm "/" "¬"x) = m"¬"P + "¬"mP``P(m "/" hatx ) = xP + "¬"x"¬"P`
`P(hatm "/" hatx ) = mxP + m"¬"x"¬"P + "¬"mx"¬"P + "¬"m"¬"xP`
`P(hatm "/" hatx ) = mxP + m(1"-"x)(1"-"P) + (1"-"m)x(1"-"P) + (1"-"m)(1"-"x)P`
`P(hatm "/" hatx ) = 4mxP -2mx-2mP-2xP+m+x+P`
Parmis ces `4` systèmes d'équations équivalents, le premier d'entre-eux semble le plus simple, et servira de référence.
En utilisant des variables locales, le système suivant :
`P(m "/" x) = P`
`P(m "/" "¬"x) = P`
est équivalent à :
`P(m "/" hatx) = P`
Selon le contexte, `x` est soit une variable d'univers, un évènement `x=1`, ou une variable locale.
La variable d'univers booléenne `x` possèdant deux états possibles et une probabilité de base, qui est dite atemporelle, car posée en dehors de toutes considération causale, c'est à dire une probabilité non conditionnelle. Cette probabilité `P(x)` est la sommes des probabilités élémentaires des mondes où `x=1`.
`hatx` est un évènement qui définie une varianle locale `x`. Si nous notons par `U"."x` la variable d'univers `x` de l'univers `U`, et si nous notons simplement par `x` la variable locale `x`. L'évènement `hatx` représente l'évènement `U"."x "=" x`, et l'évènement `"¬"hatx` représente l'évènement `U"."x "≠" x`. Et l'évènement `x` représente l'évènement `U"."x "=" 1` et l'évènement ¬x représente l'évènement `U"."x "=" 0`.
La notation se généralise pour deux évènements quelconques `E, F`, non nécesairement de base. Délors `E` n'est plus une variable d'univers mais une variable dite liée à l'évènement qu'elle représente c'est à dire égale à une expression logique de variables d'univers. On note la variable liée par `U"."E` et on crée une variable locale `E`. Et on fait de même pour `F`. On peut alors définir la probabilité `P(hatE "/" hatF)` en fonction des variables locales `E` et `F`. C'est la probabilité que l'évènement `U"."E "=" E` soit réalisé sachant que l'évènement `U"."F "=" F` est réalisé.
L'évènement `hatE` représente l'évènement `U"."E"=" E`, et l'évènement `"¬"hatE` représente l'évènement `U"."E"≠" E`. Et l'évènement `E` représente l'évènement `U"."E"=" 1` et l'évènement `"¬"E` représente l'évènement `U"."E"=" 0`.
Précédent : Probabilité et quantité d'information | Suite : L'indépendance |