Probabilité et quantité d'information

Qu'est-ce que la thermodynamique :

L'objet principal de la thermodynamique est l'étude des transformations de la chaleur en travail mécanique et inversement. Elle met en œuvre une méthode de raisonnement et une approche intuitive globale qui peut être utilisée dans d'autres domaines. Historiquement, elle constitue une science à part avec ses propres lois fondamentales (postulats tirés de l'évidence expérimentale). Aujourd'hui cette science est réunifiée avec la mécanique grâce à une de ses branches appelée mécanique statistique qui a été principalement développée par Maxwell, Boltzmann, Gibbs et Fermi. Ses lois fondamentales sont maintenant celle de la mécanique statistique et quantique.

Qu'est-ce que l'entropie :

L'entropie est une variable d'état proportionnelle au logarithme du nombre d'états microscopique possibles du système pour le même état macroscopique présent. C'est une variable d'état extensive, c-a-d que l'entropie de plusieurs systèmes, disposés comme un n-uplet de systèmes, est la somme des entropies des systèmes.

1) Introduction

L'étude des probabilités permet de définir la quantité d'information, et réciproquement, définir la quantité d'information permet de définir la probabilité. La probabilité est souvent définie de façon incomplète. Elle dépend de beaucoup d'hypothèses choisies arbitrairement qui généralement ne sont pas explicites et constituent en cela une source de paradoxes inépuisable. Formaliser la probabilité consiste à poser les seuls axiomes auxquels on se réfèrera pour la calculer. En construisant une structure de données appelée univers, nous pouvons définir la probabilité d'une façon exacte et constructive. Et nous nous appuieront sur la métaphysique pour justifier nos choix de construction.

2) L'univers

Le choix le plus simple est de poser un univers fini, d'évènements exclusifs, exhaustifs et équiprobables. En effet, il est toujours possible abstractivement de décomposer les événements en une disjonction d'évènements élémentaires comme les tables de vérité, d'en rajouter un pour rendre la liste exhaustive et de subdiviser chacun d'eux afin de les rendre équiprobables. Cela constitue une quantification régulière en évènements élémentaires. Les évènements élémentaires sont des quantas de probabilité tous égaux, égal à l'inverse de la cardinalité de l'univers, et disjoints, et dont la somme vaut `1`. Un évènement est alors un ensemble d'évènements élémentaires, et correspond logiquement à leur disjonction.

Considérons l'univers, notée `Omega`, comme un ensemble fini d'évènements élémentaires exclusifs, exhaustifs et équiprobables. Exclusif signifie qu'un seul évènement élémentaire se produit à la fois, exhaustifs signifie qu'il se produit toujours à chaque tirage un évènement élémentaire appartenant à l'univers `Omega`, et équiprobables signifie qu'il n'y a pas d'évènement privilégié, somme toute, une caractéristique pour l'instant qui n'est pas complètement définie.

3) Le monde et le temps

On ne va pas procéder qu'à un seul tirage. Ce pose alors la question du processus de construction permettant d'autres tirages. C'est un processus récurcif qui se développe dans le temps. On le justifie en disant que l'analyse métaphysique que nous faisons est également un processus d'analyse qui se développe dans le temps, d'où la notion de flêche du temps. Le processus le plus simple consiste à répéter l'opération de tirage, engendrant une liste de tirages, qui n'a à priori ni début ni fin. La variable aléatoire que l'on nomme `x` regroupe dans sa définition l'ensemble de ces tirages et définit ainsi un monde. Le pas qui désigne l'intervalle de temps entre deux tirages successifs, tel un métronome, engendre un indice entier `t` parcourant `ZZ` qui désigne le temps :

`...x_-3,x_-2,x_-1,x_0,x_1, x_2, x_3,...`

On est donc amené à concevoir une succession d'évènements élémentaires, à priori sans début ni fin, qui constitue une instantiation de l'univers `Omega` appelée monde.

La méthaphyique entre en jeu pour savoir quels sont les bons choix à faire, et on reprendra la métaphysique propre à la physique et à la cosmogonie. On remarque tout d'abord un temps singulier qui est le temps `t=0`. Ce point temporel n'a aucune raison d'être singularisé de la sorte dans le monde. Il correspond à l'entrée impromptu d'un observateur qui possède un temps présent à l'instant `t=0`, une notion éminemment subjective. On considère donc ainsi un premier référentiel dit du laboratoire qui regroupe toute la subjectivité de l'observateur que nous sommes, placé dans ce monde.

Mais le référentiel n'est pas juste une position de temps par rapport à un autre référentiel. Il peut contenir d'autres informations propre à l'observateur qu'il représente. Car il y a une multitude de symétries dans le monde telle que si on inverse le sens du temps par exemple, ou que l'on procède à une permutation particulière des positions de temps, et/ou si on permutte les évènements de l'univers. Et c'est justement le rôle du référentiel que de préciser dans quel monde symétrique on se situe, et qui prédispose ainsi la subjectivité de l'observateur qu'il représente.

L'inconvénient majeur de cette construction est son caractère infini, donc inachevé. Le tirage au sort est déjà à ce stade une construction inachevée, la composer par une seconde construction inachevée va compliquer inutilement notre analyse qui se veut épouser un processus constructif. L'approche génésique passe par une succession d'étapes qui peut être infini mais où chaque étape est nécessairement de taille finie.

La façon la plus simple de rendre fini cette suite d'évènements élémentaires correspond à celle utilisée habituellement pour rendre le monde réel fini. Elle consiste à raccorder les deux bouts, de faire une boucle, transformant la droite en un cercle. C'est là que la métaphysique intervient, que l'observateur intervient. La solution directe la plus simple n'est pas suffisante, car il faut savoir prendre des marges de manoeuvre pour élargire son champ de recherche. Le raccordement peut se faire en appliquant une symétrie propre au monde et à l'observateur tel une permutation des positions de temps et/ou une permutation des évènements élémentaires appartenant à `Omega`.

4) D'autres formes de temps

La même remarque peut se poser pour la définition du temps. La solution directe la plus simple n'est pas forcement la bonne, il faut savoir prendre une marge de manoeuvre pour couvrir un domaine plus large de recherche. Le processus de répétition peut être à peine plus sophistiqué et engendrer une structure de temps plus sophistiqué. Le processus peut répéter le tirage non pas une fois mais deux fois. Délors il crée deux voies à chaque tirage, le temps n'évolue plus selon une droite (ou un cercle) mais engendre un arbre binaire, une structure libre à deux générateurs. Puis on pourrait concevoir une restriction commutative, plus cartésienne, le temps s'écoulerait selon deux axes, et constiturait donc un plan. Puis on pourrait concevoir une structure de groupe quelconque...

On explore ce que pourrait-être le temps d'un point de vue constructif. Le temps serait une effectivité qui dans le cas de la structure libre développerait une multitudes de pseudo-mondes parallèles. On a ainsi posé différents cadres généraux pour notre analyse, utile pour questionner la notion de temps, mais trop généraux pour aborder les principes de base des probabilités.

5) Préambule sur les probabilités

Ces principes se définissent en supposant que les tirages au sorts sont indépendants entre-eux. Mais cette hypothèse formulée en 7 mots s'avère plus complexe à formaliser mathématiquement comme on le verra plus tard.

Les tirages au sort sont indépendants entre-eux.

Avec cette hypothèse, le temps disparait en quelque sorte, chaque tirage peut-être considéré comme premier tirage puisqu'il est indépendant de tout ce qui s'est passé avant. La variable aléatoire `x` désigne une succession de tirages `x_1, x_2, x_3,...` qui désignent des évènements élémentaires. Et on désigne par `x` le résultat d'un tirage au sort quelconque.

Ainsi, selon le contexte, `x` désignera tantôt une variable aléatoire, et tantôt un évènement élémentaire résultat d'un tirage. Les éléments de l'univers sont les évènements élémentaires. Un évènement est un ensemble d'évènements élémentaires, et correspond à la disjonctions de tous ses éléments. On dira qu'un évènement s'est produit lorsque l'évènement élémentaire qui s'est produit appartient à cet évènement.

L'évènement `A" ou "B` est égal à l'évènement `A"∪"B`.

L'évènement `A" et "B` est égal à l'évènement `A"∩"B`.

Ainsi, si l'évènement `A" et "B` se produit, c'est à dire si un tirage au sort produit un évènement élémentaire appartenant à la fois à `A` et à `B`, alors l'évènement `A` se produit.

Ainsi, si `B` est inclus dans `A`, nous voyons que lorsque l'évènement `B` se produit, l'évènement `A` se produit aussi, et que l'inverse n'est pas toujours vrai.

6) Proposition et évènement

« Tout est une affaire de langage »

Considérons la variable aléatoire `x`. C'est à dire une variable qui, à chaque tirage au sort, sera égale à un évènement élémentaire choisie au hasard et de façon équiprobable dans l'univers `Omega`, et avec cette propriété essentielle que chaque tirage au sort est indépendants des autres tirages aux sorts.

Considérons un évènement élémentaire `e` appartenant à `Omega`. Afin que les évènements élémentaires constituent également des évènements c'est à dire des ensembles d'évènements élémentaires, on procède à une unification entre un singleton contenant un évènement élémentaire et l'évènement élémentaire lui-même :

`e = {e}`

L'expression logique `x"="e` utilisant la variable aléatoire `x`, désignera l'évènement consistant à ce qu'un tirage au sort de la variable `x` produise comme valeur l'évènement `e`. Mais à ce stade dans notre monde, il n'y a qu'une seule variable aléatoire, et donc nous avons :

`e=(x"="e)`

Cela signifie textuellement que l'èvènement consistant à ce que la variable aléatoire `x` soit égale à `e`, constitue l'évènement `e`, ce qui est une totologie. Autres exemples :

`Omega=(x"="x)`
`Ø=(x"≠"x)`

Cela signifie textuellement que l'èvènement consistant à ce que la variable aléatoire `x` soit égale à elle-même, constitue l'évènement `Omega`, c'est à dire a toujours lieu, et que l'èvènement consistant à ce que la variable aléatoire `x` soit différente d'elle-même, constitue l'évènement vide, c'est à dire n'a jamais lieu. L'introduction de la variable aléatoire dans les expressions logiques transforme leur signification, les faisant passer du statut de proposition logique à celle d'évènement. On définit le langage événementiel en étendant le langage propositionnel par l'ajoute de la variable aléatoire.

Etant donné un évènement `A` c'est à dire un ensemble d'évènements élémentaires ou dit autrement un sous-ensemble d'`Omega`. La proposition `x"∈"A` est un évènement, il se produit lorsque le tirage de `x` produit un évènement élémentaire appartenant à `A`. Mais à ce stade dans notre monde, il n'y a qu'une seule variable aléatoire, et donc nous avons :

`A=(x"∈"A)`

Etant donné une propositon `p`, on utilise les crochets `(:A:)` pour la convertire en `0` ou `1` selon sa valeur de vérité.

Etant donné un évènement `A`, on utilise les crochets `(:A:)` pour désigner un tirage et le convertir en `1` si le tirage à produit un évènement élémentaire appartenant à `A`, et le convertir en `0` sinon. La somme appliquée à une telle expression va implicitement s'exécuter sur l'ensemble des tirages dans le monde, et ceux-ci quelque soit la structure du monde-temp. Dans notre hypothèse le monde est fini, aussi bien dans l'espace que dans le temps. Il existe donc un nombre total de tirages entier, dit cosmologique pour indiquer qu'il est de l'ordre de la taille du monde. Le nombre cosmologique de tirages se note :

`sum(:Omega:)`

Et le nombre cosmologique de tirages de l'évènement A se note :

`sum(:A:)`

La probabilité que `x` soit égale à un évènement élémentaire appartenant à `A`, autrement-dit que `x` réalise `A`, est notée `P(x"∈"A)`. C'est la probabilité que l'évènement `x"∈"A` se réalise. L'évènement `x"∈"A` étant égale à l'évènement `A`, sa probabilité s'écrit plus simplement `P(A)`.

Les évènements sont des ensembles d'évènements élémentaires. L'univers `Omega` est l'ensemble de tous les évènements élémentaires. Autrement dit les évènements sont des sous-ensembles de `Omega`. On note par commodité le complément à l'aide d'une barre, ainsi nous avons par définition :

`barA = Omega-A`

L'évènement `A` est l'ensemble des évènements élémentaires réalisant `A`. L'évènement `barA` est l'ensemble des évènements élémentaires ne réalisant pas `A`.

L'intersection de deux évènements correspond à leur conjonction, l'union correspond à leur disjonction. Et par commodité nous adoptons la notation propositionnelle comme suivante pour désigner des sous-ensembles de `Omega` :

`A" et "B` `=` `A"∩"B`

`A" ou "B` `=` `A"∪"B`

`A"⇒"B` `=` `barA"∪"B`

`A"⇔"B` `=` `(barA"∩"barB)"∪"(A"∩"B)` `=` `(barA"∪"B)"∩"(A"∪"barB)`

`(A"⊕"B)` `=` `(A"-"B)"∪"(B"-"A)` `=` `(A"∪"B)-(B"∩"A)`

`"¬"A` `=` `barA`

Notez que `"⊕"` désigne le « ou exclusif » et que `(A"⊕"B) <=> ¬(A"⇔"B)`. Et donc nous avons aussi `(A"⊕"B) <=> (A"≠"B)`.

7) Définition de la probabilité

Etant donné un évènement `A`, on note sa probabilité `P(A)` sans pour l'instant l'avoir définie. C'est donc une caractéristique de l'évènement. La probabilité possède deux facettes, l'une interne qu'est sa composition, l'autre externe qu'est son effet :

7.1) Description interne de la probabilité

La mise en oeuvre d'un univers `Omega` constitué d'évènements élémentaires disjoints, exhaustifs, et équiprobables, se traduit par le postulat suivant : la probabilité d'un évènement `A` inclus dans `Omega`, que l'on note `P(A)`, est égale au rapport du nombre d'éléments de `A` sur le nombre d'éléments de `Omega` :

`P(A) = |A| / |Omega|`

7.2) Description externe de la probabilité

La probabilité `P(A)` est la fréquence de l'évènement `A`. C'est le rapport du nombre d'évènements `A` réalisés sur le nombre total de tirages. Comme nous ne concevons que des mondes finies, la succession de tirages est finie, et il existe donc un nombre totale cosmologique de tirages noté `sum(:Omega:)`, et il existe un nombre totale cosmologique de tirages réalisant `A` noté `sum(:A:)`

`P(A) = (sum(:A:))/(sum(:Omega:))`

L'équiprobabilité de l'univers entraine que le nombre total cosmologique de tirages doit être le produit du nombre d'évènements élémentaires par un entier cosmologique `N` :

`sum(:Omega:) = N |Omega|`

Lorsque le nombre de tirages est infini, et que l'on ne veut pas faire intervenir de grandeur cosmologique, alors la définition de la probabilité locale s'écrit sous forme d'une limite :

`P(A) = lim_(n->oo) 1/n sum_(i=1)^(i=n) (:x_i"∈"A:)`

8) Raison de la probabilité

On peut se poser la question du pourquoi cette définition de la probabilité, puis celui du lien entre la description interne et la description externe de la probabilité. Les empiriques formaliseront la probabilité en posant ces deux principes que sont sa composition et son effet, comme axiomes et donc sans vraiment les expliquer.

Qu'en est-il de la composition ? L'univers est composé de `n` évènements élémentaires équiprobables. Pourquoi ? Le nombre fini d'évènements élémentaires est un principe élémentarien. L'équiprobabilité des évènements élémentaires s'explique par un principe égalitariste. Un principe quasi-juridique, s'il n'y a pas de raison de discriminer alors il n'y a pas de discrimination. L'absence de raison pour accorder des privilèges fait qu'il n'existe pas de privilège et que tous les évènements élémentaires ont la même caractéristique, en l'occurence une probabilité égale.

Qu'en est-il de l'effet ? L'effet est identique à la composition qui peut être répété plusieurs fois et dont l'ordre peut être mélangé puisque c'est la nature du tirage au sort. Le tirage consiste donc à enlever un élément dans un ensemble réunissant au départ `N` copies d'`|Omega|`. Notez que `N` est un entier cosmologique c'est à dire qui est de l'ordre de la taille du monde. C'est pourquoi la loi de probabilité ainsi obtenue n'est pas celle habituelle. La loi de probabilité classique est la loi local de probabilité obtenue lorsque `N` est gigantesque.

`1"≺"N`

En particulier, une erreur que font souvent les gens en la matière est de considérer dans le jeu de pile-ou-face que si le tirage pile est sortie un nombre trop important de fois, la probabilité augmente de tirer face ce qui est assurement faux dans la loi de probabilité locale, mais à l'échelle du monde, selon notre définition de la probabilité, c'est exacte. Cela va d'ailleurs aboutire à un paradoxe sur la notion d'indépendance qui se résolvera par un principe de relativité d'échelle.

9) Règle de démonbrement

Il découle de la règle de dénombrement suivante `|A"∪"B| = |A| + |B| - |A"∩"B|`, que :

`P(A" ou "B) = P(A) + P(B) - P(A" et "B)`

10) Probabilité conditionnelle

La probabilité conditionnelle de `A` sachant `B`, notée `P(A"/"B)`, est la probabilité de l'évènement `(A" et "B)` parmi les évènements `B`. Elle n'est définie que si `B` n'est pas vide :

`P(A"/"B) = (P(A" et "B)) / (P(B))`

`P(A"/"B) = (sum(:A" et "B:))/(sum(:B:))`

Ce qui s'écrit lorsqu'il y a un nombre de tirages infini :

`P(A"/"B) = lim_(n->oo) (sum_(i=1)^(i=n) (:x_i"∈"(AnnB):))/(sum_(i=1)^(i=n) (:x_i"∈"B:))`

11) Événements indépendants

Si la probabilité de `A` sachant `B` est égale à la probabilité de `A`, cela signifie que les deux évènements `A` et `B` sont indépendants. Les cinq propositions suivantes sont équivalentes :

`{A, B}` indépendant

`P(A"/"B) = P(A)`

`P(B"/"A) = P(B)`

`P(A" et "B) = P(A)P(B)`

`|Omega| |A"∩"B| = |A| |B|`

12) Décomposition selon les probabilités conditionnelles

`P(A"/"B)` désigne la probabilité de `A` dans l'univers `Omega` restreint à `B`, où `B` ne doit pas être vide. On peut opérer des restrictions successives. La probabilité de `A` sachant `B`, sachant `C` est égale à la fréquence de l'évènement `(A" et "B" et "C)` parmi les évènements `(B" et "C)` qui ne doit pas être vide. Et donc nous pouvons écrire :

`P((A"/"B)"/"C) = P(A"/"(B" et "C)) = P((A" et "B" et "C) "/" (B" et "C )) = (P(A" et "B" et "C)) / (P(B" et "C))`

Ainsi la probabilité conditionnelle se met toujours sous une forme appliquée à deux arguments séparées par un slash `"/"`, le premier argument désignant l'évènement rechercher, le second argument désignant l'évènement connu.

Chaque règle de dénombrement correspond à une propriété remarquable sur les probabilités. Quelque soit deux évènements quelconques `A,B`, il découle de la règle de dénombrement suivante `|A"∩"B| + |A"∩"barB| = |A|`, que :

`P(A" et "B) + P(A" et ¬"B) = P(A)`

Et comme nous avons montré que :

`P(A" et "B) = P(A"/"B)P(B)`

`P(A" et ¬"B) = P(A"/¬"B)P("¬"B)`

On en déduit que :

`P(A"/"B)P(B) + P(A"/¬"B)P("¬"B) = P(A)`

13) Quantification régulière

L'univers `Omega` est un ensemble fini d'évènements exclusifs, exhaustifs et équiprobables, dits élémentaires. On note `|A|` le cardinal de `A` c'est à dire son nombre d'éléments. Traduisant l'équiprobabilité, l'exhaustivité et le caractères disjoints des évènements élémentaires, la probabilité de l'évènement `A` est égale au rapport des cardinalités des ensembles `A` et `Omega`. Nous adoptons les définitions fondamentales suivantes :

Probabilité de `Omega` `P(Omega) = 1`

Probabilité de l'évènement vide `P(Ø) = 0`

Définition de la probabilité de `A` `P(A) = |A| / |Omega|`

Définition de la probabilité conditionnelle de `A` sachant `B` `P(A"/"B) = |A"∩"B| / |B|`

Définition de l'indépendance de deux évènements `A,B` `{A,B}` indépendant `<=> |Omega| |A"∩"B| = |A| |B|`

L'évènement vide, noté `Ø`, peut être interprété comme l'ensemble des évènements élémentaires en dehors de `Omega`, et par principe il n'y en a pas. La probabilité qu'un évènement élémentaire n'appartenant pas à `Omega` ait lieu, est nulle, `P(Ø) = 0`.

14) La quantité d'information d'un message

Hartley (1928) : La quantité d'information d'un message doit varier linéairement avec la taille du message, un message 2 fois plus long contient potentiellement 2 fois plus d'informations. Or le nombre de messages distincts possibles croit exponentiellement. La quantité d'information est donc proportionnelle au logarithme du nombre de messages distincts possibles.

Etant donné la transmission d'un booléen `x`. Le gain d'information, noté `I`, apporté par la réception d'une valeur de `x` par exemple `0`, traduit l'évolution entre notre connaissance avant réception exprimée par la probabilité `P_1` que le booléen `x` soit égal à `0`, et notre connaissance après réception exprimée par la probabilité `P_2`, que le booléen `x` soit égal à `0`. Si la réception est parfaite, si on reçoit la valeur `0`, on est alors sûr que `x"="0`. La probabilité `P_2` vaut `1`.

`I = log (P_2) - log(P_1)`

Le logarithme est en base `2`, car on choisit comme unité d'information le bit.

`P_1` est la probabilité que `x"="0` avant son émission. Tandis que `P_2` est la probabilité que `x"="0` une fois connu la réception de la valeur `0`. La probabilité `P_2` caractérise la qualité de la transmission. Si la transmission est bonne la probabilité `P_2` est proche de `1`. Si la transmission est brouillé alors la propabilité `P_2` est proche de `0.5`. Et il existe une troisième possibilité, si la transmission est inversé c'est à dire lorsque la réception de `x"="0` se produit le plus souvent lorsque `x"="1`, une transmission inversée de bonne qualité, alors la probabilité `P_2` est proche de `0`.

Ce troisième cas permet de choisir entre deux interprétations, et on choisira celle qui à la probabilité la plus éloigné de `0.5`, ce qui constitue la première règle d'auto-apprentissage.

14.1) Source binaire équiprobable

On considère un signal `«"101001001110110100…"»`, où la probabilité de tirer un `0` est la même que celle de tirer un `1`. `p(0) "=" 0.5`, `p(1) "=" 0.5`
A chaque bit reçu, notre connaissance du bit en question passe de la probabilité initiale de `0.5`, à la certitude (probabilité `1`). La quantité d'information est égale à `log(1) - log(0.5)= 1` bit

14.2) Source binaire non-équiprobable

On considère un signal `«"11110111001111110111…"»`, où la probabilité de tirer un `0` est `4` fois plus faible que celle de tirer un `1`. `p(0)"="0.2`, `p(1)"="0.8`
La quantité d'information transportée par un `0` vaut `log(1) - log(0.2)` `= 2.3` bit
La quantité d'information transportée par un `1` vaut `log(1) - log(0.8)` `= 0.3` bit

14.3) Source binaire non-équiprobable brouillée

On considère un signal `«"11110111001111110111…"»` qui une fois transmis, à cause du brouillage dans la transmission, se trouve transformé en `«"11010111011100110101…"»`. Avant l'émission, la probabilité de tirer un `0` est `4` fois plus faible que celle de tirer un `1`. `p(0)"="0.2`, `p(1)"="0.8`. Puis on ajoute une perturbation de la transmission. On la définit par les probabilités conditionnelles `p(0"/"0)"="0.8`, `p(1"/"0)"="0.2` et `p(1"/"1)"="0.9`, `p(0"/"1)"="0.1` où `p(a"/"b)` signifie la probabilité que le booléen émit soit `a` sachant que le booléen reçu est `b`. Lorsque l'on tient compte d'une telle perturbation brouillant le message, la réception d'un booléen ne traduit plus la certitude qu'il a été émis, mais la probabilité conditionnelle correspondante qu'il ait été émis. Et il y a deux probabilités conditionnelles selon l'interprétation que l'on fait du bit transmis.

---- 3 février 2023 ----

La perturbation de la transmission peut aller jusqu'à une inversion du signal. Aussi, la quantité d'information apportée par la réception d'un `0` dépend du comment on interpréte la réception d'un `0`. Si on l'interpréte comme traduisant l'émission d'un `0`, alors elle vaut :

`log(p(0"/"0)) - log(p(0)) = log(0.8)-log(0.2) = 2` bit

Mais si on l'interpréte comme traduisant l'émission d'un `1`, alors elle vaut :

`log(p(1"/"0)) - log(p(1)) = log(0.2)-log(0.8) = 2` bit

-*-*-*-*-*-*-*-*

`max(log(p(0"/"0)) - log(p(0)), log(p(0"/"1))- log(p(1))) = 3` bit
`max(log(0.8) - log(0.2), log(0.1) - log(0.8) = 3` bit

La quantité d'information apportée par la réception d'un `1` est :

`max(log(p(1"/"1)) - log(p(1)), log(p(1"/"0))- log(p(0))) = 2.2` bit

Autrement dit cela n'apporte aucune information. Le max précise que si le media perturbé inverse le signal pour le booléen attendu, il convient d'inverser l'interprétation du booléen reçu. C'est la première règle d'auto-apprentissage.

Si la transmission est sûr, la loi s'étend telle quelle à la transmission de caractères.

4) Source alphabétique équiprobable `«"ahsdgslehfndjekhzhd…"»`, `p(a)"="p(b)"=…="p(z)"="1"/"26`
La quantité d'information transportée par une lettre vaut `-log(1"/"26) = 4.7` bit

5) Texte en langue française `«"LES SANGLOTS LONG DE…"»`. A chaque lettre reçue, notre connaissance de la lettre en question passe d'une certaine probabilité initiale calculable selon un modèle de langue choisi, à la certitude. Les modèles donnent une probabilité moyenne de prédiction d'une lettre en fonction des lettres précédente de l'ordre de `0.4`. La quantité d'information en moyenne apportée par une lettre est donc approximativement égale à `- log(0.4) = 1.7` bit.

6) Mesure de la quantité d'information d'une information ensembliste

La connaissance de l'identité d'un élément précis `e` parmis les éléments de l'ensemble `Omega`, représente une quantité d'information égale à `log(|Omega|)` exprimée en bits. L'unité étant le bit, le logarithme est en base deux. Et cela représente exactement le nombre de bits nécessaires pour mémoriser cette information. Et donc, cela représente exactement le nombre de bits nécessaire pour compter les éléments de `Omega`. Cela correspond à la quantité de mémoire minimum qu'il faut réserver pour une variable devant parcourir tous les éléments de `Omega` sachant qu'elle désigne un élément de `Omega`. (Néanmoins le raisonnement suppose qu'il existe un ordre totale canonique sur `Omega` qui rend distincts tous ses éléments de par leur seul position dans cet ordre, ce qui est le propre des ensembles fini, puisque l'on peut par un nombre fini de choix établir un tel ordre.)

La représentation dense des éléments d'un ensemble fini, est obtenue en les numérotant. Par exemple, un entier compris entre `0` et `2^n "-" 1` tient exactement sur `n` bits, dans sa représentation binaires. Lorsque l'ensemble `Omega` possède un nombre d'éléments intermédiaire qui n'est pas exactement une puissance de `2`, autrement dit lorsque `log(|Omega|)` n'est pas entier, la représentation d'un élément tient sur un nombre de bits entier juste supérieur à `log(|Omega|)`, et il y a au plus une moitier moins un des configurations de bits possibles qui peuvent ne pas correspondre à un éléments. Mais ces congigurations peuvent alors être utilisée à autre chose, telle que désigner d'autres éléments. C'est pourquoi la quantité d'information est toujours égale à `log(|Omega|)` même si cette valeur n'est pas entière.

Au lieu de connaitre précisement l'identité d'un élément `e`, on peut seulement avoir une connaissance sur l'élément `e`, comme quoi il appartient à un sous ensemble `A`. Cette information que nous qualifions d'ensembliste, nous informe que `e` se trouve dans l'ensemble `A`. Et cela correspond à l'affirmation de l'évènement `A`. Événement et information sont deux mots synonymes.

Quelle est la quantité d'information apportée par cette information ensembliste ?, c'est à dire apporteé par l'évènement `A`. Nous souhaitons en trouver une mesure, c'est à dire une application `I` de l'ensemble des évènements non vides ou de l'ensemble des sous-ensembles non vides de `Omega` vers les nombres réels positifs vérifiant les propriétés suivantes :

`I(Omega) "=" 0` La quantité d'information de l'évènement `Omega` est nulle.

Si `|A| "=" 1` alors `I(A) "=" log(|Omega|)` La quantité d'information d'un évènement élémentaire est maximale.

Si `A"⊂"B` alors `I(A)">"I(B)` L'information `e"∈"A` est plus précise que l'information `e"∈"B`.

Intuitivement `I(A)` est égale à la quantité d'information relative à un élément inconnu `e` appartenant à `Omega`, apportée par l'information suivante `e"∈"A`.

Autrement dit, `I(A)` est la quantité d'information de l'évènement `A`.

Mais ces 3 axiomes ne suffisent pas pour déduire la mesure de l'information décrite par Hartley & C.E.Shannon. Il faut ajouter d'autres axiomes qui associés à ces trois premiers soient capables de calculer la quantité d'information de chaque sous-ensemble de `Omega`. Et on pense à la règle de sommation de l'information qui correspond à la règle de produit des probabilités, et qui est liée respectivement à la notion de quantité d'information conditionnelle et à la notion de probabilité conditionnelle.

La règle de produit des probabilités ou de sommation de l'information s'exprime simplement lorsque les évènements sont indépendants :

`|Omega| |A"∩"B|"="|A| |B| => P(A)P(B)"="P(A" et "B)`

`|Omega| |A"∩"B|"="|A| |B| => I(A)+I(B)"="I(A" et "B)`

La quantité d'information apportée par une information est conditionnelle à l'information déja acquise. Et en particulier si l'information en question n'apporte aucune connaissance supplémentaire, la quantité d'information transmise est nulle. Pour formaliser cela, nous devons étendre l'application `I` aux couples d'ensembles comme suit :

`I(A "/" B)` désigne la quantité d'information sur l'identité d'un l'élément `e` apportée par l'information `e"∈"A` transmise à un système qui possède déjà la connaissance que `e"∈"B`.

Il s'agit bien d'une extension de l'application `I` car nous avons toujours l'information initiale que `e"∈"Omega` et donc nous avons toujours :

`I(A) = I(A "/" Omega)`

De façon analogue à la probabilité conditionnelle, la quantité d'information apportée par `e"∈"A` sachant que `e"∈"B`, notée `I(A"/"B)` obéit à l'axiome suivant :

`P(A" et "B) = P(B)P(A"/"B)`

`I(A" et "B) = I(B) + I(A"/"B)`

7) Axiomatique de la quantité d'information et de la probabilité dans un univers d'évènements élémentaires exclusifs et équiprobables.

Il découle du paragraphe précédent que la quantité d'information satisfaits les 4 axiomes suivants :

Axiome du tout : `I(Omega) "=" 0`

Axiome de l'unité : Si `|A| "=" 1` alors `I(A) "=" log(|Omega|)`

Axiome de l'inclusion : Si `A"⊂"B` alors `I(A)">"I(B)`

Axiome de l'indépendance :
`|Omega| |A"∩"B| "=" |A| |B| <=> I(A" et "B)"="I(A) "+" I(B)`

Notez que l'on utilise le symbole `⊂` pour désigner l'inclusion stricte. On passe de la probabilité à la quantité d'information comme suit :

`P(A) = 2^(-I(A))`

`I(A) = - log( P(A))`

Ce qui produit les 4 axiomes suivants pour la probabilitée :

Axiome du tout : `P(Omega) "=" 1`

Axiome de l'unité : Si `|A| "=" 1` alors `P(A) "=" 1/|Omega|`

Axiome de l'inclusion : Si `A"⊂"B` alors `P(A)"<"P(B)`

Axiome de l'indépendance :
`|Omega| |A"∩"B| "=" |A| |B| <=> P(A" et "B)"="P(A) P(B)`

Ces axiomes sont-il suffisants pour définir la probabilité complètement ?

Pour répondre non à cette question, il faut exiber deux probabilités différentes vérifiant tous les deux ces `4` axiomes. Et pour répondre oui à cette question, il faut trouver un algorithme qui calcule la probabilité en n'utilisant que ces `4` axiomes. On ne répondra pas pour l'instant à cette question.

On choisi un système d'axiome assurement complet et ne comprenant qu'un seul axiome, qui est :

Axiome de la quantité d'information : `I(A) = log( |Omega| / |A| )`

Axiome de la probabilité : `P(A) = |A| / |Omega|`

Chacun de ces axiomes déterminent bien une et une seul façon de calculer la quantité d'information `I` et respectivement une et seul façon de calculer la probabilité `P`. Puis on ajoute respectivement la définition de la « quantité d'information conditionnelle » et celle de la « probabilité conditionnelle », et on ajoute respectivement la définition de l'indépendance des informations et de l'indépendance des évènements :

Définition de la quantité d'information
conditionnelle de `A` sachant `B` :

`I(A"/"B) = I(A" et "B)-I(B)`

Définition de deux informations
indépendantes `A,B` :
{A,B} indépendant `<=> I(A" et "B)"="I(A) "+" I(B)`

Définition de la probabilité
conditionnelle de `A` sachant `B`
`P(A"/"B) = (P(A" et "B))/(P(B))`

Définition de deux évènements
indépendants `A,B`
{A,B} indépendant `<=> P(A" et "B)"="P(A) P(B)`

Et on obtient alors une façon de les calculer :

`P(A"/"B) = |A"∩"B| / |B|`

`I(A"/"B)   =   log( |B| / |A" et "B| )`

`P(A"/"B)  =  2^(-I(A"/"B))`

`I(A"/"B)  =  - log(P(A"/"B))`

`I(A"/"B)` désigne la quantité d'information de la sélection `A` dans un univers `Omega` restreint à `B` (Notez que `B` doit être non vide). On peut opérer des restrictions successives. La quantité d'information de `A` sachant `B`, sachant `C` est égale à la quantité d'information de `A` dans l'univers `(B" et "C)` (Notez alors que `(B" et "C)` doit être non vide) et donc nous pouvons écrire :

`P((A"/"B)"/"C) = P(A"/"(B" et "C )) = P((A" et "B" et "C)"/"(B" et "C ))`

`I((A"/"B)"/"C) = I(A"/"(B" et "C ) = I((A" et "B" et "C)"/"(B" et "C ))`

La quantité d'information conditionnelle ainsi que la probabilité conditionnelle, se met toujours sous une forme appliquée à deux parties séparées par un slash `"/"`, la première partie désignant la sélection annoncée, la seconde partie désignant la sélection déjà connue.

8) Entropie et quantité d'information

Thermodynamique : L'entropie est une variable d'état proportionnelle au logarithme du nombre d'états microscopiques équiprobables distincts d'un système pour le même état macroscopique. C'est une variable d'état extensive, c'est à dire que l'entropie de plusieurs systèmes est la somme des entropies des systèmes.

R.Hartley (1928) : La quantité d'information d'un message doit varier linéairement avec la taille du message, un message 2 fois plus long contient potentiellement 2 fois plus d'informations. Or le nombre de messages distincts possibles croit exponentiellement. La quantité d'information est donc proportionnelle au logarithme du nombre de messages distincts possibles.

On se place dans un cadre fini, où il n'existe qu'un nombre fini `N` d'objets `x` appartenant à l'ensemble mère `Omega`. Pour chaque prédicat unaire `A"(.)"`, dont le domaine de définition est `Omega`, on définie l'ensemble de même nom `A"="{x"/"A(x)}`, et réciproquement. Cette identification implicite met en exergue la nature propositionnelle des ensembles. Et par commodité on utilise les opérations logiques aussi bien sur les prédicats unaires que sur leurs ensembles :

`"¬"A`

  `=`

`{x"/¬"A(x)}`

  `=`

`{x"/"("¬"A)(x)}`

  `=`

`barA`

`A" et "B`

  `=`

`{x"/"A(x)" et "B(x)}`

  `=`

`{x"/"(A" et "B)(x)}`

  `=`

`A"∩"B`

`A" ou "B`

  `=`

`{x"/"A(x)" ou "B(x)}`

  `=`

`{x"/"(A" ou "B)(x)}`

  `=`

`A"∪"B`

`A"⇒"B`

  `=`

`{x"/"A(x) "⇒" B(x)}`

  `=`

`{x"/"(A "⇒" B)(x)}`

  `=`

`barA"∪"B`

`A"⇔"B`

  `=`

`{x"/"A(x) "⇔" B(x)}`

  `=`

`{x"/"(A "⇔" B)(x)}`

  `=`

`(A"∩"B)"∪"(barA"∩"barB)`

`(A"⊕"B)`

  `=`

`{x"/"A(x)"⊕"B(x)}`

  `=`

`{x"/"(A"⊕"B)(x)}`

  `=`

`(A"-"B)"∪"(B"-"A)`

etc...

On notera le prédicat qui retourne toujours vrai, `Omega"(.)"` et son ensemble associé `Omega={x"/"Omega(x)}`, appelé l'univers.

On s'inspire de la thermodynamique, et on définie un système possédant une variable d'état macroscopique `A` qui peut être vu comme un prédicat unaire définie par une théorie avec son ensemble associé `A={x"/"A(x)}`, et qui représente la connaissance du système sur lui-même, sur l'inconnue `x`, une connaisance de son état microscopique.

Les états microscopiques possibles du système sont les éléments de `Omega` satisfaisant le prédicat `A`, c'est à dire les éléments `x` tel que `A(x)` soit vrai, ou autrement dit, les éléments de `A`.

L'ensemble `A` représente l'état macroscopique du système. Le nombre d'éléments `x` appartenant à `A` représente le nombre d'états microscopiques pour un même état macroscopique `A`. Le logarithme de cette valeur définie donc une entropie :

`S(A) = log(|A|)`

On choisie `2` comme base du logarithme afin que l'entropie représente le nombre de bits nécessaires pour numéroter les `|A|` états microscopiques de l'état macroscopique `A`, ou autrement dit, pour numéroter les `|A|` éléments de l'ensemble `A`.

L'entropie représente la quantité d'information nécessaire pour déterminer un élément unique de `A` sachant qu'il appartient à `A`.

Si notre connaissance de l'inconnue `x` passe de la théorie `B` à la théorie `(A" et "B)`, alors la quantité d'information aquise est égale à la réduction d'entropie correspondante `S(B) - S(A" et "B)`. C'est ainsi que l'on définie la quantité d'information apportée par la connaissance de `A` sachant `B`, que l'on note `I(A"/"B)`. Cela s'appelle une quantité d'information conditionnelle :

`I(A"/"B) = S(B) - S(A" et "B)`

`I(A"/"B) = log(|B|) - log(|A" et "B|) = log(|B| / |A" et "B|)`

On note `I(A)` la quantité d'information apportée par la connaissance de l'évènement `A` et ne sachant rien préalablement , c'est à dire à partir d'une connaisance nulle, ou autrement dit, à partir de la connaissance de l'évènement `Omega` :

`I(A) = I(A"/"Omega)`

`I(A) = S(Omega) - S(A)`

`I(A) = log(|Omega|) - log(|A|) = log(|Omega| / |A|)`

`I(A)` comme `S(A)` ne dépend que du nombre d'éléments de l'ensemble `A`. On peut donc les écrire comme des fonctions agissant sur des entiers. Posons `N "=" |Omega|` et posons `n "=" |A|`. Nous avons :

Quantité d'information apportée par une sélection
de `n` éléments parmi `N` éléments :
`I(n) = log(N) - log(n)`

Entropie d'une selection de `n` éléments :
`S(n) = log(n)`

La mesure de l'information décrite par R.Hartley & C.E.Shannon, obéit à la règle de sommation de l'information :

L'information `(A" et "B)` est égale à l'information `A`, plus l'information apportée par `B` sachant `A`, et est aussi égale à l'information `B` plus l'information apportée par `A` sachant `B`

Ce qui se résume par:

`I(A" et "B) = I(B) + I(A"/"B)`

`I(A" et "B) = I(A) + I(B"/"A)`

`I(A"/"B)` se met sous une forme plus explixcite `I((A" et "B) "/" B)` en exprimant l'ensemble des connaissances sur `x` avant et apprès, et on en fait une seconde notation `I(B"→"(A" et "B))`. Cela dénote la quantité d'information aquise par le système en passant de l'état `B` à l'état `(A" et "B)`, et qui correspond ici à une diminution de l'entropie.

`I(B"→"(A" et "B)) = I(A"/"B)`

`I(B"→"(A" et "B)) = log(|B|) - log(|A" et "B|)`

`I(X"→"Y)` dépend seulement du nombre `n` d'éléments de l'ensemble `X` et du nombre `m` d'éléments de l'ensemble `Y`. C'est pourquoi on peut l'identifier à une fonction sur deux entiers. En posant `n "=" |X|` et en posant `m "=" |Y|` nous avons :

Quantité d'information apportée
par le passage d'une
sélection de `n` éléments à
une selection de `m` éléments :
`I(n"→"m) = S(n) - S(m)`

`I(n"→"m) = log(n) - log(m)`

`I(n"→"m)` représente la quantité d'information aquise par le système en passant d'un état macroscopique possédant `n` états microscopiques possibles, à un état macroscopique ayant un nombre plus faible, `m`, d'états microscopiques possibles. On étend cette fonction pour les cas où `n"<"m`, ce qui traduit une perte de connaisance et une augmentation du nombre d'états microscopiques possibles.

9) Nombre de tirages fini et transfini

La probabilité est une notion subjective. Elle dépend de beaucoup d'hypothèses choisies arbitrairement qui généralement ne sont pas explicites, et peuvent donc cacher des contradictions, et constituer en cela des paradoxes. Formaliser la probabilité consiste à poser les seuls axiomes auxquels on se réfèrera pour la calculer.

Une méthode radicale pour contourner la difficulté de l'infini consiste à remplacer l'infini par un grand nombre, ainsi on se place dans le cadre d'une succession finie de tirages. La définition de la probabilité devient alors une simple définition combinatoire, une simple fréquence, un simple rapport de deux quantités entières. Et on renoue avec l'infinie en considérant que la succession de tirages se répète indéfiniement avec une périodicité égale à ce grand nombre hypothétique.

La probabilité est subdivisable canoniquement en un ensemble fini d'évènements équiprobables, exclusifs, et exaustifs. En effet, il est toujours possible de décomposer les évenements en une disjonction d'évènements élémentaires (comme les tables de vérité), d'en rajouter un pour rendre la liste exhaustive et de subdiviser chacun d'eux afin de les rendre équiprobables, la nature rationnelle des fréquences étant assurée par la finitude du nombre de tirages.

Et même si on étend la définition de la probabilité en la portant à la limite lorsque le nombre de tirages tend vers l'infini en dehors de toutes périodicité hypothétique, on peut encore considérer la probabilité comme étant un rapport de deux quantités ordinales transfinies, c'est à dire deux ordinaux pouvant être plus grand que les entiers. Le même raisonnement s'applique aux ensembles. Le passage à la limite lorsque le nombre de tirages tend vers l'infini, nous permet de définir des ensembles bien ordonnées pouvant être transfinis sur lesquels on peut appliquer les mêmes règles de dénombrement que l'on appliquent sur les ensembles finis. Et les quantas de probabilités sont des rapports d'ordinaux pouvant être transfinis et pouvant produire des infiniments petits.

Dans tous les cas, cela constitue bien une quantification. Les évènements élémentaires sont des quantas de probabilité tous égaux, égal à l'inverse de l'ordinalité de l'univers, et disjoints. Un évènement est alors un ensemble d'évènements élémentaires, et correspond à leur disjonctions. On dit qu'un évènement se réalise si un évènement élémentaire appartenant à cette évènement se réalise. La disjonction d'évènement correspond à leur réunion, et la conjonction d'événement correspond à leur intersection. La probabilité d'un évènement est égale à la sommes des probabilités des évènements élémentaires qu'il contient, c'est à dire au rapport des ordinalités de l'évènement et de l'univers.

On parle d'ordinalité d'un ensemble lorsque celui-ci est bien ordonnée, et on parle de cardinalité d'un ensemble s'il n'existe pas de tel ordre. La notion de bon ordre permet de définir les ordinaux, et les quotients d'ordinaux, désignés aussi sous un autre nom, l'ensemble des hyperréels `"*"RR`.

10) La probabilité est une application de `NN^2"→"QQ`

L'univers `Omega`, est un ensemble fini d'évènements élémentaires exclusifs, exhaustifs et équiprobables.

On note `P(A)` la probabilité que le sous-ensemble `A` de `Omega` se réalise. C'est la probabilité que lors d'un tirage, l'unique évenement élémentaire se réalisant soit dans `A`. La probabilité est proportionnelle au nombres d'état microscopiques, posés exclusifs et équiprobables. Elle est normée à `1`. Donc nous avons la définition suivante :

`P(A) = |A| / |Omega|`

On a définie ainsi une mesure sur les sous-ensemble de `Omega`, appelée probabilité `P`. Mais `P(A)` ne dépend que du nombre d'éléments de l'ensemble `A`. On peut donc écrire la probabilité `P` comme une fonction d'un entier. Posons `N = |Omega|`. Nous avons :

`P(n) = n/N`

Si `A"⇒"B`, c'est à dire si `A` est inclus ou égale à `B`, alors `P(A) "⩽" P(B)`, et `S(A) "⩽" S(B)`, et `I(A) "⩾" I(B)`. La probabilité de la cause est plus faible (ou égale) que celle de la conséquence. L'entropie de la cause est plus faible (ou égale) que celle de la conséquence. Et la quantité d'information apporté par la prise de connaissance de la cause est plus grande (ou égale) que celle apporté par la prise de connaissance de la conséquence.

Les théories `A` et `B` peuvent se combiner par opération logique. Les opérations logiques sont engendrées par les deux opérations que sont la négation et la disjonction.

`P("¬"A) = 1 - P(A)`

`P(A" ou "B) = P(A) + P(B) - P(A" et "B)`

`S("¬"A) = log(N - 2^(S(A)))`

`S(A" ou "B) = log(2^(S(A)) + 2^(S(B)) -2^(S(A" et "B)))`

`I("¬"A) = log(N) - log(N - 2^(S(A)))`

`I(A" ou "B) = log(N) - log(2^(S(A))+ 2^(S(B)) -2^(S(A" et "B)))`

A la règle de sommation de l'information correspond la règle de produit des probabilités :

`I(A" et "B) = I(B) + I(A"/"B)`

`P(A" et "B) = P(B) P(A"/"B)`

Les fonctions `I` et `P` ne dépendent que du nombre d'éléments de l'ensemble auquel ils s'appliquent. Aussi on peut les remplacer par des fonctions d'entiers. La définition de ces fonctions est alors :

`I(n) = log(N/n) = log(N)-log(n)`

`P(n) = n/N`

Et on passe de la quantité d'information à la la probabilité en prenant l'inverse de l'exponentielle dans la base 2. On remarquera que `I` est décroissant et que `P` est croissant :

`I(n) = log(1/(P(n))) = -log(P(n))`

`P(n) = 1 / 2^(I(n)) = 2^(-I(n))`

Et les quantité d'informations conditionnelles ainsi que les probabilités conditionnelles peuvent s'expriment sous forme de fonctions de couple d'entiers comme suit selon la notation dite absolue, utilisant le symbôle `"→"` :

`I(A"/"B) = I(A" et "B) - I(B)`

`I(A"/"B) = I(B "→" (A" et "B))`

`P(A"/"B) = (P(A" et "B)) / (P(B))`

`P(A"/"B) = P(B"→" (A" et "B))`

On pose `n=|B|`, et on pose `m=|A" et "B|`, nous avons :

`I(n"→"m) = log(n/m) = log(n)-log(m)`

`P(n"→"m) = m/n`

`I(n"→"m)` désigne la quantité d'information apportée au système pour le transformer d'un système à `n` états équiprobables en un système à `m` états équiprobables.

`P(n"→"m)` désigne le coefficient multiplicatif du nombre d'éléments appliqué au système pour le transformer d'un système à `n` états équiprobables à un système à `m` états équiprobables.

Le lien entre probabilité et quantité d'information permet de traduire les propriétés remarquables sur les probabilités en des propriétés remarquables sur les quantités d'information et vis-versa. Ainsi quelque soit deux évènements quelconques `A,B` nous avons la propriété suivante :

`P(A" et "B) + P(A" et ¬"B) = P(A)`

`P(A"/"B)P(B) + P(A"/¬"B)P("¬"B) = P(A)`

et donc :

`log( 2^(I(A" et "B)) + 2^(I(A" et ¬"B)) ) = I(A)`

`log( 2^(I(A"/"B)+I(B)) + 2^(I(A"/¬"B)+I(B)) ) = I(A)`

En définissant l'opération d'addition logarithmique `⚬` comme suit :

`x ⚬ y = log(2^x + 2^y)`

et dont la priorité syntaxique s'inscrit dans cette ordre `**, +, ⚬` du plus prioritaire au moins prioritaire. Noter que l'opération `+` est distributive sur l'opération `⚬` comme l'est `**` sur `+`, c'est à dire que :

`z+(x ⚬ y) = z"+"x ⚬ z"+"y`

`(x ⚬ y)+z = x"+"z ⚬ y"+"z`

Nous pouvons alors écrire :

`I(A" et "B) ⚬ I(A" et ¬"B) = I(A)`

`I(A"/"B)"+"I(B) ⚬ I(A"/¬"B)"+"I(B) = I(A)`

10) Définition éxogène de la probabilité

On part d'un univers constitué par un ensemble fini de `N` évènements élémentaires équiprobables exclusifs et exhaustifs.

On pose la définition de la quantité d'information `I(A)` apportée par la connaissance que l'évènement `A` va se réaliser. Elle est égale au logarithme en base deux du rapport du nombre `N` d'éléments de l'univers sur le nombre `n` d'éléments de l'ensemble `A`. Cette quantité d'information pour un ensemble de `n` éléments est notée `I(n)`. Les deux notations sont équivalentes `I(A)"="I(n)` avec `n"="|A|`. Nous avons par définition :

`I(n) = log(N/n) = log(N) - log(n) `

où `N` désigne le nombre d'éléments de l'univers. Noter que le logarithme est en base `2` car la quantité d'information est exprimée en nombre de bits. On choisie comme axiome de la quantité d'information les 4 axiomes suivants :

Axiome du tout `I(Omega) "=" 0`

Axiome de l'unité Si `|A| "=" 1` alors `I(A) "=" log(|Omega|)`

Axiome de l'inclusion Si `A"⊂"B` alors `I(A)">"I(B)`

Définition de l'indépendance
`|Omega| |A"∩"B| "=" |A| |B| <=> I(A" et "B)"="I(A) "+" I(B)`

Notez que l'on utilise le symbole `⊂` pour désigner l'inclusion stricte.

La probabilité `P(A)` est la probabilité que l'évènement `A` se réalise, c'est à dire qu'un évènement élémentaire appartenant à `A` se réalise.

Au lieu de poser tous les axiomes définissant la probabilité telle qu'on la conçoit classiquement, on va se restreindre qu'à une partie d'entre eux, afin de pouvoir les compléter différemment et obtenir ainsi une définition exogène de la probabilité. On exige seulement le respect de la règle de produit de la probabilité `P` d'évènements indépendants :

`|Omega| |A"∩"B| "=" |A| |B| <=> I(A" et "B)"="I(A) "+" I(B)`

`|Omega| |A"∩"B| "=" |A| |B| <=> P(A" et "B)"="P(A)P(B)`

Cela revient à poser un lien exponentiel entre la probabilité et la quantité d'information. On passe de la quantité d'information à la probabilité en prenant l'inverse de l'exponentielle dans une base arbitraire. Si nous posons `2` comme base de l'exponentielle. On obtient la définition classique de la probabilité. `I` est décroissant. `P` est croissant :

`I(n)   =   log(1/(P(n)))   =   -log(P(n))`

`P(n)   =   1 / 2^(I(n))   =   2^(-I(n))`

`I(n)   =   log(N/n)   =   log(N)-log(n)`

`P(n) = n/N`

Mais si nous prenons une autre valeur `b` comme base exponentielle définissant la probabilité à partir de la quantité d'information. On obtient une définition exogène de la probabilité.

`I(n)  =  log(1/(P(n))) / log(b)`

`P(n)   =   1 / b^(I(n))   =   b^(-I(n))`

`I(n)   =   log(N/n)   =   log(N)-log(n)`

`P(n)   =   1 / b^(log(N/n))   =   b^(-log(N/n)`

Notez que les symboles de logarithme utilisés sont toujours en base deux.

Nous développons :

`P(n) = 1 / b^(log(N/n))`
`P(n) = 1 / (2^(log(b)))^(log(N/n))`
`P(n) = 1 / (2^(log(b)log(N/n)))`
`P(n) = 1 / (2^(log((N/n)^(log(b)))))`
`P(n) = 1 / (N/n)^(log(b))`
`P(n) = (n/N)^(log(b))`

Ainsi, on définie la probabilité de base `b` d'un sous-ensemble `A` de `Omega` comme étant égale à :

`P(A) = (|A| / |Omega|)^(log(b))`

Lorsque `b=2` on obtient la probabilité classique. Dans les autres cas il est nécessaire pour simuler une telle situation d'établir un lien de dépendance entre les évèvenements attendus et leur réalisation.

Lorsque `1<b<2` , la probabilité est augmentée comme si les évènements élémentaires devançaient leur annoncement.

Lorsque `b>2` , la probabilité est diminuée comme si les évènements fuyaient leur annoncement.

Lorsque `b=1` , la probabilité est toujours égale à `1` sauf pour l'ensemble vide qui est toujours de probabilité nulle. Tous les évènements attendus se réalisent assurément.

Lorsque `b<1` la probabilité est inversée, les évènements rares se produisent plus souvent, et les évènements fréquents deviennent rares.

Lorsque `b=0` la probabilité est toujours égale à `0` sauf pour l'ensemble `Omega` qui est toujours de probabilité `1`. Aucun évènement attendu autre que `Omega` ne se réalise.

Suite de la discussion : Introduction des probabilités dans la logique

Accueil

Sommaire

Dominique Mabboux-Stromberg

`A" et "B`	`=`	`A"∩"B`
`A" ou "B`	`=`	`A"∪"B`
`A"⇒"B`	`=`	`barA"∪"B`
`A"⇔"B`	`=`	`(barA"∩"barB)"∪"(A"∩"B)`	`=`	`(barA"∪"B)"∩"(A"∪"barB)`
`(A"⊕"B)`	`=`	`(A"-"B)"∪"(B"-"A)`	`=`	`(A"∪"B)-(B"∩"A)`
`"¬"A`	`=`	`barA`

Probabilité de `Omega`	`P(Omega) = 1`
Probabilité de l'évènement vide	`P(Ø) = 0`
Définition de la probabilité de `A`	`P(A) = \|A\| / \|Omega\|`
Définition de la probabilité conditionnelle de `A` sachant `B`	`P(A"/"B) = \|A"∩"B\| / \|B\|`
Définition de l'indépendance de deux évènements `A,B`	`{A,B}` indépendant `<=> \|Omega\| \|A"∩"B\| = \|A\| \|B\|`

`I(Omega) "=" 0`	La quantité d'information de l'évènement `Omega` est nulle.
Si `\|A\| "=" 1` alors `I(A) "=" log(\|Omega\|)`	La quantité d'information d'un évènement élémentaire est maximale.
Si `A"⊂"B` alors `I(A)">"I(B)`	L'information `e"∈"A` est plus précise que l'information `e"∈"B`.

Axiome du tout :	`I(Omega) "=" 0`
Axiome de l'unité :	Si `\|A\| "=" 1` alors `I(A) "=" log(\|Omega\|)`
Axiome de l'inclusion :	Si `A"⊂"B` alors `I(A)">"I(B)`
Axiome de l'indépendance :	`\|Omega\| \|A"∩"B\| "=" \|A\| \|B\| <=> I(A" et "B)"="I(A) "+" I(B)`

Axiome du tout :	`P(Omega) "=" 1`
Axiome de l'unité :	Si `\|A\| "=" 1` alors `P(A) "=" 1/\|Omega\|`
Axiome de l'inclusion :	Si `A"⊂"B` alors `P(A)"<"P(B)`
Axiome de l'indépendance :	`\|Omega\| \|A"∩"B\| "=" \|A\| \|B\| <=> P(A" et "B)"="P(A) P(B)`

Définition de la quantité d'information conditionnelle de `A` sachant `B` :	`I(A"/"B) = I(A" et "B)-I(B)`
Définition de deux informations indépendantes `A,B` :	{A,B} indépendant `<=> I(A" et "B)"="I(A) "+" I(B)`

Définition de la probabilité conditionnelle de `A` sachant `B`	`P(A"/"B) = (P(A" et "B))/(P(B))`
Définition de deux évènements indépendants `A,B`	{A,B} indépendant `<=> P(A" et "B)"="P(A) P(B)`

`"¬"A`	`=`	`{x"/¬"A(x)}`	`=`	`{x"/"("¬"A)(x)}`	`=`	`barA`
`A" et "B`	`=`	`{x"/"A(x)" et "B(x)}`	`=`	`{x"/"(A" et "B)(x)}`	`=`	`A"∩"B`
`A" ou "B`	`=`	`{x"/"A(x)" ou "B(x)}`	`=`	`{x"/"(A" ou "B)(x)}`	`=`	`A"∪"B`
`A"⇒"B`	`=`	`{x"/"A(x) "⇒" B(x)}`	`=`	`{x"/"(A "⇒" B)(x)}`	`=`	`barA"∪"B`
`A"⇔"B`	`=`	`{x"/"A(x) "⇔" B(x)}`	`=`	`{x"/"(A "⇔" B)(x)}`	`=`	`(A"∩"B)"∪"(barA"∩"barB)`
`(A"⊕"B)`	`=`	`{x"/"A(x)"⊕"B(x)}`	`=`	`{x"/"(A"⊕"B)(x)}`	`=`	`(A"-"B)"∪"(B"-"A)`

Quantité d'information apportée par une sélection de `n` éléments parmi `N` éléments :	`I(n) = log(N) - log(n)`
Entropie d'une selection de `n` éléments :	`S(n) = log(n)`

Quantité d'information apportée par le passage d'une sélection de `n` éléments à une selection de `m` éléments :	`I(n"→"m) = S(n) - S(m)`
	`I(n"→"m) = log(n) - log(m)`

Axiome du tout	`I(Omega) "=" 0`
Axiome de l'unité	Si `\|A\| "=" 1` alors `I(A) "=" log(\|Omega\|)`
Axiome de l'inclusion	Si `A"⊂"B` alors `I(A)">"I(B)`
Définition de l'indépendance	`\|Omega\| \|A"∩"B\| "=" \|A\| \|B\| <=> I(A" et "B)"="I(A) "+" I(B)`