Statistique et réseau de neurone

1) Introduction

Les statistiques ont un pied dans l'empirisme et un autre dans les sciences exactes.

Nous allons nous inspirer des algorithmes biomimétiques mais sous un angle différent que ceux communément empruntés par les économistes ou les psychologues, en généralisant ces algorithmes et en retournant par introspection leurs lumières vers les fondements des mathématiques et de l'informatique dont ils participent. Le mimétisme biologique ne doit pas nous mettre des oeillères. La nature est certes, source de nombreuses découvertes..., mais nous ne sommes pas contraint comme elle de ne partir de rien. Notre ambition reste de produire une intelligence surnaturelle.

Le neurone que nous utilisons est plus général, il s'agit en fait d'une variable intermédiaire.

1.1) De la variable informatique à la variable aléatoire

Le langage mathématique a mis en évidence un objet singulier qu'est la variable, constituant une entrée, porteuse d'une donnée ou d'un calcul intermédiaire qui dans la plus grande généralité s'apparente à une fonction non forcément calculable. Et il a mis en évidence un second objet qu'est la fonction. Mais déjà, certains vous dirons qu'il s'agit du même objet. Dans leur plus grande généralité, il s'agit effectivement du même objet. Pour les distinguer, il faut approfondire, il faut les caractériser dans leurs fonctionnements propres, il faut les refroidirent comme par analogie aux particules physiques qui ne se différencient et prennent leur caractères propres que lorsque leurs niveaux d'énergies descendent en dessous d'un certain seuil.

Notre démarche consiste à décomposer les éléments en combinaisons d'éléments plus simples et d'aller le plus loins possible dans cette décomposition pour découvrir les éléments dits fondamentaux. Puis de formaliser une axiomatique à partir de ces éléments fondamentaux. Puis de présenter une ébauche de toutes les constructions possibles. Puis de choisire des constructions élégantes en copiant la nature...

Il est étonnant que la formalisation de la notion de probabilité en mathématique soit toujours un problème compliqué alors que cette notion nous parait intuitivement banale et relativement simple. Nous allons donc chercher le point d'achoppement, là où le bas blesse, circonscrire la difficulté, la réduire en une expression simple et formelle, en en faisant un concepte qu'est celle d'entité aléatoire.

Nous définisons des élements appelés "variables" qui sont regroupées par classe d'équivalence en des "entités". Puis nous spécialisons la définition de variable en complétant son axiomatique, pour obtenir la définition de "variable aléatoire" et dont les classes d'équivalence sont des "entités aléatoires".

Nous avons préférer respecter le sens familier du terme "variable" propre à l'informatique, qui identifie la variable à une suite, à la succession énumérable de ses valeurs qui lui sont affectées au cours de l'exécution d'un programme informatique, et qui affirme que l'évolution de la variable se fait dans le temps, c'est à dire selon un ordre déterminée. Puis nous avons reporté dans le terme "entité" le concepte qui nous affranchit de cette détermination d'un ordre..

En informatique, une variable est soit une mémoire interne ou soit correspond à une entrée provenant d'un organe périphérique, qui peut être inconnue, et la donnée qu'elle contient peut changer au cours du temps. Quant il s'agit d'une mémoire interne, le changement de la donnée correspond à l'exécution d'une instruction d'affectation dans un programme informatique écrit dans un langage de programmation impératif, et le temps dont il est question est définie par l'effectivité des instructions. Dans l'autre cas, le changement de la donnée correspond au changement d'état du périphérique. Dans tous les cas, le programme informatique évoqué étant soumis au critère de calculabilité, ne peut concevoir, pour une variable, qu'une succession énumérable de valeurs, et comme dans une première étape nous ne considérerons que des programmes qui s'arrètent en un temps fini, l'ensemble image de ces valeurs est nécessairement fini.

1.2) De l'intuition

L'intuition est essentiel car c'est elle qui tout en étant imparfaite et inexacte donne la vision, le point de vue politique. C'est pourquoi l'apprentissage des mathématiques passe par l'éveille du sens critique seul amène de développer cette intuition. On facilitera la tâche du pédagogue en construisant une intuition cohérente avec ce qui existe déja. L'intuition va porter des couleurs et diversifier les motivations selon différentes "écoles de pensées".

L'intuition prend racine dans l'inconscient collectif, un magma de morales contradictoires définies selon différentes notions de cercles, composantes cellulaires shématiques sociétales emboitées et entrecroisées, qui peut être étudiée par une approche sociologique mais aussi par une approche psychanalytique, une introspection sur soi, un plongement en soi, car nous faisons partie de la société, une société relativement homogène et non cloisonnée. Et, tel un hologramme reflétant la société, nous contenons en nous les grands schèmes de cet inconscient collectif.

2) La variable

Le principe construtif auquel nous nous soumettons fait que la variables vérifie les axiomes n°1 et n°2 ci-dessous.

1- Axiome de fondation :
La variable la plus élémentaire est booléenne. Les autres variables sont des combinaisons finies et structurées de variables booléennes. La variable booléenne constitue la brique élémentaire, l'unique sorte d'atome, avec laquelle sont construites toutes les autres variables comme des molécules. C'est l'axiome de fondation.

2- Axiome d'énumérabilité :
La variable se veut informatique et est donc soumise à une succession énumérable de valeurs selon un ordre déterminé. Chaque valeur est appelée un tirage en analogie à la statistique. Elle se comporte donc comme une suite indexée, une application totalement calculable, dont l'ensemble de départ est l'ensemble des entiers naturels et correspond aux indexes de tirages, et dont l'ensemble d'arrivé est l'image constituée de toutes les valeurs possibles parcourues par la variable, et qui est donc un ensemble énumérable.

L'axiome de fondation doit être interprété comme les bases de la construction informatique d'une mémoire, qui peut donc être partagée, et pas seulement come les base de construction d'une valeur plate. La mémoire qui contient la valeur d'un bit, peut faire partie d'une base de données partagée aussi complexe que le permet la programmation informatique.

Puis la variable est dite " d'image de taille finie" si elle vérifie l'axiome n°3, "d'image de taille bornée" si elle vérifie l'axiome n°4, "liste de taille finie" si elle vérifie l'axiome n°5, "liste de taille bornée" ou "n-uplet" si elle vérifie l'axiome n°6 :

3- Axiome de finitude de l'image :
Les variables, de part leur nature informatique, porte une quantité d'information nécessairement finie, car les programmes sont supposés de taille finie. Mais cette remarque ne suffit pas à assurer la finitude de l'ensemble image qui regroupe toutes les valeurs parcourues par la variable. Une condition suffisante mais non nécessaire consiste à se limiter aux seuls programmes informatiques se terminant en un temps fini. Avec cette restriction, l'image de la variable qui est l'ensemble de toutes les valeurs qu'elle prend au cours de l'exécution du programme est nécessairement fini. Mais l'hypothèse est ici trop forte. On pourrait concidérer des programmes ne s'arrétant jamais et se rptant de faon cyclique au bout d'un certain temps.... On pourrait concidérer simplement une variable occupant une mémoire de taille fixée à n bits auquel cas elle ne peut contenir que 2n valeurs différentes possibles. Mais là encore, l'hypothèse est trop forte. La taille mémoire de la variable n'est pas bornée, elle est simplement finie. On dira que l'image de la variable est de taille finie. L'axiome de finitude de l'image nous permet d'avoir une distribution de probabilités représentée par une énumération finie, la liste des probabilitées de chaque valeur possible, formant un univers de taille finie, qui, en quantifiant les probabilitées, peut lui-même être traité comme une variable.

4- Axiome de borne de l'image :
On peut poser une hypothèse plus forte que simplement la finitude, en fixant une borne N, connue ou non. Ainsi une variable satisafaisant cet axiome possèdera aux plus N valeurs distintes. Tous se passe alors comme si la variable occupait en mémoire log2(N) bits.

5- Axiome de finitude des indexes
Là, on ne s'intéresse qu'aux progammes de taille finie s'arrétant en un temps fini. La variables est alors constitué par la liste finie de ses valeurs obtenue à chaque cycle élémentaire de calcul du programme. L'indexe désigne le temps en nombre de cycle de calcul. La liste est finie.

6- Axiome de borne des indexes
Là, on ne s'intéresse qu'aux variables caractérisées par n valeurs succéssives. L'entier n est la borne de l'indexe. L'indexe varie de 0 à n-1.

Étant donné une variable x d'image Im(x), la valeur x(i), également notée xi, désigne le i-ème tirage de x et appartient à Im(x). Apriori la variable x est une application de vers Im(x). Mais si la variable x est une "liste de taille bornée" c'est à dire un "n-uplet" alors La variable x est une application de {0, 1, 2, 3..., n-1} vers Im(x). Et x(n) n'est pas défini.

Chaque valeur que peut prendre la variable x est codée par un entier, car toute donnée est mémorisée informatiquement sous forme d'une liste de bits et donc d'un entier. Le codage est donc une application injective de Im(x) vers . D'un point de vue informatique. La valeur image non codée est dans un autre univers, c'est le signifié. Et son codage est dans le monde du langage où opère le programme, c'est le signifiant.

Nous considérons d'emblé une image Im(x) sous-ensemble de avec le codage canonique qu'est l'identité. Cela évite une partie du problème qui ne nous intéresse pas pour l'instant.

3) La variable aléatoire

La variable est dite aléatoire si elle vérifie en plus l'axiome d'indépendance :

Axiome d'indépendance :
La variable aléatoire est indépendante de l'ordre des tirages. L'indexe de tirage ne doit apporter aucune information. Toute modification de l'ordre des tirages indépendante des valeurs tirés ne doit avoir aucune influence sur les relations de dépendance. Si l'indexe de tirage apporte une information supplémentaire à prendre en compte, cette information doit être ajoutée comme une seconde variable, et ôter de la première variable. C'est l'axiome d'indépendance qui est ici introduit par une définition récurcive. Il est difficile à formaliser et possède d'innombrables conséquences qui sont à la base de la sciences des statistiques.

4) Notation, les fonctions énumératives

On adopte les notations suivantes. On note indifférament l'application d'une fonction f sur l'élément n par la forme fonctionnelle ou sous forme de variable indexée :

f(n) = fn

Pour simplifier l'écriture on ajoute un élément absorbant noté Ø, et pour toutes les fonctions f de sur ℕ∪{Ø}, lorsque la fonction f n'est pas définie pour une valeur n, on la définie égale à f(n) = Ø. Avec cette convention, toutes les fonctions de sur sont des applications de sur ℕ∪{Ø}.

On définie les fonctions énumératives finies comme étant les applications de {0, 1, 2, 3..., n-1} vers n est un entier quelconque. On définie les fonctions énumératives infinies comme étant les applications de sur . On définie les fonctions endo-énumératives finies comme étant les applications de {0, 1, 2, 3..., n-1} vers {0, 1, 2, 3..., n-1} n est un entier quelconque. Et les fonctions énumératives infinies sont nécessairement endo-énumératives infinies.

Ces fonctions sont définie par des listes d'images finies ou infinies indexées par des entiers. Et nous pouvons identifier la fonction avec sa liste d'images. Si f correspond à une variable n-uplet, nous avons :

f = (f(0), f(1), f(2) , f(3)..., f(n))
f = (f0, f 1, f 2, f 3..., f n)

Réciproquement une suite telle que (2,5,1,7) représente une fonctrion énumérative mais restreinte ici aux 4 premiers indexes. Nous avons :

(2,5,1,7) (0) = 2
(2,5,1,7) (1) = 5
(2,5,1,7) (2) = 1
(2,5,1,7) (3) = 7
(2,5,1,7)0 = 2
(2,5,1,7)1 = 5
(2,5,1,7)2 = 1
(2,5,1,7)3 = 7

On adopte la notaion fonctionnelle étendue aux listes. Ainsi nous avons :

f(2,5,1,7) = (f(2),f(5),f(1),f(7))
f(2,5,1,7) = (f2,f5,f1,f7)

(2,5,1,7) (3,2,1,0) = (7,1,5,2)

f = f(0, 1, 2, 3..., n)

L'élément absorbant noté Ø désignant le non-définie, permet de définir les listes sans préciser leur taille n. Et l'égalité entre liste se définie comme suit :

(2,5,1,7) = (2,5,1,7,Ø)
(2,5,1,7) = (2,5,1,7,Ø,Ø)
(2,5,1,7) = (2,5,1,7,Ø,Ø,Ø)
...
(0, 1, 2, 3..., n-1)(n) = Ø
(0, 1, 2, 3..., n-1)(n+1) =Ø
(0, 1, 2, 3..., n-1)(n+2) =Ø
...

4.1) Composition-application

Etant donnée 2 variables x, y. Ce sont des fonctions énumératives. Nous avons la propriété remarquable suivante :

x°y = x(y)

---- 6 juillet 2014 ----

 

 

Une extraction infinie de x peut être obtenue ainsi :

x°f = (x(f(0), x(f(1)), x(f(2)), x(f(3)...)

Soit une suite finie d'indexes :

(i0, i1, i2, i3..., in)

On note la suite finie extraite de x par x°i :

x°i = x(i0, i1, i2..., in)
x°i = (x(i0), x(i1), x(i2), x(i3)..., x(in))

Soit f une application quelconque de {0,1,2...n} vers, on note indifféremment l'application ou la suite finie par :

f = f(0, 1, 2, 3..., n)
f = (f(0), f(1), f(2), f(3)..., f(n))

Lorsque la suite d'indexes est finie de taille n+1, et est donc définie par une application f quelconque de {0,1,2,3...n} vers N, on note indifféremment la suite finie par :

x°f = x(f)
x°f = x°f(0, 1, 2, 3..., n)
x°f = x(f(0), f(1), f(2), f(3)..., f(n))
x°f = x°(f(0), f(1), f(2), f(3)..., f(n))
x°f = (x(f(0)), x(f(1)), x(f(2)), x(f(3))..., x(f(n)))
x°f = ((x°f)(0), (x°f)(1), (xf)(2), (xf)(3)..., (xf(n)))
x°f = x(f)(0, 1, 2, 3..., n)
x°f = x(f)(0, 1, 2, 3..., n)
x°f = (x(f)(0), x(f)(1), x(f)(2), x(f)(3)..., x(f)(n))
x°f = xf(0,1, 2, 3..., n)

De tel sorte que par exemple, nous avons :

(2, 3, 5, 7)°(2, 4) = (3, 7)

On dira que x°f est une suite finie extraite de x si et seulement f est une application injective de {0,1,2,3...n} vers N. Soit f une application quelconque de N vers N, on note indifféremment l'application ou la suite infinie par :

f = (f(1), f(2), f(3)...)

Lorsque la suite d'indexes est infinie et est donc définie par une application f quelconque de N vers N, on note indifféremment la variable x°f par :

x°f = x(f)
x°f = x(f(1), f(2), f(3)...)
x°f = x°(f(1), f(2), f(3)...)
x°f = (x(f(1)), x(f(2)), x(f(3))...)
x°f = ((x°f)(1), (x°f)(2), (x°f)(3)...)
x°f = x(f)(1, 2, 3...)
x°f = x(f)°(1, 2, 3...)
x°f = (x(f)(1), x(f)(2), x(f)(3)...)
x°f = x°f°(1, 2, 3...)

On dira que x°f est une variable extraite de x si et seulement f est une application injective totalement calculable de N vers N.

---- 11 juin 2014 ----

Une application injective f de vers constitue une extraction inifinie d'indexes que l'on peut présenter sous forme d'une suite :

f = (f(0), f(1), f(2), f(3)...)

5) L'entité

A chaque variable x correspond un ensemble image noté Im(x) et une entité notée Ent(x) qui est l'ensemble des variables équivalentes à x, reste à définir quelle relation d'équivalence ?. Si on fait abstration de l'ordre et de la répétition on obtient l'image de x. On cherche alors à choisir une relation d'équivalence plus faible pour définire Ent(x) et plusieurs choix sont possibles.

Si la variable est aléatoire la situation se simplifie. L'axiome d'indépendance induit une relation d'équivalence définie partiellement et récurcivement comme suit : La variable x°f est équivalente à la variable x si l'ordre de tirage définie par f est indépendant de x. Car cela signifie qu'une variable aléatoire est indépendante de l'ordre des tirages, et donc que l'ordre des tirages choisie doit être indépendant des valeurs tirés.

La notion d'entité aléatoire est ainsi partiellement définie récursivement. Et c'est l'axiome de fondation qui va concrétiser sa construction.

La notion d'entité aléatoire est relative à un environnement que l'on décrit sous forme d'un univers. Si l'univers ne contient comme fondation que cette unique variable aléatoire x alors l'entité de x notée Ent(x) correspondra à ses seuls caractéristiques statistiques propres, c'est à dire à la liste des probabilitées de chacune de ses valeurs possibles. Et c'est l'axiome d'indépendance qui assure qu'il n'y a pas d'autre caractéristique, par le fait que les indexes de tirage sont supposés indépendants de la valeur des tirages. Cette hypothèse d'indépendance, difficile à formaliser, possède des conséquences trés forte.

Mais pour approfondire ces notions d'indépendance, d'équivalence et d'entité, il nous faut d'abord explorer les premières constructions possibles de variables aléatoires.

Beaucoup de problèmes paraissent irrésolvables parce qu'ils traitent d'infinis. Il est possible de contourner cette difficculté en remplaçant l'infini par un nombre arbitrairement grand mais fini. Appliqué à la variable, cela donne accés au concepte de variable cyclique qui est identique au concept de suite finie.

6) La variable cyclique

On définie la variable cyclique x comme une suite cyclique se répètant au bout d'un certain temps n. Cela définie sa période fondamentale. Les ordre de tirage 0,1,2,3.... s'apparente au temps qui s'écoule.

Pour une variable x de période n, nous avons :

∀t∈N x(t) = x(t mod n)

Cette variable de période n s'identifie à un n-uplet. Mais il existe plusieurs telles représentations. Par exemple les variables cycliques x et y suivantes sont identiques. :

x = (0,1)
y = (0,1,0,1,0,1)
x = y

La variable cyclique possède 2 axiomes que sont l'axiome de fondation et l'axiome du cycle.

Axiome du cycle :
La variable x est cyclique. Il existe un entier n tel que les valeurs de la variable x se répète de manière cyclique après les n premiers tirages.

∃n∈N ∀k∈N x(k) = x(k mod n)

7) Le sac

On définie une relation d'équivalence comme suit : Deux variables cycliques x et y sont équivalentes s'il existe une permutation sur un nombre D arbitrairement grand des premiers indexes permettant de passer de l'une à l'autre comme ceci :

∃D∈N ∃f permutation de {0,1,2..., D-1}, y = x ° f

Noter que ceci entraine cela :

∃D∈N ∃g permutation de {0,1,2..., D-1}, x = y ° g

Il suffit de prendre g = f -1. La classe d'équivalence contenant x est notée Sac(x) et s'appel un sac.

La classe d'équivalence est appelé un sac. Le sac correspond à la variable à l'ordre près de ses valeurs. C'est un multi-ensemble mais où les coefficients de multiplicité sont divisés par la période et désigne finalement la fréquence d'apparition de la valeur. Par exemple nous avons :

x = (1,3,3,0,5,6,3,1,0,3,0)
T(x)=11
Sac(x) = {(0,3/11),(1,2/11),(3,4/11),(5,1/11),(6,1/11)}

Nous dirons que le sac contient 3 fois l'élément zéro sur 11 tirages, deux fois l'élément 1 sur 11 tirages,etc., et d'autre part que x appartient au Sac(x). Il s'agit de deux notions d'appartenance différentes qu'il faut savoir distinguer selon le contexte.

Noter que des variables cycliques de tailles différentes ou de périodes fondamentales différentes peuvent être dans une même classe d'équivalence. Exemple :

x = (1,0)
y = (1,1,0,0,0,1)
Sac(x) = {(0,1/2),(1,1/2)}
Sac(y) = {(0,3/6),(1,3/6)}
Sac(x) = Sac(y)

Noter que la sommes des fréquences d'apparition des différentes valeurs possibles est toujours égale à 1.

8) La variable cyclique booléenne

Une variable x booléenne de période n, s'apparente à un n-uplet de booléens. On réserve n pour désigner la période fondamentale, c'est à dire le plus petit entier n tel que quelque soit k entier nous ayons x(k) = x(k mod n).

La variable cyclique booléenne s'apparente à une succession de bits. On définie un certain nombre d'attribut (ou variables d'état) propres à la variable cyclique booléenne x que sont :

n : Période fondamentale. n = min {m / ∀k∈N x(k) = x(k mod m)}. Nous avons : n = A+B
A
: Nombre de bits à 1 sur la période fondamentale, A est égale à la somme de n bits consécutifs.
B : Nombre de bits à 0 sur la période fondamentale.
p : Fréquence du bit 1. Nous avons : p = A/n

Le sac de booléens fait abstraction de l'ordre des bits. Comme la sommes des fréquences d'apparition des valeurs est égale à 1, le sac de booléens est caractérisé par l'unique fréquence de la valeur 1 qui est ici un rationel puisque les variables sont cycliques. Par exemple nous avons :

Sac(1,0,1) = {(0,1/3),(1,2/3)}
Sac(1,0,1) = 2/3

Le sac de booléens est identifié par la fréquence du bit 1 qui vaut p = A/n et qui est mesurée sur n bits consécutifs.

La fréquence fondamentale et le sac de booléens sont complètement caractérisé par 2 des 4 variables d'état (n, A, B, p). Chaque couples de variables parmis ces quatres, possède un domaine de valeurs possibles, et déterminent les deux autres :

Base
Domaine
Autres variables d'état
(n,p)
0<n
p multiple de 1/n
0≤p≤1
    A = n*p
    B=n*(1-p)
(A,B)
0≤A
0≤B
0<A ou 0<B
    n = A+B
    p = A/(A+B)
(µ,A)
0<n
0≤A≤n
    p =A/n
    B = n-A
(µ,B)
0<n
0≤B≤n
    p =1-B/n
    A = n-B
(p,A)
0≤A
∈z≥0 p = A/z
Cas où A>0
n=A/p
B=(1-p)*A/p
Cas où A=0
0<n
B=n
(p,B)
0≤B
∈z≥0 p = 1 - B/z
Cas où B>0
n=B/(1-p)
A=p*B/(1-p)
Cas où B=0
0<n
A=n

Un cas particulier n'est pas pris en compte dans ce tableau, lorsque n=0, alors on peut poser que (n, A, B, p) = (0,0,0,NAN)NAN est une valeur non numérique.

Une fonction opérant dans l'ensemble des variables cycliques, est dite respecter la structure de sac, si les images de deux variables cycliques d'un même sac sont toujours dans un même sac (qui peut être différent du sac inital). On pose quelques opérations de base sur les variables cycliques booléennes qui respectent les sacs :

La négation, exemple : ¬(0,1,0,1,1) = (1,0,1,0,0)
La concatenation, exemple : (1,0) • (0,1,1) = (1,0,0,1,1)
La forme normale "comptage des batons, exemple" : §(0,1,0,1,1) = (1,1,1,0,0)
La suppression du premier bits à 1 recontré s'il existe, exemple : dec(0,1,0,1,1) = (0,0,0,1,1)

Une variable booléenne de période n est une application de {0,1,2,...,n-1} vers {0,1}. On note Bn l'ensemble des variables booléennes de période n. Le nombre de variables booléennes de période n vaut :

|Bn| = 2n

Parcontre, le nombre de variables boléennes de période fondamentale n est plus compliqué à calculer et dépend des diviseurs de n. On note Fn l'ensemble des variables booléennes de période fondamentale n. Le nombre de variables booléennes de période fondamentale n vaut :

|Fn| = 2n - sum ( |Fd| / d|n et d<n)

Exemple, il y a |F4| = 24 - |F1| - |F2| = 24 - 2 - (22 - |F1|) = 24 - 2 - (22 - 2 ) = 12 variables booléennes de période fondamentale 4 que sont :

F4 = {(0,0,0,1), (0,0,1,0), (0,0,1,1), (0,1,0,0), (0,1,1,0), (0,1,1,1),
          (1,1,1,0), (1,1,0,1), (1,1,0,0), (1,0,1,1), (1,0,0,1), (1,0,0,0)}

Les variables booléennes de période n se répartissent dans les n+1 sacs suivants 0, 1/n, 2/n, 3/n..., n/n.

 

 


Dominique Mabboux-Stromberg

 


A revoir complètement
12) Quantité d'information d'une variable cyclique booléenne

Soit x une variable N-combinatoire booléenne. P(x(1)=1) désigne la probabilité de tiré un 1 comme premier tirage de la variable x, et P(x(1)=0) désigne la probabilité de tiré un 0 comme premier tirage de la variable x. Si p est la fréquence des bits à 1 dans x nous avons :

P(x(1)=1) = p
P(x(1)=0) = 1-p

La probabilité de tirer un 1 au second tirage est la même, à condition de ne pas connaitre la réponse du premier tirage. Car si nous avons cette connaissance, la probabilité du second tirage est une fréquence calculé sur les bits réstants et devient donc conditionnée au résultat du premier tirage. Et de même pour tous les autres tirages.

La probabilité de tirer 1 ou 0 lors d'un tirage quelconque, mais sans connaissance des autres tirages, est noté par :

P(x=1) = p
P(x=0) = 1-p

L'expression x=1 signifie qu'il existe un indexe i tel que x(i)=1 et que cet indexe i, qui n'est pas mentionné, est en cours. La probabilité conditionnelle P(x(2)=1 / x(1)=1) désigne la probabilité que x(2)=1 sachant que x(1)=1.

5 cas sont à considérer : Soit nous avons la connaissance de l'entité (A,B), soit nous avons la connaissance de seulement la probabilité p, soit nous avons seulement la connaissance de la taille de l'entité µ, Soit nous avons seulement la connaissance de la somme de l'entité A. Soit nous n'avons aucune connaissance sur l'entité N-combinatoire.

1) Nous avons la connaissance de l'entité (µ,A)

L'entité (µ,A) est une classe d'équivalence contenant les µ-uplets de booléens dont la somme des bits vaut A. Le nombre de µ-uplet appartenant à l'entité (µ,A) est égale à :

Si A=0 : |(µ,0)| = 1
Si A>0 : |(µ,A)| = µ*(µ-1)*(µ-2)...*(µ-(A-1))/A!
              |(µ,A)| = µ!/((µ-A)!*A!)
et on pose B=µ-A
              |(µ,A)| = µ!/(A!*B!)

La quantité d'information peut être définie sur l'univers W de l'ensemble des variables N-combinatoire, c'est à dire des µ-uplets de booléens avec µ<=N. La quantité d'information que représente la connaissance x (µ,A) est alors égale à la variation d'entropie :

IW(x (µ,A)) = log(|W|) - log(|(µ,A)|)
                      = log(2^(N+1) - 1) - log(µ!/(A!*B!))

Le logarithme est en base 2 car la quantité d'information est exprimée en bits.

Le nombre de variables N-combinatoire qui possède un premier tirage égale à 1, est égale au nombre de variables (N-1)-combinatoire. Il en découle que la quantité d'information que représente la connaissance x(1)=1 est égale à :

IW(x(1)=1) = log(2^(N+1) - 1) - log(2^(N) - 1)

Le nombre de µ-uplet appartenant à l'entité (µ,A) qui possède un premier tirage égale à 1, est égale au cardinale de l'entité (µ-1,A-1). Il en découle que la quantité d'information que représente la connaissane x(1)=1 sachant que x (µ,A), est égale à :

IW(x(1)=1 / x (µ,A)) = S(x (µ,A)) - S(x (µ,A) et x(1)=1)
                                    = log(|(µ,A)|) - log(|(µ-1,A-1)|)
                                    = log(µ!/(A!*B!)) - log((A/µ)*µ!/(A!*B!))
                                    = log(µ/A)

Nous pouvons également définir une quantité d'information sur l'ensemble (µ,A), c'est à dire des µ-uplets dont la sommes des bits vaut A. La quantité d'information que représente la connaissance que x(1)=1, est alors égale à la variation d'entropie :

I(µ,A)(x(1)=1) = IW(x(1)=1 / x (µ,A))
                        = log(µ/A)

La probabilité de x est également conditionnée à la connaissance que nous avons sur x relativement à un univers W d'évènements posés disjoints et équiprobables. Dans l'univers W un tirage correspond à la désignation d'une variable de W :

PW(x(1)=1 / x (µ,A)) = A/µ
P(µ,A)(x(1)=1) = A/µ
PW(x(1)=1) = 1/2
PW(x (µ,A)) = |(µ,A)|/|W| = µ!/(A!*B!*(2^(N+1) - 1))
PW(x = (x1, x2, x3...,xn)) = 1/|W| = 1/(2^(N+1) - 1)

On remarquera que :

IW(x(1)=1 / x (µ,A)) = log(1/PW(x(1)=1 / x (µ,A))) = log(µ/A)
I(µ,A)(x(1)=1) = log(1/P(µ,A)(x(1)=1)) = log(µ/A)
IW(x(1)=1) = log(1/PW(x(1)=1)) = 1
IW(x (µ,A)) = log(1/PW(x (µ,A))) = log(2^(N+1) - 1) - log(µ!/(A!*B!))
IW(x = (x1, x2, x3...,xn)) = log(|W|) = log(2^(N+1) - 1)

Le choix de l'univers est pour l'instant le choix d'un univers d'évènements disjoints et équiprobables. Nous pouvons également définir une quantité d'information sur l'univers W/R de l'ensemble des entités N-combinatoire, c'est à dire des sac d'au plus N booléens. La quantité d'information que représente la connaissance que l'entité u=(µ,A), est alors égale à la variation d'entropie :

IW/R(u=(µ,A)) = log(|W/R|) - log(1)
                        = log((N+1)*(N+2)/2)
                        = log(N+1) + log(N+2) - 1

Dans cet univers W/R, les tirage sont des entités, et la probabilité que u = (µ,A) est égale à :

PW/R(u=(µ,A)) = 2/((N+1)*(N+2))

Et la probabilité de tirer une variable x = (x1, x2, x3..., xµ) appartenant à l'entité (µ,A) se note en étendant le domaine de définition de PW/R :

PW/R(x = (x1, x2, x3..., xµ)) = PW/R(µ,A) * P(µ,A)(x = (x1, x2, x3..., xµ))
                                             = (A!*B!/µ!)*2/((N+1)*(N+2))

PW(x = (x1, x2, x3..., xµ)) = 1/|W| = 1/(2^(N+1) - 1)

Le choix de l'univers est déterminant car il prédispose la loi de distribution des variables. Nous nous plaçons pout l'instant dans l'univers W.

La quantité d'information apporté par le premier tirage de x valant e, sachant que x appartient à (µ,A), est :

I(x=e / x (µ,A)) = - log(P(x=e))

On calcul les variables intermédiaires :

p = A/µ
B = µ-A

La quantité d'information apporté par le premier bit de x est, selon la valeur de ce bit :

I(x=1 / x (µ,A)) = - log(p)      = log(µ) - log(A)
I(x=0 / x (µ,A)) = - log(1-p)   = log(µ) - log(B)

I(x(1)=1) désigne la quantité d'information apportée par le premier tirage de x d'une valeur 1. I(x(1)=0) désigne la quantité d'information apportée par le premier tirage de x d'une valeur 0. Noter bien que si cette information est déja connue, alors la quantité apporté par le message est nulle. C'est l'augmentation de notre quantité d'information qui est considéré ici, et non la quantité d'information qui ce transfère physiquement indépendament du destinataire.

Si le premier tirage est un 0, la nouvelle variable combinatoire booléenne restante appartient à la classe (µ-1, A, B-1, A/(µ-1) ) et nous avons connaissance de sa nouvelle loi de probabilité A/(µ-1), et si le premier tirage est un 1, la nouvelle variable combinatoire booléenne est (µ-1,A-1, B, (A-1)/(µ-1)) et nous avons connaissance de sa nouvelle loi de probabilité (A-1)/(µ-1), et on réitère ainsi le calcul pour le tirage suivant en appliquant la règle de sommation de l'information conditionnelle :

I(x(1,2,3...,n)=(v1,v2,v3...,n) / x (µ,A)) = I(x(1)=v1 / x (µ,A))
                                                                  + I(x(2)=v2 / x(1)=v1 et x (µ,A))
                                                                  + I(x(3)=v3 / x(1,2)=(v1,v2) et x (µ,A))
                                                                  + ...
                                                                  + I(x(n)=vn / x(1,2,3...,n-1)=(v1,v2,v3...,vn-1) et x (µ,A))

Il en est de même en appliquant la règle de produit des probabilitées conditionnelles :

P(x(1,2,3...,n)=(v1,v2,v3...,n) / x (µ,A)) = P(x(1)=v1 / x (µ,A))
                                                                   * P(x(2)=v2 / x(1)=v1 et x (µ,A))
                                                                   * P(x(3)=v3 / x(1,2)=(v1,v2) et x (µ,A))
                                                                   * ...
                                                                   * P(x(n)=vn / x(1,2,3...,n-1)=(v1,v2,v3...,vn-1) et x (µ,A))

Pour tous les messages de 3 bits

I(x=1 / x (µ,A)) = log(µ) - log(A)
I(x=0 / x (µ,A)) = log(µ) - log(B)

I(x=11 / x (µ,A)) = log(µ) - log(A)  + log(µ-1) - log(A-1)
I(x=10 / x (µ,A)) = log(µ) - log(A)  + log(µ-1) - log(B)
I(x=01 / x (µ,A)) = log(µ) - log(B)  + log(µ-1) - log(A)
I(x=00 / x (µ,A)) = log(µ) - log(B)  + log(µ-1) - log(B-1)

I(x=111 / x (µ,A)) = log(µ) - log(A)  + log(µ-1) - log(A-1) + log(µ-2) - log(A-2) 
I(x=110 / x (µ,A)) = log(µ) - log(A)  + log(µ-1) - log(A-1) + log(µ-2) - log(B) 
I(x=101 / x (µ,A)) = log(µ) - log(A)  + log(µ-1) - log(B)     + log(µ-2) - log(A-1) 
I(x=100 / x (µ,A)) = log(µ) - log(A)  + log(µ-1) - log(B)     + log(µ-2) - log(B-1) 
I(x=011 / x (µ,A)) = log(µ) - log(B)  + log(µ-1) - log(A)     + log(µ-2) - log(A-1) 
I(x=010 / x (µ,A)) = log(µ) - log(B)  + log(µ-1) - log(A)     + log(µ-2) - log(B-1) 
I(x=001 / x (µ,A)) = log(µ) - log(B)  + log(µ-1) - log(B-1)  + log(µ-2) - log(A) 
I(x=000 / x (µ,A)) = log(µ) - log(B)  + log(µ-1) - log(B-1)  + log(µ-2) - log(B-2) 

I(x=01011) désigne le gain d'information apporté par le message 01011 qui correspond aux 4 premiers tirages de x dans l'ordre (0,1,0,1,1). On remarque assez facilement que l'ordre des tirages n'a pas d'importance et que :

I(x(1,2,3...,n)=(v1,v2,v3,v4...,vn) / x (µ,A)) = log(µ) + log(µ-1) + log(µ-2)... + log(µ-(n-1))
                                                         - (log(A) + log(A-1) + log(A-2)... + log(A-(na-1))
                                                         - (log(B) + log(B-1) + log(B-2)... + log(B-(nb-1))

I(x(1,2,3...,n)=(v1,v2,v3,v4...,vn) / x (µ,A)) = sum( log(µ-i), i=0..n-1) - sum(log(A-i), i=0..n1-1) - sum(log(µ-A-i), i=0..n0-1)

Avec n = na + nb na représente le nombre de tirages de 1, et nb représente le nombre de tirages de 0. Ce qui se met sous forme factorielle :

I(x(1,2,3...,n)=(v1,v2,v3,v4...,vn) / x (µ,A)) = log(µ!/(µ-n)!) - log(A!/(A-na)!) - log((B)!/(B-nb)!)
I(x(1,2,3...,n)=(v1,v2,v3,v4...,vn) / x (µ,A)) = log(µ!*(A-na)!*(B-nb)!/((µ-n)!*A!*B!))

Lorsque le tirage est complet n = µ et na = A et nb = B. On note v = (v1,v2,v3,v4...,vµ). Nous avons donc :

I(x=(v1,v2,v3,v4...,vµ) / x (µ,A)) = log(µ!/(A!*B!))

I(x=(v1,v2,v3,v4...,vµ) / x (µ,A)) désigne la quantité d'information apportée par l'égalité x = (v1,v2,v3,v4...,vµ) sachant que x appartient à la classe (µ,A). Nous vérifions le respect de la règle de sommation des quantitées d'information. La quantité totale d'information est égale à :

I(1) = I(x=v) = I(x µ,A)) + I(x=v / x (µ,A))   <=>   log(|W|) = log(|W|) - log(|(µ,A)|) + log(µ!/(A!*B!))
                                                                          <=>   log(|(µ,A)|) = log(µ!/(A!*B!))
                                                                          <=>   |(µ,A)| = µ!/(A!*B!)

Et µ!/(A!*B!) est bien égale au nombre de n-uplet appartenant à la classe (µ,A), c'est à dire au nombre de messages binaires distincts qui possèdent A bits à 1 et B bits à 0, et cela correspond au nombre d'états microscopiques différents possibles pour le même état macroscopique que représente l'entité N-combinatoire (µ,A,B,p).

Lorsque A=0 ou B=0, le message est composé soit que de 1 ou soit que de 0, alors le gain d'information transmit, c'est à dire l'acroissement de notre quantité d'information, connaissant la probabilité, est évidement nulle puisque la probabilité dont nous avons connaissance, nous informe à l'avance complètement du résultat.

Lorsque A=1, le message est composé que de 0 avec un seul bit à 1, alors le gain d'information transmit, c'est à dire l'acroissement de notre quantité d'information connaissant la probabilité et la taille, est égale à log(µ!/(µ-1)!) = log(µ) et correspond au nombre de bits nécessaire pour contenir l'indice du bit à 1.

Lorsque A=2, le gain d'information transmit est égale à log(µ!/(2!*(µ-2)!) = log(µ*(µ-1)/2) = log(µ) + log(µ-1) - 1 et correspond au nombre de bits nécessaires pour déterminer 2 positions à permutation près dans un µ-uplet.

Lorsque A=n, le gain d'information transmit est égale à log(µ!/(n!*(µ-n)!)) et correspond au nombre de bits nécessaires pour déterminer n positions à permutation près dans un µ-uplet.

La quantité d'information apportée par la connnaissance de l'entité (A,B), c'est à dire la connaissance sur x, que x (A,B), est égale à : I(x (A,B)) = log(|W|) - log(|(A,B)|) = log(2^(N+1) - 1) - log((A+B)!/(A!*B!)).

Par exemple, pour N = 1000, A=50 et B = 30, nous avons I(x (A,B)) = 928 bits à 1 bit près. Cela signifie que dans l'univers des variables 1000-combinatoires booléennes, la connaissance que la somme des bits soit égale à 50 et que la taille soit de 80 bits, apporte une quantité d'information de 928 bits, c'est à dire est équivalent à un pouvoir de selection de 928 bits (c'est à dire est équivalent à un partitionnement naturel de l'ensemble des variables 1000-combinatoires booléennes en 2^928 parties égales). Mais pour N = 1000, A=500 et B = 500, nous avons I(x (A,B)) = 6 bits à 1 bit près.

L'entropie de l'univers S(W) = log(2^(N+1) - 1) dénote le nombre de bits d'informations qu'il faut acquérir pour déterminer une variable N-combinatoire booléenne particulière. Dans notre exemple S(W) = 1001 à 1 bit près. Donc après avoir pris connaissance que A=50, et B=30, il reste à acquérir 1001 - 928 = 73 bits d'information pour pouvoir déterminer exactement une et une seul variables de l'entité (A,B). Et il ne faudra que 72 bits d'information pour déterminer un doublon de variables à permutation près de l'entité (A,B). Et après avoir pris connaissance que A=500, et B=500, il reste à acquérir 1001 - 6 = 995 bits d'information pour pouvoir déterminer exactement une et une seul variables de l'entité (A,B).

Tous le calcul précédent peut-être refait en prenant une autre hypothèse, une autre distribution des variables, selon l'univers W/R des entités N-combinatoire. Le résultat est inchangé mais la probabilité de tirer une variable diffère :

PW/R(x = (v1,v2,v3,v4...,vµ)) = PW/R(µ,A) * P(µ,A)(x=(v1,v2,v3,v4...,vµ))
                                               = (A!*B!/µ!)*2/((N+1)*(N+2))

PW(x = (x1, x2, x3..., xµ)) = 1/|W| = 1/(2^(N+1) - 1)

La quantité d'information apportée par la connnaissance de l'entité (A,B), c'est à dire la connaissance sur x, que x (A,B), est égale à : IW/R(A,B) = log(|W/R|) - log(1) = log((N+1)*(N+2)/2) = log(N+1) + log(N+2) - 1

Par exemple, avec N = 1000, A=50 et B = 30, nous avons IW/R(A,B) = 19 bits à 1 bit près. Cela signifie que dans l'univers des entités 1000-combinatoires booléennes, la connaissance d'une entité particulière, apporte une quantité d'information de 19 bits, c'est à dire est équivalent à un pouvoir de selection de 19 bits, c'est à dire est équivalent à un partitionnement naturel de l'ensemble des variables 1000-combinatoires booléennes en 2^19 parties égales en probabilité.

L'entropie de l'univers S(W/R) = log(N+1) + log(N+2) - 1 dénote le nombre de bits d'informations qu'il faut acquérir pour déterminer une entité N-combinatoire booléenne particulière. Dans notre exemple S(W) = 19 à 1 bit près. Après avoir pris connaissance de l'entité (A,B), celle-ci constitue un univers de µ!/A!*B! éléments et donc d'entropie S(A,B)=log(µ!/A!*B!), et il reste à aquerir S(A,B) bits d'information pour pouvoir déterminer exactement une et une seul variables de l'entité.

Tous le calcul précédent peut-être refait en prenant une hypothèse plus générale, en faisant le choix d'un univers de variable N-combinatoire non équiprobable et obéissant à une loi de probabilité p(x) arbitraire. p est une fonction positive de l'ensemble des variables N-combinatoires, et tel que la sommes pour toutes les variables N-combinatoire soit égale à 1. La quantité d'information apporté par le tirage d'une variable x, connaissant la loi de probabilité p, vaut I(x) = - log(p(x)).

La probabilité que x(1)=1 sachant que x appartient à (µ,A), est égale au rapport des fréquences :

P(x(1)=1 / x (µ,A) ) = sum(p(x) / x (µ,A) et x(1)=1) / sum(p(x) / x (µ,A))

La quantité d'information apporté par le premier tirage de x valant 1, sachant que x appartient à (µ,A), est :

I(x=1 / x (µ,A)) = - log( P(x(1)=1 / x (µ,A)) )
                            = - log( sum(p(x) / x (µ,A) et x(1)=1) )  +  log( sum(p(x) / x (µ,A)) )

p = sum(p(x) / x (µ,A) et x(1)=1) / sum(p(x) / x (µ,A))

La quantité d'information apporté par le premier bit de x est, selon la valeur de ce bit :

I(x=1 / x (µ,A)) = - log(p)      = - log( sum(p(x) / x (µ,A) et x(1)=1) )  +  log( sum(p(x) / x (µ,A)) )
I(x=0 / x (µ,A)) = - log(1-p)   = - log( sum(p(x) / x (µ,A) et x(1)=0) )  +  log( sum(p(x) / x (µ,A)) )

 

2) Nous avons seulement la connaissance de la somme A

Nous nous plaçons d'abord dans l'univers W des variables N-combinatoires et équiprobables. La connaissance de la somme A entraine que µ>=A et si A=0 alors p=0. On définie L(A) l'ensemble des n-uplets avec n<=N qui possèdent exactement A bits à 1.

|L(A)| = 1 + (A+1) + (A+2)*(A+1)/2! + (A+3)*(A+2)*(A+1)/3!... +(A+(N-A))*(A+(N-A-1))*(A+(N-A-2))....*(A+1)/(N-A)!
|L(A)| = (A! + (A+1)! + (A+2)!/2! + (A+3)!/3!... + N!/(N-A)! )/A!

|L(A)| = ((A + (N + 1))!/(A!*(N+1)!)) * (N+1)/(A+1)

La quantité d'information apportée par la connnaissance de A, c'est à dire la connaissance sur x, que x L(A), est égale à :

I(x L(A)) = log(|W|) - log(|L(A)|
I(x L(A)) = log(2^(N+1) - 1) - log(((A + (N + 1))!/(A!*(N+1)!)) * (N+1)/(A+1))

Par exemple, en posant N = 1000 et A=50, nous avons I(x L(50)) = 710 bits à 1 bit près. Cela signifie que dans l'univers des variables 1000-combinatoires booléennes, la connaissance que la somme des bits soit égale à 50, apporte une quantité d'information de 710 bits, c'est à dire est équivalent à un pouvoir de selection de 710 bits, c'est à dire est équivalent à un partitionnement de l'ensemble des variables 1000-combinatoires booléennes en 2^710 parties équiprobables.

L'entropie de l'univers S(W) = log(2^(N+1) - 1) dénote le nombre de bits d'informations qu'il faut acquérir pour déterminer une variable N-combinatoire booléenne particulière. Dans notre exemple S(W) = 1001 à 1 bit près. Donc après avoir pris connaissance que A = 50, il reste à acquérir 291 bits d'information pour pouvoir déterminer une variables particulière. (Noter qu'il ne faudra que 290 bits d'information pour déterminer 2 variables à permutation près).

Il découle de l'équiprobabilité de W que tant que A>0, la probabilité P(x=1) = 1/2, et lorsque A=0, la probabilité P(x=1) = 0.

I(x=1) = 1
I(x=0) = 1

Si il y a un second tirage alors nous avons une connaissance supplémentaire qui est que µ>1. Et s'il n'y a pas de tirage possible alors nous avons une connaissance supplémentaire qui est que µ=1.

I(x=11) = 2
I(x=10) = 2
I(x=01) = 2
I(x=00) = 2

On remarque facilement que :

µ>=n
B>=nb
I(x=(v1,v2,v3...,vn)) = n
tant que na<=A

 

...


Dominique MABBOUX-STROMBERG

 

 

Parcontre pour évaluer la quantité d'information que représente la connaissance de la probabilité, il faut se plaçer dans un univers beaucoup plus grand, comprenant l'ensemble des entitées aléatoires possibles. Et supposer une distribution de probabilité. Cela peut-être une distribution égale, faisant que chaque choix d'entités aléatoires serait équiprobable.

 

 

 

 

3) Cas : Nous avons seulement la connaissance de la taille µ

La connaissance de la taille µ entraine rien d'autre.

Axiome : p =1/2 tous le temps

I(A>=na)
I(B>=nb)
I(x=v1v2v3v4...vn) = n

I(A=A)
I(B=B)
I(x=x) = µ

5) Cas : Nous n'avons aucune connaissance sur l'entité

Axiome : p =1/2 tous letemps

A>=na et B>=nb entraine que µ>=n


I(A>=na)
I(B>=nb)
I(x=v1v2v3v4...vn) = n

I(A=A)
I(B=B)
I(x=x) = µ

----

2) Nous avons seulement la connaissance de la probabilité p

La connaissance de la probabilité p = P/Q avec P^Q=1, p = A/µ donc A est un multiple de P, et µ est un multiple de Q. Et 1-p = 1-P/Q = (Q-P)/Q avec(Q-P)^Q=1, 1-p = B/µ donc B est un multiple de Q-P.

I(x=1) = - log(p) 
I(x=0) = - log(1-p) 

Comme nous ne connaissons pas µ, nous devons l'estimer. D'où la nécessité d'un axiome. µ est un entiers positif. Et nous considérons équiprobable les possibilités que µ soit égale à chaque entier. En conséquence le µ moyen est infini. C'est pourquoi nous posons l'axiome suivant. La seul connaissance de p nous fait supposer que µ est d'un ordre superieur, et que les fluctuations de p à cause de µ sont négligeables.

Si il y un second tirage alors nous avons une connaissance supplémentaire qui est que µ>1. Et s'il n'y a pas de tirage possible alors nous avons une connaissance supplémentaire qui est que µ=1.

I(µ>1)
I(x=11) = - log(p) - log(p)
I(x=10) = - log(p) - log(1-p)
I(x=01) = - log(1-p) - log(p)
I(x=00) = - log(1-p) - log(1-p)

On remarque facilement que :

I(µ>n-1)
I(x=v1v2v3v4...vn) = - na*log(p) - nb*log(1-p)

Avec n=na+nb nb représente le nombre de tirages à 0. Et na représente le nombre de tirages à 1. Puis nous avons p =A/µ et 1-p = B/µ et µ =A+B. Ce qui se met sous forme de puissance :

I(µ>n-1)
I(x=v1v2v3v4...vn) = log(µn / (Ana * Bnb))

Lorsque le tirage est complet n = µ et nb = B et na = A. Nous avons :

I(µ=µ)
I(x=x) = log(µµ / (AA * BB))

µµ / (AA * BB) est égale au

nombre de messages binaires distincts qui possèdent (µ-A) bits à 0 et µ bits à 1. Cela correspond au nombre d'états microscopiques différents possibles pour le même état macroscopique que représente l'entité (µ,A).

Rappel en thermodynamique : L'entropie est une variable d'état proportionnelle au logarithme du nombre d'états microscopique possibles d'un système pour le même état macroscopique. C'est une variable d'état extensive, c'est à dire que l'entropie de plusieurs systèmes est la somme des entropies des systèmes.

I(x=x) est donc l'entropie de l'entité contenant x.

Lorsque le message est composé que de 1 ou que de 0, alors le gain d'information transmit, c'est à dire l'acroissement de notre quantité d'information, connaissant la probabilité, est évidement nulle puisque la probabilité dont nous avons connaissance, nous informe à l'avance complètement du résultat.

Lorsque le message est composé que de 0 avec un seul bit à 1, alors le gain d'information transmit, c'est à dire l'acroissement de notre quantité d'information connaissant la probabilité et la taille, est égale à log(µ). Il y a µ messages possibles et le nombre entier µ nécessite, pour être mis en mémoire, de log(µ) bits. (Lorsque le log est fractionnaire, il faut le composé avec d'autre log fractionnaire pour obtenir un log entier sinon on est obligé de majorer du fait que l'informatique manipule un nombre entiers de bits). Le facteur de proportionalité est donc déterminé par l'unité choisie de quantité d'information qu'est le bit de mémoire.

 

I(AB) = I(B) + I(A/B)

I(A/B) l'information aporté par A sachant B

résumons :

I(x=x/(µ=µ et A=A)) = log(µ!/(A!*(µ-A)!)
I(x=x/p=p) = I(µ=µ/p=p) + log(µµ / (AA * BB))
I(x=x/A
=A) = I(B=B/A=A) + nombre de bits jusqu'au A ième bit à 1.
I(x=x/µ
=µ) = I(A=A/p=p) + I(B=B/p=p) + µ

 

On peut définir la probabilité sur l'univers W par les 4 axiomes suivants :

Rationnelle : P est une application de l'ensemble des parties de W dans l'ensemble des nombres rationels.
Positive : Quelque soit X une partie de W, nous avons P(X) >=0.
Exhaustive : P(W) = 1.
Exclusive : Quelque soit une suite finie X1, X2, X3..., Xn de parties de W disjointent deux à deux , nous avons :
               P(X1 ou X2 ou X3... ou Xn) = P(X1) + P(X2) + P(X3)... +P(Xn).

On peut définir la quantité d'informattion sur l'univers W par les 3 axiomes suivants :

Réelle : I est une application de l'ensemble des parties de W dans l'ensemble des nombres réelles.
Numeraire : On pose un paramètre ß>1. (Intuitivement ß = ln(|W|)/ln(q)).
Entropique : Quelque soit X une partie non vide de W, nous avons I(X) = ß*(1 - ln(|X|)/ ln(|W|)).

 

On peut définir la probabilité sur l'univers W d'une manière plus générale en remplaçant l'axiome exclusif par l'axiome informatif :

Réelle: P est une application de l'ensemble des parties de W dans l'ensemble des nombres réelles.
Positive : Quelque soit X une partie de W, nous avons P(X) >=0.
Exhaustive : P(W) = 1.
Numeraire : On pose un paramètre r>1.
Informative : P(X) = r^(ß*(ln(X)/ln(|W|)-1)).

Délors nous n'avons plus la relation : P(¬A) = 1 - P(A) ni P(A ou B) = P(A) + P(B) - P(A et B)

P(A) = r^(- I(A))
P(A) = r^S(A) / r^ß
P(A et B) = P(B)*P(A/B) = P(A)*P(B/A)
P(B/A) = P(A et B) / P(A)
P(B/A) = r^S(B/A)
P(B/A) = r^(- I(B/A))


: Quelque soit une suite finie X1, X2, X3..., Xn de parties de W disjointent deux à deux , nous avons :
               P(X1 ou X2 ou X3... ou Xn) = P(X1) + P(X2) + P(X3)... +P(Xn).
Informative : P(A) = r^(ln(X)/ln(2)) / r^(log(|W|)/ln(2)).

Deux degrés de liberté apparaissent. En effet, on peut facilement concevoir une mesure qui respecte les régles de produits ci-dessus en prenant une autre base de logarithme q>1 et une autre base de puissance p>1. On obtient ainsi la définition d'une probabilité (qui n'est plus canonique) :

P(A) = p^(ln(|A|)/ln(q)) / p^(ln(|W|)/ln(q))

Réciproque on peut définir la quantité d'information à partir de la probabilité, et il apparrait aussi deux degrés de liberté que sont la base du logarithme et la base de la puissance.

6) La variable aléatoire booléenne

Une variable aléatoire boléenne x est une application de N-->{0,1}. Elle peut subire une extraction infinie quelconque pour produire une autre variable combinatoire booléenne équivalente.

On définie la probabilité p d'une variable aléatoire booléenne x comme égale à la limite lorsque n tend vers l'infini de la somme des n premiers tirages divisée par n.

p = limit((1/n)*sum(xi, i=1..n), n = infinity)

On pose l'axiome de probablité : La probabilité ainsi calculé est un invariant. C'est à dire que si x et y soont lié par la relation d'extractibilité alors la probabilité ainsi calculé de x et de y est la même.

L'axiome de probabilité et l'axiome d'indépendance

Une des conséquences redoutables de ces deux axiomes est que l'application x n'est pas calculable.

Il reste à prouver qu'il existe de tels variables booléennes aléatoires pour chaque probabilité p.

Les permutations locales laissent invariant p. Une permutation locale est une bijection f de N sur N tel qu'il existe un entier DMAX tel que pour tout i, la distance entre i et f(i) est inferieur à DMAX. L'axiome d'indépendance assure que l'application d'une permutation locale sur les indexes d'une variable aléatoire booléenne produit une autre variable aléatoire booléenne équivalente.

La variable aléatoire booléenne est totalement caractèrisé par sa probabilité p.

Une variable aléatoire booléenne x possède une loi de probabilité p possède les probabilités suivantes :

P(x=1) = p
P(x=0) = 1-p

P(x=1) désigne la probabilité d'obtenir 1 lors d'un tirage. Cette variable aléatoire notée x est trés simple à décrire. Elle possède deux valeurs possibles 0 et 1. Et sa loi de probabilité est totalement décrite par la probabilité p de valoir 1 lors d'un tirage.

4) Quantité d'information d'une variable aléatoire booléenne

Hartley (1928) : La quantité d'information d'un message doit varier linéairement avec la taille du message, un message 2 fois plus long contient potentiellement 2 fois plus d'informations. Or le nombre de messages distincts possibles croit exponentiellement. La quantité d'information est donc proportionnelle au logarithme du nombre de messages distincts possibles.

Le gain d'information, noté I, résultant de la transmission d'un message, traduit l'évolution entre notre connaissance, avant réception, exprimée par la probabilité P1 et notre connaissance après réception, exprimée par la probabilité P2. Le message est constitué d'un bit.

I = log (P2) - log(P1)

Le logarithme est en base 2 car l'unité d'information est le bit. A chaque valeur 1 reçu, notre connaissance du bit en question passe de la probabilité initiale p, à la certitude (probabilité égale à 1). La quantité d'information est égale à log(1) - log(p). La quantité d'information transportée par la valeur 1 vaut donc - log(p). Et la quantité d'information transportée par la valeur 0 vaut - log(1-p). La quantité d'information moyenne transportée par une valeur de la variable aléatoire booléenne vaut donc - p*log(p) - (1-p)*log(1-p)

I(x=1) = - log(p)
I(x=0) = - log(1-p)

I(x=1) désigne la quantité d'information apportée par un tirage d'une valeur 1.

5) Sommation

Les probabilités sont estimés en sommant un nombre K de tirages. C'est pourquoi on s'intéresse en premier à la variable S constituée de la somme de K tirages de la variable x.

Les tirages ne sont pas nécessairement consécutif, il peuvent être choisie n'importe comment. La seul règle qui s'impose et que le résultat d'un tirage ne puisse pas avoir d'influence sur son éventuel éviction, et que un même tirage de x ne soit pas utilisé pour calculer différent tirage de S.

x est une application de N --> {0,1}. L'ensemble de toutes ces applications, et donc de toutes les variables booléennes, est noté {0,1}N. La sommation d'une variable booléenne K fois de suite produit une variable appartenenant à {0,1,2...,K}. C'est pourquoi, on considère une variable S de {0,1,2...,K} égale à la somme de K tirages consécutifs de la variable x. S est une application de N --> {0,1,2...,K}. L'ensemble de toutes ces applications, et donc de toutes les variables booléennes sommées K fois, est noté {0,1,2...,K}N. Il existe une bijection canonique entre ({0,1}N)K et {0,1,2...,K}N x(K*i)+x(K*i+1)+x(K*i+2)...+x(K*i+K-1) = S(i).

Nous avons la loi binumiale :

P(S=0) = (1-p)^N
P(S=n) = N!/(n!(N-n)!) * p^n * (1-p)^(N-n)
P(S=1) = p^N

La moyenne de S est noté m1(S), et l'écart type de S est noté m2(S). Ils valent :

m1(S) = N*p
m2(S) = sqrt(N*p*(1-p))

6) Première discusion sur l'estimation de p

Etant donné une variable aléatoire booléenne x, et ne connaissant qu'une valeur d'un tirage de cette variable, quel estimation de la loi de probabilité p pouvons nous faire ? Pour répondre à cette question il est nécessaire de définir une variable aléatoire particulière qu'est une probabilité aléatoire, ou plus concrètement de définir une variable aléatoire particulière qu'est une variable aléatoire booléenne aléatoire. Et pour cela il faut choisire une hypothèse sur la construction aléatoire des variables aléatoires booléennes.

1er hypothèse : "Equiprobabilité des fonctions de N-->{0,1}" cela à pour conséquence que toute variable booléenne à une loi de probabilité 1/2.

2ème hypothèse : "Equiprobabilté des probabilités p". Deux fonctions de N-->{0,1} qui ont même probabilité diffèrent simplement dans l'ordre de leur index. Equiprobabilté des probabilités p signifie l'equiprobabilité des fonctions à l'ordre près des indexes.

La seconde hypothèse représente l'entropie maximum si l'on considère que p est la variable d'état et non les valeurs x(i) du fait de l'axiome d'indépendance. Néamoins il se pourrait qu'une hypothèse intermediaire voir différente soit d'avantage justifiée.

6) Le seuil

Pour estimer la probabilitée p d'une variable booléenne x, c'est à dire la probabilité que x=1. Nous effectuons N tirages que nous sommons dans la variable S.

On se fixe un seuil de probabilité s proche de 1, qui représente la probabilité que l'estimation que nous allons faire soit juste, c'est à dire que la probabilité pour que p soit bien inclus dans l'intervalle que nous allons calculer, soit égale à s.

Puis on calcule pour chaque loi possible de probabilité p, l'interval le plus petit [S1,S2] pour lequel la probabilité que S soit dedans soit juste supérieur ou égale au seuil s. Cet interval représente les valeurs possibles pour la somme de N tirages avec le seuil de probabilité s.

Puis on recherche l'intervale de probabilité pour lequel les valeurs possibles pour la somme de N tirages avec le seuil de probabilité s contiennent la somme experimentale S. Cette intervale correspond à l'estimation.

Pour estimer la probabilitée à partir d'une somme experimentale S de N tirages, on se fixe un seuil de probabilité s proche de 1, qui représente la probabilité que l'estimation soit juste. Puis on calcule pour chaque loi possible de probabilité p, l'interval le plus petit qui obtient une probabilité juste supérieur ou égale au seuil s. Cette interval représente les valeurs possibles pour la somme de N tirages avec le seuil de probabilité s. Puis on recherche l'intervale de probabilité pour lequel les valeurs possibles pour la somme de N tirages avec le seuil de probabilité s contiennent la somme experimentale S. Cette intervale correspond à l'estimation.

Lorsque N est grand, l'estimation de la probabilité pour un seuil à 0.68, vaut P(x=1) = m1(X)/N ± m2(X)/N (loi de Gauss)

4) Un couple de variables aléatoires booléennes

La première construction possible consiste à combiner deux variables booléennes. Elle peuvent être combinées à permutation près ou pas. La désignation d'un couple de variable booléenne présuppose un choix d'ordre entre les 2 variables.

La loi de probabilité d'un couple de variables booléennes (x,y) est constituée des 4 probabilitées dont la somme est égale à 1 de chaque cas exclusif possible :

p0 = P(x=0 et y=0)
p1 = P(x=0 et y=1)
p2 = P(x=1 et y=0)
p3 = P(x=1 et y=1)

avec p0 + p1 + p2 + p3 = 1.

On choisie de numéroté les cas par une variable n de tel sorte que sa décomposition en nombre binaire correspondent au couple de valeurs booléennes :

n = 2*x + y

Cela constitue une bijection entre Z/2Z * Z/2Z --> Z/4Z. On a remplacé ainsi deux variables x et y dans Z/2Z par une variable n dans Z/4Z en choisissant x comme bit de poid fort.

4.1) Probabilité conditionelle

On note P(B/A) la probabilité de l'évènement B lorsque l'évènement A se produit. Nous avons la règle suivante :

P(A et B) = P(A) * P(B/A) = P(B) * P(A/B)

4.2) Quantité d'information

On note I(B/A) la quantité d'information apporté par l'évènement B sachant l'évènement A. Nous avons la règle suivante :

I(A et B) = I(A) + I(B/A) = I(B) + I(A/B)

 

On définie la notation binaire comme suit :

p00 = P(x=0 et y=0)
p01 = P(x=0 et y=1)
p10 = P(x=1 et y=0),
p11 = P(x=1 et y=1),
p0# = P(x=0),
p1# = P(x=1),
p#0 = P(y=0),
p#1 = P(y=1),
p## = 1.

Après le symbole p. Le symbole 1 signifie que la variable, correspondante à la place du 1, doit avoir la valeur 1. Le symbole 0 signifie que la variable, correspondante à la place du 0, doit avoir la valeur 0. Le symbole # signifie que la variable, correspondante à la place du #, peut avoir n'importe quel valeur.

Px = P(x=1), Py=P(y=1), Pxy = P(x=1 et y=1). Nous avons :

Px = p2+p3
Py = p1+p3
Pxy = p3

La loi de probabilité d'un couple de variable (x,y) est donc composé de ces 3 probabilités (Px, Py, Pxy). à partir desquel on calcul les probabilité de chaque cas exclusif possible :

p3 = Pxy
p2 = Px-Pxy
p1 = Py-Pxy
p0 = 1+Pxy-Px-Py

5) Un couple de variables booléennes à une permutation près.

La loi de probabilité d'un couple de variables booléennes à permutation près noté {x,y} est constitué par trois probabilités pour chaque cas exclusif possible :

q0 = P(x=0 et y=0)
q1 = P((x=1 et y=0) ou (x=0 et y=1))
q2 = P(x=1 et y=1)

avec q0 + q1 + q2 = 1.

Les numéros n des cas sont choisis et ordonnés de tel sorte que leurs valeurs soient égales à la somme des valeurs booléennes dans Z/3Z : n = x+y et cela constitue une bijection. On a remplacé ainsi deux variables dans Z/2Z par une variable dans Z/3Z.

Le calcul est le même que précédement en regroupant les probabilité p1 et p2 dans q1 :

q0 = p0
q1 = (p1 + p2)  
q2 = p3

Nous avons toujours :

p0 + p1 + p2 + p3 = 1

Px = p2+p3
Py = p1+p3
Pxy = p3

La loi de probabilité d'un couple de variable à permutation près {x,y} est composé de 2 probabilités : (Px + Py, Pxy) à partir des quels on calcul les probabilités de chaque cas exclusif possible :

q2 = Pxy
q1 = Px + Py - 2*Pxy
q0 = 1 - Px - Py + Pxy

6) Un triplet de variables aléatoires booléennes

p0 = P(x=0 et y=0 et z=0)
p1 = P(x=0 et y=0 et z=1)
p2 = P(x=0 et y=1 et z=0)
p3 = P(x=0 et y=1 et z=1)
p4 = P(x=1 et y=0 et z=0)
p5 = P(x=1 et y=0 et z=1)
p6 = P(x=1 et y=1 et z=0)
p7 = P(x=1 et y=1 et z=1)

avec p0 + p1 + p2 + p3 + p4 + p5 + p6 + p7 = 1.

Les numéros n des cas sont choisis et ordonnés de tel sorte que leur décomposition en nombre binaire correspondent au triplet de valeurs booléennes : n = 22*x + 2*y + z dans Z/8Z et cela constitue une bijection. On a remplacé ainsi trois variables dans Z/2Z par une variable dans Z/8Z en choisissant x comme bit de poid fort et y comme bit de poid moyen.

Nous posons Px = P(x=1), Py=P(y=1), Pxy = P(x=1 et y=1), Pxz = P(x=1 et z=1), Pyz = P(y=1 et z=1), Pxyz = P(x=1 et y=1 et z=1). Nous avons :

Px = p4 + p5 + p6 + p7
Py = p2 + p3 + p6 + p7
Pz = p1 + p3 + p5 + p7
Pxy = p6 + p7
Pxz = p5 + p7
Pyz = p3 + p7
Pxyz = p7

La loi de probabilité d'un triplet de variables aléatoires booléennes (x,y,z) est composé de ces 7 probabilités (Px, Py, Pz, Pxy, Pxz, Pyz, Pxyz) à partir desquels on calcul les probabilités de chaque cas exclusif possible :

p7 = Pxyz
p6 = Pxy - Pxyz
p5 = Pxz - Pxyz
p4 = Px - Pxy - Pxz + Pxyz
p3 = Pyz - Pxyz
p2 = Py - Pxy - Pyz + Pxyz
p1 = Pz - Pxz - Pyz + Pxyz
p0 = 1 - Px - Py - Pz + Pxy + Pxz + Pyz - Pxyz

7) Un triplet de variables aléatoires booléennes à permutation près

La loi de probabilité d'un triplet de variables booléennes à permutation près noté {x,y} est constitué par quatre probabilités pour chaque cas exclusif possible :

q0 = P(x=0 et y=0 et z=0)
q1 = P((x=1 et y=0 et z=0) ou (x=0 et y=1 et z=0) ou (x=0 et y=0 et z=1))
q2 = P((x=1 et y=1 et z=0) ou (x=1 et y=0 et z=1) ou (x=0 et y=1 et z=1))
q3 = P(x=1 et y=1 et z=1)

avec q0 + q1 + q2 + q3 = 1.

Les numéros n des cas sont choisis et ordonnés de tel sorte que leurs valeurs soient égales à la somme des valeurs booléennes dans Z/4Z : n = x + y + z et cela constitue une bijection. On a remplacé ainsi trois variables dans Z/2Z par une variable dans Z/4Z.

Le calcul est le même que précédement en regroupant les probabilités p1, p2, p4 dans q1, et les probabilités p3, p5, p6 dans q2.

q0 = p0
q1 = (p1 + p2 + p4)  
q2 = (p3 + p5 + p6) 
q3 = p7

Nous avons toujours :

p0 + p1 + p2 + p3 + p4 + p5 + p6 + p7 = 1

Px = p4+p5+p6+p7
Py = p2+p3+p6+p7
Pz = p1+p3+p5+p7
Pxy = p6 + p7
Pxz = p5 + p7
Pyz = p3 + p7
Pxyz = p7

La loi de probabilité d'un couple de variable à permutation près {x,y,z} est composé de 3 probabilités (Px + Py + Pz, Pxy + Pxz + Pyz, Pxyz) tel que :

q3 = Pxyz
q2 = Pxy + Pxz + Pyz - 3*Pxyz
q1 = Px + Py + Pz -2*Pxy - 2*Pxz - 2*Pyz + 3*Pxyz
q0 = 1 - Px - Py - Pz + Pxy + Pxz + Pyz - Pxyz

Si nous nous restreignons aux seuls permutations circulaires sur un triplet de booléens nous obtenons le même résultat.

 

7) Un n-uplet de variables aléatoires booléennes

p0 = P(xn-1=0 et xn-2=0 .... et x1=0 et x0=0)
p1 = P(xn-1=0 et xn-2=0 .... et x1=0 et x0=1)
p2 = P(xn-1=0 et xn-2=0 .... et x1=1 et x0=0)
p3 = P(xn-1=0 et xn-2=0 .... et x1=1 et x0=1)
....
p2k = P(xn-1=0 et .... xk+1=0 et xk=1 et xk-1 = 0 ..... et x0=1)
....
p2n-1 = P(xn-1=1 et xn-2=1 .... et x1=1 et x0=1)

avec p0 + p1 + p2 + .... P2n+1 = 1.

Les numéros k des cas sont choisis et ordonnés de tel sorte que leur décomposition en nombre binaire correspondent au n-uplet de valeurs booléennes : k = 2n-1*xn-1 + 2n-2*xn-2 + .... 22*x2 + 21*x1 + 20*x0 dans Z/2nZ

Nous posons Pk = P(xk=1). Nous avons :

P0 = p1 + p3 + p5 + p7 ... + p2i-1 + ... +p2n-1
P1 = p2 + p3 + p6 + p7 ... + p4i-2 + p4i-1 + ... p2n-2 + p2n-1
P2 = p4 + p5 + p6 + p7 ... + p8i-4 + p8i-3 + p8i-2 + p8i-1 + ... p2n-4 + p2n-3 + p2n-2 + p2n-1
...
Pk = ... p2(k+1)i-2k


Pxy = p6 + p7
Pxz = p5 + p7
Pyz = p3 + p7
Pxyz = p7

La loi de probabilité d'un n-uplet de variables aléatoires booléennes (xn-1, xn-2, ... x2, x1, x0 ) est composé de ces 2^(n-1)-1 probabilités (P0, P1, ... Pn, P01, P02, P03,... P012 ,...)

p7 = Pxyz
p6 = Pxy - Pxyz
p5 = Pxz - Pxyz
p4 = Px - Pxy - Pxz + Pxyz
p3 = Pyz - Pxyz
p2 = Py - Pxy - Pyz + Pxyz
p1 = Pz - Pxz - Pyz + Pxyz
p0 = 1 - Px - Py - Pz + Pxy + Pxz + Pyz - Pxyz

 

Cela peut être les entiers naturels désignant une infinité dénombrable de tirages en commençant par l'index 0. Ou cela peut être un domaine continue [0,1] par exemple, désignant une infinité non dénombrable de tirages. L'index est désigné par un réel comme le temps, et la variable représente un signal. Le domaine de définition peut être engendré à partir d'un domaine fini tel que les entiers 0,1,2,3..., N-1, en l'étendant aux infinies de la façon suivante :

Pour trouver les propriétés les plus remarquables, il est probable que nous choisirons, comme domaine de définition et comme ensemble d'arrivé, une structure très riche tel que les nombres complex. Il y a des zones attractives ou point froid, en mathématique, et les complex en font partis, comme étant la plus grande structure possible de corps commutatif contenant les réels et constituant de fait un corps algébriquement clos (tout polynôme a une racine).

Nous allons commencer à étudier les variables aléatoires ayant comme domaine de définition, les entiers naturels noté N, et les réels comme ensemble d'arrivé noté T0.

Nous allons définire un certain nombre d'opérateur qui effectuerons des calculs et dont nous exhiberons des règles de simplification, pour pouvoir ainsi faire les calculs de simplification à un niveau supérieur. L'opérateur est un élément abstrait programmable qui nous permet d'avoir une approche purement constructive. Et c'est en ce sens que nous les utilisons.

La valeur de la variable aléatoire X pour chaque tirage est notée X(0), X(1), X(2).... X est un vecteur ayant une infinité de composante. X est donc un tenseur d'ordre 1, c'est à dire qu'il peut être décliné selon un indice i. X est donc une fonction de N --> T0. On définit un opérateur O(i) qui appliqué à X donne X(i). L'opérateur O(i) transforme un tenseur d'ordre 1 en une constante qui est un tenseur d'ordre 0.

O(i)(X) = X(i).

O(i) :  T1 --> T0
        X --> X(i)

X étant une fonction, on peut la composer avec d'autre. Par exemple considérons les fonctions f = (a-->2*a), et g = (a-->a^2), nous pouvons construire la variable aléatoire g°X°f.

(g°X°f)(i) = g(X(f(i)))

On voit apparaître le choix d'une notation fonctionnelle qui doit permettre de combiner les fonctions le plus librement possible.

 

 

I(N) = 0
I(N/2) = 1 (lorsque N divisible par 2)
I(N/2^n) = n (lorsque N divisible par 2^n)
I(2^n) = ß-n
I(2) = ß-1
I(1) = ß
I(0) = + infini

 

Lorsque deux variables x et y sont équivalentes selon l'axiome d'indépendance, on écrit x R y, et on dit que x est extrait de y ou que y est extrait de x. Et la classe d'équivalence contenant x est notée Classe(x) et s'appel une entité. Et l'ensemble des classes d'équivalence, l'ensemble des entités, est noté LN*/ R.

à revoir

Cela signifie, que deux variables x et y sont équivalentes si et seulement si il existe une application injective calculable f de N*-->N* tel que x = y ° f ou que y = x ° f. On parlera de relation d'extractibilité infinie (erreur !)