Nous allons étudier ce que devient une variable `x` de loi continue `X` lorsqu'elle est transformées par une fonction dérivable `φ`. La variable `x` est transformée en une variable `y = φ(x)`.
Pour une fonction `φ` dérivable nous avons le développement de Taylor suivant :
`φ(x"+"dx) = φ(x) + φ'(x)dx + O(dx^2)`
On nomme la nouvelle variable `y = φ(x)`. L'élément différentiel `dy` se définit alors comme suit :
`y = φ(x)`
`dy = d(φ(x))`
`dy = φ(x"+"dx) - φ(x)`
Et donc d'après le développement de Taylor précédent :
`dy = φ'(x)dx + O(dx^2)`
Ce qui entraine l'égalité au même ordre de grandeur :
`dy = φ'(x)dx + o(dx)`
Ce qui s'écrit en omettant l'ordre de grandeur :
`dy = φ'(x)dx`
En conclusion :
`dy = φ'(x)dx`
Si la fonction `φ` est dérivable et inversible, alors elle est strictement monotone et l'inverse est également une fonction strictement monotone. Et si elle est strictement croissante alors l'inverse est également strictement croissante :
`x = φ^-1(y)`
`dx = (φ^-1)'(y)dy`
Et comme `dy = φ'(x)dx` on en déduit que :
`(φ^-1)'(y)=1/(φ'(x))`
Etant donné un valeur inconnnue `a`, nous avons l'équivalence suivante :
`a"∈]"x, x"+"|dx|"[" <=> φ(a)"∈]"φ(x), φ(x)"+"|d(φ(x))|"["`
`a"∈]"x, x"+"|dx|"[" <=> φ(a)"∈]"y, y"+"|dy|"["`
Et donc nous avons l'égalité des probabilités suivantes :
`P(overset(***)x"∈]"x, x"+"|dx|"[") = P(φ(overset(***)x)"∈]"φ(x), φ(x)"+"|d(φ(x))|"[")`
`P(overset(***)x"∈]"x, x"+"|dx|"[") = P(overset(***)y"∈]"y, y"+"|dy|"[")`
On nomme `X` la loi de densité de probabilité de `x`. Et on nomme `Y` la loi de densité de probabilité de `y`. Nous avons par définition :
`X(x)|dx| = P(overset(***)x "∈]"x,x"+"|dx|"[")`
`Y(y)|dy| = P(overset(***)y "∈]"y,y"+"|dy|"[")`
Donc :
`X(x)|dx| = Y(y)|dy|`
On en déduit la loi de `y` :
`X(x)|dx| = Y(y)|φ'(x)||dx|`
`Y(y) = (X(x))/(|φ'(x)|)`
`x = φ^-1(y)`
Lorsque φ est strictement croissante nous avons `Y(y) = (X(φ^-1(y)))/(φ'(φ^-1(y)))`.
Lorsque φ est strictement décroissante nous avons `Y(y) = - (X(φ^-1(y)))/(φ'(φ^-1(y)))`.
Considérons une variable `x` ayant une fonction cumulative `bbX` dérivable et strictement croissante. Si on choisie comme fonction de transformation, cette fonction cumulative `bbX`, alors la nouvelle variable `y=bbX(x)` sera de loi équirépartie. Par définition nous avons :
Et d'après le résultat précédent, nous avons :`"Arr"(y)="["0,1"]"`
`dy=bbX'(x)dx =X(x)dx`
`Y(y) = (X(x))/(bbX'(x))`
`Y(y) = (X(x))/(X(x))`
`Y(y) = 1`
C'est la réciproque du problème précédent. A partir d'une variable équiprobable `x`, on peut construire une variable `y` de fonction cumulative `F` dérivable strictement croissante arbitraire, comme suit :
`x = F(y)`
`y = F^-1(x)`
On en déduit que :
`Y(y) = (X(x))/((F^-1)'(x))`
Comme nous avons démontré que :
`(u"="φ(v)" et "φ "inversible") => (φ^-1)'(u)=1/(φ'(v))`
On en déduit :
`Y(y) = X(x)F'(y)`
la variable `x` étant de loi équirépartie, `X(x)` est une constante `c`.
`Y(y) = cF'(y)`
`bbY(y) = int_(y<y) cF'(y)`
`bbY(y) = c int_(y<y) F'(y)`
`bbY(y) = c [F(y)]_(y_"min")^y`
`bbY(y) = c(F(y)-F(y_"min" ))`
`F` et `Y` étant des fonctions cumulatives, nous avons `F(y_"min")"="Y(y_"min")"="0`.
`bbY(y) = cF(y)`
`F` et `Y` étant des fonctions cumulatives, nous avons `F(y_"max")"="Y(y_"max")"="1`. Donc `c"="1` .
`bbY(y) = F(y)`
On nomme `bbX` la fonction cumulative de `x`, et `bbY` la fonction cumulative de `y`. C'est à dire :
`bbX("x")=int_("x"<"x")X("x")d"x"` `bbY("y") = int_("y"<"y")Y("y")d"y"`
On note `x_"min"` la borne inférieur de `x`, et `y_"min"` la borne inférieur de `y`. Si `φ` est strictement croissante, l'image de l'intervale `"["x_"min",x"["` est l'intervalle `"["φ(x_"min"),φ(x)"["`, et comme `φ(x_"min")"="y_"min"` et `φ(x)"="y`, cela correspond à l'intervalle dans le même sens `"["y_"min",y"["`.
`y_"min" = φ(x_"min")`
`y = φ(x)`
`dy = φ'(x)dx`
`Y(y) = (X(x))/(φ'(x))` (`φ` est strictement croissante).
La définition de la fonction cumulative de `y` est :
`bbY(y) = int_(y_"min")^yY(y)dy`
On procède à un changement de variable d'intégration. Au lieu d'intégrer selon `y`, on intégre selon `x`, en remplaçant les bornes de l'intégrale `y_"min"` et `y` par `x_"min"` et `x`, et en remplaçant dans l'intégrale les valeurs `y` par `φ(x)` et `dy` par `φ'(x)dx`, et en y remplaçant directement `Y(y)` par `X(x)"/"φ'(x)` :
`bbY(y) = int_(y_"min")^yY(y)dy`
`bbY(y) = int_(x_"min")^x(X(x))/(φ'(x)) φ'(x)dx`
`bbY(y) = int_(x_"min")^xX(x) dx`
`bbY(y) = bbX(x)`
La fonction cumultive de `y` se calcule donc comme suit :
`bbY(y) =bbX(φ^-1(y))`
Par contre si `φ` est strictement décroissante, l'image de l'intervale `"]"x_"min",x"["` est l'intervalle `]φ(x),φ(x_"min")[` et comme `φ(x_"min")"="y"_max` et `φ(x)"="y` cela correspond à l'intervalle `"]"y,y_"max" "]"` où `y_"max"` est la borne supérieur de `y`. Et par un raisonnement analogue, nous obtenons `bbX(x)=1-bbY(y)`. La fonction cumulative de `y` est égale à `bbY(y) =1 - bbX(φ^-1(y))`. Cette transformation strictement décroissante `φ` s'obtient par symétrie à partir d'une fonction strictement croissante, aussi on ne retiendra que les transformations `φ` strictement croissante.
Si la fonction dérivable `φ` est à inverse multiple mais en nombre fini, pour un point `y` nous avons `n` inverses :
`{x_1, x_2, x_3, ..., x_n} = φ^-1(y)`
Comme l'évènement `overset(***)y in "]"y,y"+"dy"["` se produit si et seulement si `overset(***)x in "]"x_1,x_1"+"dx_1"["` ou `overset(***)x in "]"x_2, x_2"+"dx_2"["` ou `overset(***)x in "]"x_3, x_3"+"dx_3"["` ou ... ou `overset(***)x in "]"x_n, x_n"+"dx_n"["`, et que ces évènements sont deux à deux incompatibles, la probabilité `P(overset(***)y in "]"y,y"+"dy"[")` est égale à la somme des probabilités `P(overset(***)x in "]"x_i,x_i"+"dx_i"[")` pour `i` variant de 1 à `n` :
`X(x_1)|dx_1| + X(x_2)|dx_2| + X(x_3)|dx_3| + ... + X(x_n)|dx_n| = Y(y)|dy|`
`sum_(i=1)^n X(x_i)|dx_i| = Y(y)|dy|`
Donc :
`Y(y)= sum_(i=1)^n X(x_i)|dx_i|/|dy| `
Et selon la définition de la dérivée :
`φ'(x_i) dx_i = dy`
On en déduit la loi de `y` :
`Y(y) = sum_(i=1)^n (X(x_i))/(|φ'(x_i)|)`
`{x_1, x_2, x_3, ..., x_n}= φ^-1(y)`
Le calcul différentiel utilise le concept d'élément différentiel qui se formalise dans le corps des hyperréels `"*"RR`, et qui au premier ordre dévoile l'aspect linéaire local des fonctions différentiables.
On adopte une notation s'inspirant de la thermodynamique et des réseaux de neurones. On définie un système de variables avec systèmes de coordonnées par défaut. Par exemple : Étant donné une fonction `y` de `RR` vers `RR`, on considère qu'elle s'applique par défaut sur `x` et qu'elle est infiniment dérivable, en déclarant le neurone suivant :
`y"←"color(green)("("x")")`
Dès lors l'expression `y`, apparaissant dans une équation où l'on attend une valeur, représentera la valeur `ycolor(green)("("x")")`, l'appel de l'application reprenant la même typographie de parenthèse et de couleur utilisée dans le neurone, ceci afin de ne pas confondre avec le produit `yx`.
Tout se passe comme si nous étions dans un système physique possédant deux variables d'état `y` et `x`, et que nous affirmions d'une part, que la variable `y` ne dépend que de la variable `x`, et d'autre part que la variable `x` constitue un système de coordonnés implicite pour la variable `y`, faisant que la valeur `y` est définie par défaut en `x`, ce qui s'écrit `y = ycolor(green)("("x")")`.
La définition `y"←"color(green)("("x")")` s'appel un neurone. Elle pose la relation de dépendance suffisante pour le calcul de `y`, et fixe par défaut un système de coordonnés pour `y` avec une notation d'appel, ici en vert avec des parenthèses. Le neurone est dit explicite si la formule calculant `y` à partir de `x` est connue et est citée, et il est dit implicite sinon.
Ce neurone implicite `y"←"color(green)("("x")")` entraine la définition de `dy` sous forme du neurone explicite suivant :
`dy"←"color(green)("("x,dx")")`
`dy = y color(green)("("x"+"dx")") - y`
Comprenez alors :
`dy color(green)("("x,dx")") = y color(green)("("x"+"dx")") - ycolor(green)("("x")")`
ou plus précisement encore :
`dy = {(x,dx)|->y color(green)("("x"+"dx")") - ycolor(green)("("x")") "/" x "∈" RR, dx "∈" epsilonRR}`
où `epsilon` représente un infiniment petit arbitraire, dit, du premier ordre. Ainsi la variable `dx` est inconnue mais doit être de l'ordre d'`epsilon`. Elle représente une variation infiniment petite de `x`.
La propriété que `y` est dérivable entraine que `dy`, qui est fonction de `(x,dx)`, est linéaire selon sa deuxième composante, et qu'elle est constante par translation finie de `dx` sur sa pemière composante :
`AA n "∈" ZZ^2, ((dycolor(green)("("x,ndx")") = ndycolor(green)("("x,dx")")),(dycolor(green)("("x, dx")") = dycolor(green)("("x + ndx,dx")")))`
Ce qui se développe en :
`AA n "∈" ZZ^2, ((ycolor(green)("("x"+"ndx")")-y = n(ycolor(green)("("x"+"dx")")-y)),( ycolor(green)("("x"+"dx")")-y = ycolor(green)("("x"+"(n"+"1)dx")")-ycolor(green)("("x"+"ndx")") ) )`
Du fait de la première propriété, il découle que le rapport `dy"/"dx` ne dépend pas de `dx`, et donc ne dépend que de `x`. En effet, nous avons :
`(dy)/(dx) = (ycolor(green)("("x"+"dx")")-y)/(dx)`
`AA k "∈" RR, (kdy)/(dx) = (dycolor(green)("("x,kdx")"))/(dx)`
`AA k "∈" RR, k(dy)/(dx) = (ycolor(green)("("x"+"kdx")")-y)/(dx)`
`AA k "∈" RR, (dy)/(dx) = (ycolor(green)("("x"+"kdx")")-y)/(kdx)`
Le neurone implicite `y"←"color(green)("("x")")` entraine la définition de la dérivée `y'` sous forme du neurone explicite suivant :
`y'"←"color(green)("("x")")`
`y'" = (dy)/(dx)`
Par exemple, reconsidérons la fonction dérivable inversible du chapitre 1 et que nous appellerons directement `"y"`.
Cette fonction est définie par le neurone `y"←"color(green)("("x")")` et par le neurone inverse `x"←"color(green)("("y")")` puisque la fonction est supposé inversible, et que par ailleurs, une fonction inversible infiniment dérivable admet une inverse infiniment dérivable.
On suppose de plus que `x` et `y` sont des variables de loi de probabilité infiniment dérivable. On nomme `X` la loi de densité de probabilité de `x`, et `Y` la loi de densité de probabilité de `y`. Ces lois se définissent par les neurones explicites suivants :
`X"←"color(green)("("x")")`
`X=(P(overset(***)x in "]"x,x"+"dx"["))/dx`
`Y"←"color(green)("("y")")`
`Y=(P(overset(***)x in "]"y,y"+"dy"["))/dy`
Remarquez que `dx` et `dy` ne désignent plus des variations infiniment petites des variables d'état `x` et `y` mais seulement des tailles d'intervalle infiniment petite.
Dès lors, l'expression `X`, apparaissant dans une équation où l'on attend une valeur, représentera la valeur `Xcolor(green)("("x")")`, et l'expression `Y`, apparaissant dans une équation où l'on attend une valeur, représentera la valeur `Ycolor(green)("("y")")`.
La probabilité attachée à l'intervalle de longueur positive `dx` commençant en `x` est égale à la densité de probabilité `X` en ce point multipliée par `dx`. Et la probabilité attachée à l'intervalle de longueur positive `dy` commençant en `y` est égale à la densité de probabilité `Y` en ce point multipliée par `dy`.
`Xdx=P(overset(***)x in "]"x,x"+"dx"[")`
`Ydy=P(overset(***)y in "]"y,y"+"dy"[")`
Et comme la fonction `x|->y` est à inverse unique, ces deux probabilités sont égales :
`Xdx = Ydy`
On en déduit la loi de `y` :
`Y=Xdx/dy`
`Y = X/(y')`