II) Fonction d'une variable aléatoire

Pour une fonction `φ` dérivable nous avons le développement de Taylor suivant :

`φ("x"+d"x") = φ("x") + φ'("x")d"x" + O(d"x"^2)`

On nomme `"y" = φ("x")` et `d"y" = φ("x"+d"x") - φ("x")`, et donc nous avons :

`"y" = φ("x")`
`d"y" = φ'("x")d"x"`

1) Fonction dérivable à inverse unique

1.1) Loi de `φ(x)`

Si la fonction est à inverse unique, alors la fonction `φ` est strictement monotone et nous avons :

`"x" = φ^-1("y")`

Nommons `X` la loi de densité de probabilité de `x`. Et nommons `Y` la loi de densité de probabilité de `y`. La probabilité attachée à l'intervalle de longueur `|d"x"|` commençant en `"x"` est égale à la densité de probabilité `X("x")` multipliée par `|d"x"|`. Et la probabilité attachée à l'intervalle de longueur `|d"y"|` commençant en `"y"` est égale à la densité de probabilité `Y("y")` multipliée par `|d"y"|`.

`P(bbx in ]"x","x"+d"x"[) = X("x")|d"x"|`
`P(bby in ]"y","y"+d"y"[) = Y("y")|d"y"|`

Et comme l'inverse est unique ces deux probabilités sont égales :

`X("x")|d"x"| = Y("y")|d"y"|`

On en déduit la loi de `y` :

`X("x")|d"x"| = Y("y")|φ'("x")||d"x"|`

`Y("y") = (X("x"))/(|φ'("x")|)`

`"x" = φ^-1("y")`

1.2) Construire une variable de loi équiprobable ou bien dont la fonction cumulative vaut `F`

Si `φ=sfX` alors `sfY(y) = y` c'est à dire que `y` devient une variable équiprobable définie sur `[0,1[`. Autrement dit, pour toutes variables `x` de fonction cumulative `sfX`, la variable `sfX(x)` est une variable équiprobable définie sur `[0,1[`.

Réciproquement, à partir d'une variable équiprobable `x`, on peut construire une variable `y` de fonction cumulative `F` arbitraire, comme suit :

`y = F^-1(x)`

1.3) Fonction cumulative de `φ(x)`

Nommons `sfX` la fonction cumulative de `x`. Et nommons `sfY` la fonction cumulative de `y`. C'est à dire :

`sfX("x")=int_("x"<"x")X("x")d"x"` `sfY("y") = int_("y"<"y")Y("y")d"y"`

On note `sfx` la borne inférieur de `x` et `sfy` la borne inférieur de `y`. Si `φ` est strictement croissante, l'image de l'intervale `[sfx,"x"[` est l'intervalle `[φ(sfx),φ("x")`[, et comme `φ(sfx)=sfy` et `φ("x")="y"` cela correspond à l'intervalle dans le même sens `[sfy,"y"[`.

Nous allons procéder à un changement de variable `"y" |-> "x"`, c'est à dire la transformation `φ^-1` appliquée à la variable `"y"`. Étant donné que :

`sfy = φ(sfx)`
`"y" = φ("x")`
`d"y" = φ'("x")d"x"`
`Y("y") = (X("x"))/(φ'("x"))`
      (`φ` est strictement croissante).

La définition de la fonction cumulative de `y` est  :

`sfY("y") = int_sfy^yY("y")d"y"`

On effectue pour le terme de droite, le changement de variable `y |-> x` :

`sfY("y") = int_sfx^x(X("x")) / (φ'("x")) φ'("x")d"x"`
`sfY("y") = int_sfx^x(X("x")) d"x"`

`sfY("y") = sfX("x")`

La fonction cumultive de `y` se calcule donc comme suit :

`sfY("y") =sfX(φ^-1("y"))`

Par contre si `φ` est strictement décroissante, l'image de l'intervale `[sfx,"x"`[ est l'intervalle `[φ(sfx),φ("x")`[, et comme `φ(sfx)=fry` et `φ("x")="y"` cela correspond à l'intervalle dans le sens inverse `]"y",fry]` `fry` est la borne supérieur de `y`. Et par un raisonnement analogue, nous obtenons `sfX("x")=1-sfY("y")`. La fonction cumulative de `y` est égale à `sfY("y") =1 - sfX(φ^-1("y"))`. Cette transformation strictement décroissante `φ` s'obtient par symétrie à partir d'une fonction strictement croissante, aussi on ne retiendra que les transformations `φ` strictement croissante.

1.4) Fonction dérivable à inverse multiple

Si la fonction `φ` est à inverse multiple (mais en nombre fini), pour un point `"y"` nous avons `"n"` inverses :

`{"x"_1, "x"_2, "x"_3, ..., "x"_"n"}= φ^-1("y")`

Comme l'évènement `bby in ]"y","y"+d"y"[` se produit si et seulement si `bbx in ]"x"_1,"x"_1+d"x"_1[` ou `bbx in ]"x"_2, "x"_2+d"x"_2[` ou `bbx in ]"x"_3, "x"_3+d"x"_3[` ou ... ou `bbx in ]"x"_"n", "x"_"n"+d"x"_"n"[`, et que ces évènements sont deux à deux incompatibles, la probabilité `P(bby in ]"y","y"+d"y"[)` est égale à la somme des probabilités `P(bbx in ]"x"_"i","x"_"i"+d"x"_"i"[)` pour `"i"` variant de 1 à `"n"` :

`X("x"_1)|d"x"_1| + X("x"_2)|d"x"_2| + X("x"_3)|d"x"_3| + ... + X("x"_"n")|d"x"_"n"| = Y("y")|d"y"|`

`sum_("i"=1)^n X("x"_"i")|d"x"_"i"| = Y("y")|d"y"|`

Donc :

`Y("y")= sum_("i"=1)^"n" X("x"_"i")|d"x"_"i"|/|d"y"| `

Et selon la définition de la dérivée :

`φ'("x"_"i") d"x"_"i" = d"y"`

On en déduit la fonction cumulative de `y` :

`Y("y") = sum_("i"=1)^"n" (X("x"_"i"))/(|φ'("x"_"i")|)`

`{"x"_1, "x"_2, "x"_3, ..., "x"_"n"}= φ^-1("y")`

2) Notation physique

On adopte une notation qui s'inspire de la thermodynamique et des réseaux de neurones. Étant donné une fonction `"y"` de `RR` vers `RR`, on considère qu'elle s'applique par défaut sur `"x"` en la déclarant ainsi :

`"y" :  "x"|-> "y"("x")`

Dès lors l'expression `"y"`, apparaissant dans une équation où l'on attend une valeur, représentera la valeur `"y"("x")`.

Tout se passe comme si nous étions dans un système physique possédant deux variables d'état `"y"` et `"x"`, et que nous affirmions d'une part, que la variable `"y"` ne dépend que de la variable `"x"`, et d'autre part que la variable de nom "`"x"`" constitue un système de coordonnés implicite pour la variable `"y"`, faisant que la valeur `"y"` est définie par défaut en `"x"`, ce qui s'écrit `"y" = "y"("x")`.

La définition `"y" :  "x"|->"y"("x")` s'appel un neurone. Elle détermine les relations de dépendance nécessaires pour le calcul de `"y"` et fixe par défaut un système de coordonnés pour `"y"`. Elle entraine les définitions de `d"y"` et récurcivement, tant que la fonction obtenue est dérivable :

`"y" :  "x"|->"y"("x")`
`d"y" :  "x"|->"y"("x"+d"x")-"y" + O(d"x")`
`d^2"y" :  "x"|->"y"("x"+d"x")-2"y"+"y"("x"-d"x")+ O(d"x"^2)`
`...`

Notez qu'il est possible de définir de façon exacte `d"y"` comme fonction de deux variables, `d"y" :  ("x", d"x") |->"y"("x"+d"x")-"y"`, et il est possible d'enlever le deuxième argument `d"x"` en ajoutant un ordre de grandeur `O(d"x")` grâce à la propriété de dérivabilité de `"y"` selon `"x"`.

Ainsi si `"y"` est dérivable nous avons le développement de Taylor suivant :

`"y"("x"+d"x") = "y" + "y"'d"x" + O(d"x"^2)`
`d"y" = "y"'d"x" + O(d"x"^2)`

Souvent, on ne précise l'ordre de grandeur que si celui-ci est plus petit que l'ordre attendu. Et donc les expressions précédentes s'écrivent :

`"y"("x"+d"x") = "y" + "y"'d"x"`
`d"y" = "y"'d"x"`

Ainsi si `"y"` est dérivable trois fois nous avons le développement de Taylor suivant :

`"y"("x"+d"x") = "y" + "y"'d"x" + "y"''d"x"^2 + "y"'''d"x"^3`
`d"y" = "y"'d"x"`
`d^2"y" = "y"''d"x"^2`
`d^3"y" = "y"'''d"x"^3`

Exemple

Par exemple reconsidérons la fonction dérivable à inverse unique vue au chapitre 1 et que nous appellerons directement `"y"`. Cette fonction est définie par le neurone suivant `"y" : "x"|->"y"("x")`. Le paramètre `"x"` constitue le point de focalisation propre au contexte.

Notez alors que `x` désigne une variable aléatoire, et que par la même convention, `y` représentera la variable aléatoire `"y"(x)`. Le couple de paramètres `("x","y")` constitue le point de focalisation propre au contexte et doit naturellement vérifier `"y" = "y"("x")`.

On nomme de façon conventionnelle `X` la loi de densité de probabilité de `x`, et `Y` la loi de densité de probabilité de `y`. Ces lois sont également des fonctions définies par des neurones. `X : "x"|->X("x")` et `Y : "y"|->Y("x")`. Dès lors l'expression `X`, apparaissant dans une équation où l'on attend une valeur, représentera la valeur `X("x")`, et l'expression `Y`, apparaissant dans une équation où l'on attend une valeur, représentera la valeur `Y("y")`. Et `("x","y")` constitue le point de focalisation propre au contexte.

La probabilité attachée à l'intervalle de longueur `|d"x"|` commençant en `"x"` est égale à la densité de probabilité `X` en ce point multipliée par `|d"x"|`. Et la probabilité attachée à l'intervalle de longueur `|d"y"|` commençant en `"y"` est égale à la densité de probabilité `Y("y")` en ce point multipliée par `|d"y"|`.

`P(bbx in ]"x","x"+d"x"[) = X|d"x"|`
`P(bby in ]"y","y"+d"y"[) = Y|d"y"|`

Et comme la fonction `"x"|->"y"("x")` est à inverse unique, ces deux probabilités sont égales :

`X|d"x"| = Y|d"y"|`

On en déduit la loi de `y` :

`X|d"x"| = Y|"y"'||d"x"|`

`Y = X/|"y"'|`

Le résultat peut se transcrire comme suit :

Considérons deux variables `x` et `y` liées par `y = "y"(x)` avec `"y" : "x"|->"y"("x")` dérivable et à inverse unique.
Considérons `X : "x"|->X("x")` la loi de densité de probabilité de `x`.
Considérons `Y : "y"|->Y("y")` la loi de densité de probabilité de `y`.

Nous avons `Y = X/|"y"'|`.


Les lois de probabilités (volume 3)

Dominique Mabboux-Stromberg, 2015