II) Transformation dérivable

Nous allons étudier ce que devient une variable `x` de loi continue `X` lorsqu'elle est transformées par une fonction dérivable `φ`. La variable `x` est transformée en une variable `y = φ(x)`.

Pour une fonction `φ` dérivable nous avons le développement de Taylor suivant :

`φ(x"+"dx) = φ(x) + φ'(x)dx + O(dx^2)`

On nomme la nouvelle variable `y = φ(x)`. L'élément différentiel `dy` se définit alors comme suit :

`y = φ(x)`
`dy = d(φ(x))`
`dy = φ(x"+"dx) - φ(x)`

Et donc d'après le développement de Taylor précédent :

`dy = φ'(x)dx + O(dx^2)`

Ce qui se note :

`dy = φ'(x)dx`

En conclusion :

`y = φ(x)`
`dy = φ'(x)dx`

1) Transformation inversible dérivable

1.1) Loi de `φ(x)`

Si la fonction est dérivable et inversible, alors elle est strictement monotone et l'inverse est également une fonction strictement monotone, et si elle est strictement croissante alors l'inverse est également strictement croissante :

`x = φ^-1(y)`
`dx = (φ^-1)'(y)dy`

Et comme `dy = φ'(x)dx` on en déduit que :

`(φ^-1)'(y)=1/(φ'(x))`

Etant donné un valeur inconnnue `a`, nous avons l'équivalence suivante :

`a"∈]"x, x"+"|dx|"["    <=>    φ(a)"∈]"φ(x), φ(x)"+"|d(φ(x))|"["`

`a"∈]"x, x"+"|dx|"["    <=>    φ(a)"∈]"y, y"+"|dy|"["`

Et donc nous avons l'égalité des probabilités suivantes :

`P(overset(***)x"∈]"x, x"+"|dx|"[") = P(φ(overset(***)x)"∈]"φ(x), φ(x)"+"|d(φ(x))|"[")`

`P(overset(***)x"∈]"x, x"+"|dx|"[") = P(overset(***)y"∈]"y, y"+"|dy|"[")`

On nomme `X` la loi de densité de probabilité de `x`. Et on nomme `Y` la loi de densité de probabilité de `y`. Nous avons par définition :

`X(x)|dx| = P(overset(***)x "∈]"x,x"+"|dx|"[")`

`Y(y)|dy| = P(overset(***)y "∈]"y,y"+"|dy|"[")`

Donc :

    `X(x)|dx| = Y(y)|dy|`    

On en déduit la loi de `y` :

`X(x)|dx| = Y(y)|φ'(x)||dx|`

`Y(y) = (X(x))/(|φ'(x)|)`

`x = φ^-1(y)`

Lorsque φ est strictement croissante nous avons `Y(y) = (X(x))/(φ'(x))`.

Lorsque φ est strictement décroissante nous avons `Y(y) = - (X(x))/(φ'(x))`.

1.2) Transformer une variable de fonction cumulative dérivable strictement croissante en une variable de loi équirépartie

Considérons une variable `x` ayant une fonction cumulative `bbX` dérivable et strictement croissante. Si on choisie comme fonction de transformation, cette fonction cumulative `bbX`, alors la nouvelle variable `y=bbX(x)` sera de loi équirépartie. Par définition nous avons :

`"Arr"(y)="]"0,1"["`

`dy=bbX'(x)dx =X(x)dx`

Et d'après le résultat précédent, nous avons :

`Y(y) = (X(x))/(bbX'(x))`

`Y(y) = (X(x))/(X(x))`

`Y(y) = 1`

1.3) Transformer une variable de loi équirepartie en une variable de fonction cumulative dérivable et strictement croissante

C'est la réciproque du problème précédent. A partir d'une variable équiprobable `x`, on peut construire une variable `y` de fonction cumulative `F` dérivable strictement croissante arbitraire, comme suit :

`x = F(y)`

`y = F^-1(x)`

On en déduit que :

`Y(y) = (X(x))/((F^-1)'(x))`

Comme nous avons démontré que :

`(u"="φ(v) "et" φ "inversible") => (φ^-1)'(u)=1/(φ'(v))`

On en déduit :

`Y(y) = X(x)F'(y)`

la variable `x` étant de loi équirépartie, `X(x)` est une constante `c`.

`Y(y) = cF'(y)`

`bbY(y) = int_(y<y) cF'(y)`

`bbY(y) = c int_(y<y) F'(y)`

`bbY(y) = c [F(y)]_(y_"min")^y`

`bbY(y) = c(F(y)-F(y_"min" ))`

`F` étant une fonction cumulative, nous avons `F(y_"min")"="0`.

`bbY(y) = cF(y)`

`F` étant une fonction cumulative, nous avons et `F(y_"max")"="1`. Donc `c"="1` .

`bbY(y) = F(y)`

1.4) Fonction cumulative de `φ(x)`

On nomme `bbX` la fonction cumulative de `x`. Et nommons `bbY` la fonction cumulative de `y`. C'est à dire :

`bbX("x")=int_("x"<"x")X("x")d"x"`           `bbY("y") = int_("y"<"y")Y("y")d"y"`

On note `x_"min"` la borne inférieur de `x` et `y_"min"` la borne inférieur de `y`. Si `φ` est strictement croissante, l'image de l'intervale `"["x_"min",x"["` est l'intervalle `"["φ(x_"min"),φ(x)"["`, et comme `φ(x_"min")"="y_"min"` et `φ(x)"="y`, cela correspond à l'intervalle dans le même sens `"["y_"min",y"["`.

`y_"min" = φ(x_"min")`
`y = φ(x)`
`dy = φ'(x)dx`
`Y(y) = (X(x))/(φ'(x))`
      (`φ` est strictement croissante).

La définition de la fonction cumulative de `y` est  :

`bbY(y) = int_(y_"min")^yY(y)dy`

On procède à un changement de variable d'intégration. Au lieu d'intégrer selon `y`, on intégre selon `x`, en remplaçant les bornes de l'intégrale `y_"min"` et `y` par `x_"min"` et `x`, et en remplaçant dans l'intégrale les valeurs `y` par `φ(x)` et `dy` par `φ'(x)dx`, et en y remplaçant directement `Y(y)` par `X(x)"/"φ'(x)` :

`bbY(y) = int_(y_"min")^yY(y)dy`

`bbY(y) = int_(x_"min")^x(X(x))/(φ'(x)) φ'(x)dx`

`bbY(y) = int_(x_"min")^xX(x) dx`

    `bbY(y) = bbX(x)`    

La fonction cumultive de `y` se calcule donc comme suit :

`bbY(y) =bbX(φ^-1(y))`

Par contre si `φ` est strictement décroissante, l'image de l'intervale `"["x_"min",x"["` est l'intervalle `[φ(x_"min"),φ(x)"["`, et comme `φ(x_"min")"="y_"min` et `φ(x)"="y` cela correspond à l'intervalle dans le sens inverse `"]"y,y_"max" "]"` `y_"max"` est la borne supérieur de `y`. Et par un raisonnement analogue, nous obtenons `bbX(x)=1-bbY(y)`. La fonction cumulative de `y` est égale à `bbY(y) =1 - bbX(φ^-1(y))`. Cette transformation strictement décroissante `φ` s'obtient par symétrie à partir d'une fonction strictement croissante, aussi on ne retiendra que les transformations `φ` strictement croissante.

2) Transformation inversible dérivable

 

 

 

 

 

1.4) Fonction dérivable à inverse multiple

Si la fonction `φ` est à inverse multiple (mais en nombre fini), pour un point `"y"` nous avons `"n"` inverses :

`{"x"_1, "x"_2, "x"_3, ..., "x"_"n"}= φ^-1("y")`

Comme l'évènement `bby in ]"y","y"+d"y"[` se produit si et seulement si `bbx in ]"x"_1,"x"_1+d"x"_1[` ou `bbx in ]"x"_2, "x"_2+d"x"_2[` ou `bbx in ]"x"_3, "x"_3+d"x"_3[` ou ... ou `bbx in ]"x"_"n", "x"_"n"+d"x"_"n"[`, et que ces évènements sont deux à deux incompatibles, la probabilité `P(bby in ]"y","y"+d"y"[)` est égale à la somme des probabilités `P(bbx in ]"x"_"i","x"_"i"+d"x"_"i"[)` pour `"i"` variant de 1 à `"n"` :

`X("x"_1)|d"x"_1| + X("x"_2)|d"x"_2| + X("x"_3)|d"x"_3| + ... + X("x"_"n")|d"x"_"n"| = Y("y")|d"y"|`

`sum_("i"=1)^n X("x"_"i")|d"x"_"i"| = Y("y")|d"y"|`

Donc :

`Y("y")= sum_("i"=1)^"n" X("x"_"i")|d"x"_"i"|/|d"y"| `

Et selon la définition de la dérivée :

`φ'("x"_"i") d"x"_"i" = d"y"`

On en déduit la fonction cumulative de `y` :

`Y("y") = sum_("i"=1)^"n" (X("x"_"i"))/(|φ'("x"_"i")|)`

`{"x"_1, "x"_2, "x"_3, ..., "x"_"n"}= φ^-1("y")`

2) Notation physique

On adopte une notation qui s'inspire de la thermodynamique et des réseaux de neurones. Étant donné une fonction `"y"` de `RR` vers `RR`, on considère qu'elle s'applique par défaut sur `"x"` en la déclarant ainsi :

`"y" :  "x"|-> "y"("x")`

Dès lors l'expression `"y"`, apparaissant dans une équation où l'on attend une valeur, représentera la valeur `"y"("x")`.

Tout se passe comme si nous étions dans un système physique possédant deux variables d'état `"y"` et `"x"`, et que nous affirmions d'une part, que la variable `"y"` ne dépend que de la variable `"x"`, et d'autre part que la variable de nom "`"x"`" constitue un système de coordonnés implicite pour la variable `"y"`, faisant que la valeur `"y"` est définie par défaut en `"x"`, ce qui s'écrit `"y" = "y"("x")`.

La définition `"y" :  "x"|->"y"("x")` s'appel un neurone. Elle détermine les relations de dépendance nécessaires pour le calcul de `"y"` et fixe par défaut un système de coordonnés pour `"y"`. Elle entraine les définitions de `d"y"` et récurcivement, tant que la fonction obtenue est dérivable :

`"y" :  "x"|->"y"("x")`
`d"y" :  "x"|->"y"("x"+d"x")-"y" + O(d"x")`
`d^2"y" :  "x"|->"y"("x"+d"x")-2"y"+"y"("x"-d"x")+ O(d"x"^2)`
`...`

Notez qu'il est possible de définir de façon exacte `d"y"` comme fonction de deux variables, `d"y" :  ("x", d"x") |->"y"("x"+d"x")-"y"`, et il est possible d'enlever le deuxième argument `d"x"` en ajoutant un ordre de grandeur `O(d"x")` grâce à la propriété de dérivabilité de `"y"` selon `"x"`.

Ainsi si `"y"` est dérivable nous avons le développement de Taylor suivant :

`"y"("x"+d"x") = "y" + "y"'d"x" + O(d"x"^2)`
`d"y" = "y"'d"x" + O(d"x"^2)`

Souvent, on ne précise l'ordre de grandeur que si celui-ci est plus petit que l'ordre attendu. Et donc les expressions précédentes s'écrivent :

`"y"("x"+d"x") = "y" + "y"'d"x"`
`d"y" = "y"'d"x"`

Ainsi si `"y"` est dérivable trois fois nous avons le développement de Taylor suivant :

`"y"("x"+d"x") = "y" + "y"'d"x" + "y"''d"x"^2 + "y"'''d"x"^3`
`d"y" = "y"'d"x"`
`d^2"y" = "y"''d"x"^2`
`d^3"y" = "y"'''d"x"^3`

Exemple

Par exemple reconsidérons la fonction dérivable à inverse unique vue au chapitre 1 et que nous appellerons directement `"y"`. Cette fonction est définie par le neurone suivant `"y" : "x"|->"y"("x")`. Le paramètre `"x"` constitue le point de focalisation propre au contexte.

Notez alors que `x` désigne une variable aléatoire, et que par la même convention, `y` représentera la variable aléatoire `"y"(x)`. Le couple de paramètres `("x","y")` constitue le point de focalisation propre au contexte et doit naturellement vérifier `"y" = "y"("x")`.

On nomme de façon conventionnelle `X` la loi de densité de probabilité de `x`, et `Y` la loi de densité de probabilité de `y`. Ces lois sont également des fonctions définies par des neurones. `X : "x"|->X("x")` et `Y : "y"|->Y("x")`. Dès lors l'expression `X`, apparaissant dans une équation où l'on attend une valeur, représentera la valeur `X("x")`, et l'expression `Y`, apparaissant dans une équation où l'on attend une valeur, représentera la valeur `Y("y")`. Et `("x","y")` constitue le point de focalisation propre au contexte.

La probabilité attachée à l'intervalle de longueur `|d"x"|` commençant en `"x"` est égale à la densité de probabilité `X` en ce point multipliée par `|d"x"|`. Et la probabilité attachée à l'intervalle de longueur `|d"y"|` commençant en `"y"` est égale à la densité de probabilité `Y("y")` en ce point multipliée par `|d"y"|`.

`P(bbx in ]"x","x"+d"x"[) = X|d"x"|`
`P(bby in ]"y","y"+d"y"[) = Y|d"y"|`

Et comme la fonction `"x"|->"y"("x")` est à inverse unique, ces deux probabilités sont égales :

`X|d"x"| = Y|d"y"|`

On en déduit la loi de `y` :

`X|d"x"| = Y|"y"'||d"x"|`

`Y = X/|"y"'|`

Le résultat peut se transcrire comme suit :

Considérons deux variables `x` et `y` liées par `y = "y"(x)` avec `"y" : "x"|->"y"("x")` dérivable et à inverse unique.
Considérons `X : "x"|->X("x")` la loi de densité de probabilité de `x`.
Considérons `Y : "y"|->Y("y")` la loi de densité de probabilité de `y`.

Nous avons `Y = X/|"y"'|`.


Les lois de probabilités (volume 3)

Dominique Mabboux-Stromberg, 2015

 

Suivant