1) Fonction de plusieurs variables aléatoires

1.1 Notation

On adopte une notation qui s'inspire de la thermodynamique et des réseaux de neurones. Étant donné une fonction `vec φ` de `RR^2` vers `RR^2`, on considère qu'elle s'applique par défaut sur `vec "v"` en la déclarant ainsi :

`vec φ :  vec "v"|->vec φ(vec "v")`

Dès lors l'expression `vec φ`, apparaissant dans une équation où l'on attend un vecteur, représentera la valeur `vec φ(vec "v")`.

Tout se passe comme si nous étions dans un système physique possédant deux variables d'état `vec φ` et `vec "v"`, et que nous affirmions d'une part, que la variable `vec φ` ne dépend que de la variable `vec "v"`, et d'autre part que la variable de nom " `vec "v"` " constitue un système de coordonnés implicite pour la variable `vec φ`, faisant que la valeur `vec φ` est défini par défaut en `vec "v"`, ce qui s'écrit `vec φ = vec φ(vec "v")`.

La définition `vec φ :  vec "v"|->vec φ(vec "v")` s'appel un neurone. Elle détermine les relations de dépendance nécessaires pour le calcul de `vec φ` et fixe par défaut un système de coordonnés pour `vec φ`.

Pour une fonction `vec φ` de `RR^2` vers `RR^2` dérivable nous avons le développement de Taylor suivant :

`vec φ(vec "v" + d vec "v") = vec φ + vec φ' d vec"v" + O( d vec"v" ^2)`

Etant donné un vecteur `vec "v"`, conventionnellement on note les composantes du vecteurs en les indexant comme suit :

`vec "v" = (("v"_1),("v"_2))`      `vec "φ" = (("φ"_1),("φ"_2))`      

`vec φ( ("v"_1+d"v"_1),("v"_2+d"v"_2) )= vec φ + (( d vecφ)/(d"v"_1),( d vecφ)/(d"v"_2)) ((d"v"_1),(d"v"_2)) + O( ((d"v"_1),(d"v"_2))^2)`

`((φ_1(("v"_1+d"v"_1),("v"_2+d"v"_2))), (φ_2(("v"_1+d"v"_1),("v"_2+d"v"_2)))) = ((φ_1),(φ_2)) + ((( d φ_1)/(d"v"_1),( d φ_1)/(d"v"_2)),(( d φ_2)/(d"v"_1),( d φ_2)/(d"v"_2)))×((d"v"_1),(d"v"_2)) + O( ((d"v"_1),(d"v"_2))^2)`

 

On personnalise `vec "v"` en créant deux variables `"x"` et `"y"` comme suit :

`vec "v" = (("x"),("y"))`

Autrement dit :

`vec φ( ("x"+d"x"),("y"+d"y") )= vec φ + (( d vecφ)/(d"x"),( d vecφ)/(d"y")) ((d"x"),(d"y")) + O( ((d"x"),(d"y"))^2)`

`((φ_1(("x"+d"x"),("y"+d"y"))), (φ_2(("x"+d"x"),("y"+d"y")))) = ((φ_1),(φ_2)) + ((( d φ_1)/(d"x"),( d φ_1)/(d"y")),(( d φ_2)/(d"x"),( d φ_2)/(d"y")))×((d"x"),(d"y")) + O( ((d"x"),(d"y"))^2)`

 

On nomme `"y" = φ("x")` et `d"y" = φ("x"+d"x") - φ("x")`, et donc nous avons :

`"y" = φ("x")`
`d"y" = φ'("x")d"x"`

1.1) Fonction dérivable à inverse unique

Si la fonction est à inverse unique, alors la fonction `φ` est strictement monotone et nous avons :

`"x" = φ^-1("y")`

Nommons `f` la loi de densité de probabilité de `x`. Et nommons `g` la loi de densité de probabilité de `y`. C'est à dire `f=L_x` et `g=L_y`. La probabilité attachée à l'intervalle de longueur `|d"x"|` commençant en `"x"` est égale à la densité de probabilité `f("x")` multipliée par `|d"x"|`. Et la probabilité attachée à l'intervalle de longueur `|d"y"|` commençant en `"y"` est égale à la densité de probabilité `g("y")` multipliée par `|d"y"|`.

`P(bbx in ]"x","x"+d"x"[) = f("x")|d"x"|`
`P(bby in ]"y","y"+d"y"[) = g("y")|d"y"|`

Et comme l'inverse est unique ces deux probabilités sont égales :

`f("x")|d"x"| = g("y")|d"y"|`

On en déduit la loi de `y` :

`f("x")|d"x"| = g("y")|φ'("x")||d"x"|`

`g("y") = f("x")/(|φ'("x")|)`

Nommons `F` la fonction cumulative de `x`. Et nommons `G` la fonction cumulative de `y`. C'est à dire :

`F("x")=sum_("x"<"x") f("x")` `G("y") = sum_("y"<"y")g("y")`.

Si `φ` est strictement croissante, l'image de l'intervale `]"min","x"[` est l'intervalle `]"min",φ("x")[` et donc `F("x")=G(φ("x"))`. C'est à dire :

`G("y") =F(φ^-1("y"))`

Si `φ` est strictement décroissante, l'image de l'intervale `]"min","x"`[ est l'intervalle `]φ("x"),"max"[` et donc `F("x")=1-G(φ("x"))`. C'est à dire :

`G("y") =1-F(φ^-1("y"))`

1.2) Fonction dérivable à inverse multiple

Si la fonction est à inverse multiple nous avons :

`{"x"_1, "x"_2, "x"_3, ..., "x"_n}= φ^-1("y")`

Comme l'évènement `bby in ]"y","y"+d"y"[` se produit si et seulement si `bbx in ]"x"_1,"x"_1+d"x"[` ou `bbx in ]"x"_2, "x"_2+d"x"[` ou `bbx in ]"x"_3, "x"_3+d"x"[` ou ... ou `bbx in ]"x"_n, "x"_n+d"x"[`, et que ces évènements sont deux à deux incompatibles, la probabilité `P(bby in ]"y","y"+d"y"[)` est égale à la somme des probabilités `P(bbx in ]"x"_i,"x"_i+d"x"[)` pour `i` variant de 1 à `n` :

`f("x"_1)|d"x"_1| + f("x"_2)|d"x"_2| + f("x"_3)|d"x"_3| + ... + f("x"_n)|d"x"_n| = g("y")|d"y"|`

`sum_(i=1)^n f("x"_i)|d"x"| = g("y")|d"y"|`

On en déduit la loi de `y` :

`sum_(i=1)^n f("x"_i)|d"x"| = g("y")|φ'("x")||d"x"|`

`g("y") = (sum_(i=1)^k f("x"_i))/(|φ'("x")|)`

Notez que de la quantité d'information se perd dans cette transformaion non réversible, à inverse multiple, ce qui n'est pas le cas lorsque la transformation est à inverse unique.

 

Les lois de probabilités (suite)

Dominique Mabboux-Stromberg, 2015

 

18) Probabilité estimée d'un évènement

Un évènement `e` est une condition logique vrai ou fausse qui se manifeste à chaque tirage `bbe_1, bbe_2, bbe_3, ....` C'est une variable aléatoire valant `0` lorsque l'évènement n'a pas lieu, et `1` lorsque l'évènement à lieu. Une variable `e` est dite une variable bit lorsque sont domaine est `Dom(e) = {0,1}`. Et on note `P(bbe=1)` ou simplement `P(e)`, la probabilité de `e`, c'est à dire la probabilité que l'évènement `bbe=1` se réalise. Considérons deux variables bits `a` et `b`. Nous avons `ab = a "et" b`, nous avons `P(ab) = P(a "et" b)` et si `a` et `b` sont indépendants alors nous avons `P(ab) = P(a)P(b)`.

Déterminons les moments d'une variable bit `e` de probabilité `"p"`, c'est à dire tel que `P(e) = "p"`. Le moment d'ordre `r>0`, noté `"<"e^"r"">"` est égal à `"p"`, car `e` étant booléen nous avons `e^"r" = e`. La moyenne de `e` est sa probabilité.

La variable aléatoire `e` désigne concrètement une suite de valeurs correspondant à des tirages au sort successifs `bbe_1, bbe_2, bbe_3, ..., bbe_"n", ...`, c'est une fonction de tirage de l'ensemble des entiers vers `Dom(e)={0,1}`. On considére les variables aléatoires décalées de `1, 2, 3,...,n-1` tirages que l'on note `e_1, e_2, e_3, ..., e_"n", ...`. Les tirages étants indépendants, les variables `e_i` et `e_j` sont indépendantes ssi `i!= j`. Et donc si `i!= j` nous avons `"<"e_ie_j">" =` `"<"e_i">""<"e_j">" =` ` "<"e">""<"e">" = "p"^2` . De même si `{i,j,k}` sont distincts alors nous avons `"<"e_ie_je_k">" =` ` "<"e">" "<"e">" "<"e">" = "p"^3`, etc.

La moyenne estimée ou apparente d'un évènement `e` sur `"n"` tirages est égale à la somme des valeurs tirées sur les `"n"` tirages le tout divisé par `"n"`. Elle coïncide avec la probabilité estimée car `e` est une variable bit. Elle constitue une nouvelle variables `y`, que l'on note `M_1(e,"n")`.

`y = M_1(e,"n")`
`y = (e_1 + e_2 + e_3 + ... + e_"n") "/n"`

On se place donc dans un espace à `"n"` dimensions avec une variable aléatoire vectorielle `(e_1, e_2, e_3, ..., e_"n")` de loi `L_(e_1)("e"_1)L_(e_2)("e"_2)L_(e_3)("e"_3)...L_(e_"n")("e"_"n")`.

Déterminons les moments de la variable `y`.

La moyenne `"<"M_1(e,"n")">"`

On note `sum_i` pour désigner `sum_(i=1)^"n"` et donc nous avons `sum_i 1 = "n"`.

`y = (e_1 + e_2 + e_3 + ... + e_"n")"/n"`

`"n"y = sum_i e_i`
`"n""<"y">" = sum_i "<"e_i">"`
`"n""<"y">" = sum_i "<"e">"`
`"n""<"y">" = "<"e">"sum_i 1`
`"<"y">" = "<"e">"`

`"<"y">" = "p"`

La variance `"<"M_1(e,"n")^2">"`

On note `sum_(i<j)` pour désigner `sum_(i=1)^"n" sum_(j=i+1)^"n"` et donc nous avons :

`sum_(i<j) 1 = ("n"("n"-1))/2`

Et on vérifie la décomposition du carré:

`sum_(i=1)^"n" sum_(j=1)^"n"1 = sum_(i=1)^n 1 + sum_(i<j) 2`
`"n"^2 = "n" + "n"("n"-1)`

`y = (e_1 + e_2 + e_3... + e_"n") "/n"`

`y^2 = (e_1 + e_2 + e_3... + e_"n")^2 "/" "n"^2`

`"n"^2y^2 = sum_i e_i^2 + sum_(i<j)2e_i e_j`
`"n"^2y^2 = sum_i e_i + sum_(i<j)2e_i e_j`
`"n"^2"<"y^2">" = sum_i "<"e_i">" + sum_(i<j)"2<"e_i e_j">"`
`"n"^2"<"y^2">" = sum_i "<"e_i">" + sum_(i<j)"2<"e_i">""<"e_j">"`
`"n"^2"<"y^2">" = sum_i "<"e">" + sum_(i<j)"2<"e">""<"e">"`
`"n"^2"<"y^2">" = sum_i "p" + sum_(i<j)2"p"^2`
`"n"^2"<"y^2">" = "p"sum_i 1 + "p"^2 sum_(i<j) 2`
`"n"^2"<"y^2">" = "p""n" + "p"^2 "n"("n"-1)`

`"n"^2"<"y^2">" = "p"^2 "n"^2 + "p""n" - "p"^2 "n"`

`"<"y^2">" ="p"^2 + ("p"- "p"^2)/"n"`

Le moment d'ordre 3 `"<"M_1(e,"n")^3">"`

On note `sum_(i<j<k)` pour désigner `sum_(i=1)^"n" sum_(j=i+1)^"n" sum_(k=j+1)^"n"` et donc nous avons :

`sum_(i<j<k) 1 = ("n"("n"-1)("n"-2))/6`

Et on vérifie la décomposition du cube:

`sum_(i=1)^"n" sum_(j=1)^"n" sum_(k=1)^"n" 1 = sum_(i=1)^n 1 + sum_(i<j)3**2 + sum_(i<j<k)6`
`"n"^3 = "n" + 3"n"("n"-1) + "n"("n"-1)("n"-2)`

`y = (e_1 + e_2 + e_3... + e_"n") "/n"`

`y^3 = (e_1 + e_2 + e_3... + e_"n")^3"/" "n"^3`

`"n"^3y^3 = sum_i e_i^3 + sum_(i<j)3(e_i^2 e_j+e_i e_j^2) + sum_(i<j<k)6e_i e_je_k`
`"n"^3y^3 = sum_i e_i + sum_(i<j)3(e_i e_j+e_i e_j) + sum_(i<j<k)6e_i e_je_k`
`"n"^3y^3 = sum_i e_i + sum_(i<j)6e_i e_j + sum_(i<j<k)6e_i e_je_k`
`"n"^3"<"y^3">" = sum_i "<"e_i">" + sum_(i<j)6"<"e_ie_j">" + sum_(i<j<k)6"<"e_i e_je_k">"`
`"n"^3"<"y^3">" = sum_i "<"e_i">" + sum_(i<j)6"<"e_i">""<"e_j">" + sum_(i<j<k)6"<"e_i">""<" e_j">""<"e_k">"`
`"n"^3"<"y^3">" = sum_i "<"e">" + sum_(i<j)6"<"e">""<"e">" + sum_(i<j<k)6"<"e">""<" e">""<"e">"`
`"n"^3"<"y^3">" = sum_i "p" + sum_(i<j)6"p"^2 + sum_(i<j<k)6"p"^3`
`"n"^3"<"y^3">" = "p"sum_i 1 + "p"^2sum_(i<j)6 + "p"^3sum_(i<j<k)6`
`"n"^3"<"y^3">" = "p""n" + 3"p"^2"n"("n"-1)+ "p"^3n(n-1)(n-2)`

`"<"y^3">" = "p"^3 + (3"p"^2 - 3"p"^3)/"n" + (2"p"^3-3"p"^2+"p")/"n"^2`

Le moment d'ordre 4  `"<"M_1(e,"n")^4">"`

On note `sum_(i<j<k<l)` pour désigner `sum_(i=1)^"n" sum_(j=i+1)^"n" sum_(k=j+1)^"n" sum_(l=k+1)^"n"` et donc nous avons :

`sum_(i<j<k<l) 1 = ("n"("n"-1)("n"-2)("n"-3))/24`

Et on vérifie la décomposition de l'hypercube de dimension 4 :

`sum_(i=1)^"n" sum_(j=1)^"n" sum_(k=1)^"n" sum_(l=1)^"n" 1 = sum_(i=1)^n 1 + sum_(i<j)(6+4**2) + sum_(i<j<k)(12**3) + sum_(i<j<k<l)24`
`"n"^4 = "n" + 7 "n"("n"-1) + 6 "n"("n"-1)("n"-2) + "n"("n"-1)("n"-2)("n"-3)`

`y = (e_1 + e_2 + e_3... + e_"n") "/n"`

`y^4 = (e_1 + e_2 + e_3... + e_"n")^4"/" "n"^4`

`"n"^4y^4 = sum_i e_i^4 + sum_(i<j)(6e_i^2 e_j^2 + 4(e_i^3 e_j+e_ie_j^3 )) + sum_(i<j<k)12(e_i^2 e_je_k +e_i e_j^2e_k+e_i e_je_k^2) + sum_(i<j<k<l)24e_ie_je_ke_l`
`"n"^4y^4 = sum_i e_i + sum_(i<j)(6e_ie_j + 4(e_ie_j+e_ie_j)) + sum_(i<j<k)12(e_ie_je_k+e_ie_je_k+e_ie_je_k) + sum_(i<j<k<l)24e_ie_je_ke_l`
`"n"^4y^4 = sum_i e_i + sum_(i<j)14e_ie_j + sum_(i<j<k)36e_ie_je_k + sum_(i<j<k<l)24e_ie_je_ke_l`
`"n"^4"<"y^4">" = sum_i "<"e_i">" + sum_(i<j)14"<"e_i">""<"e_j">" + sum_(i<j<k)36"<"e_i">""<"e_j">""<"e_k">" + sum_(i<j<k<l)24"<"e_i">""<"e_j">""<"e_k">""<"e_l">"`
`"n"^4"<"y^4">" = sum_i "<"e">" + sum_(i<j)14"<"e">""<"e">" + sum_(i<j<k)36"<"e">""<"e">""<"e">" + sum_(i<j<k<l)24"<"e">""<"e">""<"e">""<"e">"`
`"n"^4"<"y^4">" = sum_i "p" + sum_(i<j)14"p"^2 + sum_(i<j<k)36"p"^3 + sum_(i<j<k<l)24"p"^4`
`"n"^4"<"y^4">" = "p"sum_i 1 + "p"^2sum_(i<j)14 + "p"^3sum_(i<j<k)36 + "p"^4sum_(i<j<k<l)24`
`"n"^4"<"y^4">" = "p""n" + "p"^2 7"n"("n"-1) + "p"^3 6"n"("n"-1)("n"-2) + "p"^4"n"("n"-1)("n"-2)("n"-3)`

`"<"y^4">" = "p"^4 + (6"p"^3 - 6 "p"^4)/"n" + (11"p"^4-18"p"^3+7"p"^2)/"n"^2 + (-6"p"^4+12"p"^3-7"p"^2+"p")/"n"^3`

19) Moyenne estimée d'une variable

La moyenne estimée d'une variable `x` (discrète ou continue) sur `"n"` tirages correspond à la somme de `"n"` tirages successifs divisé par `"n"`. Elle constitue une nouvelle variables `y`, que l'on note pareillement `M_1(x,"n")`.

`y = M_1(x,"n")`
`y = (x_1 + x_2 + x_3... + x_"n") "/" "n"`

Déterminons les moments de cette variable `y`, en fonction des moments de `x` qui sont `mu_1="<"x">", mu_2="<"x^2">", mu_3="<"x^3">"....`. La différence avec la probabilité estimée, calculée précédement, tient dans le fait que la variable `x` n'est pas booléenne.

Les tirages étant indépendants, avec `i!=j, i!=k`, nous avons `"<"x_ix_j">" = "<"x_i">""<"x_j">" = "<"x">"^2` (voirchapitre 13, "produits de deux variables indépendantes").

La moyenne `"<"M_1(x,"n")">"`

`"<"y">" = "<"x">"`
`"<"y">" =mu_1`

La variance `"<"M_1(x,"n")^2">"`
Les tirages étant indépendants, avec `i!=j, i!=k`, nous avons (voirchapitre 13, "produits de deux variables indépendantes") :
`"<"x_ix_j">" = "<"x_i">""<"x_j">" `
`"<"x_ix_j">" = "<"x">"^2`

`y = (x_1 + x_2 + x_3... + x_"n") "/n"`
`y^2 = (x_1 + x_2 + x_3... + x_"n")^2 "/" "n"^2`
`y^2 = ((x_i^( 2)...."n" fois....) + (x_ix_j...."n"("n"-1) fois....)) "/" "n"^2`
`"<"y^2">" = (("<"x_i^( 2)">"...."n" fois....) + ("<"x_ix_j">"...."n"("n"-1) fois....)) "/" "n"^2`
`"<"y^2">" = ("n""<"x^2">" + "n"("n"-1)"<"x">"^2) "/" "n"^2`
`"<"y^2">" = ("n" mu_2 + "n"("n"-1)mu_1^( 2) "/" "n"^2`
`"<"y^2">" =(mu_2 + ("n"-1)mu_1^( 2))"/n"`
`"<"y^2">" =mu_1^( 2) + (mu_2 - mu_1^( 2))"/n"`

Pour vérifier si on n'a pas oublié des termes dans la décomposition du binôme, on vérifie que :

`"n" + "n"("n"-1) = "n"^2`

Le moment d'ordre 3 `"<"M_1(x,"n")^3">"`
Les tirages étant indépendants, avec `i!=j, i!=k, j!=k`, nous avons :
`"<"x_ix_jx_k">" = "<"x_i">""<"x_j">""<"x_k">"`
`"<"x_ix_jx_k">" = "<"x">"^3`

`y = (x_1 + x_2 + x_3... + x_"n") "/n"`
`y^3 = (x_1 + x_2 + x_3... + x_"n")^3 "/" "n"^3`
`y^3 = ((x_i^( 3)...."n" fois) + (x_i^( 2)x_j....3"n"("n"-1) fois) + (x_ix_jx_k...."n"("n"-1)("n"-2) fois)) "/" "n"^3`
`"<"y^3">" = (("<"x^3">"...."n" fois....) + ("<"x_i^( 2)x_j">"....3"n"("n"-1) fois....) + ("<"x_ix_jx_k">"...."n"("n"-1)("n"-2) fois....) "/" "n"^3`
`"<"y^3">" = ("n""<"x^3">" + 3"n"("n"-1)"<"x^2">""<"x">" + "n"("n"-1)("n"-2)"<"x">""<"x">""<"x">" ) "/" "n"^3`
`"<"y^3">" = ("n""<"x^3">" + 3"n"("n"-1)"<"x^2">""<"x">" + "n"("n"-1)("n"-2)"<"x">"^3 ) "/" "n"^3`
`"<"y^3">" = ("n"mu_3 + 3"n"("n"-1)mu_2mu_1 + "n"("n"-1)("n"-2)mu_1^( 3) ) "/" "n"^3`
`"<"y^3">" = mu_1^( 3) + (mu_2mu_1-3mu_1^( 3))/"n" + O(1/"n"^2) `

Pour vérifier si on n'a pas oublié des termes dans la décomposition du binôme, on vérifie que :

`"n" + 3"n"("n"-1) + "n"("n"-1)("n"-2) = "n"^3`

Le moment d'ordre r  `"<"M_1(x,"n")^r">"`
Les tirages étant indépendants, avec `"d"` indices distincts `{i,j,k...}`, nous avons :
`"<"x_ix_jx_k...">" = "<"x_i"><"x_j"><"x_k">"...`
`"<"x_ix_jx_k...">" = "<"x">"^"d"`

Puis pour aller plus loin, il faut d'abord étudier le développement du binôme et d'une manière plus générale le dénombrement des combinaisons.....

18) Variance estimée

La variance estimée d'une variable `x`(discrète ou continue) sur `"n"` tirages correspond à la somme des carrés de `"n"` tirages successifs divisé par `"n"`. Elle constitue une nouvelle variables `y`, que l'on note `M_2(x,"n")`.

`y = M_2(x,"n")`
`y = (x_1^( 2) + x_2^( 2) + x_3^( 2)... + x_"n"^( 2)) "/ n"`

Déterminons les moments de cette variable `y`, en fonction des moments de `x` qui sont `mu_1="<"x">", mu_2="<"x^2">", mu_3="<"x^3">"....`

La moyenne `"<"M_2(x,"n")">"`

`y = (x_1^( 2) + x_2^( 2) + x_3^( 2)... + x_"n"^( 2)) "/ n"`
`y = (x_i^( 2)...."n" fois) "/ n"`
`"<"y">" = ("<"x^2">"...."n" fois) "/ n"`
`"<"y">" = "<"x^2">"`
`"<"y">" = mu_2`

La variance `"<"M_2(x,"n")^2">"`
Les tirages étant indépendants, si `i!=j` nous avons
`"<"x_i^( 2)x_j^( 2)">" = "<" x_i^( 2) ">" "<" x_j^( 2)">"`
`"<"x_i^( 2)x_j^( 2)">" = "<"x^2">"^2`

`y = (x_1^( 2) + x_2^( 2) + x_3^( 2)... + x_"n"^( 2)) "/ n"`
`y^2 = (x_1^( 2) + x_2^( 2) + x_3^( 2)... + x_"n"^( 2))^2 "/" "n"^2`
`y^2 = ((x_i^( 4)...."n" fois) + (x_i^( 2)x_j^( 2)...."n"("n"-1) fois)) "/" "n"^2`
`"<"y^2">" = (("<"x_i^( 4)">"...."n" fois) + ("<"x_i^( 2)x_j^( 2)">"...."n"("n"-1) fois)) "/" "n"^2`
`"<"y^2">" = ("n""<"x^4">" + "n"("n"-1)"<"x^2">"^2) "/" "n"^2`
`"<"y^2">" = "<"x^2">"^2 + ("<"x^4">"-"<"x^2">"^2)"/""n"`
`"<"y^2">" = mu_2^( 2) + (mu_4-mu_2^( 2))/"n"`

Pour vérifier si on n'a pas oublié des termes dans la décomposition du binôme, on vérifie que :

`"n" + "n"("n"-1) = "n"^2`

Le moment d'ordre 3 `"<"M_2(x,"n")^3">"`
Les tirages étant indépendants, si `i,j,k` sont 3 indices distincts, nous avons
`"<"x_i^( 2)x_j^( 2)x_k^( 2)">" = "<"x_i^( 2)"><"x_j^( 2)"><"x_k^( 2)">"`
`"<"x_i^( 2)x_j^( 2)x_k^( 2)">" = "<"x^2">"^3`

`"<"x_i^( 4)x_j^( 2)">" = "<"x_i^( 4)"><"x_j^( 2)">`
`"<"x_i^( 4)x_j^( 2)">" = "<"x^( 4)"><"x^( 2)">"`

`y = (x_1^( 2) + x_2^( 2) + x_3^( 2)... + x_"n"^( 2)) "/n"`
`y^3 = (x_1^( 2) + x_2^( 2) + x_3^( 2)... + x_"n"^( 2))^3 "/" "n"^3`
`y^3 = ((x_i^( 6)...."n" fois) + (x_i^( 4)x_j^( 2)....3"n"("n"-1) fois) + (x_i^( 2)x_j^( 2)x_k^( 2)...."n"("n"-1)("n"-2) fois)) "/" "n"^3`
`"<"y^3">" = (("<"x^6">"...."n" fois....) + ("<"x^4"><"x^2">"....3"n"("n"-1) fois....) + ("<"x^2"><"x^2"><"x^2">"...."n"("n"-1)("n"-2) fois....)) "/" "n"^3`
`"<"y^3">" = ("n""<"x^6">" + 3"n"("n"-1)"<"x^4">""<"x^2">" + "n"("n"-1)("n"-2)"<"x">"^3) "/" "n"^3`
`"<"y^3">" = ("n"mu_6 + 3"n"("n"-1)mu_4mu_2 + "n"("n"-1)("n"-2)mu_1^( 3) ) "/" "n"^3`
`"<"y^3">" = mu_1^( 3) + (3mu_4mu_2-3mu_1^( 3))/"n" + O(1/"n"^2) `

Pour vérifier si on n'a pas oublié des termes dans la décomposition du binôme, on vérifie que :

`"n" + 3"n"("n"-1) + "n"("n"-1)("n"-2) = "n"^3`

Puis pour aller plus loin, il faut d'abord étudier le développement du binôme et d'une manière plus générale le dénombrement des combinaisons....

19) Moments centraux et moments réduits

Les moments centraux d'une variable sont ceux une fois la variable centrée. Et les moments réduits d'une variable sont ceux une fois la variable réduit. Soit une variable `x` de moment `mu_1, mu_2, mu_3...`. On note les moments centraux `mu_1', mu_2', mu_3'...`, et les moments réduits `mu_1'', mu_2'', mu_3''...`. Et nous avons toujours `mu_0=1`

`mu_r' = "<"(x-mu_1)^r">"`
`mu_r' = "<"sum_("r"=0)^"r" C_(ˋ"r")^"r" x^(ˋ"r"-"r") (-mu_1)^"r"">"`
`mu_r' = sum_("r"=0)^"r" C_(ˋ"r")^"r" "<"x^(ˋ"r"-"r")">" (-mu_1)^"r"`
`mu_r' = sum_("r"=0)^"r" C_(ˋ"r")^"r" mu_(ˋ"r"-"r") (-mu_1)^"r"`

`mu_1' = mu_1 - mu_0mu_1`
`mu_2' = mu_2 - 2mu_1mu_1 + mu_0mu_1^( 2)`
`mu_3' = mu_3 - 3mu_2mu_1 + 3mu_1mu_1^( 2) - mu_0mu_1^( 3)`
`mu_4' = mu_4 - 4mu_3mu_1 + 6mu_2mu_1^( 2) - 4mu_1mu_1^( 3) + mu_0mu_1^( 4)`
`mu_1' = 0`
`mu_2' = mu_2 - mu_1^( 2)`
`mu_3' = mu_3 - 3mu_2mu_1 + 2mu_1^( 3)`
`mu_4' = mu_4 - 4mu_3mu_1 + 6mu_2mu_1^( 2) - 3mu_1^( 3)`

`mu_r'' = "<"("a"x+"b")^r">"`  avec  `"a" = 1/sqrt(mu_2 - mu_1^( 2))`  et  `"b" = - "a"mu_1`
`mu_r'' = "<"sum_("r"=0)^"r" C_(ˋ"r")^"r" a^(ˋ"r"-"r")x^(ˋ"r"-"r")b^"r"">"`
`mu_r'' = sum_("r"=0)^"r" C_(ˋ"r")^"r" a^(ˋ"r"-"r")"<"x^(ˋ"r"-"r")">"b^"r"`
`mu_r'' = sum_("r"=0)^"r" C_(ˋ"r")^"r" mu_(ˋ"r"-"r")"a"^(ˋ"r"-"r")"b"^"r"`
`mu_r'' = sum_("r"=0)^"r" C_(ˋ"r")^"r" mu_(ˋ"r"-"r") "a"^(ˋ"r"-"r")"a"^"r"(-mu_1)^"r"`
`mu_r'' = sum_("r"=0)^"r" C_(ˋ"r")^"r" mu_(ˋ"r"-"r") "a"^(ˋ"r")(-mu_1^"r")`
`mu_r'' = "a"^"r"sum_("r"=0)^"r" C_(ˋ"r")^"r" mu_(ˋ"r"-"r")(-mu_1)^"r"`
`mu_r'' = "a"^"r"mu_r'`

Ainsi nous avons :

`mu_3'' = "a"^3(mu_3 - 3mu_2mu_1 + 3mu_1mu_1^( 2) - mu_0mu_1^( 3)) = (mu_3 - 3mu_2mu_1 + 2mu_1mu_1^( 2)) / (mu_2 - mu_1^( 2))^(3/2)`

`mu_4'' = "a"^4(mu_4 - 4mu_3mu_1 + 6mu_2mu_1^( 2) - 4mu_1mu_1^( 3) + mu_0mu_1^( 4)) = (mu_4 - 4mu_3mu_1 + 6mu_2mu_1^( 2) - 3mu_1^( 3)) / (mu_2 - mu_1^( 2))^2`

 

20) Transformation par série polynomiale monotone

Afin qu'une transformations analytique n'opère pas de perte d'information, il faut qu'elle soit monotone ou bien que le domaine de la variable ne soit pas à cheval sur un point où la transformation à une dérivée nulle.

Une transformation par série polynomiale est notée comme suit :

`"x" |-> "c"_0+"c"_1x+"c"_2x^2 + "c"_3x^3...`

`"x" |-> sum_("r"=0)^oo "c"_rx^r`

Cette transformation va transfomer la variable aléatoire `x` en la variable aléatoire `"c"_0+"c"_1x^1+"c"_2x^2...` où les `"c"_"r"` sont des constantes. Le domaine de définition de la variable est transformé. Nommons `phi` cette transformation, et supposons qu'elle est monotone. Pour une variable `x` définie sur `]"a","b"[`, la variable `phi(x)` est définie sur `]phi("a"),phi("b")[`.

Autours de la valeur nulle, la transformation est approximée comme suit :

`phi(x) = "c"_0+"c"_1x^1+"c"_2x^2 + O(x^3)`

Calculons les moments de `phi(x)` approximés à `O(x^3)` près.

`phi(x) = "a"+"b"x^1+"c"x^2 + O(x^3)`
`phi(x)^r = ("a"+"b"x^1+"c"x^2 + O(x^3))^r`

 

--- 26 avril 2015 ---

 

 

 

 

 

Transformation par série polynomiale monotone `phi(x) = "c"_0 + "c"_1x + O(x^2)`

`kappa_"r" = sum_("r"=0)^"r" C_(ˋ"r")^"r" "c"_1^(ˋ"r"-"r")"c"_2^" r" mu_(ˋ"r"-"r") + O(x^2)`

`C_("n")^"r"` : Coefficient binomiaux. Nombre de sous-ensemble de `"r"` éléments d'un ensemble de `"n"` éléments.
`kappa_"r"` : Moment d'ordre `"r"` de la variable `phi(x)`
`kappa_1` : Moyenne de la variable `phi(x)`
`kappa_2` : Variance de la variable `phi(x)`
`mu_"r"` : Moment d'ordre `"r"` de la variable `x`
`mu_1` : Moyenne de la variable `x`
`mu_2` : Variance de la variable `x`

 

A une transformation linéaire près, une transformation du second degré se met sous la forme simple x --> x2. Il nous suffit donc d'étudier uniquement cette transformation.

Le point de dérivée nulle se trouve en zéro, et donc le domaine de la variable aléatoire [0, n[ ou {0, 1, 2..., n-1} n'est pas à cheval dessus. Les seuls transformations linéaires que l'on considèrera seront celles qui déplacent ce point de dérivé nulle sur ]-∞,0]∪[n-1,+∞[ pour une variable définie sur {0, 1, 2..., n-1}, et sur ]-∞,0]∪[n,+∞[ pour une variable définie sur [0, n[.

Déterminons les moments de la variable y définie par x2, en fonction des moments de x qui sont <x>, <x2>, <x3>... Le moment d'ordre r>0, noté <yr> est égal à <(x2)r> c'est à dire à <x2*r>.

Pour éviter l'éventuelle perte d'information on étudiera plutôt la transformation strictement monotone suivante x-->x*|x|, et sa transformation inverse x-->sqrt(|x|)*sign(x).

 

(à faire)

21) Moyenne géométrique

Lorsqu'on somme un grand nombre R de tirages au hasard d'une variable x, cela produit approximativement la valeur R*<x>. Lorsqu'on somme un nombre de tirages liées d'une variable x mais en respectant les fréquences à p/sqrt(R) près, cela produit également approximativement la valeur R*<x>.

De même lorsqu'on fait le produit d'un grand nombre R de tirages au hasard d'une variable x, cela produit approximativement la valeur eR*<ln(x)> .Cela s'obtient en faisant un changement de variable comme ci-dessous.

Et lorsqu'on fait le produit d'un nombre de tirages liées d'une variable x mais en respectant les fréquences (à un terme près), cela produit approximativement la valeur eR*<ln(x)>

 

`hat xy`
`aABb x y z XYZ`
`"aABb x y z XYZ "`
`bb "aABb x y z XYZ "`
`bbb "aABb x y z XYZ "`
`cc "aABb x y z XYZ "`
`tt "aABb x y z XYZ "`
`fr "aABb x y z XYZ "`
`sf "aABb x y z XYZ "`

`x
bb x
bbb x
cc x
tt x
fr x
sf x `

On propose une variable aléatoire x un peu plus générale définie sur [0,X [, somme d'une variable aléatoire continue définie sur ]0,X[ et de loi L_x et d'une variable discrète définie sur {0,1,2...,n-1} et de loi L0_x. Et nous avons :

P(bbx"∈"["x","x"+d"x"[) = P(bbx"=x") + P(bbx"∈"]x,x+dx[)
P(bbx"∈"["x","x"+d"x"[) = L0_x(x) + L_x(x)

Le moment d'ordre 4 `"<"M_1(e,"n")^3">"`

`y = (e_1 + e_2 + e_3... + e_"n") "/n"`
`y^3 = (e_1 + e_2 + e_3... + e_"n")^4"/" "n"^4`
`y^3 = ((e_i^4...."n" fois)
           + (e_i^3e_j...."n"("n"-1) fois)
           + (e_i^2e_j^2....4"n"("n"-1) fois)
           + (e_i^2e_je_k....3"n"("n"-1)("n"-2) fois)
           + (e_ie_je_ke_l...."n"("n"-1)("n"-2)("n"-3) fois)) "/" "n"^4`
`y^3 = ((e_i...."n" fois....) + (e_ie_j...."n"("n"-1) fois....) + (e_ie_je_k...."n"("n"-1)("n"-2) fois....)) "/" "n"^3`
`"<"y^3">" = (("<"e">"...."n" fois....) + ("<"e_ie_j">"...."n"("n"-1) fois....) + ("<"e_ie_je_k">"...."n"("n"-1)("n"-2) fois....
+ ("<"e_i^2e_je_k">"...."n"("n"-1)("n"-2) fois....) + ("<"e_ie_je_ke_l">"...."n"("n"-1)("n"-2)("n"-3) fois....)) "/" "n"^4`
`"<"y^3">" = ("n""<"e">" + "n"("n"-1)"<"e_ie_j">" + "n"("n"-1)("n"-2)"<"e_ie_je_k">" ) "/" "n"^3`
`"<"y^3">" = ( "n""p" +"n"("n"-1)"p"^2 + "n"("n"-1)("n"-2)"p"^3 ) "/" "n"^3 `
`"<"y^3">" = "p"^3 + ("p"^2-3"p"^3)/"n" + ("p"-"p"^2+2"p"^3)/"n"^2`

Le moment d'ordre r `"<"M_1(e,"n")^"r"">"`

 

Le développement de `(e_1 + e_2 + e_3... + e_"n")^"r"` se décompose en la somme de tous les produits possibles de n termes :

`"<"y^"r"">" = ("n""<"e">" + "n"("n"-1)"<"e_ie_j">" + "n"("n"-1)("n"-2)"<"e_ie_je_k">" +...) "/" "n"^"r"`
`"<"y^"r"">" = ( "n""p" +"n"("n"-1)"p"^2 + "n"("n"-1)("n"-2)"p"^3 +... ) "/" "n"^"r"`

`"<"y">" ="p"`
`"<"y^2">" ="p"^2 + ("p"- "p"^2)/"n"`
`"<"y^3">" = "p"^3 + ("p"^2-3"p"^3)/"n" + ("p"-"p"^2+2"p"^3)/"n"^2`
`"<"y^4">" = "p"^4 + ("p"^3-6"p"^4)/"n" + ("p"^2-3"p"^3+11"p"^4)/"n"^2 + ("p"-"p"^2+2"p"^3-6"p"^4)/"n"^3`
`"<"y^5">" = "p"^5 + ("p"^4-10"p"^5)/"n" + ("p"^3-6"p"^4+35"p"^5)/"n"^2 + ("p"^2-3"p"^3+11"p"^4-50"p"^5)/"n"^3 + ("p"-"p"^2+2"p"^3-6"p"^4+24"p"^5)/"n"^4`

`"<"y^r">" = "p"^"r" + ("p"^("r"-1) - r(r-1)"p"^r) / "n" + O(1/"n"^2)`

 

 

17) Distribution de probabilité

Dans le cas générale une loi de probabilité cummule à la fois une partie disctrète et une partie continue. Elle est la somme d'une loi discrète et d'une loi continue. La notation différentielle permet d'intégrer ces deux notions dans une même loi de densité de probabilité. Elle utilise des densités infinies de différents ordres s'il y a plusieurs dimensions.

Dans un univers à une dimension, une valeur discrète `"x"` de probabilité `alpha` aura comme valeur de densité de probabilité :

`f("x") = alpha/(d"x")`

Dans un univers à deux dimensions, une valeur discrète `"(x,y)"` de probabilité `alpha` aura comme valeur de densité de probabilité :

`f("x","y") = alpha/(d"x"d"y")`

 


 

Néanmoins lorsque `x` et `y` sont indépendants, une autre démonstration peut être faite, qui à l'avantage de pouvoir se généraliser au calcul des autres moments.

La moyenne de `x+y` sachant que `bbx"=x"` notée `"<"x+y"\"bbx"=x>"` correspond pour chaque valeur de `"x"`, à la moyenne `"<x"+y"\"bbx"=x>" = "x" + "<"y"\"bbx"=x>"``"x"` joue le rôle d'un paramètre constant.

Et donc si `{x,y}` indépendants alors nous avons :

`"<"x+y "\" bbx"=x>" = "x" + "<"y">"`

`"<"x+y">" = sum_("x","y") ("x"+"y")Z("x","y")`
`"<"x+y">" = sum_"x" sum_"y" ("x"+"y")X("x")Y("y")`
  car `{x,y}` indépendants.
`"<"x+y">" = sum_"x" X("x")sum_"y" ("x"+"y")Y("y")`
`"<"x+y">" = sum_"x" X("x")"<"x+y"\"bbx"=x>"`
  car `{x,y}` indépendants.
`"<"x+y">" = sum_"x" X("x")("x" + "<"y">")`
`"<"x+y">" = sum_"x" "x"X("x") + "<"y">"sum_"x" X("x")`

5.2 La variance de `x+y`

`"<"(x+y)^2">" = sum_("x","y") ("x"+"y")^2Z("x","y")`
                       `= sum_"x" sum_"y" ("x"^2+2"xy"+"y"^2)X("x")Y("y")`
  car `{x,y}` indépendants.
                       `= sum_"x" X("x")sum_"y" ("x"^2+2"xy"+"y"^2)Y("y")`
                       `= sum_"x" X("x")"<"x^2+2xy+y^2"\"bbx"=x"">"`
  car `{x,y}` indépendants.
                       `= sum_"x" X("x")("x"^2+2"x""<"y">"+"<"y^2">")`
                       `= sum_"x" "x"^2X("x") + "<"y">"sum_"x" 2"x"X("x") + "<"y^2">"sum_"x" X("x")`
                       `= "<"x^2">" + 2"<"x">""<"y">" + "<"y^2">"`

En utilisant la moyenne conditionnelle, on démontre que, pour toutes fonctions `f` et `g` arbitraires, nous avons `"<"f(x)g(y)">" = "<"g(y)">""<"f(x)">"`

`"<"f(x)g(y)">" = sum_("x","y")f("x")g("y")Z("x","y")`
`"<"f(x)g(y)">" = sum_"x" sum_"y"f("x")g("y")Z("x","y")`

`"<"f(x)g(y)">" = sum_"x" sum_"y"f("x")g("y")X("x")Y("y")`    car `{x,y}` indépendants.
`"<"f(x)g(y)">" = sum_"x" X("x") sum_"y"f("x")g("y")Y("y")`
`"<"f(x)g(y)">" = sum_"x" X("x") "<" f(x)g(y) "\" bbx="x"">"`    car `{x,y}` indépendants, et en choisisant `φ("x","y")=f("x")g("y")`
`"<"f(x)g(y)">" = sum_"x" X("x") "<" f("x")g(y)">"`
`"<"f(x)g(y)">" = sum_"x" X("x") f("x")"<"g(y)">"`
`"<"f(x)g(y)">" = "<"g(y)">"sum_"x" X("x") f("x")`
`"<"f(x)g(y)">" = "<"g(y)">""<"f(x)">"`