STATISTIQUES

 

Table des matières

Avant propos
  1. Introduction
    1. E(X), l'espérance de X
    2. H(X,e), l'histogramme de X de finesse e
    3. f, loi de probabilité
    4. x = X-E(X), la variable centrée
    5. c(X,Y), la covariance.
    6. Mn(X), moyenne expérimentale
    7. T(n,i)(X), Sous-variable de X
    8. Isotropie de X
    9. s^2(X), la variance, l'ecart type au carré
    10. u = (X-E(X))/s(X), Variable réduite.
    11. s^2(Mn(X)), la variance de la moyenne expérimentale
    12. Variance expérimentale S2n(X)

     

1) Introduction

La variable aléatoire se comporte comme une fonction dont le domaine de définition correspond aux index de tirages. Cela peut être les entiers naturels désignant une infinité dénombrable de tirages en commençant par l'index 0. Ou cela peut être un domaine continue [0,1] par exemple, désignant une infinité non dénombrable de tirages. L'index est désigné par un reel comme le temps, et la variable représente un signal. Le domaine de définition peut être engendré à partir d'un domaine finie telque les entiers 0,1,2,3..., N-1, en l'étendant aux infinies de la façon suivante : Variables cyclique d'ordre N, et signaux n'admettant pas de fréquence supérieur à 1/2 tours par unité de temps, car d'après le théorème de l'échantillonnage de C.E.Shannon, la description d'un tel signal est exactement décrite par la succetion des valeurs du signal espacées par des pas de 1 unité de temps.

Pour trouver les propriétés les plus remarquables, il est probable que nous choisirons, comme domaine de définition et comme ensemble d'arrivé, d'une structure trés riche tel que les nombres complexes. Il y a des zones attractives ou point froid, en mathématique, et les complexe en font partis comme étant la plus grande structure possible de corps commutatif contenant les réels et constituant un corp algébriquement clos (tout polynome a une racine).

Nous allons commençer à étudier les variables aléatoires ayant comme domaine de définition les entiers naturels, et les reels comme ensemble d'arrivé.

Nous allons définire un certain nombre d'opérateur qui effecturons des calculs et dont nous exhiberons des règles de simplification, pour pouvoir ainsi faire les calculs de simplification à un niveau supèrieur. L'opérateur est un élément abstrait programmable qui nous permet d'avoir une approche purement constructive. Et c'est en se sense que nous les utilisons.

La valeur de la variable aléatoire X pour chaque tirage est notée X(0), X(1), X(2).... X est un vecteur ayant une infinité de composante. X est donc un tenseur d'ordre 1, c'est à dire qu'il peut être décliné selon un indice i, ici entier. On note cette opérateur O(i). L'opérateur O(i) transforme un tenseur d'ordre 1 en une constante qui est un tenseur d'ordre 0.

O(i)(X) = X[i].

O(i) :  T1 --> T0
        X --> X[i]

X étant une fonction, on peut la composer avec d'autre. Par exemple considérons les fonctions f =(a-->2*a), et g=(a-->a^2), nous pouvons construire la variable aléatoire g°X°f.

(g°X°f)(i) = g(X(f(i)))

On voit apparaître le choix d'une notation fonctionnelle qui doit permettre de combiner le plus librement possible des fonctions qui peuvent avoir plusieurs arguments.

1.1) E(X), l'espérance

L'espérance d'une variable X est sa moyenne :

E(X) = limite lorsque k tend vers l'infini de (X[0] + X[1] + X[2]... + X[k-1])/k

Lorsque la variables est cyclique d'ordre N, nous avons la simplification suivante :

E(X) = (X[0] + X[1] + X[2]... + X[N-1])/N

Quelque soit une constante a et deux variable X et Y, nous avons :

E(a) = a
E(a*X)=a*E(X)
E(a+X)=a+E(X)
E(X+Y)=E(X)+E(Y)

E est un opérateur de T1 --> T0

Lorsqu'un opérateur de domaine de définition T1 essaye d'être appliqué à un élément "a" de T0, il le converti implicitement en un élément "A" de T1 valant "a" pour chacune de ses composantes. A[i] = a.Cette conversion implicite s'applique également dans les additions et multiplications mélangeant élément de T1 et de T0. l'addition et la multiplication se faisant composante par composante.

1.1) f, loi de probabilité, histogramme

Soit l'opérateur D(a,e) tranformant un reel b, en 1 si b est proche de a à +/-(e/2) près, ou en 0 sinon.

D(a,e) : T0 --> T0
          b --> 1 si a-e/2<b<a+e/2, 0 sinon.

L'histogramme de finesse e est aussi une variable aléatoire noté H(X,e) mais de domaine de définition réelle. Elle est obtenue simplement par :

H(X,e)(a) = E(D(a,e)°X)
H(X,e) = E(D(a,e)°X)

Néamoin le calcul de H(X,e) se fait en parallèle, en transfomant la valeur de la variable en un index qui incrémente une autre variante.

DP(e)(X)(i) =

On définie la loi de probabilité comme l'histogramme limite le plus fin.

f(a) = limite lorsque e tend vers zéro de E(D(a,e)°X)

Si l'on calcule experimentalement une loi de probabilité, on s'arrète à une précision près e, et le résultat est en faite un histogramme.

1.1) f, loi de probabilité, histogramme

Soit l'opérateur D(a,e) tranformant un reel b, en 1 si b est proche de a à +/-(e/2) près, ou en 0 sinon.

D(a,e) : T0 --> T0
          b --> 1 si a-e/2<b<a+e/2, 0 sinon.

L'histogramme de finesse e est aussi une variable aléatoire noté H(X,e). Elle est obtenue simplement par :

H[i] = E(D(i*e,e)°X)
H = E(D(id*e,e)°X)

On définie la loi de probabilité comme l'histogramme limite le plus fin.

f(a) = limite lorsque e tend vers zéro de E(D(a,e)°X)

Si l'on calcule experimentalement une loi de probabilité, on s'arrète à une précision près e, et le résultat est en faite un histogramme.

1.2) x = X-E(X), la variable centrée

Une variable x est dite centrée lorsque

E(x) = 0

A toute variable X ou peut enlever sa moyenne vrai et obtenir sa variable centrée que l'on note en minuscule x :

x = X - E(X)

L'opérateur de centrage (id - E)

1.3) c(X,Y), la covariance.

L'espérance d'un produit de deux variable X et Y, noté E(X*Y), se simplifie a l'aide des variables centrées x = X - E(X) et y = Y - E(Y) comme suit :

E(X*Y) = E((E(X)+x)*(E(Y)+y))
E(X*Y) = E(E(X)*E(Y) + x*E(Y) + E(X)*y + x*y)
E(X*Y) = E(X)*E(Y) + E(x)*E(Y) + E(X)*E(y) + E(x*y) et comme E(x)=E(y)=0
E(X*Y) = E(X)*E(Y) + E(x*y)


La covariance des variables X et Y est noté c(X,Y) est vaut par définition :

c(X,Y) = E(x*y)
c(X,Y) = E((X-E(X))*(Y-E(Y)))
c(X,Y) = E(X*Y) - E(X)*E(Y)

Les variables X et Y sont par définition indépendantes si leur covariance c(X,Y) est nulle, c'est à dire si l'espérance du produit de leurs variables réduites E(x*y) est nulle.

1.4) Mn(X), moyenne expérimentale

On définie la moyenne expérimentale comme la moyenne de n tirages consécutifs en partitionnant les tirages en paquets de n tirages.

Mn(X)[k] =(X[k*n+0] + X[k*n+1] + X[k*n+2]... + X[k*n+n-1])/n

Si X est cyclique d'ordre N et que n divise N alors Mn(X) est cyclique d'ordre N/n.

La valeur moyenne de la moyenne expérimentale de X est égale à la valeur moyenne de X

E(Mn(X)) = E(X)
E°Mn°X = E°X
E°Mn = E

Une moyenne expérimentale est la moyenne de n tirages non nécessairement consécutifs, dans ce cas on se ramène au premier cas en effectuant la permutation voulue sur les valeur de la variable.

1.5) T(n,i)(X), Sous-variable de X

On définie les restrictions de X, T(n,i)(X), comme suit :

T(n,i)(X)[k] = X[k*n+i]

n>0 désigne une partition en paquets de n valeurs consécutives et i compris entre 0 et n-1 désigne une phase, la i-ème valeur dans chaque paquet. Si X est cyclique d'ordre N et que n divise N alors T(n,i)(X) est cyclique d'ordre N/n.

T(1,0)(X) = X

notons l(n,i) : k-->k*n + i
T(n,i)(X) = X ° l(n,i) = X°(k-->k*n + i)

T est un opérateur de T1 --> T1

T(n,i)(X) = X°(k-->n*k+i)

Mn est un opérateur de T1 --> T1

Mn(X) =(T(n,0)(X) + T(n,1)(X) + T(n,2)(X)... + T(n,n-1)(X))/n
Mn  =(T(n,0) + T(n,1) + T(n,2)... + T(n,n-1))/n
E°Mn =(E°T(n,0) + E°T(n,1) + E°T(n,2)... + E°T(n,n-1))/n

1.6) L'isotropie de X

On suppose que les sous variable de X, T(n,i)(X) ont les mêmes moments et obéissent donc à une même loi de probabilité et donc ont une même fonction cumulative ou distribution.

Dans ce cas, quelque soit n et i, les covariances de la forme c(T(n,i)(X),T(n,i+k)(X)) ne dépendent que de k et valent par définition tau(k)(X). Et lorsque k = 0, nous avons :

tau(0)(X) = s^2(X)

tau(k) = c°(T(n,i),T(n,i+k))

 

1.7) s^2(X), la variance, l'ecart type au carré

La variance, ou le carré de l'écart type d'une variable X est :

s^2(X) = E((X-E(X))^2)
s^2(X) = E((X^2 - 2X*E(X) + E(X)^2)
s^2(X) = E(X^2) - E(X)^2

s^2 = E°(id - E)^2
s^2 = E°(id^2 + E^2 - 2*id*E)
s^2 = E°id^2 + E^2 - 2*E*E
s^2 = E°id^2 - E^2

Mais en considérant la variable centré x = X - E(X) :

s^2(X) = E(x^2)

Quelque soit une constante a et deux variable X et Y, nous avons :

s^2(a) = 0
s^2(a*X) = a^2 * s^2(X)
s^2(a+X) = s^2(X)

La variance d'une somme de deux variable X et Y :

s^2(X+Y) = E((x+y)^2)
s^2(X+Y) = E(x^2 + 2*x*y + y^2)
s^2(X+Y) = E(x^2) + 2*E(x*y) + E(y^2)
s^2(X+Y) = s^2(X) + s^2(Y) + 2*E(x*y)

1.7) u = (X-E(X))/s(X), Variable réduite.

Une variable u est dite réduite lorsque

E(u)=0
s(u)=1

A toute variable X ou peut enlever sa moyenne vrai et obtenir sa variable centrée puis diviser le tout par son écart type (racine carré de la variance) et obtenir ainsi sa variable réduite u :

u = (X - E(X))/s(X)


1.6) s^2(Mn(X)), la variance de la moyenne expérimentale

s^2(Mn(X)) = (n/N)*Sum(i=0..(N/n)-1)(a*Sum(j=0..n-1)(X[i*n+j]-m(X,i,n))^2     avec m(X,i,n) = (1/n)*Sum(j=0..n-1)(X[i*n+j])
s^2(Mn(X)) = (n/N)*Sum(i=0..(N/n)-1)(a*Sum(j=0..n-1)((X[i*n+j]-E(X))-(m(X,i,n)-E(X)))^2
s^2(Mn(X)) = (n/N)*Sum(i=0..(N/n)-1)(a*Sum(j=0..n-1)((x[i*n+j])-(m(X,i,n)-E(X)))^2
s^2(Mn(X)) = (n/N)*Sum(i=0..(N/n)-1)(a*Sum(j=0..n-1)((x[i*n+j])^2)-(m(X,i,n)-E(X)))^2 ......................

Si La variable X est isotrope on peut regrouper les auto-covariances

s^2(Mn(X)) = (n*tau(0)(X) + (n-1)*tau(1)(X) + (n-2)*tau(2)(X)... + tau(n-1)(X))*2/n^2

Si la variable X n'a aucune autocorrélation (pour tout i>0, tau(i)=0) alors la variance de la moyenne expérimentale est égale à la variance divisé par n :

s^2(Mn(X)) = tau(0)(X)/n = s^2(X)/n

1.7) Variance expérimentale S2n(X)

On définie la variance expérimentale comme la variance de n tirages consécutifs en partitionnant les tirages en paquets de n tirages.

S2n(X)[k] =((X[k*n+0]-E(X))^2 +(X[k*n+1]-E(X))^2 +(X[k*n+2]-E(X))^2... +(X[k*n+n-1]-E(X))^2 + )/(n-1)

Si X est cyclique d'ordre N et que n divise N alors Mn(X) est cyclique d'ordre N/n.

La valeur moyenne de la variance expérimentale de X est égale à la variance de X.

E(S2n(X)) = s^2(X)

La division est faite par (n-1) et non par n afin de vérifier la relation précédente.

1.7) Ecart type expérimentale Sn(X)

On définie l'écart type expérimentale comme l'écart type de n tirages consécutifs en partitionnant les tirages en paquets de n tirages.

Sn(X)[k] = sqrt((X[k*n+0]-E(X))^2 +(X[k*n+1]-E(X))^2 +(X[k*n+2]-E(X))^2... +(X[k*n+n-1]-E(X))^2 + )/a(n)

E(Sn(X)) = s(X)

Soit deux variables centrées x et y. Nous voulons définire une variable réduite z se trouvant dans le plan engendré par ces deux variable, telque z soit indépendant de x, c'est à dire une combinaison linéaire a*x + b*y telque E(x*(a*x + b*y))=0.

posons : z = (x + a*y).

z est une somme de variable centré donc est centré. Cherchons a telque la covariance E(x*z) soit nulle :

E(x*z) = 0
E(x*(y + a*x)) = 0
E(x*y + a*x^2) = 0
E(x*y) + a*E(x^2) = 0
E(x*y) + a*s^2(x) = 0
a = - E(x*y)/s^2(x)

Si x et y sont des variables réduites, c'est à dire si E(x)=E(y)=0 et s^2(x)=s^2(y)=1, alors on peut définir la variable réduite z indépendante de x comme suit ::

z = (x + E(x,y)*y)/sqrt(1