Les statistiques V sont une classe de statistiques nommée en l'honneur de Richard von Mises qui a développé sa théorie de la distribution asymptotique dans un article fondamental en 1947[1]. Les statistiques V sont étroitement liées aux U-statistiques [2],[3] (U pour « unbiased », non biaisées) introduites par Wassily Hoeffding en 1948[4]. Une V-statistique est une fonction statistique (d'un échantillon) définie par une fonctionnelle statistique particulière d'une distribution de probabilité.

Fonctions statistiques modifier

Statistiques pouvant être représentées sous forme de fonctionnelles   de la fonction de distribution empirique   sont appelées fonctionnelles statistiques[5]. La différentiabilité de la fonctionnelle T joue un rôle clé dans l'approche de von Mises ; ainsi von Mises considère des fonctionnelles statistiques différentiables.

Exemples de fonctions statistiques modifier

  1. Le k-ième moment central est la fonctionnelle :  , où :  , est l'espérance de X. La fonction statistique associée au k-ième moment central de l'échantillon est :
     
  2. La statistique d'adéquation du chi-carré est une fonction statistique T(Fn), correspondant à la fonctionnelle statistique :
     Ai sont cellules du tableau de contingence et pi sont les probabilités spécifiées des cellules sous l'hypothèse nulle.
  3. Les statistiques d'ajustement de Cramér – von-Mises et Anderson – Darling sont basées sur la fonction :
       est une fonction de pondération et   est une distribution nulle, toutes deux spécifiées. Si   est la fonction d'identité, alors   est la statistique d'ajustement de Cramér – von-Mises bien connue ; si   alors   est la statistique d'Anderson – Darling.

Représentation sous forme de V-statistique modifier

Supposons que : x1,..., xn, est un échantillon. Dans les applications typiques, la fonction statistique a une représentation sous la forme de la V-statistique.

 

h est un noyau symétrique. Serfling [6] explique comment trouver le noyau en pratique. Vmn est alors appelée V-statistique de degré m.

Un noyau symétrique de degré 2 est une fonction h(x, y), tel que h(x, y) = h(y, x) pour tous x et y dans le domaine de h. Pour les échantillons x1,... ,xn, la V-statistique correspondante est définie comme :

 

Exemple de V-statistique modifier

  1. Un exemple de V-statistique de degré 2 est le deuxième moment central m 2. Si h(x, y) = (xy)2/2, la V-statistique correspondante est :   qui est l'estimateur du maximum de vraisemblance de la variance. Avec le même noyau, la U-statistique correspondante est la variance de l'échantillon (sans biais) :  .

Distribution asymptotique modifier

Dans les exemples 1 à 3, la distribution asymptotique de la statistique est différente : dans (1) c'est normal, dans (2) c'est le chi-carré et dans (3) c'est une somme pondérée de variables du chi-carré.

L'approche de Von Mises est une théorie unificatrice qui couvre tous les cas ci-dessus. De manière informelle, le type de distribution asymptotique d'une fonction statistique dépend de l'ordre de « dégénérescence », qui est déterminé par le rang du premier premier terme non nul du développement de Taylor de la fonction statistique. T. Dans le cas où il s'agit du terme linéaire, la distribution limite est normale ; sinon, des types de distributions d'ordre supérieur apparaissent (dans des conditions appropriées telles qu'un théorème central limite est valable).

Il existe une hiérarchie de cas similaire à la théorie asymptotique des U-statistiques[7]. Soit A(m) la propriété définie par :

A(m) :
  1. Var(h(X 1,..., Xk)) = 0 pour k < m, et Var(h(X 1,..., X k)) > 0 pour k = m ;
  2.   tend vers zéro (en probabilité), où   est le terme restant de la série de Taylor pour T.

Cas m = 1 (noyau non dégénéré) :

Si A(1) est vraie, la statistique est une moyenne d'échantillon et le théorème central limite implique que T(Fn) est asymptotiquement normal.

Dans l'exemple de variance (4), m2 est asymptotiquement normal avec une moyenne   et de variance  , où  .

Cas m = 2 (noyau dégénéré) :

Supposons que A(2) soit vraie, et   et  . Alors   converge en distribution vers une somme pondérée de variables indépendantes du chi-carré :

 

  sont des variables normales standard indépendantes et   sont des constantes qui dépendent de la distribution F et de la fonctionnelle T. Dans ce cas, la distribution asymptotique est appelée forme quadratique de variables aléatoires gaussiennes centrées. La V-statistique   est appelée V-statistique à noyau dégénéré. La V-statistique associée à la fonctionnelle de Cramer – von Mises [1] (exemple 3) est un exemple de V-statistique à noyau dégénéré[8].

Voir également modifier

  • U-statistique
  • Distribution asymptotique
  • Théorie asymptotique (statistiques)

Références modifier

  1. a et b (en) R. v. Mises, « On the Asymptotic Distribution of Differentiable Statistical Functions », The Annals of Mathematical Statistics, vol. 18, no 3,‎ , p. 309–348 (ISSN 0003-4851, DOI 10.1214/aoms/1177730385, lire en ligne, consulté le )
  2. Alan J. Lee, U-statistics: theory and practice, M. Dekker, coll. « Statistics », (ISBN 978-0-8247-8253-5)
  3. Volodimir Semenovič Korolûk et Ûrij Vasilʹevič Borovskič, Theory of U-statistics, Kluwer academic publ, coll. « Mathematics and its applications », (ISBN 978-0-7923-2608-3)
  4. (en) Wassily Hoeffding, « A Class of Statistics with Asymptotically Normal Distribution », The Annals of Mathematical Statistics, vol. 19, no 3,‎ , p. 293–325 (ISSN 0003-4851, DOI 10.1214/aoms/1177730196, lire en ligne, consulté le )
  5. von Mises (1947), p. 309; Serfling (1980), p. 210.
  6. Serfling (1980, Section 6.5)
  7. Serfling (1980, Ch. 5–6); Lee (1990, Ch. 3)
  8. See Lee (1990, p. 160) for the kernel function.