Théorème de Basu

résultat de statistique

Le théorème de Basu, ou lemme de Basu, est un résultat de statistique établi en 1955 par le statisticien Debabrata Basu. Il indique qu'une statistique exhaustive et complète est indépendante de toute statistique libre. Ce théorème a de nombreuses applications dans différentes branches des statistiques et est aujourd'hui considéré comme un résultat fondamental de la discipline.

Énoncé modifier

Exhaustivité, complétude et liberté d'une statistique modifier

Le théorème de Basu utilise les notions d'exhaustivité, de complétude et de liberté d'une statistique. Rappelons les définitions de ces notions.

Considérons un modèle statistique de paramètre   générant des données  .

  • Une statistique   est exhaustive pour   si la distribution de   conditionnellement à   ne dépend pas de  .
  • Une statistique   est complète si l'implication suivante est vraie pour toute fonction   mesurable à valeurs réelles : si pour tout  ,  , alors   pour tout  .
  • Une statistique   est libre pour   si sa distribution ne dépend pas de  .

Énoncé et démonstration modifier

Théorème — Soit   une famille de distributions indicée par un paramètre  , générant une variable aléatoire   à valeurs dans un espace mesurable (par exemple   dans le cas où   est un échantillon de   variables aléatoires réelles). Soit   une statistique exhaustive et complète (en) pour  .

Si   est une statistique libre (en) pour   alors   et   sont indépendantes.

Remarques modifier

  • La condition de complétude de   peut être remplacée par la condition moins forte de complétude bornée : si pour une fonction   mesurable et bornée à valeurs dans  ,   pour tout  , alors   avec probabilité 1 pour tout  .
  • Le théorème est parfois écrit en exigeant que   soit une statistique minimale. Cette condition n'est pas nécessaire, mais elle peut paraître naturelle car le théorème de Bahadur (en) garantit que, s'il existe une statistique minimale, une statistique complète et exhaustive est nécessairement minimale.

Exemples modifier

Loi normale modifier

Considérons une loi normale   d'espérance   et de variance  . Soit     variables aléatoires indépendantes issues de cette loi normale.

Moyenne et variance empiriques modifier

  • La moyenne empirique   est une statistique exhaustive et complète pour  . Cela se montre en utilisant le fait que la loi normale fait partie de la famille exponentielle.
  • La variance empirique   est une statistique libre pour  . En effet, la distribution de   est une loi du   à   degrés de liberté. La distribution de   ne dépend donc pas de  .

Alors   et   sont indépendantes.

Statistique de Student modifier

Supposons que l'espérance   soit connue et égale à  .

  • L'estimateur non biasée de la variance   est une statistique exhaustive et complète pour  .
  • La statistique du test de Student   est une statistique libre pour   car sa distribution est une loi de Student à   degrés de liberté (qui ne dépend donc pas de  ).

Les statistiques   et   sont donc indépendantes.

Loi gamma modifier

Considérons une loi gamma   de paramètre de forme   et d'intensité  . La densité associée est   pour  . Soit     variables aléatoires indépendantes issues de cette loi gamma.

  •   est une statistique complète et exhaustive pour  . Cela se montre en utilisant le fait que la loi gamma fait partie de la famille exponentielle.
  • La statistique   est libre pour   car c'est une statistique invariante pour l'échelle.

On a donc que   et   sont indépendantes[1].

Statistiques de rang pour un modèle non paramétrique modifier

Considérons la famille de distributions   générant des variables aléatoires   indépendantes et identiquement distribuées selon un distribution   admettant une fonction de densité continue sur  :  . Il s'agit d'un cas inhabituel de famille de distributions où le paramètre est la densité  .

  • Il est possible de démontrer que l'échantillon ordonnés des valeurs les plus faibles aux plus grandes,   est une statistique exhaustive et complète[2].
  • Notons   les rangs de l'échantillon   (par exemple   si   prend la plus grande valeur de l'échantillon). Alors la distribution de   ne dépend pas de  . Il s'agit donc d'une statistique libre.

Alors l'échantillon ordonné   est indépendant des rangs   de l'échantillon[3].

Réciproque modifier

Il existe un résultat proche d'une réciproque du théorème de Basu indiquant que si une statistique   est indépendante d'une statistique exhaustive   pour toute valeur du paramètre  , alors   est libre pour  . La complétude de la statistique exhaustive   n'est plus nécessaire, mais ce résultat vient au prix d'une condition supplémentaire sur le modèle   pour lequel il ne doit pas exister d'événement séparant, c'est-à-dire qu'il ne doit pas exister d'événement qui soit impossible pour certaines valeurs du paramètre   mais certain pour d'autres valeurs du paramètre.

Énoncé modifier

Théorème — Soit   une famille de distributions indicée par un paramètre  , générant une variable aléatoire   à valeurs dans un espace mesurable (par exemple   dans le cas où X est un échantillon de   variables aléatoires réelles). Soit   une statistique exhaustive pour   à valeurs dans  . Supposons que de plus qu'il n'existe pas d'événement séparant pour  , c'est-à-dire qu'il n'existe pas d'événement   tel que   pour certaines valeurs de   et   pour d'autres valeurs de  .

Si   est une statistique indépendante de   pour tout  , alors   est libre pour  .

Démonstration intuitive mais inexacte modifier

Donnons ici une démonstration simple et intuitive, bien qu'inexacte, de la réciproque du théorème de Basu.

Démonstration modifier

Soit   un ensemble mesurable de  . Comme   est exhaustive,   ne dépend pas de  . Par ailleurs, comme   et   sont indépendantes,  . On en déduit donc que   ne dépend pas de  . Comme cela est vrai pour tout événement  , nous avons bien montré que   est libre pour  .

Erreur modifier

Cette démonstration n'utilise pas la condition de non-existence d'événement séparant pour le modèle   et est donc fausse, comme le montre le contre-exemple donné plus loin.

L'erreur de cette preuve provient de l'implication « comme   et   sont indépendantes,  » qui doit être corrigée en « comme   et   sont indépendantes,  , avec probabilité 1». Comme la précision «avec probabilité 1» dépend de la loi de probabilité considérée, elle dépend en réalité du paramètre  . Cela complique les choses et ne permet donc pas de conclure sans hypothèse supplémentaire sur le modèle  .

Cette démonstration a été publiée par Basu en 1955[4] et corrigée 3 ans plus tard[5]. Bien qu’erronée à cause d'un point technique, elle permet de donner une intuition du théorème et de sa preuve qui, bien qu'un peu plus technique, reste guidée par le même argument.

Contre exemple modifier

Donnons ici un exemple de modèle statistique pour lequel il existe des statistiques libres mais non indépendantes de statistiques exhaustives, ce modèle ne satisfaisant pas la condition de non-séparabilité.

Soit   une variable aléatoire issue d'une distribution uniforme sur un intervalle   .

La densité de   peut s'écrire  , où   désigne la partie entière de   et où  désigne la fonction indicatrice du singleton  , qui vaut 1 si son argument est égal à   et 0 sinon. Le théorème de factorisation de Fisher–Neyman indique alors que   est une statistique exhaustive pour  .

Cependant pour un   donné, la statistique   est constante, égale à  , elle est donc indépendante de toute autre statistique, en particulier de  . Cependant,   n'est pas libre car sa distribution dépend bien de   (  est même également exhaustive).

La réciproque du théorème de Basu n'est donc pas respectée dans ce cas particulier. Cela est rendu possible par le fait que le modèle statistique considéré est séparable: l'événement   a une probabilité de 1 si  , mais une probabilité de 0 si   par exemple[6].

Autres réciproques modifier

D'autres réciproques du théorème de Basu ont été établies, cherchant par exemple à établir la complétude d'une statistique exhaustive qui serait indépendante de toute statistique libre. Cependant ces résultats sont plus techniques, utilisent des notions modifiées de complétude et ont eu un impact moindre[7].

Histoire modifier

Basu a donné la première version de ce théorème en 1955 dans un article intitulé On Statistics Independent of a Complete Sufficient Statistic, publié dans le journal de l'Institut indien de statistiques : Sankhyā: The Indian Journal of Statistics[4]. Cette première publication met surtout en avant la réciproque du théorème plutôt que ce qui sera retenu comme le théorème lui-même. Une erreur dans la démonstration de la réciproque est rapidement notée et une version corrigée est publiée en 1958 dans le même journal[5]. Le théorème de Basu, établissant un lien fort entre les notions de complétude, d'exhaustivité et de liberté, a rapidement trouvé de nombreuses applications. Il est aujourd'hui inclus dans des livres de référence de statistiques[8],[2].

Applications modifier

Le théorème de Basu trouve de nombreuses applications dans différentes branches des statistiques. Donnons ici une liste non exhaustive d'applications de ce théorème.

  • Il peut simplifier le calcul de moments de variables aléatoires, lorsque celles-ci peuvent s'écrire comme un produit ou comme une somme d'une statistique exhaustive et complète et d'une statistique libre[3].
  • Pour certains tests d'hypothèses, il permet d'établir la distribution exacte d'une statistiques de test[9].
  • Le théorème de Basu est au cœur de l'astuce du Monte Carlo swindle, permettant d'améliorer la précision de certaines méthodes de Monte-Carlo[10].
  • Il peut intervenir dans la production d'intervalles de confiance dans le cadre des méthodes Bayésiennes empiriques (en)[11].
  • Il trouve des applications dans différents problèmes d'estimation, notamment pour trouver des estimateurs à variance minimale[12].

Voir aussi modifier

Références modifier

  1. (en) Encyclopedia of Statistical Sciences, Wiley, , 193 - 196 p. (ISBN 978-0-471-15044-2 et 978-0-471-66719-3, DOI 10.1002/0471667196, lire en ligne)
  2. a et b E. L. Lehmann, Testing statistical hypotheses, Wiley, coll. « Wiley series in probability and mathematical statistics », (ISBN 978-0-471-84083-1)
  3. a et b Malay Ghosh, « Basu's Theorem with Applications: A Personalistic Review », Sankhyā: The Indian Journal of Statistics, Series A (1961-2002), vol. 64, no 3,‎ , p. 509–531 (ISSN 0581-572X, lire en ligne, consulté le )
  4. a et b D. Basu, « On Statistics Independent of a Complete Sufficient Statistic », Sankhyā: The Indian Journal of Statistics (1933-1960), vol. 15, no 4,‎ , p. 377–380 (ISSN 0036-4452, lire en ligne, consulté le )
  5. a et b D. Basu, « On Statistics Independent of Sufficient Statistics », Sankhyā: The Indian Journal of Statistics (1933-1960), vol. 20, nos 3/4,‎ , p. 223–226 (ISSN 0036-4452, lire en ligne, consulté le )
  6. Uwe Koehn et D. L. Thomas, « On Statistics Independent of a Sufficient Statistic: Basu's Lemma », The American Statistician, vol. 29, no 1,‎ , p. 40 (ISSN 0003-1305, DOI 10.2307/2683680, lire en ligne, consulté le )
  7. E. L. Lehmann, « An Interpretation of Completeness and Basu's Theorem », Journal of the American Statistical Association, vol. 76, no 374,‎ , p. 335–340 (ISSN 0162-1459, DOI 10.2307/2287834, lire en ligne, consulté le )
  8. George Casella et Roger W. Berger, Statistical inference, CRC Press, coll. « CRC texts in statistical science series », (ISBN 978-1-032-59303-6 et 978-1-032-59794-2)
  9. Robert V. Hogg et Allen T. Craig, « Sufficient Statistics in Elementary Distribution Theory », Sankhyā: The Indian Journal of Statistics (1933-1960), vol. 17, no 3,‎ , p. 209–216 (ISSN 0036-4452, lire en ligne, consulté le )
  10. (en) Dennis D. Boos et Jacqueline M. Hughes-Oliver, « Applications of Basu's Theorem », The American Statistician, vol. 52, no 3,‎ , p. 218–221 (ISSN 0003-1305 et 1537-2731, DOI 10.1080/00031305.1998.10480566, lire en ligne, consulté le )
  11. (en) Gauri Sankar Datta, Malay Ghosh, David Daniel Smith et Parthasarathi Lahiri, « On an Asymptotic Theory of Conditional and Unconditional Coverage Probabilities of Empirical Bayes Confidence Intervals », Scandinavian Journal of Statistics, vol. 29, no 1,‎ , p. 139–152 (ISSN 0303-6898 et 1467-9469, DOI 10.1111/1467-9469.t01-1-00143, lire en ligne, consulté le )
  12. Morris L. Eaton et Carl N. Morris, « The Application of Invariance to Unbiased Estimation », The Annals of Mathematical Statistics, vol. 41, no 5,‎ , p. 1708–1716 (ISSN 0003-4851 et 2168-8990, DOI 10.1214/aoms/1177696815, lire en ligne, consulté le )