Les statistiques inférentielles forment un pilier du programme du CAPES. L’estimation ponctuelle et par intervalle, les tests d’hypothèses, la loi des grands nombres et le théorème central limite sont des outils que tu utiliseras constamment, aussi bien dans l’enseignement secondaire que dans la modélisation. Cet article couvre l’ensemble de ces notions avec rigueur, en détaillant les démonstrations clés, les méthodes de calcul et les pièges classiques de l’épreuve.
Estimation ponctuelle
L’estimation ponctuelle consiste à approcher un paramètre inconnu θ d’une loi de probabilité à partir d’un échantillon (X₁, …, Xₙ) de variables aléatoires indépendantes et identiquement distribuées (i.i.d.). Un estimateur T = T(X₁, …, Xₙ) est une statistique, c’est-à-dire une fonction mesurable de l’échantillon, qui ne dépend pas du paramètre inconnu.
Biais et convergence
Le biais d’un estimateur T de θ est B(T) = E[T] − θ. Si B(T) = 0, l’estimateur est dit sans biais. L’erreur quadratique moyenne (EQM) se décompose en :
EQM(T) = E[(T − θ)²] = Var(T) + B(T)²
Un estimateur sans biais minimise l’EQM parmi tous les estimateurs de même variance. Un estimateur est convergent (ou consistant) si T converge en probabilité vers θ quand n → +∞.
• Sans biais : E[T] = θ pour tout θ.
• Convergent : pour tout ε > 0, P(|T − θ| > ε) → 0 quand n → +∞.
• L’inégalité de Bienaymé-Tchebychev donne un critère suffisant : si E[T] → θ et Var(T) → 0, alors T est convergent.
Estimateurs classiques
La moyenne empirique X̄ₙ = (1/n)Σᵢ₌₁ⁿ Xᵢ est un estimateur sans biais de l’espérance μ = E[X₁]. En effet, E[X̄ₙ] = (1/n)Σ E[Xᵢ] = (1/n) × nμ = μ. Sa variance vaut Var(X̄ₙ) = σ²/n, qui tend vers 0 : X̄ₙ est convergent.
La variance empirique S² = (1/n)Σᵢ₌₁ⁿ (Xᵢ − X̄ₙ)² est un estimateur biaisé de σ². On a E[S²] = ((n−1)/n)σ². L’estimateur corrigé S*² = (1/(n−1))Σᵢ₌₁ⁿ (Xᵢ − X̄ₙ)² est sans biais. La correction par n−1 (au lieu de n) compense la perte d’un degré de liberté due à l’estimation de la moyenne.
Pour prouver que E[S²] = ((n−1)/n)σ², développe (Xᵢ − X̄ₙ)² = (Xᵢ − μ)² − 2(Xᵢ − μ)(X̄ₙ − μ) + (X̄ₙ − μ)², puis somme et prends l’espérance. La clé est de remarquer que Σ(Xᵢ − μ) = n(X̄ₙ − μ).
Méthode du maximum de vraisemblance
Soit (x₁, …, xₙ) un échantillon observé. La vraisemblance est L(θ) = Πᵢ₌₁ⁿ f(xᵢ; θ), où f est la densité (cas continu) ou la loi de probabilité (cas discret). L’estimateur du maximum de vraisemblance (EMV) est la valeur θ̂ qui maximise L(θ), ou de façon équivalente, la log-vraisemblance ℓ(θ) = ln L(θ) = Σᵢ₌₁ⁿ ln f(xᵢ; θ).
Pour une loi normale N(μ, σ²), l’EMV de μ est X̄ₙ et l’EMV de σ² est S² = (1/n)Σ(Xᵢ − X̄ₙ)². L’EMV de σ² est biaisé, mais il est convergent. Pour une loi de Bernoulli de paramètre p, l’EMV est p̂ = X̄ₙ, la fréquence empirique.
Estimation par intervalle de confiance
Un intervalle de confiance au niveau 1 − α est un intervalle aléatoire [T₁, T₂] tel que P(θ ∈ [T₁, T₂]) ≥ 1 − α pour tout θ. L’interprétation fréquentiste est essentielle : ce n’est pas θ qui est aléatoire, ce sont les bornes T₁ et T₂. Si tu répètes l’expérience un grand nombre de fois, environ (1 − α) × 100 % des intervalles construits contiendront θ.
Intervalle de confiance pour la moyenne (variance connue)
Si (X₁, …, Xₙ) est un échantillon i.i.d. de loi N(μ, σ²) avec σ² connu, alors :
Z = (X̄ₙ − μ) / (σ/√n) suit la loi N(0, 1)
L’intervalle de confiance bilatéral au niveau 1 − α est :
IC = [X̄ₙ − z_{α/2} × σ/√n, X̄ₙ + z_{α/2} × σ/√n]
où z_{α/2} est le quantile d’ordre 1 − α/2 de la loi N(0, 1). Pour α = 0,05, z_{α/2} ≈ 1,96.
Par le théorème central limite, si n est grand, l’intervalle [X̄ₙ − z_{α/2} × S*/√n, X̄ₙ + z_{α/2} × S*/√n] est un intervalle de confiance asymptotique de niveau 1 − α pour μ, même si la loi sous-jacente n’est pas gaussienne. En pratique, on considère que n ≥ 30 suffit.
Intervalle de confiance pour la moyenne (variance inconnue)
Si σ² est inconnu et si l’échantillon est gaussien, on remplace σ par l’écart-type corrigé S* et la statistique suit une loi de Student à n − 1 degrés de liberté :
T = (X̄ₙ − μ) / (S*/√n) ~ t(n − 1)
L’intervalle de confiance devient IC = [X̄ₙ − t_{n−1, α/2} × S*/√n, X̄ₙ + t_{n−1, α/2} × S*/√n], où t_{n−1, α/2} est le quantile de la loi de Student. Pour n grand, la loi de Student se rapproche de la loi normale.
Intervalle de confiance pour une proportion
Si X₁, …, Xₙ sont i.i.d. de Bernoulli(p), la fréquence empirique p̂ = X̄ₙ vérifie, par le TCL :
√n (p̂ − p) / √(p(1−p)) → N(0, 1) en loi
L’intervalle de confiance asymptotique est IC ≈ [p̂ − z_{α/2}√(p̂(1−p̂)/n), p̂ + z_{α/2}√(p̂(1−p̂)/n)]. On remplace p par p̂ sous la racine, ce qui est légitime pour n grand.
Tests d’hypothèses
Un test d’hypothèse est une procédure de décision entre deux hypothèses : l’hypothèse nulle H₀ et l’hypothèse alternative H₁. Le principe est de fixer un seuil de signification α (le risque de première espèce), de construire une statistique de test et de définir une zone de rejet.
Les deux types d’erreurs
• Erreur de type I (risque α) : rejeter H₀ alors qu’elle est vraie. C’est un « faux positif ».
• Erreur de type II (risque β) : ne pas rejeter H₀ alors qu’elle est fausse. C’est un « faux négatif ».
La puissance d’un test est 1 − β, c’est-à-dire la probabilité de rejeter H₀ quand H₁ est vraie. On cherche un test de niveau α (le risque de première espèce est au plus α) et de puissance maximale.
1. Formuler H₀ et H₁.
2. Choisir la statistique de test adaptée au problème.
3. Déterminer la loi de la statistique sous H₀.
4. Fixer le seuil α et déterminer la zone de rejet.
5. Calculer la valeur observée de la statistique.
6. Conclure : si la statistique tombe dans la zone de rejet, on rejette H₀ au niveau α.
Test de la moyenne (cas gaussien, variance connue)
On teste H₀ : μ = μ₀ contre H₁ : μ ≠ μ₀ (test bilatéral). Sous H₀, la statistique Z = (X̄ₙ − μ₀)/(σ/√n) suit N(0, 1). La zone de rejet au niveau α est {|Z| > z_{α/2}}. Si |Z_obs| > z_{α/2}, on rejette H₀.
Pour un test unilatéral H₁ : μ > μ₀, la zone de rejet est {Z > z_α}. L’interprétation est qu’un excès suffisamment grand de la moyenne observée par rapport à μ₀ conduit au rejet.
Test du chi-deux d’adéquation
Le test du χ² compare une distribution empirique à une distribution théorique. Soit un échantillon de taille n réparti en k catégories, avec Oᵢ les effectifs observés et Eᵢ = npᵢ les effectifs théoriques (où pᵢ est la probabilité théorique de la catégorie i).
La statistique de test est χ² = Σᵢ₌₁ᵏ (Oᵢ − Eᵢ)² / Eᵢ. Sous H₀ (adéquation), cette statistique suit approximativement une loi χ²(k − 1 − r), où r est le nombre de paramètres estimés. On rejette H₀ si χ²_obs > χ²_{k−1−r, α} (le quantile d’ordre 1 − α).
️ Condition d’application du test du χ²
L’approximation chi-deux n’est valable que si tous les effectifs théoriques Eᵢ sont suffisamment grands (en pratique, Eᵢ ≥ 5 pour toutes les catégories). Si certains effectifs sont trop faibles, il faut regrouper des catégories avant d’appliquer le test.
Loi des grands nombres et théorème central limite
Ces deux résultats fondamentaux justifient l’ensemble de l’inférence statistique. Ils relient la théorie des probabilités à la pratique statistique.
Loi faible des grands nombres
Si (Xₙ) est une suite de variables i.i.d. d’espérance μ et de variance finie σ², alors X̄ₙ converge en probabilité vers μ :
∀ε > 0, P(|X̄ₙ − μ| > ε) → 0 quand n → +∞
La preuve repose sur l’inégalité de Markov appliquée à (X̄ₙ − μ)² : P(|X̄ₙ − μ| > ε) = P((X̄ₙ − μ)² > ε²) ≤ E[(X̄ₙ − μ)²] / ε² = σ²/(nε²) → 0.
Théorème central limite (TCL)
C’est le résultat le plus important de toute la statistique. Si (Xₙ) est une suite i.i.d. d’espérance μ et de variance σ² > 0, alors :
√n (X̄ₙ − μ) / σ → N(0, 1) en loi
Soit (Xₙ) une suite de v.a. i.i.d. d’espérance μ et de variance σ² ∈ ]0, +∞[. Alors la variable normalisée Zₙ = √n(X̄ₙ − μ)/σ converge en loi vers N(0, 1).
En pratique : pour n assez grand, X̄ₙ ≈ N(μ, σ²/n), quelle que soit la loi des Xᵢ. C’est pourquoi la loi normale apparaît si souvent en statistique.
Le TCL s’applique à de nombreuses situations : approximation d’une loi binomiale par une loi normale (quand n est grand et p ni trop petit ni trop proche de 1), construction d’intervalles de confiance, et justification des tests de la moyenne.
La p-valeur et la démarche statistique
La p-valeur (ou valeur-p) est la probabilité, sous H₀, d’obtenir une statistique de test au moins aussi extrême que la valeur observée. Plus la p-valeur est petite, plus les données sont incompatibles avec H₀.
La règle de décision est : on rejette H₀ si la p-valeur est inférieure ou égale à α. La p-valeur contient plus d’information que la simple conclusion « rejeter / ne pas rejeter » : elle indique à quel point les données sont en désaccord avec H₀.
Ne dis jamais « on accepte H₀ ». La formule correcte est « on ne rejette pas H₀ ». L’absence de rejet ne prouve pas que H₀ est vraie : elle signifie seulement que les données ne fournissent pas assez de preuves contre H₀ au niveau α choisi. C’est une distinction fondamentale en statistique, qui repose sur les liens entre analyse et probabilités.
Exercices corrigés
Exercice 1 — Biais et convergence d’un estimateur
Énoncé : Soit (X₁, …, Xₙ) un échantillon i.i.d. de loi exponentielle de paramètre λ > 0. On pose T = 1/X̄ₙ. Montrer que T est un estimateur convergent de λ.
Correction : On sait que E[X₁] = 1/λ. Par la loi des grands nombres, X̄ₙ → 1/λ en probabilité. La fonction g(x) = 1/x est continue en 1/λ (qui est non nul). Par le théorème de transfert continu (continuous mapping theorem), T = g(X̄ₙ) → g(1/λ) = λ en probabilité. Donc T est convergent.
Remarque : T est biaisé (E[1/X̄ₙ] ≠ λ en général, car l’espérance de l’inverse n’est pas l’inverse de l’espérance), mais il est convergent.
Exercice 2 — Intervalle de confiance pour une proportion
Énoncé : Dans un sondage de n = 400 personnes, 220 se déclarent favorables à une mesure. Construire un intervalle de confiance à 95 % pour la proportion p de personnes favorables dans la population.
Correction : On a p̂ = 220/400 = 0,55 et α = 0,05, donc z_{α/2} = 1,96.
La marge d’erreur est e = 1,96 × √(0,55 × 0,45 / 400) = 1,96 × √(0,2475/400) = 1,96 × √(0,00061875) = 1,96 × 0,02487 ≈ 0,0488.
L’intervalle de confiance est IC = [0,55 − 0,049, 0,55 + 0,049] = [0,501 ; 0,599].
On peut affirmer avec 95 % de confiance que la proportion réelle est entre 50,1 % et 59,9 %.
Exercice 3 — Test de la moyenne
Énoncé : Un fabricant affirme que ses pièces pèsent en moyenne 50 g (σ = 2 g). On pèse 36 pièces et on obtient x̄ = 49,2 g. Peut-on rejeter l’affirmation au seuil 5 % ?
Correction : On teste H₀ : μ = 50 contre H₁ : μ ≠ 50 (test bilatéral).
Statistique de test : Z = (49,2 − 50) / (2/√36) = −0,8 / (2/6) = −0,8 / 0,333 = −2,4.
Pour α = 0,05 : z_{0,025} = 1,96. On a |Z| = 2,4 > 1,96.
Conclusion : on rejette H₀ au seuil 5 %. Les données fournissent des preuves significatives que la moyenne réelle diffère de 50 g.
p-valeur : P(|Z| > 2,4) = 2 × P(Z > 2,4) ≈ 2 × 0,0082 = 0,0164 < 0,05.
Exercice 4 — Maximum de vraisemblance
Énoncé : Soit (X₁, …, Xₙ) un échantillon i.i.d. de loi de Poisson de paramètre λ > 0. Déterminer l’EMV de λ.
Correction : La vraisemblance est L(λ) = Πᵢ₌₁ⁿ (e^{−λ} λ^{xᵢ} / xᵢ!) = e^{−nλ} λ^{Σxᵢ} / Πxᵢ!
La log-vraisemblance est ℓ(λ) = −nλ + (Σxᵢ) ln λ − Σ ln(xᵢ!).
On dérive : ℓ'(λ) = −n + (Σxᵢ)/λ = 0, donc λ̂ = (Σxᵢ)/n = X̄ₙ.
On vérifie que c’est un maximum : ℓ »(λ) = −(Σxᵢ)/λ² < 0 (car Σxᵢ > 0 en pratique).
L’EMV de λ est donc X̄ₙ. Il est sans biais car E[X̄ₙ] = λ.
Exercice 5 — Test du χ²
Énoncé : On lance un dé 120 fois et on obtient les résultats : face 1 : 25 fois, face 2 : 17 fois, face 3 : 15 fois, face 4 : 23 fois, face 5 : 24 fois, face 6 : 16 fois. Le dé est-il équilibré au seuil 5 % ?
Correction : Sous H₀ (dé équilibré), chaque face a probabilité 1/6, donc Eᵢ = 120/6 = 20 pour chaque face.
χ² = (25−20)²/20 + (17−20)²/20 + (15−20)²/20 + (23−20)²/20 + (24−20)²/20 + (16−20)²/20
= 25/20 + 9/20 + 25/20 + 9/20 + 16/20 + 16/20 = 100/20 = 5,0.
Degrés de liberté : k − 1 = 6 − 1 = 5. Le quantile χ²(5, 0,05) = 11,07.
Comme 5,0 < 11,07, on ne rejette pas H₀ : les données ne permettent pas de conclure que le dé est déséquilibré au seuil 5 %.
Exercice 6 — Application du TCL
Énoncé : Une machine produit des pièces dont la longueur suit une loi d’espérance 10 cm et d’écart-type 0,5 cm. On mesure 100 pièces. Quelle est la probabilité (approchée) que la moyenne de l’échantillon soit comprise entre 9,9 et 10,1 cm ?
Correction : Par le TCL, X̄₁₀₀ ≈ N(10, 0,5²/100) = N(10, 0,0025). L’écart-type de X̄ est σ/√n = 0,5/10 = 0,05.
P(9,9 ≤ X̄ ≤ 10,1) = P((9,9 − 10)/0,05 ≤ Z ≤ (10,1 − 10)/0,05) = P(−2 ≤ Z ≤ 2).
P(−2 ≤ Z ≤ 2) = 2Φ(2) − 1 ≈ 2 × 0,9772 − 1 = 0,9544.
La probabilité est d’environ 95,4 %.
Erreurs fréquentes et pièges
L’intervalle de confiance [a, b] ne signifie PAS « θ est dans [a, b] avec probabilité 95 % ». θ est un nombre fixe, pas une variable aléatoire. L’énoncé correct est : « Si on répète l’expérience, 95 % des intervalles construits contiendront θ. »
Erreur 2 — Diviser par n au lieu de n − 1
Pour un estimateur sans biais de la variance, il faut diviser par n − 1 (variance corrigée), pas par n. L’EMV donne la division par n, qui est biaisé.
Erreur 3 — Confondre test unilatéral et bilatéral
La zone de rejet et la table de quantiles diffèrent selon le type de test. Pour un test bilatéral à 5 %, le quantile est z_{0,025} = 1,96. Pour un test unilatéral à 5 %, c’est z_{0,05} = 1,645.
Erreur 4 — Dire « on accepte H₀ »
On ne dit jamais « on accepte H₀ ». On dit « on ne rejette pas H₀ ». L’absence de rejet ne constitue pas une preuve de H₀. C’est la même nuance qu’en analyse : ne pas prouver la divergence ne prouve pas la convergence.
FAQ — Statistiques au CAPES
Quelle est la différence entre un estimateur et une estimation ?
Un estimateur T est une variable aléatoire (fonction de l’échantillon). Une estimation est la valeur numérique t obtenue en appliquant l’estimateur à un échantillon observé. Par exemple, X̄ₙ est un estimateur de μ ; x̄ = 4,3 est une estimation.
Quand utiliser la loi de Student plutôt que la loi normale ?
Tu utilises la loi de Student quand la variance est inconnue et que tu l’estimes par S*², avec un échantillon gaussien. Pour n grand (n ≥ 30), la différence entre Student et normale est négligeable. Pour n petit avec un échantillon non gaussien, aucune des deux n’est rigoureusement justifiée sans hypothèse supplémentaire.
Le TCL s’applique-t-il toujours ?
Le TCL nécessite que les variables soient i.i.d. et de variance finie. Si la variance est infinie (certaines lois à queues lourdes comme la loi de Cauchy), le TCL ne s’applique pas. Pour des variables non indépendantes, il existe des versions adaptées (TCL pour les martingales, TCL sous dépendance faible).
Comment choisir entre un test paramétrique et un test non paramétrique ?
Un test paramétrique suppose que la loi sous-jacente appartient à une famille connue (normale, exponentielle, etc.). Un test non paramétrique (test des rangs, test de Kolmogorov-Smirnov) ne fait pas cette hypothèse. Utilise un test paramétrique quand l’hypothèse de loi est raisonnable : il est plus puissant. Sinon, le test non paramétrique est plus robuste.
Ingénieur de formation, professeur des écoles et passionné par l’enseignement.







