Presentation is loading. Please wait.

Presentation is loading. Please wait.

1 L’analyse de variance Philippe DELEPORTE UMR Eco&Sols.

Similar presentations


Presentation on theme: "1 L’analyse de variance Philippe DELEPORTE UMR Eco&Sols."— Presentation transcript:

1 1 L’analyse de variance Philippe DELEPORTE philippe.deleporte@cirad.fr UMR Eco&Sols

2 2 Le modèle statistique Quel est le modèle statistique du plan à un facteur (effets fixés) ? Quel est le modèle statistique du plan à un facteur (effets fixés) ? Y ij est le résultat mesuré sur la j ième UE de la i ième modalité Y ij est le résultat mesuré sur la j ième UE de la i ième modalité = modèle de l’échantillonnage stratifié = modèle de l’échantillonnage stratifié = modèle « complètement aléatoire » = modèle « complètement aléatoire » Effet moyen Effet de la modalité i résidu

3 3 But Rejeter l’hypothèse nulle : Rejeter l’hypothèse nulle : Absence totale d’effet du facteur Absence totale d’effet du facteur Hypothèses alternatives Hypothèses alternatives

4 4 La décomposition des sommes de carrés d’écarts Considérons un écart à la moyenne des valeurs observées Considérons un écart à la moyenne des valeurs observées Intercalons dans cet écart la moyenne des individus d’une modalité Intercalons dans cet écart la moyenne des individus d’une modalité

5 5 Graphiquement Modalité 1 Modalité 2 Modalité 3 (i )

6 6 Elevons au carré

7 7 Sommons Sur toutes les unités Sur toutes les unités

8 8 Et finalement

9 9 Notations commodes SCE T : Somme des carrés des écarts totale SCE T : Somme des carrés des écarts totale SCE B : Somme des Carrés des Ecarts Inter (Between) SCE B : Somme des Carrés des Ecarts Inter (Between) Ou factorielle Ou factorielle SCE W : Somme des Carrés des Ecarts Intra (Within) SCE W : Somme des Carrés des Ecarts Intra (Within) Ou résiduelle Ou résiduelle SCE T = SCE B + SCE W SCE T = SCE B + SCE W T = B + W T = B + W

10 10 Sous H o Au produit par les « degrés de liberté » près Au produit par les « degrés de liberté » près Toutes ces sommes de carré mesurent la même chose Toutes ces sommes de carré mesurent la même chose

11 11 En particulier Sous H 0, « variance » inter et « variance » intra sont égales en espérance Sous H 0, « variance » inter et « variance » intra sont égales en espérance Et donc

12 12 Sous H 1

13 13 D’où la statistique F de Fisher : F de Fisher : Si F est « assez grand », on décidera que le facteur a un effet Si F est « assez grand », on décidera que le facteur a un effet

14 Cela dépend des hypothèses sur les erreurs Cela dépend des hypothèses sur les erreurs Si les erreurs sont : Si les erreurs sont : indépendantes deux à deux indépendantes deux à deux distribuées normalement distribuées normalement avec une espérance nulle avec une espérance nulle et une variance uniforme   indépendante de la modalité i et une variance uniforme   indépendante de la modalité i Le numérateur est distribué comme un  2 à p – 1 degrés de liberté Le numérateur est distribué comme un  2 à p – 1 degrés de liberté Le dénominateur est distribué comme un  2 à n – p degrés de liberté Le dénominateur est distribué comme un  2 à n – p degrés de liberté F est alors distribué comme une variable de Fisher – Snedecor à (p – 1) et (n – p) degrés de liberté F est alors distribué comme une variable de Fisher – Snedecor à (p – 1) et (n – p) degrés de liberté 14 Comment est distribué F ?

15 15 Pour rejeter H o ? Pour rejeter H o ? On peut utiliser une table On peut utiliser une table Exemple : F =4.8, dl1 = 4, dl2 = 44 Exemple : F =4.8, dl1 = 4, dl2 = 44 F est-il assez grand

16 16 Décision Sur la base de la table précédente Sur la base de la table précédente la valeur supérieure limite est 2.58 la valeur supérieure limite est 2.58 le seuil de la table est  = 0.05 le seuil de la table est  = 0.05 4.8 est supérieur à 2.58 4.8 est supérieur à 2.58 on déclare l’effet du facteur significatif au seuil  = 0.05 on déclare l’effet du facteur significatif au seuil  = 0.05

17 17 Le tableau d’analyse de variance Source SCE (SSQ) ddl (df) CM (MS) Fp Totaln-1 SCE T /(n-1) Inter (B) p-1 SCE B /(p-1) CM B /CM W p (F>=Fobs) Intra (W) n-p SCE W /(n-p) Note : R ne fournit pas la somme des carrés des écarts totale. On sait qu’on peut la retrouver en additionnant les autres sources de variation

18 18 Ecriture matricielle Y = Xβ + ε = modèle linéaire Y = vecteur des Y ij X = matrice d’incidence (0 ; 1) β = vecteur des régresseurs (paramètres) ε = vecteur des résidus

19 19 Validité des résultats ε ij sont iid i = indépendants id= identiquement distribués loi normale (0, σ)

20 Graphiques Graphiques Histogramme des résidus Histogramme des résidus Droite de Henry des résidus Droite de Henry des résidus Résidus en fonction de l’estimée Résidus en fonction de l’estimée Résidus en fonction de l’ordre des données Résidus en fonction de l’ordre des données Tests Tests Normalité des résidus Normalité des résidus Kolmogorov, Shapiro-Wilks, … Kolmogorov, Shapiro-Wilks, … Egalité des variances (homoscédasticité) Egalité des variances (homoscédasticité) Bartlett, Hartley, Levene, … Bartlett, Hartley, Levene, … A relativiser (Anova « robuste » aux écarts aux hypothèses) (en particulier quand plan équilibré) A relativiser (Anova « robuste » aux écarts aux hypothèses) (en particulier quand plan équilibré) 20 Comment contrôler la validité des résultats ?

21 21 Résumé L’analyse de variance permet de juger l’effet de tout un ensemble de modalités L’analyse de variance permet de juger l’effet de tout un ensemble de modalités On compare une estimation de la variance interindividuelle On compare une estimation de la variance interindividuelle à partir de la somme des carrés des écarts inter (B) à partir de la somme des carrés des écarts inter (B) et à partir de la somme des carrés des écarts intra (W) et à partir de la somme des carrés des écarts intra (W) par la statistique F de Fisher par la statistique F de Fisher Il nous reste à comparer les modalités Il nous reste à comparer les modalités

22 22 Plans à deux facteurs Croisement, hiérarchie, interaction, orthogonalité

23 23 Les facteurs peuvent être Croisés Emboîtés (nested) ou hiérarchiques Fixes ou aléatoires Etudiés ou contrôlés

24 24 A) Facteurs croisés A1 : modèle additif A1 : modèle additif Effets indépendants Effets indépendants A2 : modèle interactif A2 : modèle interactif Effets particulier de chaque combinaison de modalités Effets particulier de chaque combinaison de modalités A3 : modèles croisés non orthogonaux A3 : modèles croisés non orthogonaux

25 25 Modèle croisé additif Deux facteurs sont dits croisés si on peut classifier leurs modalités dans une table à double entrée Deux facteurs sont dits croisés si on peut classifier leurs modalités dans une table à double entrée Exemple : Sexe et altitude dans le jeu de données anatalanta Exemple : Sexe et altitude dans le jeu de données anatalanta Les moyennes par ligne et par colonne de la table obtenue ont un sens Les moyennes par ligne et par colonne de la table obtenue ont un sens

26 26 Ecriture du modèle (fixe) Effets fixes Effets fixes Effet « moyen » Effet du facteur 1 Effet du facteur 2 Aléatoire erreur résidu

27 27 Ecriture du modèle (aléatoire) Effets aléatoires Effets aléatoires Effet « moyen » Effet du facteur 1 (aléatoire) Effet du facteur 2 (aléatoire) Aléatoire erreur résidu

28 28 Modèle mixte Effets fixés et aléatoires Effets fixés et aléatoires Effet « moyen » Effet du facteur 1 (fixé) Effet du facteur 2 (aléatoire) Aléatoire erreur résidu

29 29 Votre responsabilité Déclarer un facteur comme fixe ou aléatoire est de votre responsabilité Déclarer un facteur comme fixe ou aléatoire est de votre responsabilité Fixe : chaque modalité vous intéresse Fixe : chaque modalité vous intéresse Aléatoire : chaque modalité n’est pour vous qu’une unité d’échantillonnage (grappe) Aléatoire : chaque modalité n’est pour vous qu’une unité d’échantillonnage (grappe) Exemple : choix judicieux pour anatalanta Exemple : choix judicieux pour anatalanta Sexe : facteur fixé Sexe : facteur fixé Altitude : facteur fixé Altitude : facteur fixé Station : facteur Station : facteur Fixé si chaque station est un objet d’étude Fixé si chaque station est un objet d’étude Aléatoire si les stations ne représentent que la variabilité du terrain Aléatoire si les stations ne représentent que la variabilité du terrain

30 30 Exemple Littoral(1)Altitude(2) Mâles(1) X 111 X 112 x 113 X 121 X 122 x 123 Femelles(2) X 211 X 212 x 213 X 221 X 222 X 223

31 31 Exemple > read.table("anatal.txt",h=T)->anatal > attach(anatal) > anatal$sexe anatal$sexe<-factor(sexe) > anatal$station anatal$station<-factor(station) > anatal$altitude anatal$altitude<-factor(altitude) > summary(anatal) Sexe, station et altitude doivent apparaître comme des facteurs Sexe, station et altitude doivent apparaître comme des facteurs

32 32 Exemple : facteurs croisés > Analysis of Variance Table Response: Lo Df Sum Sq Mean Sq F value Pr(>F) Df Sum Sq Mean Sq F value Pr(>F) sexe 1 0.2081 0.2081 5.6279 0.01827 * altitude 1 0.6716 0.6716 18.1650 2.675e-05 *** Residuals 317 11.7204 0.0370 --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

33 33 Orthogonalité Deux facteurs croisés sont dits orthogonaux si leurs nombres de répétitions par ligne, colonne et case vérifient la relation suivante : Deux facteurs croisés sont dits orthogonaux si leurs nombres de répétitions par ligne, colonne et case vérifient la relation suivante : L’équilibre est un cas particulier

34 34 Conséquence de l’orthogonalité Si deux facteurs croisés sont orthogonaux, les sommes de carrés d’écart correspondants sont additifs et ajustés Si deux facteurs croisés sont orthogonaux, les sommes de carrés d’écart correspondants sont additifs et ajustés Le type I est absolument correct pour chaque facteur Le type I est absolument correct pour chaque facteur Sinon, ils sont partiellement confondus (confounding) et doivent être analysés en type III Sinon, ils sont partiellement confondus (confounding) et doivent être analysés en type III

35 35 Orthogonalité et planification expérimentale On utilise couramment des plans non orthogonaux par construction On utilise couramment des plans non orthogonaux par construction Plans en blocs incomplets équilibrés (BIE) Plans en blocs incomplets équilibrés (BIE) Plans en blocs incomplets partiellement équilibrés (BIPE) Plans en blocs incomplets partiellement équilibrés (BIPE) Plans fractionnaires Plans fractionnaires

36 36 Interaction dans le modèle croisé Et test de l’interaction

37 37 Exemple : facteurs croisés >anatal.mod1<-lm(Lo~sexe*alt,data=anatal) > anova(anatal.mod1,ssTypes=3) Analysis of Variance Table Response: Lo Df Sum Sq Mean Sq F value Pr(>F) Df Sum Sq Mean Sq F value Pr(>F) sexe 1 0.2081 0.2081 5.6431 0.01812 * altitude 1 0.6716 0.6716 18.2140 2.613e-05 *** sexe:altitude 1 0.0684 0.0684 1.8562 0.17403 Residuals 316 11.6520 0.0369

38 38 Modèle additif et interactif mâles femelles Littoral altitude mâles femelles Littoral altitude

39 39 Ecriture Modèle additif Modèle additif Modèle interactif Modèle interactif

40 40 Ordre des interactions Ordre 1 : facteurs deux à deux Ordre 1 : facteurs deux à deux Ordre 2 : facteurs trois à trois Ordre 2 : facteurs trois à trois … etc … etc Notations logicielles Notations logicielles R : f1:f2, f1:f2:f3, f1*f2 = f1+f2+f1:f2 R : f1:f2, f1:f2:f3, f1*f2 = f1+f2+f1:f2 SAS, minitab : f1*f2, f1*f2*f3 SAS, minitab : f1*f2, f1*f2*f3

41 41 b) Facteurs hiérarchisés Représentation par un arbre Représentation par un arbre 123 123 12 123 Facteur 1 (hiérarchisant) Facteur 2 (hiérarchisé)

42 42 Modèle hiérarchique Comment écrit-on le modèle ? Comment écrit-on le modèle ? Effet du facteur 1 (hiérarchisant) Effet du facteur 2 (hiérarchisé)

43 43 Anatalanta  : sexe  : sexe  : altitude  : altitude D : station D : station Aléatoire Aléatoire Hiérarchisée sous altitude Hiérarchisée sous altitude

44 44 Analyse d’un facteur hiérarchisé > attach(anatal) > mod5<-lm(Lo~sexe+altitude+station %in% altitude) > anova(mod5) Analysis of Variance Table Response: Lo Df Sum Sq Mean Sq F value Pr(>F) sexe 1 0.2081 0.2081 7.3296 0.007158 ** altitude 1 0.6716 0.6716 23.6574 1.831e-06 *** altitude:station 6 2.8914 0.4819 16.9750 < 2.2e-16 *** Residuals 311 8.8290 0.0284 --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

45 Quand les conditions de l’analyse de variance non respectées ? 45 Si les erreurs ne sont pas Si les erreurs ne sont pas Indépendantes deux à deux Indépendantes deux à deux Distribuées normalement Distribuées normalement Avec une espérance nulle Avec une espérance nulle Et une variance uniforme   indépendante de la modalité i Et une variance uniforme   indépendante de la modalité i

46 Si les erreurs ne sont pas Si les erreurs ne sont pas Distribuées normalement Distribuées normalement  modèle linéaire généralisé (GLM)  L’erreur  Loi Binomiale, Loi exponentielle (Beta, Exponentielle, Gamma, Poisson, ….)  Même modèle que l’analyse de variance, mais fonction de lien, erreur modélisée différemment et procédure ML ou REML  Test H 0 (F) différent : test de Wald, … Indépendantes Indépendantes  modèle mixte (lme4, lmer, GLIMMIX)  Structure de dépendance des erreurs (nombreux types comme AR(1), VC (variance components), UN (unstructured)  ! Prend des DDL Une variance uniforme indépendante des traitements Une variance uniforme indépendante des traitements  modèle mixte (lme4, lmer, GLIMMIX) 46

47 47

48 48 Mesures répétées (dans le temps ou/et espace) Mesures répétées (dans le temps ou/et espace) MANOVA MANOVA Plusieurs variables « réponses » (y) Plusieurs variables « réponses » (y) Modèles mixtes Modèles mixtes 1 seule var. réponse 1 seule var. réponse Structure de dépendance des y à différentes dates, …. Structure de dépendance des y à différentes dates, ….


Download ppt "1 L’analyse de variance Philippe DELEPORTE UMR Eco&Sols."

Similar presentations


Ads by Google