Download presentation
Presentation is loading. Please wait.
Published byHenriette Pelletier Modified over 8 years ago
1
Retour aux sources (Back to basics) Partie 1
2
Introduction Those who don’t know statistics are condemned to reinvent it… David Freedman David Freedman (1938-2008) (1938-2008)
3
Introduction : Donner du sens aux données
4
Section 1 Opérationnalisation des concepts en Sciences de Gestion
5
Du concept à la variable Du concept à la variable Une variable = une quantité ou qualité susceptible de fluctuer ou de varier. Souvent en sciences de gestion, les variables utilisées ne peuvent pas être mesurées de manière « objective » => On mobilise plutôt des variables latentes ou construit Exemple : Notoriété, image de marque, motivation, intention d’achat, implication, fidélité, engagement, confiance, utilité,… opérationnalisation VARIABLE Ou CONSTRUIT CONCEPT
6
Cadre de base Boite : variable –Nature : nominale, ordinale, quantitative (ratio/métrique) Fleche : influence directionnelle ou non d’une variable sur une autre –Sens, Forme, Force –Dépendante (Y) et indépendante (X) X X Y
7
Variables quantitatives Il existe 2 types de variables : Les variables quantitatives : mesurables sur une échelle … avec une unité: –des valeurs réelles: donnée continue âge, CA, Prix... –de valeurs isolées: donnée discrète nombres d’enfants, nombre de voiture par foyer,... NB. Parfois les variables discrètes sont traitées comme des variables continues
8
Les variables qualitatives : non mesurables sur une échelle (notion de jugement), mais… - avec relation d’ordre : données ordinales (semi-quantitatives) - L’ordre est important Ex : Client classe A, B ou C selon la règle de Pareto - L’ampleur n’est pas importante: le client A n’est pas deux fois plus important que le client B Ex: intention d’achat : faible, modérée, forte sinon : données catégoriques (nominale) –homme/femme –marié/célibataire Variables qualitatives
9
Cadre de base Variable modératrice (1) : elle modifie la relation entre deux autres variables Variable médiatrice (2) : elle est intermédiaire pour expliquer la relation entre deux variables Ce n’est pas parce qu’une variable vous intéresse qu’elle est la plus importante –Variables de contrôle X Y Z X Y Z 1 2 X Y W
10
Des Variables aux construits latents Des construits de ces variables « latentes » (non mesurables directement) sont obtenus à partir de la moyenne des réponses à des questions (items) –Les items retenus forment une « échelle de mesure » –Ils doivent correspondre au « construit » Soit en représentant différentes facettes (formative F1) Soit en étant le reflet d’une variable inconnue (approche réflective F2) Comme dans chaque réponse, il y a une part d’aléa, on réduit cet aléa en prenant une synthèse de plusieurs mesures –Par une moyenne sur les réponses brutes ou standardisées –Par le calcul d’un facteur qui ne reprend que ce que les items ont en commun (analyse factorielle) –Par la « formation » du construit (avec PLS par exemple) X1 X2 F1 X1 X2 F2
11
Section 2 Statistiques descriptives (the must)
12
Deux grands principes La loi des grands nombres Le théorème central limite
13
1. La loi des grands nombres Kerrich (1903–1985) Jacob Bernoulli (1654 –1705) La loi des grands nombres
14
http://www.mathsisfun.com/data/quincunx.html Quincunx La distribution binominale µ = n p V(x) = n p (1-p)
15
La loi Normale ou la loi Laplace-Gauss Quand n ∞
16
15 Loi normale N( , ) Une variable aléatoire X suit une loi normale N( , ) si, pour toute valeur de x, Résultats : - Moyenne de X = - Variance de X = 2 - 95% des valeurs de X sont comprises entre - 1.96 et + 1.96 x La loi Normale
17
http://onlinestatbook.com/stat_sim/sampling_dist/i ndex.html
18
Population µ,µ, Echantillon1 Echantillon2 2, S 2 Echantillon3 3, S 3 = (X 1 + X 2 + X 3 ) /3 X = X µ n S = 2. L’échantillonnage et le théorème central limite Théorème Central Limite X, S 1 1 X X X X X
19
Population µ,µ, Echantillon Inférence X, S 1 1 N n
20
Intervalle de confiance pour estimer la moyenne Si n est assez grand (n > 50) alors:
21
Tests d’hypothèses (nulle et alternative) Permettent de déterminer si une affirmation au sujet de la valeur d’un paramètre de la population doit être rejetée L’hypothèse nulle est une hypothèse sur la valeur d’un paramètre de la population. Elle est notée H 0. Sera rejetée uniquement s’il y a suffisamment d’évidence contre elle Le test d’hypothèses est similaire à un procès criminel. On donne le bénéfice du doute à l'hypothèse nulle: –H0: L’accusé est innocent –Ha: L’accusé est coupable
22
Quelle conclusion tirer? Rejeter H 0 ? Ou ne pas rejeter H 0 ? -On rejette H 0 si la statistique estimée à partir de l’échantillon est éloignée de la valeur du paramètre supposée dans H 0 (valeur hypothétique). - On rejette H 0 lorsque l'écart entre la valeur hypothétique du paramètre et la valeur de la statitstique est grand, ce qui signifie que l'écart n'est pas uniquement dû au hasard de l’échantillonnage. Règle de décision
23
Erreurs de 1 ère et 2 ème espèce Les hypothèses nulle et alternative sont des affirmations contraires au sujet d’un paramètre de la population Soit l’hypothèse nulle est vraie, soit l’hypothèse alternative est vraie, mais pas les deux Puisque les tests d’hypothèses sont basés sur des données d’échantillon, nous devons admettre la possibilité d’erreurs
24
0 - t s t st s / 2 Test des Hypothèses
25
Loi de Student Si X N( , ) alors : suit une loi de Student à n-1 degrés de liberté [notée t(n-1)]. Gosset (1876-1937) Créa le t -test pour traiter les petits échantillons dans le but de controler la qualité des produits à Guiness à Dublin. Il a publié sous le nom de "Student".
26
représentation graphique de la loi de STUDENT. courbe en cloche symétrique, plus aplatie que la courbe de Gauss (courbe hyper-normale). d’autant plus aplatie que est plus petit 0 t courbe normale courbe hyper-normale P (t) Loi de Student
27
H 0 vraie H 0 fausse États de H 0 Bonne décision E 1 = erreur de type I E 2 = erreur de type II Ne pas rejeter H 0 Rejeter H 0 Possibilités d'erreurs Décisions
28
Erreurs type I and type II
29
Moyenne et écart-type
30
Section 3 : Analyse explicative
31
Analyse explicative
32
31 Étude du lien entre deux variables X et Y Variable Y à expliquer Variable X explicative
33
La covariance Cov xy Dividende x Prix de l’action en bourse y Covariance > 0 les variables ont tendance à varier dans le même sens Covariance < 0 les variables ont tendance à varier en sens opposée Plus la valeur (>0 ou <0) de la covariance est élevée plus la relation entre les variables est forte La covariance est un indicateur de relation linéaire entre les variables Covariance = 0 peut signifier une relation non linéaire.
34
Le coefficient de corrélation est défini par –Il mesure l’erreur d’estimation –Il mesure le lien linéaire entre les variables –Il mesure la distance entre la droite de régression et le nuage de points Coefficient de corrélation
35
RLS - Régression linéaire simple 11 Dividende x Prix de l’action en bourse y Modèle de régression linéaire simple y = 0 + 1 x + Équation de la régression linéaire simple (comment l'espérance de y est liée à x) E(y) = 0 + 1 x Équation estimée de la régression linéaire simple (droite de la régression estimée, modèle empirique)
36
Il existe plusieurs méthodes permettant d’estimer le modèle théorique par le modèle empirique Méthode des moindres carrés Méthode de la vraisemblance … Estimer les méthodes théoriques
37
La méthode des moindres carrés => Critère des moindres carrés où: y i = valeur observée de la variable dépendante pour pour la i ème observation = valeur estimée de la variable dépendante pour la i ème observation
38
xixi yiyi erreur e i * On cherche 0 et 1 minimisant valeur observée valeur prédite 11 L’objectif de la méthode des moindres carrés est de déterminer la droite de régression qui minimise
39
Taille de l’échantillon Autre formule pour b 1 b 0 et b 1
40
Le modèle de la régression simple Modèle : Y = b 0 + b 1 X + , avec N(0, ) X Y y = b 0 + b 1 x + b x x = ax+b x + 1.96 x - 1.96 95% des valeurs de Y Loi de Y * * L’écart-type représente à peu près le quart de l’épaisseur du nuage
41
Répartition de la somme des carrés SC TotaleSC Type I (Expliquée)SC inexpliquée (erreur) Y = +
42
41 Coefficient de détermination R 2, Coefficient de corrélation Cor(X,Y) A) Formule de décomposition Somme des carrés totale (Total Sum of Squares) Somme des carrés expliquée (Regression Sum of Squares) Somme des carrés résiduelle (Residual Sum of Squares) B) R 2 = C)
43
fournit une indication de la force de la liaison qui existe entre Y et X Le coefficient de détermination
44
0 R 2 1 2) R 2 = 1 Y X * * * * * * * 3) R 2 = 0 Y X * * * * * * * * * * Le R 2 mesure la force de la liaison linéaire entre X et Y
45
NB Le coefficient de corrélation peut être déterminé aussi : Ou Sachant que : Le coefficient de corrélation
46
La corrélation Cor(X,Y) mesure la force et le sens de la liaison linéaire entre X et Y ** * * * * * * * * X Y X Y * * * * 11 11
47
46 Erreur-type de la pente L’erreur-type de la pente s b et l’IC de la pente 100(1- ): Alors pour un N fixe, on peut diminuer s b en augmentant l’étendue des valeurs de X échantillonées Y X Y s b plus petit
48
test des paramètres du modèle Tester chaque hypothèse par un test de t Y X Y H 02 : b = 0 Y X H 01 : = 0 Y
49
RLM - La Régression Linéaire Multiple VI1 VI2 VD VI3 VI2 Equation de régression multiple
50
Graphiques des liaisons deux à deux
51
Problème de multicolinéarité VI1 VI2 r > 0,70 VI2 VD VI2VI1VD
52
51 Mesure de la multi-colinéarité : Tolérance et VIF n Tolérance (X j ) = 1 - R 2 (X j ; Autres X) Il est préférable d’observer une tolérance supérieure à 0.33. n VIF = Variance Inflation Factor = 1 / Tolérance n Il est préférable d’observer un VIF inférieur à 3.
53
Peinture représentant un étang (Tombeau de Thèbes, 1400 av. J.-C.) extrait de l’Histoire de l’Art de Ernst Gombrich
54
Analyse de la variance : ANOVA Sir Ronald Fischer 1890-1962
55
Introduction C’est une extension du test t (Student) Compare les variances des differents sous- échantillons (groupes) Facteurs = Variables (Exemple : Le genre) Niveaux (levels) = Le nombre d’options que les facteurs possèdent (Exemple : Le genre a deux niveaux : Homme et femme)
56
Quand utiliser l’ANOVA Pour tester l’effet d’une variable indépendante “discrète” chaque variable indépendante peut avoir deux ou plusieurs niveaux de traitements (ex: Homme/femme…) l’ANOVA teste si toutes les moyennes sont égales On l’utilise quand le nombre de niveaux est supérieur à deux Témoin Expérimental (N) Expérimental (N+P) Rendement Fréquence CC NN N+P
57
ANOVA Population 2Population 1 M1, M2, 2 Echantillon1 m1,s m2,s - Comment comparer les deux populations à partir d'un échantillon réduit? Comparaison de moyennes/ variances Echantillon2
58
57 Principe Égalité des moyennes –H0 = les moyennes des groupes sont identiques ( 1= 2= 3) –H1 = au moins une moyenne est différente des autres Terminologie –Variations ou Somme de carrés = n i (m x1 – m x. ) 2 –Variations factorielles : expliquées par le facteur –Variations résiduelles : non expliquées par les facteurs –Les groupes (i) et les individus dans les groupes (k) Théorème de la décomposition de la variance(intra et inter) VT=VF+VR –les facteurs contrôlés sont différents ENTRE les groupes mais identiques à l'intérieur de chaque groupe (VF variations factorielles, between) –les facteurs incontrôlés ont la même influence quel que soit le groupe (VR variations résiduelles, within) Intra-groupe within Inter-groupe between
59
Test de Khi deux -Chi-squared test
60
Les valeurs observées Les valeurs attendues
61
Degré de liberté Valeur critique (Erreur) Si Khi-deux > Valeur dans la table => On rejete l’Hypothèse H0 et => On accepte l’Hypothèse H1 Tabkle de Khi deux – Chi-squared table
62
Test-t (t de Student) À quoi sert cette technique? Vérifier si la moyenne de la variable dépendante varie selon l’état de la variable indépendante Vérifier si la différence des moyennes des deux groupes de la VI est significative (ex.: hommes/femmes) William Sealy Gosset en 1908
63
On définit alors deux types d'hypothèses: -H0: Hypothèse nulle, appelée hypothèse à rejeter => Il n’y a pas de différence entre Oi et Ei -H1: Hypothèse alternative à H0, toute hypothèse qui diffère de H0 - => Oi est différent de Ei Test des Hypothèses
Similar presentations
© 2025 SlidePlayer.com. Inc.
All rights reserved.