Retour aux sources (Back to basics) Partie 1. Introduction Those who don’t know statistics are condemned to reinvent it… David Freedman David Freedman.

Slides:



Advertisements
Similar presentations
Quelques fois tu te sens un peu hors du temps. Tu sens ton espace vital rétrécir ?
Advertisements

BP Préparateur en pharmacie - Lycée Liberté
2.2:Les courants océaniques
En plein désert de Karakoum (Turkménistan ) près de la petite localité de Darvaza, se trouve un cratère d’une cinquantaine de mètres de diamètre et.
1 Le C.C.F. en Baccalauréat Professionnel T.I.S.E.C. T.I.S.E.C. T.M.S.E.C T.M.S.E.C T.F.C.A T.F.C.A.
Vocabulaire commun An iTutor Basic French Vocabulary.
Perles d’avocats Voici une sélection de questions réellement posées à des témoins par des avocats durant des procès aux Etats-Unis et, dans certains.
Cours 9 Les protocoles de niveau trame. La trame LAP-B Le protocole LAP-B (Link Access Protocol - channel B) est une trame qui a été normalisée pour transporter.
TICE 2 ième Semestre Fonctions « logiques ». Février 2006TICE 2ième Semestre - Les fonctions logiques2 Petits rappels… Une formule est toujours de la.
Clic. Après chaque vol, les pilotes établissent un formulaire dans lequel ils informent les mécaniciens au sol des problèmes qu‘ils ont rencontrés pendant.
Colloque AQIFGA Hissons les voiles! Mélanie Bergeron, chargée de projets Jean-Simon Labrecque, directeur de production Marcelle Parr, conseillère.
Gestion de patrimoine professionnelle Le Compte-conseil Pour tous vos besoins de placement Le Compte-conseil est un compte non discrétionnaire fondé sur.
1 L’analyse de variance Philippe DELEPORTE UMR Eco&Sols.
Activités mathématiques autour du jeu de bridge Séance 1 1.
NOMBRES ENTIERS NUMERATION CALCUL Cycle Roland Charnay 1.
GASNIER Thomas, RICHARD Elliot, MERIGUET Marjorie / première L.
INSTITUT NATIONAL DE LA STATISTIQUE DU CAMEROUN COMMISSION ECONOMIQUES DES NATIONS UNIES POUR L’AFRIQUE Port Louis juillet 2010.
Michel Pellicioli Les métiers d’accompagnement de la recherche Situation de l’IPHC.
Leçon 8: Corps ronds Géométries et communication graphique Edouard Rivière-Lorphèvre 1.
Le conditionnel FSF 2D. Qu'est-ce que c'est "le conditionnel"? Le conditionnel est un temps verbal. En anglais, le conditionnel exprime l'idée de "would".
Beicu Vlad-Daniel-Cristian G ă lbenu George Alexandru Ion Silviu Andrei Oprea Ionu Alin Pris ă caru Ana-Maria Les nouvelles technologies De quelle manière.
1 Cours UBO 2007 UE – BASES DE DONNEES OCEANOGRAPHIQUES Le portail NAUTILUS accès en ligne aux données et site WEB du SISMER Michèle FICHAUT.
TEST QUIZ Grammaire Conjugaisons & Les groupes des verbes À quel groupe appartient le verbe: aimer ? Premier groupe Premier groupeaimer Deuxième groupe.
IFT 703 Informatique cognitive Les processus subsymboliques de ACT-R André Mayers Automne
« M é thodologie de collecte des donn é es en FOS » Témoignage a posteriori R. Bouchard (Pr. Emérite Lyon 2)
Les nouvelles initiatives en faveur des milieux d’accueil d’enfants Période Par le Fonds social Milieu d’Accueil d’Enfants.
Réunion d’échange CSTL 2014 Soutien psychosocial Southern Sun O.R. Tambo - Johannesburg, Afrique du Sud novembre 2014.
Un bon cœur vaut plus que toutes les têtes du monde.
Pour plus de modèles : Modèles Powerpoint PPT gratuitsModèles Powerpoint PPT gratuits Page 1 Définition d’une tâche complexe.
Titre: L’analyse des facteurs influents la production de coton en Afrique de l’Ouest 1. Les contraintes de la filière 2. La Dimension économétrique de.
Protocole: Méthodologie schéma d’étude J Ateudjieu.
CHOLECYSTECTOMIE: ATTENTION AU CANAL CYSTOHEPATIQUE Nom des auteurs :Y.El Brahmi;F.Mouhafid;M.Najih;N Nourredine;A Ehirchiou;A Zentar Service: chirurgie.
Chapitre 24 Vérifiez votre compréhension p Morholt est important parce qu’il est à l’origine de toute cette histoire.
Réalisé par : Sébastien Lachance MATHS 3 E SECONDAIRE Les figures SEMBLABLES.
Monsieur le maître d’école. Monsieur le maître d’école. Une chanson de Bourvil en hommage à tous les maîtres des écoles. Une production de.
Mathématiques CST MODULE 6 L’optimisation de GRAPHES.
26/09/2007 La participation des enfants de 10 à 18 ans 1 Introduction La participation: un des quatre principes fondamentaux de la CIDE Les enfants sont-ils.
Fonctionnement de notre nouvelle Q-PCR
Le lion De Candice 1. L’identité du lion : Le mâle s’appelle le lion, la femelle la lionne et le petit le lionceau. Le lion pèse 150 kg à 220 kg. Il mesure.
Voitures aux carrières longues. La Volkswagen Coccinelle (1938 – 2003) : Vendue à plus de 25 millions d’exemplaires, la « Cox » est la star de ce top.
Utilisation du spectrophotomètre. Allumer l’appareil Puis allumer l’ordinateur (commun au spectro et à la Q-PCR) Utilisation du spectrophotomètre Ouvrir.
Février 2014 GPU / Xeon Phi Calcul de fonction de corrélation à 2 points sur un grand nombre de galaxies Image : collaboration SDSS Problème : pour effectuer.
M ODÉLISATION UML.  Introduction  Modélisation Objet  Types de relation  Héritage  Association  Contenance  Diagrammes UML  Diagramme d’objets.
La tuberculose anale: à propos de 4 cas F. Emouhafid, Y. Lbrahmi,M
Début Illustration dans le plan complexe du repliement spectral lors de l’échantillonnage d’un mouvement régulier de rotation dont on modifie la fréquence.
AMPERES Enseigner de façon dynamique le produit scalaire en 1re S ?
Association canadienne des optométristes Myopie. La myopie est un problème visuel qui fait que l’œil peut voir clairement les objets proches, mais ne.
IFT359 – Programmation fonctionnelle Thème 10 Extension syntaxique II pattern  motif template  gabarit 1.
Guide de l'enseignant SolidWorks, leçon 4 Nom de l'établissement Nom de l'enseignant Date.
En informatique dans les nuages, des éléments de l'informatique interne deviennent un service que les entreprises et les administrations louent comme.
Développement Durable et Renforcement des Capacités du Gouvernement Prof. Dr. Árpád Kovács Pr é sident du Bureau d’Audit d’Etat de la Hongrie Pr é sident.
L’État vu par Bastiat. “Il faut le dire : il y a trop de grands hommes dans le monde ; il y a trop de législateurs, organisateurs, instituteurs de sociétés,
Les Facteurs qui influencent l’accroissement de la population CGC1D ~ Géographie du Canada.
Réunion départementale Mayenne VENDREDI 22 JANVIER À 9H30 AU CH DE MAYENNE.
TP2: Statistique & Probabilité. avec f i fréquence absolue (cf. WONNACOTT et WONNACOTT, 4e éd., chapitre 2) Une station balnéaire décide de réaliser une.
L’intégration de critères ESG dans la Politique d’Investissement 10 JUIN 2016.
La synthèse des protéines
L’ART DU BONHEUR Il vient du ciel ! Il fait tourner la tête !
Tombe de William Hodgkinson, mitrailleur anglais et de Lynn Campbell, pilote canadien, abattus au-dessus de Préseau, le 09 octobre 1918 par l’aviateur.
Un module éducatif du district de l’est du Canada et des Caraïbes
Tâche 4 Quelques propositions méthodologiques pour suivre le(s) cycle(s) de vie d’une ressource Séminaire ReVEA, juillet 2015, Loriol Catherine Loisy et.
1 "Le Multimédia dans l'enseignement aux FUNDP : nouveaux plaisirs d'apprendre ?"
CopiesEnLigne (CEL) TUTORIEL INTERACTIF
Les résultats obtenus de l'enquête sur les médias sont exprimés avec porcentages pour faciliter son observation et analyse.
Qualité des services de santé Ontario Le conseiller provincial en qualité des soins de santé en Ontario Maillons santé : Extraits du rapport.
Nahela Robert & Lisa Goll. Qu'est ce que Twitter ? Twitter est un réseau social, permettant de suivre les actualités d’une personne, d’une association,
Les 8 types de nuages les plus spectaculaires qui flottent au- dessus de votre tête par Paulajo.
L’objectif est de connaitre l’anatomie de l’abdomen et d’en prendre en charge les pathologies. Traumatisme de l’abdomen.Objectifs  Introduction  Rappels.
Risques d’erreur statistique et test statistique.
Densité et masse volumique. Imaginons que nous prenions deux cylindres, de même volume, constitués avec des métaux différents. En les pesant, nous trouvons.
Presentation transcript:

Retour aux sources (Back to basics) Partie 1

Introduction Those who don’t know statistics are condemned to reinvent it… David Freedman David Freedman ( ) ( )

Introduction : Donner du sens aux données

Section 1 Opérationnalisation des concepts en Sciences de Gestion

Du concept à la variable Du concept à la variable  Une variable = une quantité ou qualité susceptible de fluctuer ou de varier.  Souvent en sciences de gestion, les variables utilisées ne peuvent pas être mesurées de manière « objective » => On mobilise plutôt des variables latentes ou construit Exemple : Notoriété, image de marque, motivation, intention d’achat, implication, fidélité, engagement, confiance, utilité,… opérationnalisation VARIABLE Ou CONSTRUIT CONCEPT

Cadre de base  Boite : variable –Nature : nominale, ordinale, quantitative (ratio/métrique)  Fleche : influence directionnelle ou non d’une variable sur une autre –Sens, Forme, Force –Dépendante (Y) et indépendante (X) X X Y

Variables quantitatives Il existe 2 types de variables :  Les variables quantitatives : mesurables sur une échelle … avec une unité: –des valeurs réelles: donnée continue âge, CA, Prix... –de valeurs isolées: donnée discrète nombres d’enfants, nombre de voiture par foyer,... NB. Parfois les variables discrètes sont traitées comme des variables continues

Les variables qualitatives : non mesurables sur une échelle (notion de jugement), mais… - avec relation d’ordre : données ordinales (semi-quantitatives) - L’ordre est important Ex : Client classe A, B ou C selon la règle de Pareto - L’ampleur n’est pas importante: le client A n’est pas deux fois plus important que le client B Ex: intention d’achat : faible, modérée, forte  sinon : données catégoriques (nominale) –homme/femme –marié/célibataire Variables qualitatives

Cadre de base  Variable modératrice (1) : elle modifie la relation entre deux autres variables  Variable médiatrice (2) : elle est intermédiaire pour expliquer la relation entre deux variables  Ce n’est pas parce qu’une variable vous intéresse qu’elle est la plus importante –Variables de contrôle X Y Z X Y Z 1 2 X Y W

Des Variables aux construits latents  Des construits de ces variables « latentes » (non mesurables directement) sont obtenus à partir de la moyenne des réponses à des questions (items) –Les items retenus forment une « échelle de mesure » –Ils doivent correspondre au « construit » Soit en représentant différentes facettes (formative F1) Soit en étant le reflet d’une variable inconnue (approche réflective F2)  Comme dans chaque réponse, il y a une part d’aléa, on réduit cet aléa en prenant une synthèse de plusieurs mesures –Par une moyenne sur les réponses brutes ou standardisées –Par le calcul d’un facteur qui ne reprend que ce que les items ont en commun (analyse factorielle) –Par la « formation » du construit (avec PLS par exemple) X1 X2 F1 X1 X2 F2   

Section 2 Statistiques descriptives (the must)

Deux grands principes La loi des grands nombres Le théorème central limite

1. La loi des grands nombres  Kerrich (1903–1985) Jacob Bernoulli (1654 –1705) La loi des grands nombres

 Quincunx La distribution binominale µ = n p V(x) =    n p (1-p)

La loi Normale ou la loi Laplace-Gauss Quand n  ∞

15 Loi normale N( ,  ) Une variable aléatoire X suit une loi normale N( ,  ) si, pour toute valeur de x, Résultats : - Moyenne de X =  - Variance de X =  % des valeurs de X sont comprises entre   et   x La loi Normale

ndex.html

Population µ,µ, Echantillon1 Echantillon2 2, S 2 Echantillon3 3, S 3 = (X 1 + X 2 + X 3 ) /3 X = X µ   n S = 2. L’échantillonnage et le théorème central limite Théorème Central Limite X, S 1 1 X X X X X

Population µ,µ, Echantillon Inférence X, S 1 1 N n

Intervalle de confiance pour estimer la moyenne   Si n est assez grand (n > 50) alors:

Tests d’hypothèses (nulle et alternative)  Permettent de déterminer si une affirmation au sujet de la valeur d’un paramètre de la population doit être rejetée  L’hypothèse nulle est une hypothèse sur la valeur d’un paramètre de la population. Elle est notée H 0.  Sera rejetée uniquement s’il y a suffisamment d’évidence contre elle  Le test d’hypothèses est similaire à un procès criminel. On donne le bénéfice du doute à l'hypothèse nulle: –H0: L’accusé est innocent –Ha: L’accusé est coupable

Quelle conclusion tirer? Rejeter H 0 ? Ou ne pas rejeter H 0 ? -On rejette H 0 si la statistique estimée à partir de l’échantillon est éloignée de la valeur du paramètre supposée dans H 0 (valeur hypothétique). - On rejette H 0 lorsque l'écart entre la valeur hypothétique du paramètre et la valeur de la statitstique est grand, ce qui signifie que l'écart n'est pas uniquement dû au hasard de l’échantillonnage. Règle de décision

Erreurs de 1 ère et 2 ème espèce  Les hypothèses nulle et alternative sont des affirmations contraires au sujet d’un paramètre de la population  Soit l’hypothèse nulle est vraie, soit l’hypothèse alternative est vraie, mais pas les deux  Puisque les tests d’hypothèses sont basés sur des données d’échantillon, nous devons admettre la possibilité d’erreurs

0 - t s t st s  / 2 Test des Hypothèses

Loi de Student Si X  N( ,  ) alors : suit une loi de Student à n-1 degrés de liberté [notée t(n-1)]. Gosset ( ) Créa le t -test pour traiter les petits échantillons dans le but de controler la qualité des produits à Guiness à Dublin. Il a publié sous le nom de "Student".

représentation graphique de la loi de STUDENT. courbe en cloche symétrique, plus aplatie que la courbe de Gauss (courbe hyper-normale). d’autant plus aplatie que est plus petit 0 t courbe normale courbe hyper-normale P (t) Loi de Student

H 0 vraie H 0 fausse États de H 0 Bonne décision E 1 = erreur de type I E 2 = erreur de type II Ne pas rejeter H 0 Rejeter H 0 Possibilités d'erreurs Décisions

Erreurs type I and type II

Moyenne et écart-type

Section 3 : Analyse explicative

Analyse explicative

31 Étude du lien entre deux variables X et Y Variable Y à expliquer Variable X explicative

La covariance Cov xy Dividende x Prix de l’action en bourse y Covariance > 0  les variables ont tendance à varier dans le même sens Covariance < 0  les variables ont tendance à varier en sens opposée  Plus la valeur (>0 ou <0) de la covariance est élevée plus la relation entre les variables est forte  La covariance est un indicateur de relation linéaire entre les variables  Covariance = 0 peut signifier une relation non linéaire.

 Le coefficient de corrélation est défini par –Il mesure l’erreur d’estimation –Il mesure le lien linéaire entre les variables –Il mesure la distance entre la droite de régression et le nuage de points Coefficient de corrélation

RLS - Régression linéaire simple 11 Dividende x Prix de l’action en bourse y  Modèle de régression linéaire simple y =  0 +  1 x +   Équation de la régression linéaire simple (comment l'espérance de y est liée à x) E(y) =  0 +  1 x  Équation estimée de la régression linéaire simple (droite de la régression estimée, modèle empirique)

Il existe plusieurs méthodes permettant d’estimer le modèle théorique par le modèle empirique  Méthode des moindres carrés  Méthode de la vraisemblance  … Estimer les méthodes théoriques

La méthode des moindres carrés => Critère des moindres carrés où: y i = valeur observée de la variable dépendante pour pour la i ème observation = valeur estimée de la variable dépendante pour la i ème observation

xixi yiyi erreur e i * On cherche  0 et  1 minimisant valeur observée valeur prédite 11 L’objectif de la méthode des moindres carrés est de déterminer la droite de régression qui minimise

Taille de l’échantillon Autre formule pour b 1 b 0 et b 1

Le modèle de la régression simple Modèle : Y = b 0 + b 1 X + , avec   N(0,  ) X Y y = b 0 + b 1 x + b x  x = ax+b  x   x  95% des valeurs de Y Loi de Y * * L’écart-type  représente à peu près le quart de l’épaisseur du nuage

Répartition de la somme des carrés SC TotaleSC Type I (Expliquée)SC inexpliquée (erreur) Y = +

41 Coefficient de détermination R 2, Coefficient de corrélation Cor(X,Y) A) Formule de décomposition Somme des carrés totale (Total Sum of Squares) Somme des carrés expliquée (Regression Sum of Squares) Somme des carrés résiduelle (Residual Sum of Squares) B) R 2 = C)

fournit une indication de la force de la liaison qui existe entre Y et X Le coefficient de détermination

0  R 2  1 2) R 2 = 1 Y X * * * * * * * 3) R 2 = 0 Y X * * * * * * * * * * Le R 2 mesure la force de la liaison linéaire entre X et Y

NB Le coefficient de corrélation peut être déterminé aussi : Ou Sachant que : Le coefficient de corrélation

La corrélation Cor(X,Y) mesure la force et le sens de la liaison linéaire entre X et Y ** * * * * * * * * X Y X Y * * * * 11 11

46 Erreur-type de la pente  L’erreur-type de la pente s b et l’IC de la pente 100(1-  ):  Alors pour un N fixe, on peut diminuer s b en augmentant l’étendue des valeurs de X échantillonées Y X Y s b plus petit

test des paramètres du modèle  Tester chaque hypothèse par un test de t Y X  Y  H 02 : b = 0 Y X H 01 :  = 0 Y 

RLM - La Régression Linéaire Multiple VI1 VI2 VD VI3 VI2  Equation de régression multiple

Graphiques des liaisons deux à deux

Problème de multicolinéarité VI1 VI2 r > 0,70 VI2 VD VI2VI1VD

51 Mesure de la multi-colinéarité : Tolérance et VIF n Tolérance (X j ) = 1 - R 2 (X j ; Autres X) Il est préférable d’observer une tolérance supérieure à n VIF = Variance Inflation Factor = 1 / Tolérance n Il est préférable d’observer un VIF inférieur à 3.

Peinture représentant un étang (Tombeau de Thèbes, 1400 av. J.-C.) extrait de l’Histoire de l’Art de Ernst Gombrich

Analyse de la variance : ANOVA Sir Ronald Fischer

Introduction  C’est une extension du test t (Student)  Compare les variances des differents sous- échantillons (groupes)  Facteurs = Variables (Exemple : Le genre)  Niveaux (levels) = Le nombre d’options que les facteurs possèdent (Exemple : Le genre a deux niveaux : Homme et femme)

Quand utiliser l’ANOVA  Pour tester l’effet d’une variable indépendante “discrète”  chaque variable indépendante peut avoir deux ou plusieurs niveaux de traitements (ex: Homme/femme…)  l’ANOVA teste si toutes les moyennes sont égales  On l’utilise quand le nombre de niveaux est supérieur à deux Témoin Expérimental (N) Expérimental (N+P) Rendement Fréquence CC NN  N+P

ANOVA Population 2Population 1 M1,  M2,  2 Echantillon1 m1,s  m2,s  - Comment comparer les deux populations à partir d'un échantillon réduit?  Comparaison de moyennes/ variances Echantillon2

57 Principe  Égalité des moyennes –H0 = les moyennes des groupes sont identiques (  1=  2=  3) –H1 = au moins une moyenne est différente des autres  Terminologie –Variations ou Somme de carrés =  n i (m x1 – m x. ) 2 –Variations factorielles : expliquées par le facteur –Variations résiduelles : non expliquées par les facteurs –Les groupes (i) et les individus dans les groupes (k)  Théorème de la décomposition de la variance(intra et inter) VT=VF+VR –les facteurs contrôlés sont différents ENTRE les groupes mais identiques à l'intérieur de chaque groupe (VF variations factorielles, between) –les facteurs incontrôlés ont la même influence quel que soit le groupe (VR variations résiduelles, within) Intra-groupe within Inter-groupe between

Test de Khi deux -Chi-squared test

Les valeurs observées Les valeurs attendues

Degré de liberté Valeur critique (Erreur) Si Khi-deux > Valeur dans la table => On rejete l’Hypothèse H0 et => On accepte l’Hypothèse H1 Tabkle de Khi deux – Chi-squared table

Test-t (t de Student)  À quoi sert cette technique? Vérifier si la moyenne de la variable dépendante varie selon l’état de la variable indépendante Vérifier si la différence des moyennes des deux groupes de la VI est significative (ex.: hommes/femmes) William Sealy Gosset en 1908

On définit alors deux types d'hypothèses: -H0: Hypothèse nulle, appelée hypothèse à rejeter => Il n’y a pas de différence entre Oi et Ei -H1: Hypothèse alternative à H0, toute hypothèse qui diffère de H0 - => Oi est différent de Ei Test des Hypothèses