Cours : L2 - Traitement analyse et modélisation des données

Généralités

L'objectif de l'enseignement est d'initier les étudiants à l'utilisation des statistiques en biologie.
L'étudiant apprendra à raisonner avant d'appliquer le modèle statistique adapté à sa problématique.

A terme :
- Etre capable de traiter et analyser vos données expérimentales
- Que le mot « Inférence » vous parle
- Savoir définir le modèle statistique associé au modèle biologique (supposé)
- Pouvoir dialoguer avec un bioinformaticien
- Etre capable d'effectuer des Tests d'hypothèse classiques
- Pouvoir faire une représentation graphique soignée
- Manipuler variables statistiques et variables aléatoires sans problème
- Pas d'hésitation sur les notions d'échantillons, de population et d'échantillonnage
- Avoir une idée de l'ordre de grandeur d'une information
- Décider, agir à partir des chiffres – risque associé à décision (terrain, labo, entreprise)
- Utiliser les outils statistiques de base sur un ordinateur

Mots-clés :
statistiques descriptives, probabilités, tri à plat, lois de probabilités, tests d'hypothèses, ANOVA, statistiques à 2 variables, tri croisé, maximum de vraisemblance.

Annonces Forum

Semaine 1 - Les types de variables utilisées en statistique

Types d'informations manipulées en Statistique

Présentation :

Les variables que nous manipulons en statistique sont soit qualitatives, elles se réfèrent alors à une qualité, par exemple : « couleur des yeux d’un individu tiré au hasard d’une population », soit quantitatives ; elles décrivent alors une quantité. Par exemple : « taille (en cm) des membres d’un club d’athlétisme » ou encore « température (en degrés Celsius) relevées un jour d’été en différents endroits d’une ville donnée ». Bien entendu, ce ne sont pas du tout les mêmes domaines de définitions qui sont concernés par ces deux types de variables. Il vous apparaitra ainsi, facilement, que si l’on peut calculer la moyenne de la taille des membres d’un club d’athlétisme, cela n’a aucun sens d’essayer de calculer la moyenne des modalités prises par la couleur de leurs yeux ou même d’en faire la somme.

On distingue en fait 4 types de variables. Les variables qualitatives sont subdivisées en deux catégories : elles sont nominales ou bien ordinales. Les variables quantitatives se subdivisent également en deux types : les variables aléatoires discrètes et les variables aléatoires continues. Nous pouvons être confrontés à ces quatre types de variables dans les études statistiques que nous menons. De quelque nature qu’elles soient, les valeurs prises par une variable sont appelées modalités

Variable nominale : nous ne pouvons que qualifier les modalités prises par la variable.

Variable ordinale : il existe une relation d’ordre entre les différentes modalités prises par la variable

Variable discrète : nous sommes en présence d’une liste finie des valeurs prises par la variable qui correspond typiquement à un décompte

Variable continue : nous effectuons des mesures et nous pouvons considérer que la variable prend ses valeurs dans un intervalle continu de R et qu’il y a, de ce fait, une infinité de valeurs possibles dans cet intervalle qui est appelé l’ensemble de définition.

Rappelons-nous qu’identifier le type des variables est le préalable au choix des traitements statistiques appropriés et que cela permet de savoir comment interpréter leurs résultats.

Pour être complet, il existe un cinquième type de variables constitué des variables semi quantitatives qui, si elles autorisent des calculs sur leur modalités, ces calculs ne peuvent être des moyennes simples, on parlera plutôt de moyennes pondérées. C’est typiquement le cas de la densité de populations ou encore de la concentration de substances chimiques.

Objectifs :

Il s’agit d’une notion importante qui est à l’origine du choix des tests d’hypothèse à considérer dans une étude statistique et elle détermine la nature des liaisons qui peuvent s’établir entre les informations d’un jeu de données en analyse multivariée.
Cette section présente les différents types d'informations manipulées dans le traitement et l'analyse statistique des données : variables qualitatives et quantitatives.
Pour comprendre la situation dans laquelle on se trouve concrètement dans le traitement des données il faut tout d'abord identifier le type des variables auxquelles on est confronté.

Composition :

Nous commencerons par présenter les quatre types de variables les plus souvent manipulées puis nous nous intéresserons aux représentations graphiques associées à ces différents types de variables et à leur réalisation sous Excel et sous R.

Niveau : Licence (L1 à L3)

Difficulté : facile

Prérequis : Aucun puisqu’il s’agit d’une notion de base ou d’une remise à niveau.

Mots-clés : variable, modalité, variable qualitative, variable quantitative, variable aléatoire, distribution, graphe, variable continue, variable quantitative discrète, variable nominale, variable ordinale

Présentation des différents types d'informations manipulées en statistique
Cette vidéo est la première qu'il faut consulter. Elle présente les différents types d'informations manipulées dans le traitement et l'analyse statistique des données : variables qualitatives et quantitatives. En 10 minutes les variables nominales, ordinales, discrètes, continues n'auront plus de secret pour vous!
Ce test vous permettra de savoir si vous maîtrisez des compétences liées aux thèmes de la semaine
Le test est noté sur 20.
QCM - Les types de variables utilisées en statistique Test
Fiches et documents
resume types variables Fichier

165.2 Ko

Semaine 2 - Calculs d'une fréquence, d'une moyenne, d'un écart-type et autres paramètres

Fréquences; paramètres de position et de dispersion

Objectifs :

Nous allons dans cette section apprendre à déterminer les paramètres de position, également appelés de tendance centrale dans les trois cas : variable quantitative discrète, variable continue et variable semi quantitative. Nous aborderons ensuite le calcul des paramètres de dispersions et evoquerons les facteurs de forme. Nous finirons par les z scores, très employés en analyse factorielle (ACP et AFE) mais aussi pour comparer des variables très différentes. Ces calculs de base doivent être maitrisés pour réaliser un test d’hypothèse.

Présentation :

Ces paramètres, on s’en doute, ne sont pas calculés pour la forme, mais bien pour être utilisés pour décrire un jeu de données ainsi qu'à des fins d'analyse, en statistique inférentielle : prédictions, comparaisons, intervalles de confiance, tests d'hypothèse et analyse factorielle. Brefs ils servent à décrire et permettent de réaliser une étape d'analyse.

Voilà pourquoi leur calcul est la première étape de l'analyse statistique.

Remarque importante :

Rappelons, s'il le faut, que ces calculs ne s'entendent que pour une variable quantitative et certainement pas une variable de type ordinal, même codée sous forme numérique selon une échelle de Likert. Ces échelles sont destinées à entrer dans le calcul d'un score, de type somme ou moyenne mais elles ne peuvent pour des raisons de non continuité être l'objet de calculs de moments d'ordre n quelconque (nous n'avons, à priori, pas la même distance entre 1 et 2 qu'entre 4 et 5 et aucune valeur n’est prenable dans l'intervalle). Une section sera consacrée aux échelles de Likert et à la constitution de scores, outils très utilisés dans les questionnaires, notamment en psychologie, en sociologie ou encore en épidémiologie.

Composition :

Nous allons voir comment calculer le paramètre moyenne dans les différents cas que nous rencontrons en statistique descriptive puis nous apprendrons à calculer le paramètre variance dans ces différents cas. L'écart type, qui n'est que la racine carrée de la variance, est pratique à utiliser car dans la même unité que les paramètres de tendance centrale. Nous intéresserons ensuite aux paramètres associés à la forme de la distribution que sont la skewness et le kurtosis

Niveau : Licence (L1 à L3)

Difficulté : moyenne

Prérequis : Aucun, tout est revu à la base y compris le principe et la notation employée pour calculer la somme de n éléments en utilisant un indice i

Mots-clés : tendance centrale, position, dispersion, facteurs de formes, paramètres exacts de population, calculs, moments d’ordre n, kurtosis, skewness, ordre de grandeur, médiane, moyenne, variance, écart-type, étendue, quartiles, boxplot, boîte à moustaches, boîte de Tukey, jeu de données, somme indicée, données ordonnées classées, données brutes, échantillon, sigma, mu, estimation, mesures, observation, taille de l’échantillon.

1 - Calcul des paramètres
Présentation du calcul des paramètres caractérisant une distribution de données

2- Calcul des paramètres avec Excel et R
Ce test vous permettra de savoir si vous maîtrisez des compétences liées aux thèmes de la semaine
Le test est noté sur 20.
QCM - Calculs d'une fréquence, d'une moyenne, d'un écart-type Test
Exercices et défis
Vous trouverez dans cette rubrique des fiches méthodologiques ainsi que divers documents reliés à cette thématique
Défi : Pourrez-vous relever ce défi?
En s'appuyant sur vos connaissances et avec ... un peu de méthode
(difficulté : moyenne)
Fiches et documents

Fichier de données : Fichier EXCEL contenant les données utilisées dans la vidéo
(à vous de jouer!)
Fiche méthodologique (1) : synthèse sur le calcul des paramètres d'une distribution
Fiche méthodologique (2) : sur le calcul de la moyenne de données ordonnées-classées

Semaine 3 - Statistiques descriptives

Présentation :

Vaste programme que de présenter la statistique descriptive; il y aurait tant à développer sur ce sujet. Le choix a été de vous en dire l’essentiel dans cette section introductive.

Comme vous le constatez le mot clé associé à cette composante incontournable des statistiques est «descriptive». Ce qui signifie qu’il va s’agir, dans cette étape, de décrire les données collectées dans la population ou dans l'échantillon étudiés. Il ne s'agit pas, pour autant, de détailler l'ensemble de ces informations, cela n'aurait guère de sens mais de bien les décrire et d’en rendre compte avec le minimum de mots, de paramètres et de graphes.

L’étape de statistique descriptive va ainsi permettre de résumer les distributions étudiées en quelques caractéristiques qui permettront ensuite des comparaisons ou des prédictions, démarches relevant, quant à elles, des statistiques inférentielles.

La statistique descriptive est, dès lors, l’étape préalable indispensable à toute analyse inférentielle de vos données, contribuant déjà à faire parler les données.

Objectifs :

Découvrir l'objet, la démarche et les outils de statistique descriptive et ne plus la confondre avec la statistique inférentielle.

Niveau : de la première année de licence au Master 2

Difficulté : facile

Prérequis : aucun (notion basique et fondamentale de la statistique)

Documents annexes : glossaire statistique et petit dictionnaire bilingue de statistique

Mots-clés : statistique descriptive; décrire; résumer; distribution; tableaux de synthèse; paramètres de position; paramètres de dispersion; facteurs de formes; graphiques; histogramme; distribution; échantillon; population; tableau de synthèse

Statistiques descriptives, à quoi servent-elles ?
Cette vidéo introductive d'une dizaine de minute va vous permettre de comprendre à quoi sert la statistique descriptive. Une fois visionnée, il vous est possible de tester vos connaissances en répondant au QCM qui vous est proposé.
Ce test vous permettra de savoir si vous maîtrisez des compétences liées aux thèmes de la semaine
Le test est noté sur 20.
QCM - Statistiques descriptives Test
Exercice : "contrôle de l'acidité"
niveau de difficulté : moyen
Fiches et documents
Fiche 1 : vocabulaire utilisé en statistique descriptive
Cette fiche va être un précieux auxiliaire dans vos révisions, vous donnant le vocabulaire de base utilisé en statistique descriptive : de l'individu, appelé également unité statistique, à la population en passant par l'échantillon, la mesure, l'observation ou encore les modalités prises par une variable.
Fiche 2 : traduction des mots clés en anglais
Cette fiche présente la traduction de certains termes statistiques en anglais
Fiche 3 : synthèse sur la description et la représentation des variables continues
Cette fiche présente le résumé du traitement des variables continues

Semaine 4 - Lois de probabilités

Présentation :

Nous devons nous rappeler qu’une loi de probabilité s’attache à décrire les réalisations d’un phénomène aléatoire associées à une variable qui peut être soit qualitative, soit quantitative discrète ou continue. Ce qui va nous conduire à définir une loi de probabilité selon la nature de la variable statistique concernée.
Les lois de probabilité peuvent être subdivisables en 3 catégories : celles associées aux variables qualitatives, décrivant les fréquences exactes ou théoriques prises par chacune des modalités prises par la variable étudiée dans une population de référence (ex des groupes sanguins), les lois de probabilité associées aux variables quantitatives discrètes et celles décrivant la distribution des variables continues pour lesquelles on définit une fonction de densité de probabilité.

Objectifs :

Les lois de probabilités, également appelées lois de distribution ou encore distributions de probabilité, sont, vous le savez, un chapitre important des statistiques descriptives. Cependant, connaitre la loi de probabilité suivie par la variable aléatoire d'étude ne constitue pas une fin en soi, nous nous arrêterions alors à l’étape descriptive ; la connaissance de cette loi est, en fait, déterminante pour calculer les probabilités de réalisation des évènements qui nous intéressent et pour mener à bien l'analyse des données en statistique inférentielle. Elle contribuera, notamment, à choisir et définir la statistique de test la plus pertinente dans cette analyse.
Dans cette section consacrée aux lois de probabilité, nous allons essayer de démystifier ce concept et de comprendre à quoi une loi de probabilité peut nous être utile.

Composition :

Nous allons balayer ces trois cas en précisant ce qui les particularisent et en donnant un exemple de loi connue pour chacun des catégories évoquées. Lorsque les conditions s'y prêteront, c'est à dire pour les variables quantitatives, nous apprendrons à calculer l'espérance et la variance d'une variable suivant une loi de probabilité.
Les lois de probabilités les plus souvent rencontrées sont la loi binomiale et la loi de Poisson pour une variable discrète et la loi uniforme et la loi normale pour une variable aléatoire continue. Comment ne pas évoquer également les lois de Student, de Fisher ou la loi du Chi-deux (loi suivie par la somme de n Z², avec Z~N(0,1)) qui, quant à elles, décrivent les fluctuations des statistiques de tests utilisées dans les tests d’hypothèses et qui sont, de fait, les lois de distributions les mieux connues des étudiants. Nous allons voir qu'il en existe bien d'autres, en fait même une infinité et que leurs caractéristiques sont, la plupart du temps, assez simples à calculer.

Pour définir une loi de probabilité je pourrais vous indiquer qu'il s'agit d'une application et partir dans des fondements mathématiques. Je crois que cela ne servirait guère, je risquerais de vous perdre ; nous y reviendrons un peu plus tard. C’est pourquoi je pense qu’il serait plus judicieux de vous présenter la plus simple des lois de probabilité et de partir de cet exemple pour pouvoir comprendre un peu mieux ce qu’est une loi de probabilité, quels sont ses fondements et à quoi elle sert.

Nous comprendrons alors qu’une loi de probabilité est un outil précieux servant, avant tout et en fonction du contexte, à calculer des probabilités. Donc, une loi de probabilité donnant la possibilité de calculer la probabilité de réalisation d'un événement donné.

Difficulté : moyenne, demande un réel investissement.

Niveau : de la Licence L1 au Master M2

Prérequis : connaître les différents types de variables et savoir calculer l’espérance et la variance d’une variable aléatoire

Mots-clés : loi de probabilité, probabilité, distribution, loi de distribution, espérance, variance, loi binomiale, loi discrète, loi continue, loi de Bernoulli, loi du Chi-deux, loi de Poisson, loi normale, approximation normale, tendance normale, limites, variable aléatoire, variable discrète, variable qualitative, événements, comparateurs, comparaisons, condition logique, table de la loi du chi deux, table de la loi normale, table de Student, table de la loi de Poisson.

1- Loi de Probabilités
Présentation du concept, propriétés et utilité des lois de probabilités.

2-Tables des lois les plus fréquemment rencontrées :

Table de La Loi de Poisson
Table de La Loi N(0,1)
Table de La Loi de Student
Table de La Loi du Chi-deux
Ce test vous permettra de savoir si vous maîtrisez des compétences liées aux thèmes de la semaine
Le test est noté sur 20.
QCM - Lois de probabilités Test
Exercice : <Les bio-réacteurs>
Pour répondre aux questions posées, n'oubliez pas de définir tous les éléments nécessaires (population, échantillon, VA,....)

Semaine 5 - La loi normale

Présentation :

La loi normale est très souvent rencontrée dans la nature et les tests paramétriques nécessitent l'hypothèse d'une distribution normale. Cette section est consacrée à la loi normale. Elle présente l'origine de cette loi, ses propriétés générales, sa représentation graphique détaillée et poursuit sur la présentation de la Loi normale centrée réduite et son intérêt dans le calcul des probabilités. La dernière partie aborde le calcul des probabilités pour une variable aléatoire suivant une loi normale de moyenne et de variance connues.

Objectif :

Bien maîtriser les propriétés et la représentation graphique de la loi normale et s’appuyer sur la loi normale centrée réduite, qui est tabulée, pour calculer une probabilité du type : p(X>a), P(X<b) ou encore P(a<X<b) avec X suivant une loi normale quelconque. Il est conseillé aux étudiants d'apprendre à dessiner correctement une distribution normale afin de mieux appréhender la démarche des tests d'hypothèse.

Prérequis : s’agissant d'une section basique, elle ne nécessite aucun prérequis.

Niveau : facile à moyen

Mots-clés : loi normale ; tests paramétriques ; hypothèse d'une distribution normale ; loi normale centrée réduite ; calcul des probabilités ; espérance ; variance ; test de normalité ; table de la loi normale (centrée-réduite) ; Shapiro-Wilk.

Propriétés et repères graphiques
Cette vidéo présente l'origine de la loi normale, ses propriétés générales et sa représentation graphique détaillée, terminant sur son intérêt dans le calcul des probabilités.
Ce test vous permettra de savoir si vous maîtrisez des compétences liées aux thèmes de la semaine
Le test est noté sur 20.
QCM - La loi normale Test
Exercice "Les techniciens"
(niveau de difficulté : moyen)
Documents annexes
Table de la loi Normale Centrée-Réduite
Fiches méthodologiques

Loi normale : repères graphiques

Synthèse sur les aires remarquables

Fonction de répartition

Semaine 6 - Principe et pratique des tests d'hypothèses

Tests d'Hypothèses

Présentation :

Avec les tests d'hypothèses nous entrons pleinement dans l'analyse inférentielle, basée sur l’exploitation des données collectées dans des échantillons. Les tests d’hypothèse permettant, entre autre, de faire avancer une connaissance, de monter une nouvelle expérience ou bien encore d'arriver à une généralité sous forme de modèle.

Le mot clé associé à cette composante incontournable des statistiques est «hypothèses». Nous verrons que deux hypothèses vont être au centre de nos préoccupations: l’hypothèse nulle H0 et l’hypothèse alternative H1. Nous verrons que pour montrer qu’un traitement est efficace ou qu’un évènement donné a un impact sur une statistique, l’objectif est de casser l’hypothèse nulle, c’est à dire de montrer que tout porte à la rejeter.

Notons qu’introduire toutes les situations se prêtant à l'utilisation de tests d'hypothèses n'est pas une chose aisée. C'est en pratiquant l'analyse inférentielle que nous pourrons mieux apprécier tout ce que nous permettent les tests d'hypothèses.

Objectifs :

Le but de ces séquences n'est pas vous entrainer dans une formalisation mathématique ni dans une visite en détail des tests d'hypothèse mais de vous permettre, d'une part, de reconnaître la situation dans laquelle vous vous trouvez afin de mettre en œuvre le bon test et, d'autre part, d'interpréter les résultats obtenus à l'issue d'un test hypothèse.

Vous allez, dès lors, apprendre à reconnaître le contexte de votre analyse puis à construire le test d'hypothèse qui est le plus judicieux dans ce contexte, contribuant ainsi à faire parler vos données en essayant d’arriver à une conclusion, la moins risquée possible, qui tienne compte des limites de ce que peuvent révéler vos expériences ou vos observations.

Nous allons évoquer les 5 types de tests les plus souvent rencontrés : les tests de conformité, les tests d'homogénéité, les tests d’indépendance, les tests sur séries appariées et les tests d’adéquation ou d’ajustement à une loi de probabilité. Nous verrons enfin les différences entre les tests dits « paramétriques » et les tests dits « non paramétriques ».

Composition :

La section Test d’hypothèse est subdivisée en 4 parties s’appuyant sur 3 vidéos et un document pdf. Il vous est loisible de visionner les vidéos et les documents complémentaires dédiés à cette thématique dans l’ordre qui vous plaira afin d’appréhender toutes les facettes inhérentes aux tests d’hypothèse.

Le découpage proposé est le suivant :

-1- Principe des tests d'hypothèse

Dans cette vidéo nous présentons les fondements d’un test d’hypothèse et étudions en détail le langage et la mécanique qui leurs sont inhérent. Nous verrons ainsi qu’un test, qu'il soit paramétrique ou non paramétrique, se construit toujours de la même façon. Bien entendu, nous discuterons de la notion de risque associé à la conclusion du test et verrons l’importance de la pvalue et du risque de première espèce.

-2- Les étapes de réalisation d'un test d'hypothèses

Cette vidéo donne une revue synthétique des 8 étapes qui constitue la réalisation d'un test d'hypothèse. En effet, qu'il soit paramétrique ou non paramétrique, et de quelque type qu’il soit, un test d'hypothèse se construit toujours de la même façon, selon une procédure subdivisable en 8 étapes.Enfin, lorsque l’on a montré que des différences sont significatives, on peut également s’intéresser à la taille de l’effet qui mesure la force de l’association entre des variables en statistique multivariée et établir si la liaison est assez forte ou plutôt faible.

-3- Test d’homogénéité : comparaison de deux proportions

Après avoir présenté le test de Student concernant une comparaison de moyennes, il est essentiel d’aborder la comparaison de deux proportions observées dans le cadre d’un test d’homogénéité, complétant de façon efficace le panel d’outils à maîtriser.

Niveau : De la Licence (L1) au Master (M2)

Difficulté : moyenne à élevée

Prérequis : Savoir ce qu'est une moyenne, un écart-type et comment calculer ces paramètres. Maîtriser la notion de loi de distribution, connaitre la loi normale et le théorème central limite. Ne pas avoir de difficulté avec la notion d’estimation ponctuelle et d’estimateur d’un paramètre exact de population.

Mots-clés : tests d’hypothèse, moyenne, écart-type, loi de distribution, loi normale, théorème central limite, test paramétrique, test non paramétrique, Test de Student-Fisher, Test de Mann-Whitney, test du Chi2, tests de conformité, tests d'homogénéité, tests d’indépendance, tests sur séries appariées, tests d’adéquation à une loi de probabilité, Pvalue, risque de première espèce, Hypothèse nulle, Ho, Hypothèse alternative, H1, Test unilatéral, Test bilatéral.

1 - Principe des tests d'hypothèses
Dans cette vidéo nous présentons les fondements d’un test d’hypothèse et étudions en détail le langage et la mécanique qui leurs sont inhérent. Nous verrons ainsi qu’un test, qu'il soit paramétrique ou non paramétrique, et de quelque type qu’il soit, se construit toujours de la même façon.

2 - Les étapes de réalisation d'un test d'hypothèses
Cette vidéo donne une revue synthétique des 8 étapes qui constitue la réalisation d'un test d'hypothèse. En effet, qu'il soit paramétrique ou non paramétrique, et de quelque type qu’il soit, un test d'hypothèse se construit toujours de la même façon, selon une procédure subdivisable en 8 étapes.

3 - Test d’homogénéité : comparaison de deux proportions
Présentation du test d’homogénéité permettant de comparer de deux proportions observées dans deux échantillons indépendant, constituant l'un des outils classiques à maîtriser.
Ce test vous permettra de savoir si vous maîtrisez des compétences liées aux thèmes de la semaine
Le test est noté sur 20.
QCM - Principe et pratique des tests d'hypothèses
Exercice d'évaluation des connaissances
Les micropipettes
niveau : difficulté moyenne
Fiche méthodologique

Les différents types de tests

Semaine 7 - Estimations et estimateurs

L'estimation statistique

Objectifs :

Cette section est dédiée à une rapide présentation du processus d'estimation en statistique. Nous y présenterons et distinguerons : l'estimation ponctuelle; l'estimateur d'une statistique cible et l'estimation par intervalle de confiance.

Présentation :

La notion d'estimation est fondamentale en statistique et va être très précieuses pour définir la statistique de test à employer dans les tests d'hypothèses. C'est pourquoi il est important de bien comprendre de quoi il s'agit et de définir correctement une estimation ponctuelle ou encore un estimateur sans jamais les confondre afin de les employer à bon escient.

Composition :

Après avoir défini ce qu'est une estimation ponctuelle d'un paramètre exact de population, nous développons la notion d'estimateur de ce paramètre exact. Nous verrons que l'estimateur est une variable aléatoire définie dans le processus d'estimation. Elle possède ainsi des propriétés remarquables en tant que variable aléatoire.

Ceci nous conduira à définir le biais d'un estimateur; une information très importante qui joue un rôle déterminant en statistique inférentielle.

Nous verrons alors ce qu'est un estimateur sans biais et aborderons les propriétés d'un estimateur quelconque.

Deux exemples seront traités en détail dans cette section : l’estimateur d'une moyenne exacte de population et celui d'une proportion exacte de population.

Découpage :

L'unité est divisée en 3 partie s’appuyant sur 3 vidéos :

Vidéo 1 : Estimation et Estimateurs

Vidéo 2 : Propriétés des estimateurs : biais et convergence d’un estimateur

Niveau : De la licence L1 au Master M2

Difficulté : niveau 2 - difficulté moyenne

Prérequis : Cette section réclame de savoir calculer une moyenne et un écart-type et de savoir distinguer individu, échantillon et population. Ces prérequis sont légers et mettent cette vidéo assez technique à la portée de tous.

Mots-clés : Estimation Statistique, Estimation ponctuelle ; Estimateur ; variable aléatoire; biais; convergence; Statistique de test ; Estimateur de la moyenne ; estimateur de la variance ; estimateur d’une proportion ; échantillon ; population ; espérance ; variance ; intervalle de confiance ; seuil de confiance

1 - Estimation et Estimateurs
Vidéo 1 : Estimation et Estimateur

2 - Propriétés des estimateurs : biais et convergence d’un estimateur
Vidéo 2 : Propriété des Estimateurs : espérance, variance, biais, convergence et performance d'un estimateur
Ce test vous permettra de savoir si vous maîtrisez des compétences liées aux thèmes de la semaine
Le test est noté sur 20.
QCM - Estimations et estimateurs Test
Fiches et documents
Fiche méthodologique
> L'estimateur de la moyenne exacte de population est un estimateur sans biais

Semaine 8 - Tests pour comparer 2 moyennes

Présentation :

Comment choisir le bon test pour comparer des moyennes ? Il existe, en effet, plusieurs types de tests d’hypothèse pour comparer deux moyennes ; pour ne citer qu’eux : les tests de conformité ; les tests d’homogénéité et les tests sur séries appariées.

On peut être amenés à comparer une moyenne observée à la moyenne exacte d’une population de référence : il s'agit alors d'un test de conformité. La question que l’on se pose alors est « la moyenne observée dans l’échantillon est-elle conforme à celle de la population de référence ?».

Si l’on souhaite comparer une moyenne d'échantillon à une autre moyenne d'échantillon, les 2 échantillons étant indépendants : il s'agit d'un test d'homogénéité. Dans ce cas on se demande les deux moyennes observées sont celles d’échantillons provenant de populations caractérisées par des moyennes identiques en évaluant si la différence entre les deux moyennes observées est ou non significative.

Enfin, en considérant le même échantillon d’individus avant et après traitement ou suite à un événement donné ou bien encore le contrôle d’une expérience ou d'une production par deux techniciens, nous sommes confrontés à deux séries concernant le même échantillon ; on parle de séries appariées. Il s'agira alors d’un test sur séries appariées et l’on s’intéresse à évaluer si la moyenne des différences des valeurs relevées dans les deux séries est ou non significativement différente de zéro.

Bien que tous ces tests ne se construisent pas de la même façon, nous ferons très souvent appel à une statistique de test suivant la loi de Student. Cependant, pour utiliser la loi de Student il faut que des conditions bien définies soient respectés à savoir : la normalité des distributions des variables que nous comparons dans leurs populations d’origine et, dans le cas des tests d’homogénéité, l’homogénéité des variances dans les échantillons qui sont comparés (on parle d’homoscédasticité).

Lorsque les conditions ne se prêtent pas à l’emploi d’un test de Student, c’est à dire lorsque la normalité des distributions n’est pas vérifiée, ou en cas d’hétéroscédasticité, nous sommes conduits à réaliser ce qu'on appelle un test non paramétrique. Le test non paramétrique le plus connu pour comparer 2 moyennes est celui de Mann-Whitney qui teste l'hypothèse selon laquelle la distribution des données est la même dans les populations des deux groupes à comparer en se basant uniquement sur la réparation des

Enfin, au-delà de 2 moyennes d’échantillons comparés, nous entrons dans une procédure que l’on appelle l'analyse de variance, plus connue sous le nom d’ANOVA.

Objectifs :

Cette section va vous apprendre à sélectionner, en fonction du contexte de votre étude, le bon test d’hypothèse à mettre en œuvre pour comparer deux moyennes parmi les nombreux tests utilisables en statistique inférentielle.

Conseil méthodologique :

Il vous est conseillé de suivre les autres vidéos de la thématique, dédiées à une présentation détaillée des différents types de tests destinés à la comparaison de moyennes. Vous pourrez ensuite évaluer vos connaissances en faisant les exercices et en répondant aux QCMs proposés sur la plateforme.

Niveau : Licence L1 à Master M2

Difficulté : moyenne

Prérequis : Savoir ce qu'est une moyenne, un écart-type et comment calculer ces paramètres. Maîtriser la notion de loi de distribution, connaitre la loi normale et le théorème central limite. Ne pas avoir de difficulté avec la notion d’estimation ponctuelle et d’estimateur d’un paramètre exact de population.

Mots-clés : tests d’hypothèse, moyenne, écart-type, loi de distribution, loi normale, théorème central limite, test paramétrique, test non paramétrique, test de Student-Fisher, test de Mann-Whitney, test du Chi2, tests de conformité, tests d'homogénéité, tests d’indépendance, tests sur séries appariées, tests d’adéquation à une loi de probabilité, Pvalue, risque de première espèce, hypothèse nulle, Ho, hypothèse alternative, H1, test unilatéral, test bilatéral, risque seuil alpha.

1 - Les tests d'hypothèses comparant deux moyennes
Vidéo 1- les tests d’hypothèse permettant de comparer deux moyennes
Dans cette vidéo nous présentons les 3 types de tests d’hypothèse les plus souvent rencontrés pour comparer deux moyennes : les tests de conformité ; les tests d’homogénéité et les tests sur séries appariées.

2 - Test non paramétrique de Mann-Withney
Quoi de plus logique que de poursuivre cette section en développant la notion de tests non paramétriques et en s’appuyant sur un exemple concret pour en dérouler toute la logique et la mécanique dans le cadre d’un grand classique : le test de Mann-Whitney.
Lorsque les conditions ne permettent pas de réaliser un test paramétrique, il est en effet possible de réaliser un test non paramétrique adapté au contexte de l’étude. Si les tests non paramétriques sont moins puissants que les tests paramétriques, leur utilisation est néanmoins presque toujours possible.Quoi de plus logique que de poursuivre cette section en développant la notion de tests non paramétriques et en s’appuyant sur un exemple concret pour en dérouler toute la logique et la mécanique dans le cadre d’un grand classique : le test de Mann-Whitney.
Lorsque les conditions ne permettent pas de réaliser un test paramétrique, il est en effet possible de réaliser un test non paramétrique adapté au contexte de l’étude. Si les tests non paramétriques sont moins puissants que les tests paramétriques, leur utilisation est néanmoins presque toujours possible.
Ce test vous permettra de savoir si vous maîtrisez des compétences liées aux thèmes de la semaine
Le test est noté sur 20.
QCM - Tests pour comparer 2 moyennes
Tables
Documents Annexes
Table de La Loi de Student

Semaine 9 - Tests du chi-deux

Les tests du Chi-deux

Présentation :

Les tests utilisant la statistique du Chi-deux font partie de la famille des tests non paramétriques. Ils sont tout spécialement dédiés à l'étude des variables qualitatives ou des variables aléatoires catégorisées en classes, assimilables à des qualités. Le principe de ces tests a été mis au point par Egon Pearson en 1928 puis remanié par Ronald Fisher.

Il existe plusieurs types de tests du Chi-deux dont 6 ou 7 sont très souvent utilisés. Tout va dépendre en fait de ce que l'on veut démontrer et bien entendu du nombre de variables qualitatives et d'échantillons indépendants impliqués dans le test. En effet, un test du khi-deux peut concerner une ou deux variables qualitatives et un à deux, voire plus de deux, échantillons. Nous commencerons par nous intéresser aux tests de conformité dans une troisième vidéo, nous introduirons les tests dits d'ajustement à une loi de probabilité et verrons quelle est leur utilité et enfin nous terminerons, dans une dernière vidéo, par les tests dits d'indépendance avec leurs applications.

Objectifs :

Un test du khi-deux concerne typiquement une ou deux variables qualitatives. Il existe, de fait, plusieurs tests du khi-deux. Les tests du khi-deux concernant une seule variable qualitative sont les tests de conformité à une distribution modèle, les tests d'ajustement à une loi de probabilité et les tests d'homogénéité. Les tests concernant deux variables qualitatives sont les tests d'indépendance qui vont être mis en œuvre lors de l'étude de la liaison entre deux variables qualitative.

L'objectif de cette section est de vous faire découvrir ces différents tests du khi-deux, outils incontournables dans l’analyse des donnés, afin que vous puissiez les distinguer et les maîtriser.

Conseil méthodologique :

Il vous est conseillé de suivre les toutes vidéos de la thématique, dédiées à une présentation détaillée de 3 tests du chi-deux fréquemment rencontrés. Vous pourrez ensuite évaluer vos connaissances en faisant les exercices et en répondant aux QCMs proposés sur la plateforme. Il ne reste plus qu'à vous souhaiter un bon parcours dans cette section.

Niveau : Licence L1 à Master M2

Difficulté : moyenne

Prérequis : Savoir ce qu'est une proportion, distinguer clairement les types de variables et savoir identifier une variable qualitative nominale ou ordinale, avoir quelques notions de bases concernant les lois de probabilité, savoir répartir en classes des données brutes.

Mots-clés : test du Chi2, tests d’hypothèse, loi de distribution, loi du chi-deux, test non paramétrique, répartition en classes, tests de conformité, tests d'homogénéité, tests d’indépendance, tests d’adéquation à une loi de probabilité, statistique bivariée, dépendance, variable dépendante, variable indépendante, Pvalue, risque de première espèce, Hypothèse nulle, Ho, Hypothèse alternative, H1, test bilatéral, ddl, degrés de liberté, table de la loi du Chi-deux, EXCEL, R, V de Cramer.

1 - Présentation générale des différents tests du chi-deux
Dans cette vidéo nous faisons une introduction générale aux tests du chi-deux les plus souvent utilisés en analyse statistique : les tests du khi-deux concernant une seule variable qualitative que sont les tests de conformité à une distribution modèle, les tests d'ajustement à une loi de probabilité et les tests d'homogénéité et les tests concernant deux variables qualitatives que sont les tests d'indépendance qui vont être mis en œuvre lors de l'étude de la liaison entre deux variables qualitative.

2 - Test chi-deux de conformité
Nous commencerons par détailler les tests de conformité dans lesquels nous confrontons des données observées, les fréquences d’observation des modalités (au moins deux) d’une variable qualitative à un modèle précisé dans l’hypothèse nulle Ho. Le but est de déterminer si les différences entre la répartition des fréquences des modalités observées et celle attendue sous l’hypothèse nulle sont significatives ou bien imputables au hasard des fluctuations d’échantillonnage, réfutant ou non, respectivement, l’hypothèse nulle testée. Cet exemple, assez facile à suivre, nous permet de concrétiser les notions présentées dans la vidéo chapeau en abordant l’un des tests les plus classique en analyse des données.
3 - Test d’adéquation et d'ajustement à une loi de probabilité
Dans cette troisième vidéo, nous introduisons les tests d’adéquation et d'ajustement à une loi de probabilité. Cet vidéo est également assez facile à suivre.

4 - Test du chi-deux d’indépendance
Nous terminons cette section avec le test le plus difficile à mettre en œuvre : le test du chi-deux dit d'indépendance. Nous y évoquons également la notion de force de l'association et présentons le calcul du V de Cramer.
Ce test vous permettra de savoir si vous maîtrisez des compétences liées aux thèmes de la semaine
Le test est noté sur 20.
QCM - Tests du chi-deux
→ Défi
Pourrez-vous relever ce défi?
En vous appuyant sur vos connaissances et avec ... un peu de méthode
(difficulté : moyenne)
Table du Chi2
Documents Annexes

Table Loi du Chi-deux

Semaine 10 - Prise en main du logiciel R

Prise en Main du Logiciel R

Présentation :

Le logiciel R est un logiciel incontournable en statistique descriptive comme en statistique inférentielle. Vous verrez qu'il n'est point besoin de savoir programmer pour utiliser efficacement ce logiciel. R est en effet avant tout un logiciel dédié aux statistiques et non un langage fait pour programmer. La programmation n'est qu'accessoire et nous pouvons dans les cas les plus courants nous affranchir de programmer des boucles ou encore des tests avec conditions logiques pour ne citer que ces instructions. Alors découvrez cette section sans crainte.

Objectifs :

Cette section, dédiée au logiciel R, a pour ambition de vous permette une rapide prise en main le logiciel R et de vous rendre capable de maîtriser rapidement les instructions et les fonctions statistiques de base de ce logiciel.

Découpage :

Après une présentation générale du logiciel, nous nous intéresserons à la gestion des fichiers (import | export) puis au traitement des variables indicées.

Exercices et documents complémentaires compléteront cette partie "découverte" et permettront à l'étudiant de gagner de l'expérience dans l'utilisation du logiciel.

R étant incontournable dans l'analyse statistique des données, de nombreux exemples de l'utilisation du logiciel sont également proposés dans les autres sections de la plate-forme.

Niveau : De la licence L1 au Master M2

Difficulté : niveau 1 - facile

Prérequis : Cette section, vous l'aurez compris, ne réclame aucun prérequis, on vous y explique comment démarrer sans aucune connaissance préalable du logiciel.

Mots-clés : R ; logiciel ; analyse statistique ; graphiques ; entrées ; sorties ; affichage résultats ; fichier de données ; import ; matrice ; dataset ; GNU ; libraries ; package ; fonctions ; variable ; tableau ; read.table ; summary ; mean ; plot ; hist , pnorm

1 - Prise en main du logiciel R
Vidéo 1 : prise en main du Logiciel R
(Première partie de la formation R - les bases -)
Ce test vous permettra de savoir si vous maîtrisez des compétences liées aux thèmes de la semaine
Le test est noté sur 20.
QCM - Prise en main du logiciel R Test
Fiches et documents

(Première partie de la formation R - les bases -)
Fiche pratique 1 - GUI : Graphical User Interface
Synthèse sur l'interface graphique utilisateur : espace de travail, menus, invite
Fiche pratique 2 - Travailler avec le logiciel R
Fiche de synthèse rappelant comment travailler avec le logiciel R
Fiche pratique 3 - Quelques fonctions graphiques R
Fonctions graphiques en Statistique descriptive univariée
Fiche pratique 4 - Comment exécuter un script
Un script R est un fichier texte contenant des lignes de commandes R prêtes à être exécutées en lançant ce fichier

Aperçu des sections

Généralités

Semaine 1 - Les types de variables utilisées en statistique

Types d'informations manipulées en Statistique

Présentation :

Objectifs :

Composition :

Présentation des différents types d'informations manipulées en statistique

Fiches et documents

Semaine 2 - Calculs d'une fréquence, d'une moyenne, d'un écart-type et autres paramètres

Fréquences; paramètres de position et de dispersion

Objectifs :

Présentation :

Composition :

1 - Calcul des paramètres

2- Calcul des paramètres avec Excel et R

Exercices et défis

Fiches et documents

Semaine 3 - Statistiques descriptives

Présentation :

Objectifs :

Statistiques descriptives, à quoi servent-elles ?

watch

Fiches et documents

Fiche 1 : vocabulaire utilisé en statistique descriptive

Semaine 4 - Lois de probabilités

Présentation :

Objectifs :

Composition :

1- Loi de Probabilités

2-Tables des lois les plus fréquemment rencontrées :

Semaine 5 - La loi normale

Présentation :

Objectif :

Propriétés et repères graphiques

Fiches méthodologiques

Loi normale : repères graphiques

Synthèse sur les aires remarquables

Fonction de répartition

Semaine 6 - Principe et pratique des tests d'hypothèses

Tests d'Hypothèses

Présentation :

Objectifs :

Composition :

1 - Principe des tests d'hypothèses

2 - Les étapes de réalisation d'un test d'hypothèses

3 - Test d’homogénéité : comparaison de deux proportions

Fiche méthodologique

Semaine 7 - Estimations et estimateurs

L'estimation statistique

Objectifs :

Présentation :

Composition :

Découpage :

1 - Estimation et Estimateurs

2 - Propriétés des estimateurs : biais et convergence d’un estimateur

Fiches et documents

Semaine 8 - Tests pour comparer 2 moyennes

Présentation :

Objectifs :

Conseil méthodologique :

1 - Les tests d'hypothèses comparant deux moyennes

2 - Test non paramétrique de Mann-Withney

Tables

Semaine 9 - Tests du chi-deux

Les tests du Chi-deux

Présentation :

Objectifs :

Conseil méthodologique :

1 - Présentation générale des différents tests du chi-deux

2 - Test chi-deux de conformité

3 - Test d’adéquation et d'ajustement à une loi de probabilité

4 - Test du chi-deux d’indépendance

Table du Chi2

Documents Annexes

Table Loi du Chi-deux

Semaine 10 - Prise en main du logiciel R

Prise en Main du Logiciel R

Présentation :

Objectifs :