Aperçu des sections

  • L'objectif de l'enseignement est d'initier les étudiants à l'utilisation des statistiques en biologie.
    L'étudiant apprendra à raisonner avant d'appliquer le modèle statistique adapté à sa problématique.

    A terme :
    - Etre capable de traiter et analyser vos données expérimentales
    - Que le mot « Inférence » vous parle
    - Savoir définir le modèle statistique associé au modèle biologique (supposé)
    - Pouvoir dialoguer avec un bioinformaticien
    - Etre capable d'effectuer des Tests d'hypothèse classiques
    - Pouvoir faire une représentation graphique soignée
    - Manipuler variables statistiques et variables aléatoires sans problème
    - Pas d'hésitation sur les notions d'échantillons, de population et d'échantillonnage
    - Avoir une idée de l'ordre de grandeur d'une information
    - Décider, agir à partir des chiffres – risque associé à décision (terrain, labo, entreprise)
    - Utiliser les outils statistiques de base sur un ordinateur

    Mots-clés :
    statistiques descriptives, probabilités, tri à plat, lois de probabilités, tests d'hypothèses, ANOVA, statistiques à 2 variables, tri croisé, maximum de vraisemblance.


  • Semaine 1 - Les types de variables utilisées en statistique

    Types d'informations manipulées en Statistique

    Présentation :

    Les variables que nous manipulons en statistique sont soit qualitatives, elles se réfèrent alors à une qualité, par exemple : « couleur des yeux d’un individu tiré au hasard d’une population », soit quantitatives ; elles décrivent alors une quantité. Par exemple : « taille (en cm) des membres d’un club d’athlétisme » ou encore « température (en degrés Celsius) relevées un jour d’été en différents endroits d’une ville donnée ». Bien entendu, ce ne sont pas du tout les mêmes domaines de définitions qui sont concernés par ces deux types de variables. Il vous apparaitra ainsi, facilement, que si l’on peut calculer la moyenne de la taille des membres d’un club d’athlétisme, cela n’a aucun sens d’essayer de calculer la moyenne des modalités prises par la couleur de leurs yeux ou même d’en faire la somme.


    On distingue en fait 4 types de variables. Les variables qualitatives sont subdivisées en deux catégories : elles sont nominales ou bien ordinales. Les variables quantitatives se subdivisent également en deux types : les variables aléatoires discrètes et  les variables aléatoires continues. Nous pouvons être confrontés à ces quatre types de variables dans les études statistiques que nous menons. De quelque nature qu’elles soient, les valeurs prises par une variable sont appelées modalités


    Variable nominale :  nous ne pouvons que qualifier les modalités prises par la variable.

    Variable ordinale :    il existe une relation d’ordre entre les différentes modalités prises par la variable

    Variable discrète :    nous sommes en présence d’une liste finie des valeurs prises par la variable qui correspond typiquement à un décompte

    Variable continue :   nous effectuons des mesures et nous pouvons considérer que la variable prend ses valeurs dans un intervalle continu de R et qu’il y a, de ce fait, une infinité de valeurs possibles dans cet intervalle qui est appelé l’ensemble de définition.  

    Rappelons-nous qu’identifier le type des variables est le préalable au choix des traitements statistiques appropriés et que cela permet de savoir comment interpréter leurs résultats.

    Pour être complet, il existe un cinquième type de variables constitué des variables semi quantitatives qui, si elles autorisent des calculs sur leur modalités, ces calculs ne peuvent être des moyennes simples, on parlera plutôt de moyennes pondérées. C’est typiquement le cas de la densité de populations ou encore de la concentration de substances chimiques.

    Objectifs :

    Il s’agit d’une notion importante qui est à l’origine du choix des tests d’hypothèse à considérer dans une étude statistique et elle détermine la nature des liaisons qui peuvent s’établir entre les informations d’un jeu de données en analyse multivariée.
    Cette section présente les différents types d'informations manipulées dans  le traitement et l'analyse statistique des données : variables qualitatives et quantitatives. 
    Pour comprendre la situation dans laquelle on se trouve concrètement dans le traitement des données il faut tout d'abord identifier le type des variables auxquelles on est confronté.

    Composition :

    Nous commencerons par présenter les quatre types de variables les plus souvent manipulées puis nous nous intéresserons aux représentations graphiques associées à ces différents types de variables et à leur réalisation sous Excel et sous R.


    Niveau : Licence (L1 à L3)

    Difficulté : facile

    Prérequis : Aucun puisqu’il s’agit d’une notion de base ou d’une remise à niveau.

    Mots-clés : variable, modalité, variable qualitative, variable quantitative, variable aléatoire, distribution, graphe, variable continue, variable quantitative discrète, variable nominale, variable ordinale


  • Semaine 2 - Calculs d'une fréquence, d'une moyenne, d'un écart-type et autres paramètres

    Fréquences; paramètres de position et de dispersion

    Objectifs :

    Nous allons dans cette section apprendre à déterminer les paramètres de position, également appelés de tendance centrale dans les trois cas : variable quantitative discrète, variable continue et variable semi quantitative. Nous aborderons ensuite le calcul des paramètres de dispersions et evoquerons les facteurs de forme. Nous finirons par les z scores, très employés en analyse factorielle (ACP et AFE) mais aussi pour comparer des variables très différentes. Ces calculs de base doivent être maitrisés pour réaliser un test d’hypothèse.

    Présentation :

    Ces paramètres, on s’en doute, ne sont pas calculés pour la forme, mais bien pour être utilisés pour décrire un jeu de données ainsi qu'à des fins d'analyse, en statistique inférentielle : prédictions, comparaisons, intervalles de confiance, tests d'hypothèse et analyse factorielle. Brefs ils servent à décrire et permettent de réaliser une étape d'analyse.

    Voilà pourquoi leur calcul est la première étape de l'analyse statistique.

    Remarque importante :

    Rappelons, s'il le faut, que ces calculs ne s'entendent que pour une variable quantitative et certainement pas une variable de type ordinal, même codée sous forme numérique selon une échelle de Likert. Ces échelles sont destinées à entrer dans le calcul d'un score, de type somme ou moyenne mais elles ne peuvent pour des raisons de non continuité être l'objet de calculs de moments d'ordre n quelconque (nous n'avons, à priori, pas la même distance entre 1 et 2 qu'entre 4 et 5 et aucune valeur n’est prenable dans l'intervalle). Une section sera consacrée aux échelles de Likert et à la constitution de scores, outils très utilisés dans les questionnaires, notamment en psychologie, en sociologie ou encore en épidémiologie.

    Composition :

    Nous allons voir comment calculer le paramètre moyenne dans les différents cas que nous rencontrons en statistique descriptive puis nous apprendrons à calculer le paramètre variance dans ces différents cas. L'écart type, qui n'est que la racine carrée de la variance, est pratique à utiliser car dans la même unité que les paramètres de tendance centrale. Nous intéresserons ensuite aux paramètres associés à la forme de la distribution que sont la skewness et le kurtosis

    Niveau : Licence (L1 à L3)

    Difficulté : moyenne

    Prérequis : Aucun, tout est revu à la base y compris le principe et la notation employée pour calculer la somme de n éléments en utilisant un indice i

    Mots-clés : tendance centrale, position, dispersion, facteurs de formes, paramètres exacts de population, calculs, moments d’ordre n, kurtosis, skewness, ordre de grandeur, médiane, moyenne, variance, écart-type, étendue, quartiles, boxplot, boîte à moustaches, boîte de Tukey, jeu de données, somme indicée, données ordonnées classées, données brutes, échantillon, sigma, mu, estimation, mesures, observation, taille de l’échantillon.


  • Semaine 3 - Statistiques descriptives

    Présentation :

    Vaste programme que de présenter la statistique descriptive; il y aurait tant à développer sur ce sujet. Le choix a été de vous en dire l’essentiel dans cette section introductive.

    Comme vous le constatez le mot clé associé à cette composante incontournable des statistiques est «descriptive». Ce qui signifie qu’il va s’agir, dans cette étape, de décrire les données collectées dans la population ou dans l'échantillon étudiés. Il ne s'agit pas, pour autant, de détailler l'ensemble de ces informations, cela n'aurait guère de sens mais de bien les décrire et d’en rendre compte avec le minimum de mots, de paramètres et de graphes.

    L’étape de statistique descriptive va ainsi permettre de résumer les distributions étudiées en quelques caractéristiques qui permettront ensuite des comparaisons ou des prédictions, démarches relevant, quant à elles, des statistiques inférentielles.

    La statistique descriptive est, dès lors, l’étape préalable indispensable à toute analyse inférentielle de vos données, contribuant déjà à faire parler les données.

    Objectifs :

    Découvrir l'objet, la démarche et les outils de statistique descriptive et ne plus la confondre avec la statistique inférentielle.

    Niveau : de la première année de licence au Master 2

    Difficulté : facile

    Prérequis : aucun (notion basique et fondamentale de la statistique)

    Documents annexes : glossaire statistique et petit dictionnaire bilingue de statistique

    Mots-clés : statistique descriptive; décrire; résumer; distribution; tableaux de synthèse; paramètres de position; paramètres de dispersion; facteurs de formes; graphiques; histogramme; distribution; échantillon; population; tableau de synthèse


  • Semaine 4 - Lois de probabilités

    Présentation :

    Nous devons nous rappeler qu’une loi de probabilité s’attache à décrire les réalisations d’un phénomène aléatoire associées à une variable qui peut être soit qualitative, soit quantitative discrète ou continue. Ce qui va nous conduire à définir une loi de probabilité selon la nature de la variable statistique concernée.
    Les lois de probabilité peuvent être subdivisables en 3 catégories : celles associées aux variables qualitatives, décrivant les fréquences exactes ou théoriques prises par chacune des modalités prises par la variable étudiée dans une population de référence (ex des groupes sanguins), les lois de probabilité associées aux variables quantitatives discrètes et celles décrivant la distribution des variables continues pour lesquelles on définit une fonction de densité de probabilité.

    Objectifs :

    Les lois de probabilités, également appelées lois de distribution ou encore distributions de probabilité, sont, vous le savez, un chapitre important des statistiques descriptives. Cependant, connaitre la loi de probabilité suivie par la variable aléatoire d'étude ne constitue pas une fin en soi, nous nous arrêterions alors à l’étape descriptive ; la connaissance de cette loi est, en fait, déterminante pour calculer les probabilités de réalisation des évènements qui nous intéressent et pour mener à bien l'analyse des données en statistique inférentielle. Elle contribuera, notamment, à choisir et définir la statistique de test la plus pertinente dans cette analyse.
    Dans cette section consacrée aux lois de probabilité, nous allons essayer de démystifier ce concept et de comprendre à quoi une loi de probabilité peut nous être utile.

    Composition :

    Nous allons balayer ces trois cas en précisant ce qui les particularisent et en donnant un exemple de loi connue pour chacun des catégories évoquées. Lorsque les conditions s'y prêteront, c'est à dire pour les variables quantitatives, nous apprendrons à calculer l'espérance et la variance d'une variable suivant une loi de probabilité.
    Les lois de probabilités les plus souvent rencontrées sont la loi binomiale et la loi de Poisson pour une variable discrète et la loi uniforme et la loi normale pour une variable aléatoire continue. Comment ne pas évoquer également les lois de Student, de Fisher ou la loi du Chi-deux (loi suivie par la somme de n Z2, avec Z~N(0,1)) qui, quant à elles, décrivent les fluctuations des statistiques de tests utilisées dans les tests d’hypothèses et qui sont, de fait, les lois de distributions les mieux connues des étudiants.  Nous allons voir qu'il en existe bien d'autres, en fait même une infinité et que leurs caractéristiques sont, la plupart du temps, assez simples à calculer.

    Pour définir une loi de probabilité je pourrais vous indiquer qu'il s'agit d'une application et partir dans des fondements mathématiques. Je crois que cela ne servirait guère, je risquerais de vous perdre ; nous y reviendrons un peu plus tard. C’est pourquoi je pense qu’il serait plus judicieux de vous présenter la plus simple des lois de probabilité et de partir de cet exemple pour pouvoir comprendre un peu mieux ce qu’est une loi de probabilité, quels sont ses fondements et à quoi elle sert.

    Nous comprendrons alors qu’une loi de probabilité est un outil précieux servant, avant tout et en fonction du contexte, à calculer des probabilités. Donc, une loi de probabilité donnant la possibilité de calculer la probabilité de réalisation d'un événement donné.

    Difficulté : moyenne, demande un réel investissement.

    Niveau : de la Licence L1 au Master M2

    Prérequis : connaître les différents types de variables et savoir calculer l’espérance et la variance d’une variable aléatoire

    Mots-clés : loi de probabilité, probabilité, distribution, loi de distribution, espérance, variance, loi binomiale, loi discrète, loi continue, loi de Bernoulli, loi du Chi-deux, loi de Poisson, loi normale, approximation normale,  tendance normale, limites, variable aléatoire, variable discrète, variable qualitative, événements, comparateurs,  comparaisons, condition logique, table de la loi du chi deux,  table de la loi normale,  table de Student, table de la loi de Poisson.


  • Semaine 5 - La loi normale

    Présentation :

    La loi normale est très souvent rencontrée dans la nature et les tests paramétriques nécessitent l'hypothèse d'une distribution normale. Cette section est consacrée à la loi normale. Elle présente l'origine de cette loi, ses propriétés générales, sa représentation graphique détaillée et poursuit sur la présentation de la Loi normale centrée réduite et son intérêt dans le calcul des probabilités. La dernière partie aborde le calcul des probabilités pour une variable aléatoire suivant une loi normale de moyenne et de variance connues.

    Objectif : 

    Bien maîtriser les propriétés et la représentation graphique de la loi normale et s’appuyer sur la loi normale centrée réduite, qui est tabulée, pour calculer une probabilité du type : p(X>a), P(X<b) ou encore P(a<X<b) avec X suivant une loi normale quelconque. Il est conseillé aux étudiants d'apprendre à dessiner correctement une distribution normale afin de mieux appréhender la démarche des tests d'hypothèse.

    Prérequis : s’agissant d'une section basique, elle ne nécessite aucun prérequis.

    Niveau : facile à moyen

    Mots-clés : loi normale ; tests paramétriques ; hypothèse d'une distribution normale ; loi normale centrée réduite ; calcul des probabilités ; espérance ; variance ; test de normalité ; table de la loi normale (centrée-réduite) ; Shapiro-Wilk.


  • Semaine 6 - Principe et pratique des tests d'hypothèses

    Tests d'Hypothèses

    Présentation :

    Avec les tests d'hypothèses nous entrons pleinement dans l'analyse inférentielle, basée sur l’exploitation des données collectées dans des échantillons. Les tests d’hypothèse permettant, entre autre, de faire avancer une connaissance, de monter une nouvelle expérience ou bien encore d'arriver à une généralité sous forme de modèle.

    Le mot clé associé à cette composante incontournable des statistiques est «hypothèses». Nous verrons que deux hypothèses vont être au centre de nos préoccupations: l’hypothèse nulle H0 et l’hypothèse alternative H1. Nous verrons que pour montrer qu’un traitement est efficace ou qu’un évènement donné a un impact sur une statistique, l’objectif est de casser l’hypothèse nulle, c’est à dire de montrer que tout porte à la rejeter.

    Notons qu’introduire toutes les situations se prêtant à l'utilisation de tests d'hypothèses n'est pas une chose aisée. C'est en pratiquant l'analyse inférentielle que nous pourrons mieux apprécier tout ce que nous permettent les tests d'hypothèses.

    Objectifs :

    Le but de ces séquences n'est pas vous entrainer dans une formalisation mathématique ni dans une visite en détail des tests d'hypothèse mais de vous permettre, d'une part, de reconnaître la situation dans laquelle vous vous trouvez afin de mettre en œuvre le bon test et, d'autre part, d'interpréter les résultats obtenus à l'issue d'un test hypothèse.

    Vous allez, dès lors, apprendre à reconnaître le contexte de votre analyse puis à construire le test d'hypothèse qui est le plus judicieux dans ce contexte, contribuant ainsi à faire parler vos données en essayant d’arriver à une conclusion, la moins risquée possible, qui tienne compte des limites de ce que peuvent révéler vos expériences ou vos observations.

    Nous allons évoquer les 5 types de tests les plus souvent rencontrés : les tests de conformité, les tests d'homogénéité, les tests d’indépendance, les tests sur séries appariées et les tests d’adéquation ou d’ajustement à une loi de probabilité. Nous verrons enfin les différences entre les tests dits « paramétriques » et les tests dits « non paramétriques ».

    Composition :

    La section Test d’hypothèse est subdivisée en 4 parties s’appuyant sur 3 vidéos et un document pdf. Il vous est loisible de visionner les vidéos et les documents complémentaires dédiés à cette thématique dans l’ordre qui vous plaira afin d’appréhender toutes les facettes inhérentes aux tests d’hypothèse.

    Le découpage proposé est le suivant :

     -1- Principe des tests d'hypothèse 

    Dans cette vidéo nous présentons les fondements d’un test d’hypothèse et étudions en détail le langage et la mécanique qui leurs sont inhérent. Nous verrons ainsi qu’un test, qu'il soit paramétrique ou non paramétrique, se construit toujours de la même façon. Bien entendu, nous discuterons de la notion de risque associé à la conclusion du test et verrons l’importance de la pvalue et du risque de première espèce.

    -2- Les étapes de réalisation d'un test d'hypothèses 

    Cette vidéo donne une revue synthétique des 8 étapes qui constitue la réalisation d'un test d'hypothèse. En effet, qu'il soit paramétrique ou non paramétrique, et de quelque type qu’il soit, un test d'hypothèse se construit toujours de la même façon, selon une procédure subdivisable en 8 étapes.Enfin, lorsque l’on a montré que des différences sont significatives, on peut également s’intéresser à la taille de l’effet qui mesure la force de l’association entre des variables en statistique multivariée et établir si la liaison est assez forte ou plutôt faible. 

    -3- Test d’homogénéité : comparaison de deux proportions

    Après avoir présenté le test de Student concernant une comparaison de moyennes, il est essentiel d’aborder la comparaison de deux proportions observées dans le cadre d’un test d’homogénéité, complétant de façon efficace le panel d’outils à maîtriser.

    Niveau : De la Licence (L1) au Master (M2)

    Difficulté : moyenne à élevée

    Prérequis : Savoir ce qu'est une moyenne, un écart-type et comment calculer ces paramètres. Maîtriser la notion de loi de distribution, connaitre la loi normale et le théorème central limite. Ne pas avoir de difficulté avec la notion d’estimation ponctuelle et d’estimateur d’un paramètre exact de population.

     Mots-clés : tests d’hypothèse,  moyenne, écart-type, loi de distribution, loi normale, théorème central limite, test paramétrique, test non paramétrique, Test de Student-Fisher, Test de Mann-Whitney, test du Chi2, tests de conformité, tests d'homogénéité, tests d’indépendance, tests sur séries appariées, tests d’adéquation à une loi de probabilité, Pvalue, risque de première espèce, Hypothèse nulle, Ho, Hypothèse alternative, H1, Test unilatéral, Test bilatéral.


  • Semaine 7 - Estimations et estimateurs

    L'estimation statistique

    Objectifs :

    Cette section est dédiée à une rapide présentation du processus d'estimation en statistique. Nous y présenterons et distinguerons : l'estimation ponctuelle; l'estimateur d'une statistique cible et l'estimation par intervalle de confiance.

    Présentation :

    La notion d'estimation  est fondamentale en statistique et va être très précieuses pour définir la statistique de test à employer dans les tests d'hypothèses. C'est pourquoi il est important de bien comprendre de quoi il s'agit et de définir correctement une estimation ponctuelle ou encore un estimateur sans jamais les confondre afin de les employer à bon escient.

    Composition :

    Après avoir défini ce qu'est une estimation ponctuelle d'un paramètre exact de population, nous développons la notion d'estimateur de ce paramètre exact. Nous verrons que l'estimateur est une variable aléatoire définie dans le processus d'estimation. Elle possède ainsi des propriétés remarquables en tant que variable aléatoire.

    Ceci nous conduira à définir le biais d'un estimateur; une information très importante qui joue un rôle déterminant en statistique inférentielle.

    Nous verrons alors ce qu'est un estimateur sans biais et aborderons les propriétés d'un estimateur quelconque.

    Deux exemples seront traités en détail dans cette section : l’estimateur d'une moyenne exacte de population et celui d'une proportion exacte de population.

    Découpage :

    L'unité est divisée en 3 partie s’appuyant sur 3 vidéos :

    Vidéo 1 : Estimation et Estimateurs

    Vidéo 2 : Propriétés des estimateurs : biais et convergence d’un estimateur

    Niveau : De la licence L1 au Master M2

    Difficulté : niveau 2 - difficulté moyenne

    Prérequis : Cette section réclame de savoir calculer une moyenne et un écart-type et de savoir distinguer individu, échantillon et population. Ces prérequis sont légers et mettent cette vidéo assez technique à la portée de tous.

    Mots-clés : Estimation Statistique, Estimation ponctuelle ; Estimateur ; variable aléatoire; biais; convergence; Statistique de test ; Estimateur de la moyenne ; estimateur de la variance ; estimateur d’une proportion ; échantillon ; population ; espérance ; variance ; intervalle de confiance ; seuil de confiance


  • Semaine 8 - Tests pour comparer 2 moyennes

    Présentation :

    Comment choisir le bon test pour comparer des moyennes ? Il existe, en effet, plusieurs types de tests d’hypothèse pour comparer deux moyennes ; pour ne citer qu’eux : les tests de conformité ; les tests d’homogénéité et les tests sur séries appariées.

    On peut être amenés à comparer une moyenne observée à la moyenne exacte d’une population de référence : il s'agit alors d'un test de conformité. La question que l’on se pose alors est « la moyenne observée dans l’échantillon est-elle conforme à celle de la population de référence ?». 

    Si l’on souhaite comparer une moyenne d'échantillon à une autre moyenne d'échantillon, les 2 échantillons étant indépendants : il s'agit d'un test d'homogénéité. Dans ce cas on se demande les deux moyennes observées sont celles d’échantillons provenant de populations caractérisées par des moyennes identiques en évaluant si la différence entre les deux moyennes observées est ou non significative.

    Enfin, en considérant le même échantillon d’individus avant et après traitement ou suite à un événement donné ou bien encore le contrôle d’une expérience ou d'une production par deux techniciens, nous sommes confrontés à deux séries concernant le même échantillon ; on parle de séries appariées. Il s'agira alors d’un test sur séries appariées et l’on s’intéresse à évaluer si la moyenne des différences des valeurs relevées dans les deux séries est ou non significativement différente de zéro.

    Bien que tous ces tests ne se construisent pas de la même façon, nous ferons très souvent appel à une statistique de test suivant la loi de Student. Cependant, pour utiliser la loi de Student il faut que des conditions bien définies soient respectés à savoir : la normalité des distributions des variables que nous comparons dans leurs populations d’origine et, dans le cas des tests d’homogénéité, l’homogénéité des variances dans les échantillons qui sont comparés (on parle d’homoscédasticité).

    Lorsque les conditions ne se prêtent pas à l’emploi d’un test de Student, c’est à dire lorsque la normalité des distributions n’est pas vérifiée, ou en cas d’hétéroscédasticité, nous sommes conduits à réaliser ce qu'on appelle un test non paramétrique. Le test non paramétrique le plus connu pour comparer 2 moyennes est celui de Mann-Whitney qui teste l'hypothèse selon laquelle la distribution des données est la même dans les populations des deux groupes à comparer en se basant uniquement sur la réparation des

    Enfin, au-delà de 2 moyennes d’échantillons comparés, nous entrons dans une procédure que l’on appelle l'analyse de variance, plus connue sous le nom d’ANOVA.

    Objectifs :

    Cette section va vous apprendre à sélectionner, en fonction du contexte de votre étude, le bon test d’hypothèse à mettre en œuvre pour comparer deux moyennes parmi les nombreux tests utilisables en statistique inférentielle.

    Conseil méthodologique :

    Il vous est conseillé de suivre les autres vidéos de la thématique, dédiées à une présentation détaillée des différents types de tests destinés à la comparaison de moyennes. Vous pourrez ensuite évaluer vos connaissances en faisant les exercices et en répondant aux QCMs proposés sur la plateforme.

    Niveau : Licence L1 à Master M2

    Difficulté : moyenne

    Prérequis : Savoir ce qu'est une moyenne, un écart-type et comment calculer ces paramètres. Maîtriser la notion de loi de distribution, connaitre la loi normale et le théorème central limite. Ne pas avoir de difficulté avec la notion d’estimation ponctuelle et d’estimateur d’un paramètre exact de population.

    Mots-clés : tests d’hypothèse,  moyenne, écart-type, loi de distribution, loi normale, théorème central limite, test paramétrique, test non paramétrique, test de Student-Fisher, test de Mann-Whitney, test du Chi2, tests de conformité, tests d'homogénéité, tests d’indépendance, tests sur séries appariées, tests d’adéquation à une loi de probabilité, Pvalue, risque de première espèce, hypothèse nulle, Ho, hypothèse alternative, H1, test unilatéral, test bilatéral, risque seuil alpha.


  • Semaine 9 - Tests du chi-deux

    Les tests du Chi-deux

    Présentation :

    Les tests utilisant la statistique du Chi-deux font partie de la famille des tests non paramétriques. Ils sont tout spécialement dédiés à l'étude des variables qualitatives ou des variables aléatoires catégorisées en classes, assimilables à des qualités. Le principe de ces tests a été mis au point par Egon Pearson en 1928 puis remanié par Ronald Fisher.

    Il existe plusieurs types de tests du Chi-deux dont 6 ou 7 sont très souvent utilisés. Tout va dépendre en fait de ce que l'on veut démontrer et bien entendu du nombre de variables qualitatives et d'échantillons indépendants impliqués dans le test. En effet, un test du khi-deux peut concerner une ou deux variables qualitatives et un à deux, voire plus de deux, échantillons. Nous commencerons par nous intéresser aux tests de conformité dans une troisième vidéo, nous introduirons les tests dits d'ajustement à une loi de probabilité et verrons quelle est leur utilité et enfin nous terminerons, dans une dernière vidéo, par les tests dits d'indépendance avec leurs applications.

    Objectifs :

    Un test du khi-deux concerne typiquement une ou deux variables qualitatives. Il existe, de fait, plusieurs tests du khi-deux. Les tests du khi-deux concernant une seule variable qualitative sont les tests de conformité à une distribution modèle, les tests d'ajustement à une loi de probabilité et les tests d'homogénéité. Les tests concernant deux variables qualitatives sont les tests d'indépendance qui vont être mis en œuvre lors de l'étude de la liaison entre deux variables qualitative.

    L'objectif de cette section est de vous faire découvrir ces différents tests du khi-deux, outils incontournables dans l’analyse des donnés, afin que vous puissiez les distinguer et les maîtriser.

    Conseil méthodologique :

    Il vous est conseillé de suivre les toutes vidéos de la thématique, dédiées à une présentation détaillée de 3 tests du chi-deux fréquemment rencontrés. Vous pourrez ensuite évaluer vos connaissances en faisant les exercices et en répondant aux QCMs proposés sur la plateforme. Il ne reste plus qu'à vous souhaiter un bon parcours dans cette section.

    Niveau : Licence L1 à Master M2

    Difficulté : moyenne

    Prérequis : Savoir ce qu'est une proportion, distinguer clairement les types de variables et savoir identifier une variable qualitative nominale ou ordinale, avoir quelques notions de bases concernant les lois de probabilité, savoir répartir en classes des données brutes.

    Mots-clés : test du Chi2, tests d’hypothèse, loi de distribution, loi du chi-deux, test non paramétrique, répartition en classes, tests de conformité, tests d'homogénéité, tests d’indépendance, tests d’adéquation à une loi de probabilité, statistique bivariée, dépendance, variable dépendante, variable indépendante, Pvalue, risque de première espèce, Hypothèse nulle, Ho, Hypothèse alternative, H1, test bilatéral, ddl, degrés de liberté, table de la loi du Chi-deux, EXCEL, R, V de Cramer.



  • Semaine 10 - Prise en main du logiciel R

    Prise en Main du Logiciel R

    Présentation :

    Le logiciel R est un logiciel incontournable en statistique descriptive comme en statistique inférentielle. Vous verrez qu'il n'est point besoin de savoir programmer pour utiliser efficacement ce logiciel. R est en effet avant tout un logiciel dédié aux statistiques et non un langage fait pour programmer. La programmation n'est qu'accessoire et nous pouvons dans les cas les plus courants nous affranchir de programmer des boucles ou encore des tests avec conditions logiques pour ne citer que ces instructions. Alors découvrez cette section sans crainte.

     Objectifs :

    Cette section, dédiée au logiciel R, a pour ambition de vous permette une rapide prise en main le logiciel R et de vous rendre capable de maîtriser rapidement les instructions et les fonctions  statistiques de base de ce logiciel.

    Découpage :

    Après une présentation générale du logiciel, nous nous intéresserons à la gestion des fichiers (import | export) puis au traitement des variables indicées.

    Exercices et documents complémentaires compléteront cette partie "découverte" et permettront à l'étudiant de gagner de l'expérience dans l'utilisation du logiciel.

    R étant incontournable dans l'analyse statistique des données, de nombreux exemples de l'utilisation du logiciel sont également proposés dans les autres sections de la plate-forme.

    Niveau : De la licence L1 au Master M2

    Difficulté : niveau 1 - facile

    Prérequis : Cette section, vous l'aurez compris, ne réclame aucun prérequis, on vous y explique comment démarrer sans aucune connaissance préalable du logiciel.

    Mots-clés : R ; logiciel ;  analyse statistique ;  graphiques ; entrées ; sorties ;  affichage résultats ;  fichier de données ;  import ; matrice ; dataset ; GNU ; libraries ;  package ;  fonctions ; variable ;  tableau ;  read.table ; summary ;  mean ; plot ; hist , pnorm