Premiers pas avec R / Partie II
Statistiques et tableaux
Cette partie de ma petite série ouverte sur le langage de programmation R concerne les fonctions statistiques simples et le travail avec et la création de tableaux.
Je suis un débutant en R et comme je n'ai pas le temps de m'entraîner toute une journée, j'essaie de trouver sur le net des instructions qui m'expliquent aussi facilement que je le fais pour vous. Les exercices mentionnés ici m'aideront, je l'espère, à être mieux à même de créer des tableaux présentables et évaluables.
Dans la première partie de ma petite série ouverte, j'ai traité des fonctions de chaînes simples.
En tant que débutant total en R, je suis actuellement à la recherche de tutoriels que je peux mettre en œuvre avec mes connaissances.
Je suis tombé sur le site web The Programming Historian, où il y a actuellement (en janvier 2020) 80 leçons ( Lien : https://programminghistorian.org/en/lessons/)) pour les historiens de la programmation, mais elles devraient être intéressantes pour un concepteur de programmation comme moi. J'ai choisi d'utiliser le traitement de texte de base de Taylor Arnold en leçon R pour évaluer le texte de Tom Wolfe Look Homeward, Angels !
La transcription et mes notes sur cet exercice seront disponibles dans le prochain épisode.
Mais avant cela, je vais d'abord travailler sur la leçon de Taryn Dewar sur les bases du R et jouer avec les données et les fonctions mentionnées ci-dessus pour mieux comprendre.
Cette note de travail traite entre autres de ces fonctions du langage de programmation R :
setwd(), dir(), paste(), write.table(), data(), mean(), median(), min(), max(), quantile(), summary(), cbind(), rbind(), rownames(), colnames(), t()
Fonctions statistiques simples
Mean() etMedian()
Le tutoriel contient quelques bases pour le traitement des valeurs statistiques, telles que la valeur moyenne, la valeur médiane, les valeurs maximales et les valeurs minimales.
Comme vous l'avez peut-être remarqué, mon blog et surtout cette série d'articles est une sorte de fonction de note publique pour moi.
Voici donc un bref protocole de mes gadgets avec R et les fonctions mean() et median() en utilisant la liste des passagers fournie dans R et celle de l'article de The Programming Historian mentionné ci-dessus.
Dans un premier temps, j'ouvre R et je crée mon répertoire de travail.
La fonction mean() renvoie la valeur moyenne d'un ensemble de données, la fonction median() la valeur dite centrale - la valeur de la base de données qui se trouve exactement au milieu - ce n'est pas nécessairement la valeur moyenne.
Les données de la liste des passagers dans R sont obtenues avec les data(AirPassagers), comme vous pouvez le voir dans un tableau simple avec le nombre de passagers (en 1000) qui ont volé entre janvier 1949 et décembre 1960. Veuillez faire attention aux majuscules et aux minuscules.
La valeur moyenne de tous les mois est obtenue avec
et la médiane avec
Nous obtenons la plus petite valeur avec la fonction min().
Nous obtenons la valeur la plus élevée dans le tableau Passagers avec la fonction max().
Les quantiles comme mesures de localisation
quantile() et summary()
Nous pouvons également afficher des quantiles avec la fonction quantile(). Les quantiles sont des mesures importantes de la situation dans le domaine des statistiques et surtout des statistiques démographiques et de l'ergonomie. Le quantile de 25% est la valeur pour laquelle 25% de toutes les valeurs sont inférieures à cette valeur.
Dans R, il existe pratiquement une fonction qui résume les données statistiques les plus importantes, c'est la fonction summary().
Fonctions de table simples
Créez vos propres tableaux
Comment pouvons-nous maintenant créer nous-mêmes des tableaux ? C'est incroyablement facile en R et très rapide.
Supposons que nous voulions écrire ces données dans un tableau :
Pour créer une matrice à partir de ces données, nous pouvons utiliser la fonction cbind(), que l'on traduit grosso modo par s'attacher ensemble (column bind). Bien entendu, nous pouvons modifier l'ordre des données insérées entre parenthèses. Pour ce R utilise nos noms d'objets comme en-têtes de colonnes.
Et cela ressemblerait à ceci avec la fonction rbind() - Ramez et reliez-les ensemble (row bind) comme ceci. Les noms des objets sont utilisés comme étiquettes de ligne.
Et nous pouvons également ajouter des lignes, dans ce cas les valeurs des data3:
Bien sûr, les noms des lignes et des colonnes n'ont pas encore l'air si étincelants. Cela peut être modifié assez rapidement. Nous renommons simplement les colonnes ainsi que les en-têtes de ligne en utilisant rownames() pour les lignes et colnames() pour les colonnes :
Si nous n'aimons pas cet arrangement, nous inversons simplement le tableau avec t(). Le t est l'abréviation de transposer, qui peut facilement être traduit par convertir.
Et, bien sûr, nous pouvons aussi faire des évaluations pour la table à nouveau :
Et pour les lignes ou colonnes individuelles, en mettant la ligne avant la virgule ou la colonne après la virgule entre crochets.
Ou simplement calculer une valeur moyenne pour la troisième colonne :
Il ne s'agissait plus que d'un petit survol de fonctions très simples de tableaux et de statistiques dans le langage de programmation R.
Je me réjouis des suggestions et des critiques.
tl, dr;
Fonctions statistiques simples en R et création et utilisation de tableaux dans ce langage de programmation.
Commentaires (0)