Premiers pas avec R / Partie II

Statistiques et tableaux

Cette partie de ma petite série ouverte sur le langage de programmation R concerne les fonctions statistiques simples et le travail avec et la création de tableaux.

Je suis un débutant en R et comme je n'ai pas le temps de m'entraîner toute une journée, j'essaie de trouver sur le net des instructions qui m'expliquent aussi facilement que je le fais pour vous. Les exercices mentionnés ici m'aideront, je l'espère, à être mieux à même de créer des tableaux présentables et évaluables.

Dans la première partie de ma petite série ouverte, j'ai traité des fonctions de chaînes simples.

En tant que débutant total en R, je suis actuellement à la recherche de tutoriels que je peux mettre en œuvre avec mes connaissances.

Je suis tombé sur le site web The Programming Historian, où il y a actuellement (en janvier 2020) 80 leçons ( Lien : https://programminghistorian.org/en/lessons/)) pour les historiens de la programmation, mais elles devraient être intéressantes pour un concepteur de programmation comme moi. J'ai choisi d'utiliser le traitement de texte de base de Taylor Arnold en leçon R pour évaluer le texte de Tom Wolfe Look Homeward, Angels ! La transcription et mes notes sur cet exercice seront disponibles dans le prochain épisode.

Mais avant cela, je vais d'abord travailler sur la leçon de Taryn Dewar sur les bases du R et jouer avec les données et les fonctions mentionnées ci-dessus pour mieux comprendre.

Cette note de travail traite entre autres de ces fonctions du langage de programmation R :

setwd(), dir(), paste(), write.table(), data(), mean(), median(), min(), max(), quantile(), summary(), cbind(), rbind(), rownames(), colnames(), t()

Fonctions statistiques simples

Mean() etMedian()

Le tutoriel contient quelques bases pour le traitement des valeurs statistiques, telles que la valeur moyenne, la valeur médiane, les valeurs maximales et les valeurs minimales.

Comme vous l'avez peut-être remarqué, mon blog et surtout cette série d'articles est une sorte de fonction de note publique pour moi.

Voici donc un bref protocole de mes gadgets avec R et les fonctions mean() et median() en utilisant la liste des passagers fournie dans R et celle de l'article de The Programming Historian mentionné ci-dessus.

Dans un premier temps, j'ouvre R et je crée mon répertoire de travail.

setwd("C:/R/r-wolfe")

Mettre en place un répertoire de travail.

La fonction mean() renvoie la valeur moyenne d'un ensemble de données, la fonction median() la valeur dite centrale - la valeur de la base de données qui se trouve exactement au milieu - ce n'est pas nécessairement la valeur moyenne.

Les données de la liste des passagers dans R sont obtenues avec les data(AirPassagers), comme vous pouvez le voir dans un tableau simple avec le nombre de passagers (en 1000) qui ont volé entre janvier 1949 et décembre 1960. Veuillez faire attention aux majuscules et aux minuscules.

data(AirPassengers)
AirPassengers
     Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
1949 112 118 132 129 121 135 148 148 136 119 104 118
1950 115 126 141 135 125 149 170 170 158 133 114 140
1951 145 150 178 163 172 178 199 199 184 162 146 166
1952 171 180 193 181 183 218 230 242 209 191 172 194
1953 196 196 236 235 229 243 264 272 237 211 180 201
1954 204 188 235 227 234 264 302 293 259 229 203 229
1955 242 233 267 269 270 315 364 347 312 274 237 278
1956 284 277 317 313 318 374 413 405 355 306 271 306
1957 315 301 356 348 355 422 465 467 404 347 305 336
1958 340 318 362 348 363 435 491 505 404 359 310 337
1959 360 342 406 396 420 472 548 559 463 407 362 405
1960 417 391 419 461 472 535 622 606 508 461 390 432

Le tableau AirPassagers est inclus dans l'installation de R.

La valeur moyenne de tous les mois est obtenue avec

mean(AirPassengers)
[1] 280.2986

mean()

et la médiane avec

median(AirPassengers)
[1] 265.5

median()

Nous obtenons la plus petite valeur avec la fonction min().

min(AirPassengers)
[1] 104

min()

Nous obtenons la valeur la plus élevée dans le tableau Passagers avec la fonction max().

max(AirPassengers)
[1] 622

max()

Les quantiles comme mesures de localisation

quantile() et summary()

Nous pouvons également afficher des quantiles avec la fonction quantile(). Les quantiles sont des mesures importantes de la situation dans le domaine des statistiques et surtout des statistiques démographiques et de l'ergonomie. Le quantile de 25% est la valeur pour laquelle 25% de toutes les valeurs sont inférieures à cette valeur.

quantile(AirPassengers)
   0%   25%   50%   75%  100% 
104.0 180.0 265.5 360.5 622.0

La fonction quantile() nous montre les valeurs qu'un ensemble de valeurs ne dépasse pas ou ne tombe pas en dessous.

Dans R, il existe pratiquement une fonction qui résume les données statistiques les plus importantes, c'est la fonction summary().

summary(AirPassengers)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  104.0   180.0   265.5   280.3   360.5   622.0

Evaluez brièvement un tableau avec summary().

Fonctions de table simples

Créez vos propres tableaux

Comment pouvons-nous maintenant créer nous-mêmes des tableaux ? C'est incroyablement facile en R et très rapide.

Supposons que nous voulions écrire ces données dans un tableau :

data1 <- c(2,30,38,13)
data2 <- c(7,20,36,3)
data1
[1]  2 30 38 13
data2
[1]  7 20 36  3

Quelques exemples de données.

Pour créer une matrice à partir de ces données, nous pouvons utiliser la fonction cbind(), que l'on traduit grosso modo par s'attacher ensemble (column bind). Bien entendu, nous pouvons modifier l'ordre des données insérées entre parenthèses. Pour ce R utilise nos noms d'objets comme en-têtes de colonnes.

table <- cbind(data1,data2)
table
     data1 data2
[1,]     2     7
[2,]    30    20
[3,]    38    36
[4,]    13     3

La fonction cbind() rétrécit le tableau pour nous.

Et cela ressemblerait à ceci avec la fonction rbind() - Ramez et reliez-les ensemble (row bind) comme ceci. Les noms des objets sont utilisés comme étiquettes de ligne.

table <- rbind(data1,data2)
table
      [,1] [,2] [,3] [,4]
data1    2   30   38   13
data2    7   20   36    3

Avec rbind(), le tableau est relié ligne par ligne.

Et nous pouvons également ajouter des lignes, dans ce cas les valeurs des data3:

data3 <- c(1,2,3,5)

table <- rbind(table,data3)
> table
      [,1] [,2] [,3] [,4]
data1    2   30   38   13
data2    7   20   36    3
data3    1    2    3    5

Ajoutez des lignes.

Bien sûr, les noms des lignes et des colonnes n'ont pas encore l'air si étincelants. Cela peut être modifié assez rapidement. Nous renommons simplement les colonnes ainsi que les en-têtes de ligne en utilisant rownames() pour les lignes et colnames() pour les colonnes :

rownames(table) <- c("Januar","Februar","März")
> table
        [,1] [,2] [,3] [,4]
Januar     2   30   38   13
Februar    7   20   36    3
März       1    2    3    5

colnames(table) <- c("Woche 1","Woche 2","Woche 3","Woche 4")
> table
        Woche 1 Woche 2 Woche 3 Woche 4
Januar        2      30      38      13
Februar       7      20      36       3
März          1       2       3       5

rownames(), colnames()

Si nous n'aimons pas cet arrangement, nous inversons simplement le tableau avec t(). Le t est l'abréviation de transposer, qui peut facilement être traduit par convertir.

t(table)
        Januar Februar März
Woche 1      2       7    1
Woche 2     30      20    2
Woche 3     38      36    3
Woche 4     13       3    5

Convertir (inverser) les tableaux avec t().

Et, bien sûr, nous pouvons aussi faire des évaluations pour la table à nouveau :

summary(table)
summary(table)
    Woche 1         Woche 2         Woche 3         Woche 4  
 Min.   :1.000   Min.   : 2.00   Min.   : 3.00   Min.   : 3  
 1st Qu.:1.500   1st Qu.:11.00   1st Qu.:19.50   1st Qu.: 4  
 Median :2.000   Median :20.00   Median :36.00   Median : 5  
 Mean   :3.333   Mean   :17.33   Mean   :25.67   Mean   : 7  
 3rd Qu.:4.500   3rd Qu.:25.00   3rd Qu.:37.00   3rd Qu.: 9  
 Max.   :7.000   Max.   :30.00   Max.   :38.00   Max.   :13

La fonction summary() est appliquée au tableau actuel.

Et pour les lignes ou colonnes individuelles, en mettant la ligne avant la virgule ou la colonne après la virgule entre crochets.

summary(table[1,])
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   2.00   10.25   21.50   20.75   32.00   38.00 
> summary(table[,1])
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  1.000   1.500   2.000   3.333   4.500   7.000

Ou simplement calculer une valeur moyenne pour la troisième colonne :

mean(table[,3])
[1] 25.66667

Il ne s'agissait plus que d'un petit survol de fonctions très simples de tableaux et de statistiques dans le langage de programmation R.

Je me réjouis des suggestions et des critiques.

tl, dr;

Fonctions statistiques simples en R et création et utilisation de tableaux dans ce langage de programmation.

Cronhill