Le logiciel R pour la statistique

1) Introduction

R est le logiciel libre de traitement des données et d'analyse statistiques qui est le plus utilisé dans le monde.

Alea (R et statistique en sciences sociales)   Introduction à R.pdf
Programmation sous le logiciel R
Aide mémoire R

Aide en ligne : http://www.rdocumentation.org/
Ressources officielles : http://www.r-project.org/

L'installation est disponible à travers les systèmes de paquets (apt-get, port, yum, brew, etc...)
On lance l'interpréteur de commande en tapant R, et on tape q( ) pour le quitter.

x <- 2

Met 2 dans x.

x <- c(2) Met 2 dans x
x <- c(1,2,3) Met le vecteur (1,2,3) dans x
x <- c(2,"Hello",5) Met le vecteur (2,"Hello",5) dans x
x[2] Retourne la deuxième composante de x
x <- c(x,9) Ajoute une composante au vecteur x
c(y,z,1,2,3) Génère un vecteur applati
5:8 Génère (5,6,7,8)

c signifie combiner c'est à dire construir un vetcteur. Un nombre est un vecteur de dimension 1.

x + y Addition composante par composante
- x Opposé composante par composante

x * y

Multiplication composante par composante
x / y Division composante par composante
x ^ y Puissance composante par composante

Les arguments doivent être des vecteurs de même tailles ou de taille multiple, le plus petit vecteur étant alors répété autant de fois que nécessaire pour constituer un vecteur de même taille que l'argument requéreur. Ainsi c(2,3,4,5)^c(1,2) = c(2,9,4,25).

L'affichage des vecteurs se fait en affichant les composantes séparées par des espaces, et éventuellement sur plusieurs lignes, chaque ligne commençant par l'indice entre croché de la première composante affiché. Exemple :

 [1]   5  10  20 100  10   2
 [7] 200 150 132 234 850 125
[13] 320 2 12 120 23

Cela représente un vecteur contenant comme première composante, 5, comme deuxième composante, 10, et comme septième composante, 200.

Si une commande est entrée de façon incomplète, le symbole + apparait comme prompt et l'on peut compléter la commande.

TRUE

Valeur booléenne vrai

FALSE Valeur booléenne fausse
NA Valeur désignant l'absence de valeur

length(x)

Longueur de x (dimension du vecteur x)

mean(x) Moyenne de x
var(x) Variance de x
sd(x) Ecart type de x
min(x) Minimum de x
max(x) Maximum de x
paste(x) Conversion composante par composante en vecteur de string
   
   


mean(x, na.rm=TRUE) Moyenne de x sans tenir compte des valeurs manquante

Pour optenir de l'aide (en anglais) sur une fonction tel que par exemple var, on peut taper l'une de ces trois commandes :

Les commentaires par ligne commence par un #

2) Matrice

x <- 1:12                # Rempli le tableau de 1 à 12
dim(x) <- c(3,4)     # Spécifie les dimensions
x
     [,1] [,2] [,3] [,4]
[1,]    1    4    7   10
[2,]    2    5    8   11
[3,]    3    6    9   12 
nrow(x) Nombre de lignes dans x
ncol(x) Nombre de colonnes dans x
rownames(x) <- c("L1","L2","L3") Nomme les lignes de x
colnames(x) <- c("C1","C2","C3","C4") Nomme les colonnes de x
names(x) Liste le nom de chaque colonne de x.
str(x) Liste le type, le nom et les premières valeurs de chaque colonne de x
edtit(x) Consultation du tableau x

x.modif <- edit(x)

Consultation-modification du tableau x
x <- edit(x) Consultation-modification du tableau x
x$toto Liste la colonne "toto" de x
head(x) Affiche les premiers termes
head(x,3) Affiche les 3 premiers termes
tail(x,3) Affiche les 3 derniers termes
   

3) Fichier

getwd( ) Affiche le répertoire courant. Exemple "/home/dmabboux"
setwd("/home/dmabboux/R") Change le répertoire courant
write.table(x,file="toto.txt", sep=" ") Sauvegarde la table x dans le fichier texte "toto.txt"
y <- read.table("toto.txt") Charge dans y la table contenue dans le fichier texte "toto.txt"
save(x,y,z, file = "a.RData") Sauvegarde les données x,y,z dans le fichier "a.RData"
load("a.RData") Recharge les données x,y,z qui sont dans le fichier "a.RData"
save.image( ) Sauvegarde tous les données dans le fichier "a.RData"

Parmi les options disponibles, on citera notamment :

Lise Bellanger, Richard Tomassone, "Exploration de données et méthodes statistiques", Eitions ellipses, 2014

 

2) Représentation d'un échantillon