Analyse de données avec R

Contextualisation et présentation de R et Rstudio



Logiciels d’analyse statistique

SAS, SPAD, SPSS… et R


Depuis le début des années 2000, un nouveau logiciel gagne en importance et s’impose progressivement comme une référence, au même titre que les trois principaux logiciels d’analyse de données qui dominent le marché.

On peut imaginer que les utilisateurs de logiciels statistiques vont progressivement converger vers R

Les logiciels propriétaires sont…

Payants

Licence SPSS Base edition

Pas multi-plateforme



Logiciel/Système Windows MacOS Linux BSD Autres Unix
SAS oui terminé oui non oui
SPAD oui non non non non
SPSS oui oui non non non
Stata oui oui oui non non

https://fr.wikipedia.org/wiki/Comparaison_des_logiciels_de_statistiques

Spécialisés


    • SPSS : orienté vers les sciences sociales
    • SPAD : orienté vers la prise de décision
    • Stata : orienté pour les économistes et épidémilogistes
    • SAS : assez complet, limité dans certains domaines (ex: graphique)


Ils offrent peu ou pas d’analyse de réseau, d’analyse de séquence, de léxicométrie (sauf SPAD)… Et très peu de fonctionnalités de valorisation.

Limités

La gestion centralisée induit des limites de :

    • Durabilité
    • Liberté d’utilisation
    • Compatibilité avec d’autres logiciels (format des données)
    • Mise à jour et compatibilité entre versions
    • Développement de nouvelles fonctionnalités
    • Langues disponibles (logiciel et aide)
    • Ressources d’information disponibles

Des obstacles pour…


    • La formation
    • L’utilisation
    • Le travail collaboratif
    • Le travail interdisciplinaire
    • Le travail reproductible


C’est pour cela que l’on utilise R

Frères ennemis


Deux langages très utilisés pour l’analyse et le traitement des données.
Très souvent comparés pour leurs fonctionnalités semblables

Le choix entre R et Python dépend surtout de
Qui je suis et de ce que je veux faire ?

Deux communautés

différentes…

    • Communauté accessible et inclusive
    • Documentation riche et structurée
    • Discipline : analyse de données
    • Métiers : recherche & développement


Des spécificités

R a autant de cerveau…

    • Plus facile à prendre en main (Rstudio)
    • Analyse statistique
    • Représentation graphique
    • Valorisation (markdown, application…)

Pour les utilisateurs moins avancés en programmation
spécialisés dans l’analyse de données

Histoire de R


R se base sur le langage de programmation S, créé en 1988

    • 1992: R. Gentleman et R. Ihaka démarrent le développement (projet de recherche)
    • 1993: Première version binaire de R publiée sur Statlib
    • 1995: R est distribué en tant que logiciel open source, sous licence GPL2
    • 1997: Création du R core group. Création du CRAN (par K. Jornik et F. Leisch)
    • 1999: Création du site web de R (r-project.org) . Première réunion physique de la R core team
    • 2000: R 1.0.0 est publié. John Chambers (créateur du langage S), rejoint la R Core team
    • 2001: Création de R News (qui deviendra R Journal)
    • 2003: Création de la R Foundation
    • 2004: Première conférence UseR! (Vienne)
    • 2004: R 2.0.0 est publié
    • 2009: Première édition du R Journal
    • 2013: R 3.0.0 est plublié
    • 2015: Création du R Consortium (avec la participation de la R Foundation)
    • 2020: R 4.0.0 est plublié

https://blog.revolutionanalytics.com/2017/10/updated-history-of-r.html

Soutiens importants


Résultat de 30 années de recherche & développement


Des acteurs économiques importants financent le développement de R : Microsoft, Google, Oracle, Esri


https://www.r-consortium.org/members.

Libre et multi-plateforme


    • R est un logiciel/langage libre (open source)


    • Il fait partie de la liste des paquets GNU GPLv3


    • R est multi-plateforme


Logiciel/Sytsème Windows MacOS Linux BSD Autres Unix
R oui oui oui oui oui

Développement illimité


R propose 2888 fonctions statistiques et graphiques standard (primitives)

Sur ce socle commun peut s’ajouter de nombreux packages, mis à disposition sur le
Comprehensive R Archive Network (CRAN). Ex :

    • quanteda - analyse textuelle
    • igraph - analyse de réseau
    • sf - manipulation de données spatiales
    • shiny - applicacions web interactives


R a une structure modulaire qui offre toute une gamme d’applications possibles. Son expansion n’est limitée que par les contributions.

Développement illimité


Nombre de packages disponibles sur le CRAN

Polyvalent


Les packages mises à disposition permettent d’opérer sur l’ensemble de la chaîne de traitement. De la collecte des données à la valorisation des résultats (gaphique, document, site web…)


Cette polyvalence permet à R de compléter, de concurrencer voire de remplacer toute une série de logiciels existants

Polyvalent


Grande communauté d’utilisateurs

https://benubah.github.io/r-community-explorer/rugs.html

…Et d’entreprises

https://data-flair.training/blogs/r-careers/

Fiable


    • Financement d’acteurs économiques (R Consortium)
    • Communauté impliquée et importante
    • Le fonctionnement d’un logiciel open source est vérifiable
    • Tous les logiciels ont des failles, mais…


L’information circule vite dans les communautés des logiciels libres.

Travaux reproductibles


    • Un seul logiciel pour toutes les étapes de traitement
    • Les travaux sont facilement archivés et partagés (script)
    • Il suffit d’un ordinateur pour les reproduire….


La reproductibilité, c’est le partage et la transparence !

Inconvénients


    • R est avant tout un langage de programmation


    • R et ses ressources clefs sont en anglais


    • Une interface rudimentaire

Qu’est-ce que Rstudio?


RStudio est une entreprise qui développe et publie des logiciels et des services basés sur le langage R. C’est l’acteur privé le plus important de la communauté R.

Rstudio (ou ses employés) a développé plusieurs packages de référence. Ex :


Rstudio propose également un Environnement de Développement Intégré (IDE), qui facilite énormément l’utilisation de R.

Interface rudimentaire de R

Interface de R sur Windows

IDE Rstudio

IDE Rstudio

Autres points forts


    • Création de projet
    • Fonctionnalités clic-bouton
    • Auto-complétion
    • Raccourcis clavier


Parce que c’est simple, complet et en constante évolution

Utilisez l’environnement RStudio!

Installation

Installer R


L’installation de R et de l’IDE Rstudio se fait comme n’importe quel autre logiciel. Connectez-vous au CRAN pour télécharger R.


https://cran.r-project.org/

Installer l’IDE Rstudio

Téléchargez la version ‘Desktop’ sur le site de Rstudio

https://rstudio.com/products/rstudio/download/

c’est parti !

Lancez Rstudio (pas R) pour commencer

Diapositives libres (CC BY 3.0)


Consultation :


Code source :


Documentation


De nombreuses ressources documentaires référencées sur…


rzine.fr

Remerciements


Timothée Giraud (CNRS)

Violaine Jurie (Université de Paris)



REVEAL.JS

Merci de votre attention

On continue ?


Partie 2 : Introduction au langage et à l’IDE Rstudio
  • Une super calculatrice
  • R et objets
  • R base et packages
  • Packages populaires
  • Les atouts de l’IDE Rstudio
  • Aide et documentation


Voir le diaporama