1  R und RStudio: Erste Schritte

1.1 Was ist R?

R ist eine freie Programmiersprache, die von Ross Ihaka und Robert Gentleman für statistische Anwendungen Anfang der 1990er Jahre entwickelt wurde und seitdem eine der Standard-Programmiersprachen in der Statistik ist. Seit vielen Jahren findet R auch zunehmend Verbreitung in anderen Gebieten, wie zum Beispiel der Bioinformatik und der Systembiologie, der Meteorologie, Data Science, der Wirtschaft oder auch der Psychologie, um nur ein paar Beispiele zu nennen.

Für den Erfolg von R gibt es viele Gründe:

  • R ist kostenfrei und läuft auf allen gängigen Plattformen, d.h. Downloads gibt es für Windows, Linux und Mac OS.
  • R bietet sehr gute Datenstrukturen und Funktionen für statistische Anwendungen und ist zudem bestens geeignet datenbasierten Grafiken zu erzeugen.
  • Desweiteren bietet R sehr viele Schnittstellen zu anderer Software, wie zum Beispiel diverser Statistiksoftware (SPSS, SAS, Stata), Excel, zu Datenbanken, XML, SAP, TensorFlow bis hin zu Geodaten und Audiodateien und sehr viel mehr. Mehr Informationen, sowie einführende Dokumentationen findet man auf der Seite r-project.org.

Auch wenn R als Statistiksoftware angefangen hat, bietet es heute ein sehr breites Spektrum an Möglichkeiten.

Abbildung 1.2: R Terminal: öffnet man R so erhält man ein Terminal (Konsole) in dem R läuft. Hinter dem Prompt > können R Kommandos eingegeben werden, die dann nach dem Drücken der Enter-Taste ausgeführt werden.

1.2 Was ist RStudio?

RStudio ist eine komfortable grafische Entwicklungsumgebung (IDE – Integrated Development Environment) für R. Wie man oben sieht ist das pure R nur eine Konsole in die man R-Code eingibt. Möchte man mit R arbeiten, so ist es insbesondere wichtig, dass man R-Code nicht nur einmalig in eine Konsole eingibt, sondern Skripte erstellen und speichern kann, erzeugte Grafiken sieht, Hilfefunktionen nutzt, und vieles mehr. All dies bringt RStudio mit sich. Welche Funktionalitäten der Editor bzw. das RStudio noch liefert, wird im Laufe des Kurses klar.

Abbildung 1.3: RStudio: oben links ist der Editor, unten links die R-Konsole, unten rechts sieht man eine Grafik, die aus dem obigen R-Code erzeugt wurde.

Wie R ist auch das RStudio für Normalbenutzer kostenlos nutzbar.

Aufgabe: R und RStudio installieren

Ihre erste Aufgabe besteht darin R und RStudio auf Ihrem Rechner zu installieren.

1.3 Pakete

Die Grundfunktionen von R sind für viele Anwendungen nicht ausreichend bzw. nur umständlich zu bewältigen. Daher wurden von vielen Entwicklern R-Pakete entwickelt, die neue Funktionen und neue Datensätze enthalten. Auf CRAN (The Comprehensive R Archive Network), der Hauptquelle von Paketen, gibt es derzeit etwas mehr als 21000 Pakete (Stand August 2024). Um ein Paket zu nutzen muss man dieses

  • installieren. Dies macht man im wesentlich einmal, danach ist das Paket Teil des Systems.

Will man nun das Paket nutzen, so muss es

  • geladen werden. Dabei ist zu beachtet, dass Pakete nach jedem Neustart von R geladen werden müssen!

1.3.1 Installation von Paketen

Die Installation eines Pakets kann mithilfe des RStudios geschehen. Dabei muss man festlegen woher das Paket installiert wird. Es gibt im Wesentlichen zwei Möglichkeiten:

  • Repository (CRAN): Die wesentliche R-Paketsammlung.

  • Package Archive File (.tar.gz): Auf diese Art installiert man Pakete, die sich lokal auf dem eigenen Rechner befinden (und nicht auf CRAN hochgeladen wurden).

Abbildung 1.4: Pakete installieren: Im Fenster unten rechts gibt es den Punkt Packages und in diesem Reiter den Knopf Install über den man zu einer Eingabemaske kommt in der man das Paket suchen und danach installieren kann.

Alternativ kann ein Paket auch über die Konsole installiert werden. Soll zum Beispiel das Paket psych installiert werden, so kann man in die Konsole schreiben:

Aufgaben: Pakete installieren
  1. Installieren Sie die Paketsammlung tidyverse, sowie die Pakete pacman, palmerpenguins und das Paket ggthemes aus dem CRAN Repository. Diese Pakete werden wir im Kapitel Kapitel 3 benötigen. Im Laufe des Kurses werden noch einige Pakete hinzukommen, die Sie dann bei Bedarf installieren müssen.

  2. Laden Sie die Pakete DA.students_1.0.tar.gz und DA.covid_1.0.tar.gz herunter

    • Installieren Sie auch diese beiden Pakete auf Ihrem Rechner.
    • Nach der Installation finden Sie die Pakete im RStudio im Reiter Packages. Was fällt Ihnen bezüglich der Namen der Pakete auf?

Achtung: sollten Sie den Browser Safari nutzen, so müssen sie in den Einstellungen das Automatische Entpacken von zip-Dateien beim Download ausschalten, ansonsten können Sie die heruntergaldene Datei nicht öffnen!

1.3.2 Laden von Paketen

Ist ein Paket einmal installiert, so kann es genutzt werden. Dazu müssen wir es laden. Eine Möglichkeit zum Laden eines Pakets ist es den Haken neben dem Paketnamen in der Liste der installierten Pakete zu setzen.

Abbildung 1.5: Pakete laden: Unter dem Punkt Packages findet man ein Liste aller installierten Pakete. Zum Laden setzt man einen Haken neben das Paket. Im Beispiel wurde das PAket psych geladen.

Man kann Pakete auch über die Konsole laden. Die Funktion dafür ist library():

Tipp: Laden von Paketen

Ein sehr praktisches Paket ist das Paket pacman (package manager), das beim Laden von Paketen hilft: Es muss das Paket pacman geladen werden, das die Funktion p_load() zur Verfügung stellt mit der dann alle weiteren Pakete geladen bzw. installiert und geladen werden können.

library(pacman)
p_load(tidyverse, psych)

Warum sollte man Pakete so laden?

  • Man schreibt immer nur zwei Funktionen, egal wie viele Pakete geladen werden müssen.
  • Der echte Vorteil ist aber: sollte ein Paket aus der zu ladenden Liste nicht installiert sein, so wird das Paket automatisch installiert. Dies ist insbesondere dann praktisch, wenn R neu installiert wird (zum Beispiel auf einem neuen Rechner) oder wenn man in einer Gruppe arbeitet und Skripte austauscht.