i

Daten erkunden

Data Scientists verwenden Datenanalysewerkzeuge, um die Daten zu erkunden. Ein häufig verwendetes Analysewerkzeug sind Juypter Notebooks auf Basis der Programmiersprache python. Wenn du mit dem kleineren selbsterhobenen Datensatz (Datensatz Variante I) arbeitest, kannst du für die folgenden Aufgaben auch ein anderes Analysetool wie Excel oder CODAP verwenden. Mehr zu Jupyter Notebooks findest du im gleichnamigen Abschnitt dieses Kapitels.

Aufgabe 1 - Daten einlesen und ausgeben

Lade dir das Jupyter-Notebook für das Einlesen und Ausgeben der Daten herunter und speichere es im gleichen Ordner wie den Filmdatensatz.
  1. Beantworte mit Hilfe des Notebooks folgende Fragen:
    • Wie viele Filme sind im Datensatz, d.h. wie viele Zeilen hat die movies Datei?
    • Was steht in Zeile 5 der movies Datei?
    • Wie viele Spalten hat die ratings Datei und wie heißen die Spalten?
    • Wie hoch ist das rating in der letzten Zeile?
    • Wie viele Ratings wurden insgesamt abgegeben?
  2. Erzeuge eine Ausgabe, die nur die Spalte der abgegebenen Bewertungen beinhaltet.
  3. Erzeuge eine Tabelle, in der nurnoch die Titel und die Genre der Filme angegeben sind, nicht aber die movieId.
  4. Finde heraus, welche Bewertung in Zeile 13 steht.
  5. Gib eine Liste aller 1-Sterne-Bewertungen aus.
  6. Gib eine Liste aller Filme aus, die dem Genre 'Comedy' angehören.
  7. Suche im Datensatz nach deinem Lieblingsfilm.
Im Jupyter Notebook von Aufgabe 1 hast du bereits das pandas DataFrame Objekt kennengelernt.
Ein DataFrame ist eine Datenstruktur der Bibliothek pandas. Er hat die Form einer Tabelle bzw. eines zweidimensionalen Arrays. Ein DataFrame wird verwendet, um große Datenmengen übersichtlich darzustellen und auf ihnen zu arbeiten.

Aufgabe 2 - Daten erkunden

Lade dir das Jupyter-Notebook für die Datenerkundung herunter und speichere es im gleichen Ordner wie den Filmdatensatz. Beantworte mit Hilfe des Notebooks folgende Fragen:
  1. Welchen Datentyp hat die movieId? Welchen die Spalte rating? Welchen die Spalte title?
  2. Wie lautet der Median der Bewertungen? Wie lautet der Mittelwert der Bewertungen?
  3. Was ist die maximale movieId? Was ist die minimale userId?
  4. Wurden nur ganzzahlige Sternebewertungen abgegeben?
  5. Wie oft wurde eine Bewertung von 2 Sternen abgegeben?
  6. Beantworte die Frage im Jupyter Notebook.
  7. Welche userId's haben die ersten sieben Nutzer, wenn die Tabelle absteigend nach den Bewertungen sortiert wird?
  8. Welche userId's haben die ersten sieben Nutzer, wenn die Tabelle aufsteigend nach den Bewertungen sortiert wird?
  9. Welche userId's haben die letzten sieben Nutzer, wenn die Tabelle aufsteigend nach den Bewertungen sortiert wird?

Suche

v
14.5.1.1.2.4
www.inf-schule.de/projekte/datascience/projekt_empfehlungssysteme/projektexpertise/datenexpertise/daten_erkunden
www.inf-schule.de/14.5.1.1.2.4
www.inf-schule.de/@/page/pCbsNT7XUwIv7DGg

Rückmeldung geben