# Datensatz Umstrukturierung für inhaltsbasiertes Empfehlungssystem

In [1]:
import pandas as pd
import re

ratings = pd.read_csv(r'ratings.csv',encoding='latin-1')
movies = pd.read_csv(r'movies.csv',encoding='latin-1')

## Schritt 1: Aufspalten der Filminformationen

Aktuell stehen alle Genre in einer Spalte des DataFrames. Wir benötigen für jedes Genre eine einzelne Spalte, in welcher durch 0 oder 1 angegeben ist, ob ein Film das Genre beinhaltet oder nicht. Dafür erstellen wir für jedes Genre eine neue Spalte und betrachten, ob das Genre in den Genres des jeweiligen Films angegeben ist oder nicht.<br/><br/>

<i>Es kann sein, dass du eine Warnung erhälst, wenn du diesen Code ausführst. Diese kannst du ignoieren.</i>

In [3]:
for elem in movies['genres'].str.split(pat = '|', expand = False).explode().unique():
    column = []
    for i in range(len(movies)):
        if elem in movies['genres'].str.split(pat = '|', expand = False)[i]:
            column.append(1)
        else:
            column.append(0)
    movies[elem] = column
movies

Unnamed: 0,movieId,title,genres,Action,Adventure,Sci-Fi,IMAX,Children,Comedy,Fantasy,Animation,Romance,Drama,War,Crime,Thriller,Musical
0,1,Avatar (2009) (Aufbruch nach Pandora),Action|Adventure|Sci-Fi|IMAX,1,1,1,1,0,0,0,0,0,0,0,0,0,0
1,2,Avengers (2019) (Endgame),Action|Adventure|Sci-Fi,1,1,1,0,0,0,0,0,0,0,0,0,0,0
2,3,Batman - The Dark Knight (2008),Action|Adventure,1,1,0,0,0,0,0,0,0,0,0,0,0,0
3,4,Charlie and the Chocolate Factory (2005),Adventure|Children|Comedy|Fantasy|IMAX,0,1,0,1,1,1,1,0,0,0,0,0,0,0
4,5,Simpsons Movie (2007),Animation|Comedy,0,0,0,0,0,1,0,1,0,0,0,0,0,0
5,6,The Hunger Games: Catching Fire (2013),Action|Adventure|Sci-Fi|IMAX,1,1,1,1,0,0,0,0,0,0,0,0,0,0
6,7,Jungle Book (1994),Adventure|Children|Romance,0,1,0,0,1,0,0,0,1,0,0,0,0,0
7,8,Fack ju Goethe,Comedy,0,0,0,0,0,1,0,0,0,0,0,0,0,0
8,9,Finding Nemo (2003),Adventure|Animation|Children|Comedy,0,1,0,0,1,1,0,1,0,0,0,0,0,0
9,10,Pirates of the Caribbean (2003),Action|Adventure|Fantasy,1,1,0,0,0,0,1,0,0,0,0,0,0,0


## Schritt 2: Spalten mit nicht notwendigen Informationen löschen

Unser inhaltsbasiertes Empfehlungssystem arbeitet nur mit den Informationen über die Genre der Filme. Daher löschen wir die Spalte mit dem Titel. Außerdem löschen wir die Genre Spalte, da diese Informationen nun in den anderen Spalten enthalten sind.<br/><br/>
<i>Achtung: Diese Codezelle kannst du nicht mehrmals ausführen, da die Spalten nicht nochmal gelöscht werden können.</i>

In [4]:
movies = movies.drop(['title','genres'], axis='columns')
movies

Unnamed: 0,movieId,Action,Adventure,Sci-Fi,IMAX,Children,Comedy,Fantasy,Animation,Romance,Drama,War,Crime,Thriller,Musical
0,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0
1,2,1,1,1,0,0,0,0,0,0,0,0,0,0,0
2,3,1,1,0,0,0,0,0,0,0,0,0,0,0,0
3,4,0,1,0,1,1,1,1,0,0,0,0,0,0,0
4,5,0,0,0,0,0,1,0,1,0,0,0,0,0,0
5,6,1,1,1,1,0,0,0,0,0,0,0,0,0,0
6,7,0,1,0,0,1,0,0,0,1,0,0,0,0,0
7,8,0,0,0,0,0,1,0,0,0,0,0,0,0,0
8,9,0,1,0,0,1,1,0,1,0,0,0,0,0,0
9,10,1,1,0,0,0,0,1,0,0,0,0,0,0,0


## Schritt 3: Verknüpfen mit den Bewertungsinformationen des Nutzers

Du kannst hier einen Nutzer auswählen, für den du die Tabelle ausgeben möchtest. Die Filminformationen werden dann mit den Bewertungsinformationen verknüpft. Mehr dazu findest du auf inf-schule 14.5.1.1.2.2. Wir löschen die Spalte userId, die beim Zusammenfügen hinzukommt, da wir nur einen festen Nutzer betrachten und daher nicht mehr zwischen den Nutzern unterscheiden müssen.

In [5]:
nutzer = 2
ratings_user = ratings[ratings['userId']==nutzer]
total_user = pd.merge(movies,ratings_user,left_on=['movieId'],
              right_on=['movieId'],
              how='inner').drop(['userId'], axis='columns')
total_user

Unnamed: 0,movieId,Action,Adventure,Sci-Fi,IMAX,Children,Comedy,Fantasy,Animation,Romance,Drama,War,Crime,Thriller,Musical,rating
0,2,1,1,1,0,0,0,0,0,0,0,0,0,0,0,3.0
1,3,1,1,0,0,0,0,0,0,0,0,0,0,0,0,5.0
2,4,0,1,0,1,1,1,1,0,0,0,0,0,0,0,4.0
3,5,0,0,0,0,0,1,0,1,0,0,0,0,0,0,2.5
4,6,1,1,1,1,0,0,0,0,0,0,0,0,0,0,4.0
5,7,0,1,0,0,1,0,0,0,1,0,0,0,0,0,2.0
6,8,0,0,0,0,0,1,0,0,0,0,0,0,0,0,4.0
7,9,0,1,0,0,1,1,0,1,0,0,0,0,0,0,3.0
8,10,1,1,0,0,0,0,1,0,0,0,0,0,0,0,4.0
9,12,0,1,0,0,1,1,1,1,0,0,0,0,0,0,2.0
