# Datensatz Vorbereitung für kollaboratives Empfehlungssystem

In [1]:
import pandas as pd

ratings = pd.read_csv(r'ratings.csv',encoding='latin-1')

## Schritt 1: Bewertungstabelle erzeugen

Da das kollaborative Empfehlungssystem nur mit den Bewertungen arbeitet, benötigen wir die Filminformationen nicht und brauchen die auch nicht einlesen. Wir arbeiten also nur mit der 'ratings'-Datei. <br/>
Pandas bietet einen Befehl an, der genau die Tabellenform aus den Zeilen erzeugt, die wir benötigen. Dieser nennt sich pivot_table. Dafür geben wir nur die Spaltennamen an, die anschließend die Zeilen und Spalten bilden sollen.

In [2]:
ergebnis = pd.pivot_table(ratings[ratings['movieId']<10], index="userId", columns="movieId", values="rating")
ergebnis

movieId,1,2,3,4,5,6,7,8,9
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2,3.5,,,,,,,,
3,4.0,,,,,,,,
4,3.0,,,,,,,,
5,4.0,,,,,,,,
8,4.0,,4.0,,,3.0,1.0,,
...,...,...,...,...,...,...,...,...,...
162529,2.0,4.0,1.0,,2.0,2.0,1.0,,
162530,5.0,,,,,,,,
162533,4.5,4.0,,,,4.5,,,
162534,4.0,,,,,,,,


## Schritt 2: NaN Werte füllen

In der Ausgabe siehst du, dass viele Bewertungen fehlen. Für die weitere Verarbeitung benötigen wir eine vollständige Tabelle. Daher müssen wir die NaN Werte erst einmal durch Lückenfüller ersetzen. <br/><br/>
Diskutiere, welche Lückenfüller du verwenden würdest und bearbeite den Code, sodass diese eingesetzt werden.<br/>
Zu einem späteren Zeitpunkt überlegen wir, welche Möglichkeiten es noch gibt.

In [3]:
ergebnis.fillna(0, inplace=True)
ergebnis

movieId,1,2,3,4,5,6,7,8,9
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2,3.5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,4.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,3.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
5,4.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
8,4.0,0.0,4.0,0.0,0.0,3.0,1.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...
162529,2.0,4.0,1.0,0.0,2.0,2.0,1.0,0.0,0.0
162530,5.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
162533,4.5,4.0,0.0,0.0,0.0,4.5,0.0,0.0,0.0
162534,4.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


## Schritt 3: Klassen und Attribute angeben

Um unser Modell zu trainieren, müssen wir dem Modell sagen, welches die Attribute und welches die Klassen sind, die es vorhersagen soll. Dafür müssen du entscheiden, für welchen Film du eine Vorhersagen der Bewertung treffen willst. Das kannst du direkt im Code angeben.

In [4]:
film = 3
X = ergebnis.drop([film], axis='columns')
y = ergebnis[film]
X

movieId,1,2,4,5,6,7,8,9
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2,3.5,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,4.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,3.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
5,4.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
8,4.0,0.0,0.0,0.0,3.0,1.0,0.0,0.0
...,...,...,...,...,...,...,...,...
162529,2.0,4.0,0.0,2.0,2.0,1.0,0.0,0.0
162530,5.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
162533,4.5,4.0,0.0,0.0,4.5,0.0,0.0,0.0
162534,4.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


## Schritt 4: Diskretisieren

Eventuell enthält der Datensatz Bewertungen mit halben Sternen, d.h. 3.5 oder 4.5. Die Funktion der KNN-Klassifikation von python kann nur mit ganzzahligen Klassen arbeiten. Daher müssen wir Einträge der Spalte 'ratings' ganzzahligen Werten zuordnen. Dafür gibt es eine python Funktion, die den Bewertungen ganzzahlige Werte zuordnet, die wir später zurück interpretieren können.

In [5]:
from sklearn import preprocessing
from sklearn import utils

lab = preprocessing.LabelEncoder()
y_transformed = lab.fit_transform(y)
print(y_transformed)
print(y.to_list())

[0 0 0 ... 0 0 0]
[0.0, 0.0, 0.0, 0.0, 4.0, 0.0, 0.0, 2.0, 0.0, 1.5, 0.0, 0.0, 5.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 3.5, 5.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 4.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 3.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 4.0, 0.0, 3.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 4.0, 0.0, 0.0, 1.0, 0.0, 0.0, 4.0, 0.0, 0.0, 0.0, 0.0, 0.0, 2.0, 0.0, 0.0, 0.0, 0.0, 0.0, 3.0, 0.0, 0.0, 5.0, 0.0, 0.0, 5.0, 0.0, 3.5, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 2.5, 0.0, 0.0, 0.0, 3.0, 0.0, 0.0, 0.0, 4.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 3.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 3.0, 0.0, 0.0, 4.0, 0.0, 3.0, 0.0, 0.5, 0.0, 0.0, 4.0, 0.0, 0.0, 0.0, 0.0, 0.0, 4.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 4.0, 0.0, 5.0, 0.0, 0.0, 0.0, 4.0, 3.5, 0.0, 0.0, 0.0, 0.0, 0.0, 0

## Schritt 5: Modell trainieren

Nun trainieren wir das Modell auf unserem Datensatz. Du kannst angeben, wie viele nächste Nachbarn das Modell berücksichtigen soll. Wenn das Modell trainiert ist erhälst du die Ausgabe 'KNeighborsClassifier(n_neighbors=3)'.<br/>
Es kann kurz dauern das Modell zu trainieren, da der Datensatz sehr groß ist.

In [6]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X, y_transformed)

KNeighborsClassifier(n_neighbors=3)

## Schritt 6: Filmempfehlungssystem verwenden!

Wir nutzen das Empfehlungssystem, um Bewertungen für den oben gewählten zu prognostizieren.<br/>
Dazu müssen wir angeben, wie der neue Nutzer die anderen Filme des Datensatzes bisher bewertet hat. Verändere dazu die Angaben in den Klammern für die einzelnen Filme. Beachte dabei, welchen Wert du nicht bewerteten Filmen gegeben hast und dass du die Spalte des Films weglässt, für den du Prognosen abgeben möchtest.

In [10]:
bewertungen_nutzer = {"1":[3.0],"2":[4.0],"4":[0.0],"5":[0.0],"6":[2.5],"7":[1.0],"8":[3.0],"9":[0.0]}

In [11]:
nutzer = pd.DataFrame(bewertungen_nutzer)
nutzer

Unnamed: 0,1,2,4,5,6,7,8,9
0,3.0,4.0,0.0,0.0,2.5,1.0,3.0,0.0


Hier wird die Bewertung vorhergesagt, indem das Modell angewandt und die Ausgabe direkt rückinterpretiert wird.

In [12]:
lab.inverse_transform(knn.predict(nutzer))

array([0.])