i

Wahl der Attribute

Hinweis: Die Daten sind fiktiv.

Du siehst hier drei Punktdiagramme. Wie zuvor entsprechen die grünen Punkte allen pünktlichen und die roten Punkte allen verspäteten Verbindungen.
Punktdiagramm Punktdiagramm Punktdiagramm

Du kannst die Diagramme hier herunterladen: Diagramm 1 Diagramm 2 Diagramm 3

Aufgabe 1 - Einschätzung

In den obigen Punktdiagrammen ist je eine weitere Verbindung (blau) eingezeichnet (vergrößere ggf. die Darstellung).
  1. Bestimme mit der 3-Nächste-Nachbar-Klassifikation, ob es sich um eine pünktliche oder verspätete Verbindung hält.
  2. Diskutiere, welches der Diagramme für die K-Nächste-Nachbar-Klassifikation am besten geeignet ist.

Aufgabe 2 - erneute Einschätzung

Vielleicht ist dir schon aufgefallen, dass in den obigen Punktdiagrammen die erklärenden Attribute nicht angegeben sind. Es handelt sich bei den drei blauen Verbindungen um die gleiche Verbindung. Allerdings sind in den Punktdiagrammen andere erklärende Attribute abgetragen. Betrachte dir nun die obigen Diagramme mit den Beschriftungen der Attribute.
Punktdiagramm Punktdiagramm Punktdiagramm

Du kannst die Diagramme hier herunterladen: Diagramm 1 Diagramm 2 Diagramm 3


  1. Bewerte, ob du mit diesem Wissen die Verbindung genauso wie in Aufgabe 1 klassifizieren würdest.
  2. Begründe, welches der Diagramme du für die Klassifikation nutzen würdest.
Über die Punktdiagramme ist vorgegeben, welche erklärenden Attribute zur Klassifikation genutzt werden. Das sind:
  1. im ersten Punktdiagramm: geplante Reisezeit & geplante kürzeste Umstiegszeit.
  2. im zweiten Punktdiagramm: geplante Reisezeit & Alter der reisenden Person
  3. im dritten Puntkdiagramm: geplante Reisezeit & Reisetag
In der Realität erhält das Modell von uns keine weiteren Informationen außer der Daten selbst. In unserem Beispiel haben die Daten folgende Form:
geplante Reisezeit (min) geplante kürzeste Umstiegszeit (min) Reisetag Alter der reisenden Person Klasse
50 5 3 31 unpünktlich
84 4 201 45 unpünktlich
91 5 5 61 pünktlich
... ... ... ... ...
Das Modell wird dann auf diesen Daten trainiert. Dabei kommt künstliche Intelligenz zum Einsatz. Diese findet Muster zwischen bestimmten Attributen und den Klassen. Erst einmal werden alle Attribute als mögliche erklärende Attribute angesehen. Findet die künstliche Intelligenz einen Zusammenhang zwischen einem, zwei oder mehr als zwei Attributen und der Klassenzugehörigkeit, so wird das Attribut zur Klassifikation verwendet.

Aufgabe 3 - Auswahl der erklärenden Attribute

  1. Erkläre, woran ein Zusammenhang zwischen zwei Attributen und der Klassenzugehörigkeit grafisch erkennbar ist. Nutze für deine Erklärungen gerne die drei obigen Punktdiagramme.
    Die Attribute beeinflussen die Lage der Punkte im Punktdiagramm.
  2. Erläutere, wie du einen Zusammenhang zwischen drei Attributen und der Klassenzugehörigkeit erkennen kannst.
  3. Wir betrachten nun ein dreidimensionales Punktdiagramm.
  4. Begründe woran du einen Zusammenhang zwischen einem Attribut und der Klassenzugehörigkeit erkennen kannst. Benötigst du dafür ein Punktdiagramm?
  5. Grafisch betrachten wir hier nurnoch eine Art Zahlenstrahl. Du kannst aber auch über die Tabelle argumentieren.
Der Einsatz von künstlicher Intelligenz hat den Vorteil, dass die Klassifizierung objektiver stattfindet und auch Muster und Regeln erkannt werden, die wir mit bloßem Auge (insbesondere auf großen Datenmengen) garnicht erkennen können. Deshalb wird eine künstliche Intelligenz oft auch als objektiver bezeichnet, als ein Mensch. Allerdings kann es dabei zu Zusammenhängen kommen, die inhaltlich nicht sinnvoll sind (siehe Punktdiagramm 2). Daher ist eine gute Datengrundlage maßgeblich für die Qualität unseres Modells! Eine gute Datengrundlage zeichnet sich dabei vor allem durch Vielfalt und Masse aus, d.h. sie beinhaltet viele und möglichst unterschiedliche Daten.
Merke: Das Modell nutzt die Attribute, die auf Basis der Datengrundlage die besten Vorhersagen generieren. Dies müssen nicht unbedingt thematisch sinnvolle Attribute sein. Deshalb ist ein Modell immer nur so gut wie die zugrundeliegenden Daten!

Aufgabe 4 - Repräsentative Datengrundlage

In der Fachsprache nennt man eine 'gute Datengrundlage' repräsentativ.
  1. Recherchiere die Definition des Begriffs 'repräsentativ'.
  2. Gib je ein Beispiel für eine repräsentative Datenerhebung und ein Beispiel für eine nicht-repräsentative Datenerhebung an.

Suche

v
14.5.1.3.2.7
www.inf-schule.de/projekte/datascience/projekt_empfehlungssysteme/modellentwicklung/knn_erlernen/attributewahl
www.inf-schule.de/14.5.1.3.2.7
www.inf-schule.de/@/page/MIrJBlnkoyumbEyX

Rückmeldung geben