{% hint style="success" %} Hilft dir meine Webseite weiter? Falls du dieses Projekt unterstützen möchtest, kannst du mir gerne einen Kaffee an paypal.me/markusbilz spenden. Danke.️:heart: {% endhint %}
F: Vergleichen Sie den k-means Clusteralgorithmus mit dem Basic Leader-Follower Algorithmus. Welches sind jeweils die Vor- und die Nachteile?
A:
- Konzeptioneller Unterschied: K-means ist ein offline Learning-Verfahren. Der Leader-Follower-Algorithmus ein online-Verfahren.
- Vorteil Basic Leader-Follower
-
Anzahl der zu bildenden Cluster muss nicht a priori festgelegt
werden.
-
- Vorteile
$$k$$ -means-
$$k$$ -means konvergiert typischerweise sehr schnell. - Konzeptionell einfach.
-
- Nachteil
$$k$$ -means-
Anzahl Cluster
$$k$$ ist exogener Parameter → erfordert Kenntnisüber Datenbestand
-
Ungeeignet für nicht-konvexe Mengen
-
Kann nicht gut mit Rauschen und Ausreißern umgehen
-
Nur anwendbar, wenn (Cluster-) Mittelpunkt definiert ist →
Schwierigkeiten bei kategorischen Daten.
-
- Nachteil Basic Leader-Follower
- Keine stabilen Cluster
F: Sie sind Leiter der technischen Abteilung der Universitätsbibliothek. Sie wollen den Empfehlungsdienst für Ihre Nutzer verbessern, indem Sie Nutzern einen Expertenstatus zuordnen (“Laie”, “Fortgeschrittener”, “Experte”). Diesen wollen Sie nutzen, um verbesserte Empfehlungen anzubieten (z.B. empfiehl nur Grundlagenwerke, falls der Nutzer Laie ist). Der Expertenstatus bezieht sich auf Fachgebiete, denen einzelne Bücher zuzuordnen sind.
Durch freiwillige Angaben können Nutzer ihren Expertenstatus zu bestimmten Büchern oder Fachgebieten angeben, Sie erhalten also einige Daten durch die Nutzerangaben selbst.
Welcher Clusteralgorithmus empfiehlt sich, um Ihren Nutzern Expertenstati zuzuordnen, und wieso? Welche Daten benötigen Sie zur Umsetzung des Clusterings und zur Nutzung der Ergebnisse für den Empfehlungsdienst?
A:
- Die Anzahl der Cluster ist vorab bekannt mit 3 möglichen Ausprägungen. Aus diesem Grund sollte der iterative
$$k$$ -means-Algorithmus verwendet werden. - Zum Clustering benötigt man Daten über die Nutzer. Diese könnten etwa die Anzahl bereits gelesener Dokumente, akademischer Grad, Selbsteinschätzung Vorkenntnisse o. Ä. sein.
- Zur Nutzung im Recommendersystem reicht dann das Wissen, in welchem Cluster sich ein Nutzer befindet, aus. Hierfür muss aber ein Mapping bestehen, um zu interpretieren, welches Cluster den „Experten" o. Ä. entspricht.
F: Zur Kundendialogsteuerung sollen Entscheidungsbäumen eingesetzt werden. Erläutern Sie kurz, wie ein Entscheidungsbaum gelernt werden kann und wie er anschließend zur Dialogsteuerung verwendet wird.
A:
- Zunächst ist ein Trainingsdatensatz und Testdatensatz mit Attributen zu ermitteln (z. B. 70 / 30). Attribute sind ggf. vorzuverarbeiten z. B. zu standardisieren. Weiterhin muss der Datensatz ein diskretes Klassenlabel (hier: Expertenstati), das vorhergesagt wird, enthalten.
- Anhand der Entropie wird dann das Attribut mit dem höchsten durchschnittlichen Informationsgewinn ermittelt.
- Man lernt den Baum solange weiter bis man keine Attribute mehr hat zum Erklären oder bis sich die Attribute nicht mehr verändern.
- Der letzte Schritt kann das Pruning des gelernten Baums und die Evaluation des Baums auf nicht zum Training benutzte Testdaten sein. Gängige Maße zur Evaluation ist etwa die Accuracy. (Geyer-Schulz and Sonnenbichler 2017 S. 18, 19, 44)
F: Wie evaluieren Sie, ob gelernte Entscheidungsbäume gut für Ihr System geeignet sind?
A:
Aufteilen in Trainings- und Testdaten / Training:
Typischerweise wird der gesamte vorhandene Datenbestand in ein Trainingsset und ein Test Set gesplittet. Testdaten bleiben für das Training des Entscheidungsbaums außen vor. Der Baum wird auf Trainingsdaten gelernt.
Eine Variante ist k-fold cross validation mit folgendem Vorgehen:
- Partitioniere das Datenset in
$$k$$ Partitionen - Schätze
$$k$$ hold-out Prädikator mit 1 Partition Validation Set und$$k - 1$$ Partitionen als Trainingsset, dann zweiter Durchlauf mit zweiter Partition zur Validierung und übrigen Partitionen zum Training. Analog wiederholen bis zum$$k$$ -ten Durchlauf.
Performance am Testdatensatz feststellen:
- Das Test Set kann dann benutzt werden, um die prognostizierte Klasse z. B. Status Laie o. Ä. mit der tatsächlichen Klasse zu vergleichen. Die Performance lässt etwa mit einer Konfusionsmatrix darstellen. Typische abgeleitete Metriken sind Precision, Recall und Accuracy.
- Obige Schritte mehrmalig wiederholen für statistische Sauberkeit. (Geyer-Schulz and Sonnenbichler 2017 S. 54)
F: Wozu dient Clusteranalyse?
A:
Entdecken einer natürlichen Struktur in Daten (Geyer-Schulz 2017 S. 6).
F: Was ist eine Segmentierungsbase, was eine Segmentierungsmethode?
A:
Segmentierungsbasen:
- Variablen oder Kriterien für die Segmentierung
- Auswahl auf Basis: Ziel der Segmentierung und des Marktes
Segmentierungsmethoden:
-
Methodenauswahl auf Basis: Ziel der Segmentierung und der
Eigenschaften der Segmentierungsbasis.
F: Nennen Sie je zwei Beispiele für (beobachtbare-nicht beobachtbare) × (allgemeine-produktspezifische) Basen.
A:
Allgemein | Produktspezifisch | |
---|---|---|
Beobachtbar | Kulturell | Benutzerstatus |
Geographisch | Benutzungsfrequenz | |
Soziökonomisch | Store Loyalty | |
Situationen | ||
… | … | |
Nicht beobachtbar | Psychographisch | Psychographisch |
Werte | Nutzen | |
Persönlichkeit | Wahrnehmung | |
Life-Style | Präferenzen | |
Absichten | ||
… | … |
F: Wie bewerten Sie, ob sich zwei Datenpunkte ähnlicher sind als andere? Nennen Sie zwei Beispiel-Maße.
A:
Normalisiertes, inneres Produkt:
Anteil der gemeinsamen Attribute:
F: Nennen Sie einen Anwendungsfall, wie Clusteranalyse in einem Recommenderdienst verwendet werden kann.
A:
Movielens - Anhand der Ratings aus dem each-movie dataset werden durch Clusteranalyse Geschmacks bzw. Interessengruppen gebildet. - Aus diesen Geschmacks-/Interessen Gruppen wird für Werbezwecke ein E-Mailverteiler automatisch erzeugt. - Auf Basis der Geschmacks- und Interessens-Gruppen werden neue Filmrechte erworben, die den Nutzern gefallen könnten. (Geyer-Schulz 2017 S. 7)
Use Case: Sie arbeiten für Jupiter, einen großen, deutschlandweit operierenden Elektronikanbieter, der sein Online Geschäft ausbauen möchte. Sie sollen für die Abteilung Haushaltsgeräte einen Recommenderdienst für Kühlschränke aufbauen: Ähnliche Kühlschränke sollen auf der jeweiligen Produktseite einander gegenüber gestellt werden, damit der Kunde diese besser vergleichen kann. Sie entscheiden sich deshalb für einen inhaltsbasierten Recommender auf Basis von Clusterverfahren. Ohne Use Case Bezug max. die Hälfte der Punkte!
F: Definieren Sie als erstes den “Feature Space” für Kühlschränke, in dem Sie jeden Kühlschrank mit einem Vektor
A:
5-Dimensionaler Feature Space mit den Dimensionen Energieeffizienz, Preis, Farbe, Einbaugerät und Eiswürfeleinheit.
Binäre / Nominale Attribute werden konvertiert in Abstand
- Einbaugerät und Einbaugerät: Ja → 1, Nein → 0.
- Preis wird standardisiert.
- Energieeffizienzklasse wird auf Skala von 0-1 gemappt.
- Farbe wird auf Skala von 0-1 gemappt.
Dimensionen | Kühlschrank 1 | Kühlschrank 2 | Kühlschrank 1 (standardisiert) | Kühlschrank 2 (standardisiert) |
---|---|---|---|---|
Energieeffizienz | A++ | C | 0 | 0.6 |
Preis | 500 EUR | 150 EUR | 0.7 | 0.2 |
Farbe | Space Grey | Weiß | 0.8 | 0 |
Einbaugerät | Ja | Nein | 1 | 0 |
Eiswürfeleinheit | Ja | Nein | 1 | 0 |
F: Sie stellen einen Werkstudenten ein, der alle bei Jupiter gelisteten Kühlschränke mit den
A:
- Nominale Attribute z. B. Einbaukühlschrank vs. Freistehend müssen in Dimension abgebildet werden.
- Standardisierung von Attributen z. B. müssen einzelne Attribute standardisiert werden. Würde man z. B. Temperatur (z. B. 4 - 10) und Preis (100 - 2.000) als solches beim Abstandsmaß Euklidische Distanz verwenden, wäre das Distanzmaß stark verfälscht, weil Preis Abstand stark verfälschen würde.
- Fehlende Daten z. B. könnte Produktbeschreibung der Hersteller unvollständig sein. Es braucht dann eine Strategie, um fehlende Werte aufzufüllen.
- Redundante Daten z. B. können Kühlschränken in mehreren Farben angeboten wären. Mit Ausnahme der Farbe hätten diese Kühlschränke eine ähnliche Position im Raum, würden dann wegen der hohen Ähnlichkeit empfohlen werden. Eigentlich handelt es sich aber um eine „schlechte / triviale Empfehlung".
- Erfassungsfehler z. B. kann Werkstudent Fehler bei Datenerfassung machen, was zu fehlerhaften Empfehlungen führt.
F: Sie möchten nun die
A:
Man minimiert die Summe der Varianzen. Die Criterion Function ist definiert als:
wobei
Man iteriert also über jeden Punkt im Cluster und berechnet die Distanz zu zum Cluster-Mittelpunkt und wiederholt das Vorgehen für jedes Cluster. Das Ergebnis wird aufsummiert. Oberhalb wird die quadrierte Norm verwendet. Liegt ein Punkt im falschen Cluster wird die Summe entsprechend groß. (Geyer-Schulz 2017 S. 25)
Problem: Man versucht eigentlich
F: Wie heißt der Fachausdruck für den “Abstand” zwischen zwei Datenpunkten
A:
- Der Fachbegriff ist Ähnlichkeitsmaß. (euklidischer Abstand)
- Verhältnis der gemeinsamen Attribute zur Anzahl der Attribute in
$$x_{1}$$ oder$$x_{2}$$ „Tanimoto"-Distanz:
F: Nach welchem Kriterium wählt der Algorithmus “iterative k-means” die optimale Anzahl der Cluster aus? Wie bestimmt man allgemein die optimale Anzahl der Cluster?
A:
Die Anzahl der Cluster ist ein exogener Parameter beim
Ansätze, um das optimale
Wir akzeptieren
… wenn also Wahrscheinlichkeit, dass
Geyer-Schulz, Andreas. 2017. “Cluster-Analyse.”
Geyer-Schulz, Andreas, and Andreas Sonnenbichler. 2017. “Verkaufsunterstützung Mit Hilfe von Entsheidungsbaumverfahren.”