Maschinelles Lernen und Datenanalyse

In der Mess- und Prüftechnik PD Stefan Bosse

Universität Bremen - FB Mathematik und Informatik

1 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens -

Taxonomie des Maschinellen Lernens

Zielvariablen: Kategorische Klassifikation, Numerische Prädiktorfunktionen, Gruppierung

Modellfunktionen: Mit welchen Daten- und Programmarchitekturen können Eingabevariablen auf Zielvariablen abgebildet werden?

Training und Algorithmen: Wie können die Modellfunktionen an das Problem angepasst werden?

Überwachtes, nicht überwachtes und Agentenlernen

2 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Datenverarbeitung

Datenverarbeitung

  • Die Daten die als Grundlage für die Induktion (Lernen) und die Deduktion (Applikation/Inferenz der Zielvariablen) müssen i.A. vorverarbeitet werden → Merkmalsselektion

6 Maschinelles Lernen ist ein Werkzeug der Datenanalyse und des Data Minings

3 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Die Modellfunktion

Die Modellfunktion

  • Die Modellfunktion F soll möglichst genau und effizient die Eingabedaten X auf die Zielvariablen Y abbilden:

F(X):XY,X={diskrete kategorische Werte Cnumerische Werte N,R,Y=diskrete kategorische Werte Cnumerische Werte N,RGruppen(X), Netzwerke Q

  • Die Modellfunktion F approximiert eine i.A. nicht bekannte Funktion M, d.h. eine axiomatisch oder analytisch abgeleitete Modellfunktion (z.B. phys. Gesetze) → F ist Hypothese von M!
4 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Die Modellfunktion

Beispiel

100 Kausale vs. Prädiktive Modellbildung und Physikalische Modelle versa algorithmisch bestimmte Modelle (Hypothesen)

5 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Die Modellfunktion

Beispiel

100 Kausale vs. Prädiktive Modellbildung und Soziale Netzwerkmodelle versa algorithmisch bestimmte Modelle (Hypothesen)

6 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Lernen

Lernen

Lernen bedeutet die unbekannte Modellfunktion M möglichst genau durch F aus Daten so zu approximieren dass min error(|Y0-Y|) für alle (X,Y0) Paare gilt (Y0: Referenzdaten).

  • I.a. ist F eine parametrisierbare Funktion f(P) oder eine parametrisierbare Datenstruktur

    • Der Parametersatz P={p1,p2,..,pi} bestimmt sowohl Funktion als auch Struktur (z.B. eines Entscheidungsbaumes)
  • Es gibt nicht eine Modellfunktion F, sondern eine große Menge möglicher Funktionen, genannt Hypothesen ℍ={F1,F2,..}.

7 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Lernen

Lernen bedeutet also die bestmögliche Anpassung der Parametersätze P um den Fehler zu minimieren und eine geeignet Hypothesenfunktion zu finden.

  • Man unterscheidet bekannte Referenzwerte der Zielvariablen (und Beziehung zu X) Y0, auch Labels genannt, und prognostische Werte Y die als Ergebnis von F(X) geliefert werden (Inferenzwerte), d.h. bei der Applikation ist der wahre Wert Yt unbekannt (Schätzung von Yt)

H(X):XY,HH={FP11,FP22,..,FPkk},error(X,Y0,F)=|F(X)Y0|

8 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Lernen

Beispiele

Verschiedene Modellfunktionen M die die (Trainings) Daten repräsentieren

9 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Kreuzvalidierung

Kreuzvalidierung

  • Beim Training wird ein Inferenzfehler zunächst aus Trainingsdaten bestimmt → Trugschluss!
  • Stattdessen müssen auch unabhängige Testdaten für eine Kreuzvalidierung herangezogen werden, und dann ...

13

Durch Kreuzvalidierung (CV) werden ungeeignete Hypothesenmodelle erkannt

10 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Fehler (Verlust)

Fehler (Verlust)

Jede Hypothesenfunktion F ∈ ℍ führt zu einem Informationsverlust durch Approximation der tatsächlichen und unbekannten Modellfunktion M.

  • Es gilt also:

M(x):xy=F(x)+E(x)+S

mit E als eine Fehlerfunktion (i.A. zufälliger Fehler) und ^E als mittlerer Prädiktionsfehler und S als systematischer Fehler.

11 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Fehler (Verlust)

  • Die Hypothesenmenge ℍ ist also tatsächlich eine Approximation eines unbekannten "exakten" Modells (Modellfunktion) MF, die z.B. mittels physikalischer oder soziologischer Modelle ableitbar wäre.

  • Genauso wie eine Sensor eine physikalische Größe nur approximieren kann, der tatsächliche Wert der zu messenden Größe ist nicht bekannt

12 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Fehler (Verlust)

11 Training als Anpassung von Hypothesen für die Abbildungsfunktion XY mit Trainingsdaten

13 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Parametrisierung

Parametrisierung

Die Paramater in dem Parametersatz P bestehen aus zwei Klassen:

Statische Parameter Ps
Parameter die die Modellimplementierung (Funktion, Datenstruktur, usw.) festlegen und i.A. während des Trainings und der Applikation unverändert bleiben. (Ausnahme: Evolutionäre Algorithmen) → Konfiguration
Dynamische Parameter Pd
Parameter die während des Trainings verändert (angepasst) werden. Z.B. Funktionsparameter oder Kantengewichte von neuronalen Netzen → Adaption
14 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Parametrisierung

Beispiele

  1. Zwei mögliche Numerische Prädiktorfunktionen mit unterschiedlicher Struktur und Parametersätzen, aber gleicher Signatur(T: Temperatur, S: Satisfaction) → Regression

f(T):TS=a+bT+cT2+dT3,Ps={degr:3},Pd={a,b,c,d},S=[0,1]f(T):TS=a+bT+cTd+eTf,Ps={terms:4,lin:2,exp:2},Pd={a,b,c,d,e,f},S=[0,1]

15 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Parametrisierung

  1. Künstliches Neuronales Netzwerk

16 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Daten

Daten

Trainingsdaten Dtrain
Datentabellen die aus Zeilen mit einer bekannten Beziehung (X,Y) bestehen und verwendet werden die Modellfunktion M durch Veränderung von P zu approximieren
Testdaten Dtest
Datentabellen die aus Zeilen mit einer bekannten Beziehung (X,Y) bestehen und verwendet werden die Modellfunktion M auf Genauigkeit und Fehler zu testen. Man spricht auch von einer Kreuzvalidierung da DtestDtrain = ∅ sein sollte.
Inferenzdaten Dinf
Datentabellen die nur aus Zeilen X bestehen (Y ist unbekannt)
17 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Daten

Es gilt: DtrainDall, DtestDall, DinfDall aber DtrainDtest = ∅ und DtrainDtestDinf ≠ ∅ (Idealfall!)

Die großen Probleme beim Modellieren aus Daten:

  • Die Trainingsdaten sind nicht repräsentativ (Umfang, Varianz, Qualität)

  • Die Testdaten sind nicht repräsentativ (Umfang, Varianz, Qualität)

  • Die Trainingsdaten enthalten schwache Variablen die nicht entfernt wurden (Inkonsistenz und geringer Informationsgewinn)

Generalisierung. Das gelernte Modell F bildet alle drei Datenmengen gleichermaßen gut ab!

18 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Daten

  • Ergänzung:
Bewertungsdaten
Beim Einsatz eines gelernten Modells kann eine Evaluierung bezüglich Qualität / Genauigkeit stattfinden. Diese Daten können dann ggfs. für eine Adaption des Modells und dessen Parametersatz P verwendet werden.

D.h. bei der Anwendung des Modells können somit auch neue Trainingsdaten gewonnen werden, z.B. im Rahmen eines Produktlebenszyklusmanagements!

19 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Lernverfahren

Lernverfahren

Überwachtes Lernen
Es gibt Trainingsdaten mit bekannten Beziehungen (X,Y) die verwendet werden um die Modellfunktion mit minimalen Fehler anzupassen. Überwachung benötigt i.A. einen Experten der die Beziehungen (X,Y) erstellt und analytisch den Fehler bewertet.
Unüberwachtes Lernen
Es gibt Trainingsdaten ohne bekannte beziehung (X,Y), d.h., schon das Lernen führt zu einer automatischen Inferenz der Zielvariablen Y, die aber in diesem Fall i.A. nur durch Gruppenmengen ℚ bestehen. Eine Gruppenmenge Q={Xi} ⊆ ℚ bringt verschiedene Eingabewerte in Beziehung. D.h. Y ≡ ℚ.
20 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Lernverfahren

Belohnungs- und Agentenlernen
Die Abbildungsfunktion f(X): XY wird schrittweise durch eine Evaluierung des inferrierten Y mit einem Belohnungswert r=[0,1] gelernt. Training und Inferenz findet gleichzeitig statt.


6 Ablauf Überwachtes Lernen mit Trainings- (Induktion) und Applikationsphasen (Deduktion)

21 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Taxonomie der Verfahren

Taxonomie der Verfahren

Abdul Rahid,www.wordstream.com

22 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Überwachte Lernverfahren - Unterklassen

Überwachte Lernverfahren - Unterklassen

4 Zwei wichtige Unterklassen von überwachten Lernen: Regression (Numerische Zielvariablen) und Klassifikation (Kategorische Zielvariablen)

23 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Dimensionalitätsreduktion

Dimensionalitätsreduktion

  • ML kann auch für die Reduktion von Datendimensionalität eingesetzt werden (Informationen sind reduzierte Daten)
    • Beispiele: Principle Component Analysis, Single Value Decomposition, ..

4 Abbildung von hochdimensionale Daten Xn auf niederdimensionale Xm mit m < n

24 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Unüberwachtes Lernen - Unterklassen

Unüberwachtes Lernen - Unterklassen

4 Zwei wichtige Unterklassen von nicht überwachten Lernen: Clustering (Gruppenbildung) und Ausreißerdetektion

25 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Training

Training

  • Das Training einer Modellfunktion M kann
    • monolitisch (alle Dateninstanzen werden "parallel" verwendet), oder
    • stapelbasiert (d.h. Gruppen von Instanzen werden "parallel" verarbeitet), oder
    • iterativ (Dateninstanzen werden "sequenziell" verwendet), und
    • inkrementell (iterativ mit neuen Daten).

Es gibt beim Training eine Fehlerfunktion (Cost or Loss Function). Der Fehler ergibt sich aus der Anwendung der Trainingsdaten auf das bisherigen Modell. Der Fehler dient zur Korrektur der dynamischen Parameter. Der Fehler kann dann aus einzelnen ("on-line") oder einer Gruppe ("batch") von Trainingsdaten berechnet werden.

26 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Training

  • Inkrementelle Trainings- und Anpassungsverfahren können alte Datensätze verwerfen → Stromdatenlernen!

  • Nicht jede Modellimplementierung ist geeignet:

    • Graphen (Bäume) können i.A. nur monolithisch trainiert = erzeugt werden!
    • Regression von math. Funktionen kann monolithisch und/oder iterativ erfolgen;
    • Neuronale Netze können monolithisch, stapelbasiert, iterativ, und vor allem inkrementell trainiert werden.
27 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Modellimplementierungen

Modellimplementierungen

Es gibt im wesentlichen vier verschiedene Architekturen die Modelle M zu implementieren:

Funktionen
Die Struktur einer mathematischen Funktion wird durch ihre Terme gebildet (Berechnungsknoten), z.B. ax+bx2. Zu jedem Term gehört ein dynamischer Parameter der beim Training angepasst wird um den Fehler zu minimieren. Das Ergebnis ist die Zielvariable y.
28 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Modellimplementierungen

Gerichtete Graphen
Gerichtete Graphen (oder Entscheidungsbäume) bestehen aus Knoten und Kanten. Die Knoten repräsentieren eine Eingabevariable (Attribute) xX. Die Kanten beschreiben die Entwicklung eines Graphen beginnend vom Wurzelknoten hin zu den Blättern. Die Blätter enthalten die Werte der Zielvariable(n) y. Der dynamische Parametersatz ist der Graph (dessen Struktur).
Funktionale Graphen
Hybrid aus gerichteten Graph und Funktion → Künstliche Neuronale Netze. Die Knoten repräsentieren Berechnungsfunktionen, die Kanten verbinden Ausgänge von Funktionen mit Eingängen. Es gibt Eingangsknoten die mit den Eingabevariablen X verbunden sind, und Ausgangsknoten die mit den Ausgangsvariablen Y verbunden sind.
29 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Modellimplementierungen

Ungerichtete Graphen
Hier repräsentieren die Knoten Dateninstanzen X, und die Kanten verbinden die nächsten Nachbarn miteinander. Hier geht es um Gruppenbildung (k nächste Nachbarn/kNN Problem).
30 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Modellimplementierungen

Verschiedene Modellimplementierungen

31 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Hybride Modelle

Hybride Modelle

Multiinstanz Modelle

  • Ensemblelernen vereint multiple Modelle (gleicher Klasse oder unterschiedlich)

M(X):XY=Φ({M1(X),M2(X),..,Mn(X)})

  • Die einzelnen Modellinstanzen arbeiten mit gleichen oder verschiedenen Dateninstanzen

  • Es gibt eine Split- und eine Join Schicht (Kombinierer, Modellfusion)

32 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Hybride Modelle

Jay Budzik, www.thetalkingmachines.com

Verschiedene Architekturen für Multiinstanz Lernen und Inferenz

33 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Instanzklassifikation

Instanzklassifikation

SLSP
Einzelinstanz Lernen (auf allen Daten) und Einzelinstanz Prädiktion (Inferenz auf allen Daten)
SLMP
Einzelinstanz Lernen (auf allen Daten) und replizierte Multiinstanz Prädiktion (Inferenz auf Teildaten mit Modellfusion)
MLSP
Multiinstanz Lernen (auf Teildaten) mit Modellfusion und Einzelinstanz Prädiktion (Inferenz auf allen Daten)
MLMP
Multiinstanz Lernen und Multiinstanz Prädiktion (Modellfusion)
34 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Ablauf und Phasen von ML

Ablauf und Phasen von ML

  1. Statistische Analyse und Bewertung der Daten

  2. Merkmalsselektion

  3. Aufteilung der Daten in Trainings- und Testdaten (i.A. randomisiert) D=DtrainDtest

  4. Training einer Modellfunktion F mit bekannten (markierten bei ÜL) Trainingsdaten Dtrain unter Bewertung des Modellfehlers E(X)

  5. Test und Bewertung von F mit bekannten Daten Dtest

  6. Applikation (Inferenz) von F auf unbekannten Daten D

35 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - ML in der Soziologie

ML in der Soziologie

  • Qualitative und quantitative Sozialwissenschaften wollen aus Daten erklärbare Modelle ableiten

    • Die Inferenz von Aussagen mit neuen Daten ist von geringer Bedeutung
    • Das Modell ist das Ziel
  • Datenwissenschaften wollen aus Daten (ggfs. Black-Box) Modelle ableiten

    • Die Inferenz von Aussagen mit neuen Daten ist Ziel!
    • Das Modell selber ist nur das Werkzeug
36 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Qualitative Kodierung

Qualitative Kodierung

Qualitative Kodierung ist eine der wichtigsten Techniken, die in der qualitativen Analyse in den Sozialwissenschaften verwendet werden.

Im Allgemeinen bezieht sich die Kodierung auf den Prozess der Zuweisung beschreibender oder inferentieller Annotierungen zu Datenblöcken, die die Entwicklung von Konzepten oder Theorien unterstützen können.

Kodierung ist in der Regel eine sehr arbeitsintensive und zeitaufwendige Aufgabe.

37 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Qualitative Kodierung

Einsatz von ML

  • ML Verfahren können zur Automatisierung der Q. Kodierung eingesetzt werden [101]

ML in der Soziologie findet sich vor allem in den ersten Stufen der "Wertschöpfungskette" → Werkzeuge der Datenverarbeitung und Merkmalsselektion

38 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Soziale Analysen aus Texten

Soziale Analysen aus Texten

  • Rückschlüsse auf soziales Verhalten und Netzwerkbildung können u.A. aus textuellen Quellen gewonnen werden:

    • Soziale Medien (Twitter, Facebook, Blogs, ...)
    • Nachrichten
    • Wissensdatenbanken
  • Häufig ist Mustererkennung und Klassifikation zentrale Merkmalsselektion (mit Natural Language Processing NLP)

Einsatz von ML

  • Textklassifikation und Vorhersage
  • Suche nach Inkonsistenz (z.B. in juristischen Texten)
  • Suche nach Textmustern (z.B. Betrug, Hass, usw.)
39 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Soziologische und naturwissenschaftliche Modellinferenz

Soziologische und naturwissenschaftliche Modellinferenz

  • Neben der kausalen Modellinferenz können auch prädiktive Modellinferenzverfahren - also ML - eingesetzt werden

  • Spannende Frage: Wie ist die Korrelation von kausal und prädiktiv gewonnenen Modellen?

  • Was bedeutet eine Abweichung?

Kernfrage ist die Erklärbarkeit von algorithmisch erzeugten Modellen mit ML Verfahren, auch in der Mess- und Prüftechnik!

40 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - ML in den Fertigungs- und Materialwissenschaften

ML in den Fertigungs- und Materialwissenschaften

  • ML ist auch hier ein Werkzeug um analytisch und physikalisch nicht mathematisch modellierbare Zusammenhänge zu approximieren (quasi ein vorläufiger Modellersatz)

  • Auch hier kann es Probleme grundsätzlicher Art geben:

    • Fehlende Nachverfolgbarkeit (warum kommt ein Y bei einem X?)
    • Fehlende Erklärbarkeit (wie ist der Zusammenhang Y(X) zu verstehen?)
    • Fehlende Rückverfolgung (welches X aus gegebenen Y?)
  • Inverse ML Modellierung ist von großer Bedeutung (z.B. welche Prozessparameter müssen gewählt werden wenn bestimmte Materialparameter als Ergebnis einer Fertigung gegeben sind)

41 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Vorwärts- und Rückwärtsmodellierung

Vorwärts- und Rückwärtsmodellierung

Vorwärtsmodellierung

  • Typischerweise schließt man von Eingabedaten (Sensoren) auf Ausgabedaten (Systemvariablen, Aggregatvariablen)
    • Eingabedaten sind i.A. individuell (Einzelfall)
    • Ausgabedaten von Modellfunktionen repräsentieren häufig statistische Ensemblemittelwerte!
    • Viele ML Modelle sind daher Mittelwertbilder!

Eine Funktion F(X): XY bildet i.A. einen hochdimensionalen Eingaberaum n=|X| auf einen niederdimensionalen Ausgabe/Ergebnisraum m=|Y| mit mn ab

42 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Vorwärts- und Rückwärtsmodellierung

Rückwärtsmodellierung

  • Bei der Rückwärtsmodellierung möchte man von den System- und Aggregatvariablen auf die Sensordaten schließen: G(Y):YX

  • Die Modellfunktion G kann durch Invertierung des Vorwärtsmodells F gewonnen werden, d.h., G=F-1

Kann F noch durch ein vollständig bestimmtes mathematisches Problem beschrieben werden (d.h. Abbildung XY ist eindeutig), so ist die Inversion i.A. ein unterbestimmtes Problem (Mehrdeutigkeit aufgrund der Dimensionalitätserhöhung)

43 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Big Data Analysen

Big Data Analysen

  • Big Data bedeutet nicht groß (wenn auch meistens), sondern die Eingabevariablen sind scheinbar schwach korreliert, gekennzeichnete durch hohes Rauschen und Verzerrung!

  • Aber mit ML kann auch solch schwachen Daten Informationen abgeleitet werden:

    • Genaue Wahlvorhersage
    • Demografische Vorhersagen
  • Kritik: Die Datenvoreverarbeitung und ML Datenkette kann (ungewollt) zu Verzerrung und Offset führen.

44 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Big Data Analysen

Daher: Die "Fehler" in der ML Verarbeitungskette bezüglich sozialer Eigenschaften können nicht technisch gelöst und korrigiert werden. Dazu müssen wiederum Modelle der Soziologie verwendet werden. Der "Theorie Rein - Theorie Raus" Ansatz [102]!!

  • Die Sozialtheorie hilft bei der Lösung von Problemen, die während des gesamten Aufbaus und der Bewertung von Modellen für maschinelles Lernen für soziale Daten auftreten.
45 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Zusammenfassung Unterschiede Soziologische und naturwissenschaftliche Verfahren vs ML

Zusammenfassung Unterschiede Soziologische und naturwissenschaftliche Verfahren vs ML

  • Soziologische und naturwissenschaftliche Theorie ist oft hypothesengetrieben, während maschinelles Lernen Daten sind!
  • Beim maschinellen Lernen beginnt man mit einem Datensatz, um eine Hypothese aufzustellen, während man in der Soziologie oft mit einer Hypothese beginnt.
  • Beide verwenden (oder eher ML, beide sollten zumindest) eine Auswertung außerhalb der Stichprobe, um Ihre Hypothesen zu testen.
  • Beim maschinellen Lernen liegt der Fokus im Allgemeinen auf der Vorhersage, in der Soziologie nicht auf der Vorhersage, ohne zu erklären, warum ein Phänomen Auftritt.
46 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Zusammenfassung Unterschiede Soziologische und naturwissenschaftliche Verfahren vs ML

  • Beim maschinellen Lernen glaubt man nicht, dass das Modell richtig ist, dh. es wird nicht angenommen, dass das Modell der datengenerierende Mechanismus ist.

  • Modelle werden nur danach ausgewertet, wie gut Sie anhand von Daten Vorhersagen machen, aus denen Sie selber nicht erstellt wurden, und nicht erklären wie sie zu Stande kommen.

  • In der Soziologie betrachtet man allgemein, ob ein Koeffizient eines linearen Modells von null unterscheidbar ist; dies macht starke Annahmen über den datengenerierenden Mechanismus, den maschinelle Lerner nicht für gültig halten würden.

  • Der Fokus des maschinellen Lernens lag traditionell nicht auf kausalen Effekten, obwohl Maschinelles lernen bei kausalen inferenzproblemen nützlich sein kann.

47 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Zusammenfassung

Zusammenfassung

Maschinelles Lernen besteht aus:

  1. Modellimplementierungen:

    • Funktionen, Gerichtete Graphen, Funktionalen Graphen, Ungerichtete Graphen, also mit/für
    • Regression, Entscheidungsbäume, Neuronale Netze, Clustering (kNN)
  2. Aufgaben

    • Regression, Klassifikation, Gruppierung (Clustering), Prognostik
48 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Zusammenfassung

  1. Methoden und Verfahren

    • Überwachtes, nicht überwachtes, und rückgekoppeltes Belohnungslernen
    • Monolithisches, stapelbasiertes, iteratives, und inkrementelles Lernen
    • Einzel- versa Multiinstanzlernen
    • Enscheidungsbaumlernen (Konstruktion), Support Vector Machines (Regression), Backpropagation in Neuronalen Netze, usw.
  2. ML besteht aus mehreren Phasen:

    • Datenerhebung (Messung), Datenvorverarbeitung, Statistische Bewertung, Merkmalsselektion, Modellerstellung, Training, Test und Analyse (Kreuzvalidierung), Anwendung/Inferenz
49 / 50

Stefan Bosse - Maschinelles Lernen - Taxonomie des Maschinellen Lernens - Zusammenfassung

  1. Daten werden unterteilt in:
    • Trainingsdaten , Testdaten, Anwendungsdaten
    • Trainings- und Testdaten bei ÜL mit (x,y) Beziehungen (Markierung/Labelling)
50 / 50