Maschinelles Lernen und Datenanalyse

In der Werkstoff- und Prüftechnik

Prof. Dr. Stefan Bosse

Universität Koblenz - FB Informatik - Praktische Informatik

Universität Siegen - FB Maschinenbau / LMW

1 / 67

Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen ::

Klassifikation und Regression mit Entscheidungsbäumen

Zielvariablen: Primär Kategorische Variablen; Sekundär Numerische Variablen

Eigenschaftsvariablen: Kategorische und Numerische Variablen

Modell: Gerichteter azyklischer Graph (Baumstruktur)

Training und Algorithmen: C4.5, ID3, C5.0, ICE, CART, RF

Klasse: Überwachtes Lernen

2 / 67

Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Entscheidungsbäume

Entscheidungsbäume

Einsatzbereiche von Entscheidungsbäumen:

Große Datensätze, die komplexe Zusammenhänge beschreiben.
Die Beziehung zwischen den Beobachtungen innerhalb der Datensätze müssen nicht linear sein!
Die Modellfunktion und deren Parameter sind nicht bekannt.
- Um den Modellzusammenhang zu beschreiben, wird das Modell trainiert (maschinelles Lernen)
- Das erfordert, dass die Daten in mindestens einem Trainings- und einem Modelltest-Datensatz geteilt werden. Ab und an wird der Datensatz nicht nur in die zwei genanten, sondern noch in einem weiteren Datensatz, dem Validierungsdatensatz, aufgeteilt.
- Diese Vorgehensweise ist notwendig, um Modellüberanpassungen zu erkennen!

3 / 67

Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Entscheidungsbäume

Entscheidungsbäume

Ein Entscheidungsbaum ist ein gerichteter azyklischer Graph bestehend aus einer Menge von Knoten N die mit den Eingabevariablen x verknüpft sind und Kanten E die die Knoten verbinden
Die Endknoten sind Blätter und enthalten Werte der Zielvariablen y (daher kann y nur eine kategorische Variable sein, oder eine intervallkategorisierte)
Die Kanten bestimmen die Evaluierung des Entscheidungsbaum beginnend von dem Wurzelknoten bis zu einem Blattknoten
- Jede Kante hat eine Evaluierungsbedingung ε(x) der Variable des ausgehenden Knotens x

Ein Entscheidungsbaum besteht aus Regeln. Jeder Knoten kann als eine Evaluierungsregel aufgefasst werden.

4 / 67

Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Entscheidungsbäume

Zusammengefasst ausgedrückt:

$\begin{gathered} M(X):X \to Y,X = \{ {x_i}\} ,Y = \{ {y_j}\} \hfill \\ DT = \left\langle {{N_x},{N_y},E} \right\rangle \hfill \\ {N_x} = \{ {n_i}:{n_i} \leftrightarrow {x_j}\} ,{N_y} = \{ {n_i}:{n_i} \leftrightarrow val({y_j})\} \hfill \\ E = \{ {e_{ij}}:{n_i} \mapsto {n_j} | \epsilon_{ij} \} \hfill \ \end{gathered}$

5 / 67

Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Entscheidungsbäume

Entscheidungsbäume können neben einem Graphen auch funktional dargestellt werden:

$M(X) = \left\{ {\begin{array}{_{20}{c}} {{x_i} = {v_1},\left\{ {\begin{array}{_{20}{c}} {{x_j} = {v_1},val({y})} \\ {{x_j} = {v_2},val({y})} \\ {{x_j} = {v_3},\left\{ {..} \right.} \end{array}} \right.} \\ {{x_i} = {v_2},\left\{ {\begin{array}{_{20}{c}} {{x_k} = {v_1},\left\{ {..} \right.} \\ {{x_k} = {v_2},\left\{ {..} \right.} \\ {{x_k} = {v_3},\left\{ {..} \right.} \end{array}} \right.} \\ {{x_i} = {v_3},\left\{ {\begin{array}{_{20}{c}} {{x_l} = {v_1},\left\{ {..} \right.} \\ {{x_l} = {v_2},\left\{ {..} \right.} \\ {{x_l} = {v_3},\left\{ {..} \right.} \end{array}} \right.} \end{array}} \right.$

6 / 67

Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Entscheidungsbäume

Baumklassen

Man unterscheidet:

Binäre Bäume. Jeder Knoten hat genau (oder maximal) zwei ausgehende Kanten (Verzweigungen). Der Test der Variable x kann daher nur x < v, x > v, x ≥ v, oder x ≤ v sein! Wird vor allem bei numerischen Variablen eingesetzt.
Bereichs- und Mehrfachbäume. Jeder Knoten hat 1..k ausgehende Kanten (Knotengrad k). Der Test der Variable x kann auf einen bestimmten Wert x ∈ V oder auf ein Intervall [a,b] erfolgen! Wird vor allem bei kategorischen Variablen eingesetzt.

7 / 67

Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Entscheidungsbäume

Baumstruktur

Grundlegende Struktur eines Entscheidungbaumes

8 / 67

Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Entscheidungsbäume

Vorteile: Entscheidungsbäume sind einfach aufgebaut und können mit einfachen Algorithmen erzeugt werden.

Entscheidungsbäume als inferiertes Modell erlauben eine Erklärbarkeit des Modells, also die Antwort auf die Frage wie sich ein y aus einem x ergibt.
Weiterhin ist eine Ableitung eines inversen Problems möglich, d.h. welche Werte x für gegebenes y sind möglich?

Nachteile: Entscheidungsbäume können schnell spezialisieren, d.h. es fehlt an Generalisierung.

Theoretisch kann mit einem Entscheidungsbaum jede Trainingsdatentabelle mit einer Trefferquote von 100% abgebildet werden. Der Test mit nicht trainierten Daten ergibt aber Prädiktion in der Größenordnung der Ratewahrscheinlichkeit!

9 / 67

Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Entscheidungsbäume

Bevor man das Training startet, insbesondere bei mehrschrittigen Verfahren, kann es hilfreich sein den Fehler für die "Ratewahrscheinlichkeit" gemäß der im Training benutzten Fehlerfunktion (loss) zu berechnen.

Beispiel Regression:

use math
x=[1,2,3,4,5,6,7,8]
y=[1,2,3,4,5,6,7,8]
y.median = fivenum(y)$median
loss2 = sqrt(mean((y-y.median)^2))
>> 2.29

Solange beim oder nach dem Training der fehler/Verlust nicht nennenswert kleiner (mindestens 1/2, besser 1/10) ist kann ist das Modell nicht brauchbar (bei Regressionsmodellen spricht man auch von der Todeslinie wenn das Modell konstant ungefähr den Median ausgibt).

10 / 67