In der Werkstoff- und Prüftechnik
Prof. Dr. Stefan Bosse
Universität Koblenz - FB Informatik - Praktische Informatik
Universität Siegen - FB Maschinenbau / LMW
Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen ::
Zielvariablen: Primär Kategorische Variablen; Sekundär Numerische Variablen
Eigenschaftsvariablen: Kategorische und Numerische Variablen
Modell: Gerichteter azyklischer Graph (Baumstruktur)
Training und Algorithmen: C4.5, ID3, C5.0, ICE, CART, RF
Klasse: Überwachtes Lernen
Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Entscheidungsbäume
Einsatzbereiche von Entscheidungsbäumen:
Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Entscheidungsbäume
Ein Entscheidungsbaum ist ein gerichteter azyklischer Graph bestehend aus einer Menge von Knoten N die mit den Eingabevariablen x verknüpft sind und Kanten E die die Knoten verbinden
Die Endknoten sind Blätter und enthalten Werte der Zielvariablen y (daher kann y nur eine kategorische Variable sein, oder eine intervallkategorisierte)
Die Kanten bestimmen die Evaluierung des Entscheidungsbaum beginnend von dem Wurzelknoten bis zu einem Blattknoten
Ein Entscheidungsbaum besteht aus Regeln. Jeder Knoten kann als eine Evaluierungsregel aufgefasst werden.
Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Entscheidungsbäume
M(X):X→Y,X={xi},Y={yj}DT=⟨Nx,Ny,E⟩Nx={ni:ni↔xj},Ny={ni:ni↔val(yj)}E={eij:ni↦nj|ϵij}
Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Entscheidungsbäume
M(X)=⎧⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎨⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎩xi=v1,⎧⎪⎨⎪⎩xj=v1,val(y)xj=v2,val(y)xj=v3,{..xi=v2,⎧⎪⎨⎪⎩xk=v1,{..xk=v2,{..xk=v3,{..xi=v3,⎧⎪⎨⎪⎩xl=v1,{..xl=v2,{..xl=v3,{..
Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Entscheidungsbäume
Man unterscheidet:
Binäre Bäume. Jeder Knoten hat genau (oder maximal) zwei ausgehende Kanten (Verzweigungen). Der Test der Variable x kann daher nur x < v, x > v, x ≥ v, oder x ≤ v sein! Wird vor allem bei numerischen Variablen eingesetzt.
Bereichs- und Mehrfachbäume. Jeder Knoten hat 1..k ausgehende Kanten (Knotengrad k). Der Test der Variable x kann auf einen bestimmten Wert x ∈ V oder auf ein Intervall [a,b] erfolgen! Wird vor allem bei kategorischen Variablen eingesetzt.
Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Entscheidungsbäume
Grundlegende Struktur eines Entscheidungbaumes
Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Entscheidungsbäume
Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Entscheidungsbäume
Bevor man das Training startet, insbesondere bei mehrschrittigen Verfahren, kann es hilfreich sein den Fehler für die "Ratewahrscheinlichkeit" gemäß der im Training benutzten Fehlerfunktion (loss) zu berechnen.
Beispiel Regression:
use mathx=[1,2,3,4,5,6,7,8]y=[1,2,3,4,5,6,7,8]y.median = fivenum(y)$medianloss2 = sqrt(mean((y-y.median)^2))>> 2.29
Solange beim oder nach dem Training der fehler/Verlust nicht nennenswert kleiner (mindestens 1/2, besser 1/10) ist kann ist das Modell nicht brauchbar (bei Regressionsmodellen spricht man auch von der Todeslinie wenn das Modell konstant ungefähr den Median ausgibt).
Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Training
Das Training mit Trainingsdaten Dtrain erzeugt den Baum schrittweise:
Die Auswahl der Variablen und die Verzweigungsbedingungen können je nach Algorithmus und Baumklasse variieren!
Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Training
10
Schrittweise Erzeugung des Entscheidungsbaums aus den Eingabedaten (a) erst mit einer Variable (b,c), dann mit zwei (d) unter Beachtung des Klassifikationsfehlers
Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Training
Jeder Knoten in einem binären Baum stellt eine lineare Separation des Eingabedatenraums dar.
Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Training
14
k-stelliger Entscheidungsbaum für kategorische Variablen
Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Training
www.statistik-dresden.de
Binärer Entscheidungsbaum (Relation und Auswahl) für numerische und kategorische Variablen: Beantwortung "soziologischen Fragen", und nicht Prädiktion
Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Training
100
(Links) Entscheidungsbaum für die Vorhersage von Reibungskoeffizienten von Materialien auf der Grundlage von sechs grundlegenden Materialmerkmalen (Rechts) Vergleich der vorhergesagten und experimentellen Reibungskoeffizienten
Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Training
Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Training
Die Kreuzentropie ist in der Informationstheorie und der mathematischen Statistik ein Maß für die Qualität eines Modells für eine Wahrscheinlichkeitsverteilung. Eine Minimierung der Kreuzentropie in Bezug auf die Modellparameter kommt einer Maximierung der Log-Likelihood-Funktion gleich. Es gilt mit p als Zielwertverteilung von y und q als Verteilung der Prädktion yp:
H(p,q)=−∑cp(c)log(q(c))p(c)=count(y∣y=c)Nq(c)=count(yp∣yp=c)Nc∈C={U,V,W,..}
Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Training
L(y,p)=1NN∑i=1−yilog(pi)−(1−yi)log(1−pi)
Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Training
rmse(yp,y0)=√1N∑(yp−y0)2
Weitere Informationen und Vertiefung:
Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Vergleich ID3 - C4.5
Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: ID3 Verfahren
[1] J. R. Quinlan, “Induction of Decision Trees,” in Machine Learning, Kluwer Academic Publishers, Boston, 1986.
E(X)=−∑i=1,kpilog2(pi),pi=count(X=ci)|X|,X={c|c∈C}
Alle Werte gleich ⇒ Entropie=0; Alle Werte gleichverteilt ⇒ Entropie=-log2|ci|
Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: ID3 Verfahren
https://towardsdatascience.com/understanding-entropy-the-golden-measurement-of-machine-learning-4ea97c663dc3