Maschinelles Lernen und Datenanalyse

In der Werkstoff- und Prüftechnik

Prof. Dr. Stefan Bosse

Universität Koblenz - FB Informatik - Praktische Informatik

Universität Siegen - FB Maschinenbau / LMW

1 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN ::

Regressionsverfahren, SVM und KNN

Bisher wurden vor allem kategorische Zielvariablen betrachtet. Nun soll ein Schwerpunkt auf numerischen Variablen liegen.

2 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN ::

Regressionsverfahren, SVM und KNN

Bisher wurden vor allem kategorische Zielvariablen betrachtet. Nun soll ein Schwerpunkt auf numerischen Variablen liegen.

Regressionsverfahren passen eine parametrisierte mathematische Funktion an Messdaten an.

3 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN ::

Regressionsverfahren, SVM und KNN

Bisher wurden vor allem kategorische Zielvariablen betrachtet. Nun soll ein Schwerpunkt auf numerischen Variablen liegen.

Regressionsverfahren passen eine parametrisierte mathematische Funktion an Messdaten an.

Neben den "klassischen" Regressionsverfahren wie Least Square Fit gehören grundsätzlich auch Support Vector Machines (SVM) und Künstliche Neuronale Netzwerke dazu!

4 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN ::

SVM gehören zu den Regressionsverfahren

5 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN ::

SVM gehören zu den Regressionsverfahren

SVM nutzen aber bei der Parameteranpassung (Training) eine andere Fehlerfunktion (Loss) als bei anderen gängigen Regressionsverfahren (z.B. Least-Square Minimierung)

6 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN ::

SVM gehören zu den Regressionsverfahren

SVM nutzen aber bei der Parameteranpassung (Training) eine andere Fehlerfunktion (Loss) als bei anderen gängigen Regressionsverfahren (z.B. Least-Square Minimierung)

SVM können primär kategorische und weniger numerische Zielvariablen abbilden

7 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN ::

SVM gehören zu den Regressionsverfahren

SVM nutzen aber bei der Parameteranpassung (Training) eine andere Fehlerfunktion (Loss) als bei anderen gängigen Regressionsverfahren (z.B. Least-Square Minimierung)

SVM können primär kategorische und weniger numerische Zielvariablen abbilden

SVM sind aber (zunächst) lineare Klassifikatoren!

8 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Regressionsverfahren

Regressionsverfahren

  • Klassifikationsprobleme sind durch Booleschen Ausgabevariablen gekennzeichnet (Klasse ci={true,false})

  • Bei Regressionproblemen findet hingegen eine Ausgabe mit kontinuierlichen Variablen statt, idealerweise y ∈ [0,1]

  • D.h. es gibt Trainingsdaten mit:

D=Xt={xt,rt}Nt=1

wobei r ∈ ℝ (kontinuierliche Zielvariable). Wenn Rauschen vernachlässigt wird handelt es sich um ein reines Interpolationsproblem.

  • Das Ziel ist es nun, eine Funktion f(x) zu finden, die die Trainingsdaten optimal repräsentiert (also die beste Hypothese g von f finden)
9 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Regressionsverfahren

Beispiel

19

Lineare Gerade, Polynome zweiter Ordnung und sechster Ordnung werden an denselben Satz von Punkten angepasst. Die höchste Ordnung ergibt eine perfekte Passform, aber angesichts dieser vielen Daten ist es sehr unwahrscheinlich, dass die reale Kurve so geformt ist. Die zweite Ordnung scheint besser zu sein als die lineare Anpassung bei der Erfassung des Trends in den Trainingsdaten (Extrapolation).

10 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Regressionsverfahren

Es wird immer einen Fehler ε geben (Rauschen in den "Trainingsdaten" r):

y(xt)=rt=f(xt)+ϵ

  • Ziel der Regression ist es diesen Fehler über eine Verlustfunktion zu minimieren in dem Parameter Θ der Funktion f angepasst werden:

arg   minθ   ϵE(gX)=1N(rtg(xt))2

11 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Regressionsverfahren

Lineare Multivariate Regression

  • Es wird angenommen dass die Funktion f(x) durch eine lineare Funktion über x abgebildet werden kann.
  • Dann gilt:

yp(x)=g(x)=w1x1+w2x2+..+wdxd+w0=dj=1wdxd+w0

Schon dieses Problem kann unterbestimmt sein, d.h., es kann unendlich viele Hypothesen g von der unbekannten Funktion f geben!

  • Bei nichtlinearen Zusammenhängen wird die Regressionsfunktion noch komplexer!
12 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Regressionsverfahren

Nichtlineare Univariate Regression

  • Es gibt nur eine Eingabevariable und die Hypothesenfunktion wird durch ein Polynom k-ter Ordnung approximiert:

g(x)=w0+w1x+w2x2+..+wkxk=kj=1wjxj+w0

  • Wird von einem Polynom ersten Grades ausgegangen (Gerade) dann gilt es folgende Gleichung zu bestimmen und das Minimierungsproblem zu lösen:

g(x)=w1x+w0E(w1,w0Xt)=1NNt=1(rt(w1xt+w0))2

13 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Regressionsverfahren

  • Den Minimumspunkt dieser Fehlergleichung findet man durch Gradientenbildung der Parameter, das bedeutet dann:

w1=txtrt¯¯¯x¯¯¯rNt(xt)2N¯¯¯x2w0=¯¯¯rw1¯¯¯x¯¯¯x=txtN,¯¯¯r=trtN

14 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Regressionsverfahren

Nichtlineare Multivariate Regression

  • Sehr hochdimensionales Problem! Und i.A. völlig unterbestimmt (d.h. kein eindeutigen Zusammenhänge zwischen x und y)

g(x)=di=1kj=1wi,jxji+w0

Es können auch exponentielle, logarithmische, und sinusoidale Terme hinzukommen!

  • Ein numerisches Lösen ist meist nicht mehr möglich; daher Verwendung nichtlinearer Randbedingungslöser sowie statistische Verfahren wie randomiserte Monte Carlo Simulation und Simmuliertes Abkühlen (Evolutionäre Algorithmen?)
15 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Regressionsverfahren

Warum können hochdimensionale Polynome nicht mehr mit gradientenbasierten Verfahren numerisch auf einem Computer (gut oder überhaupt) lösbar sein? Hinweis: Wie entwickeln sich Gradienten bei Polynomen sehr hoher Ordnung oder gar Exponentialterme wie bn?

???
16 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Regressionsverfahren

Warum können hochdimensionale Polynome nicht mehr mit gradientenbasierten Verfahren numerisch auf einem Computer (gut oder überhaupt) lösbar sein? Hinweis: Wie entwickeln sich Gradienten bei Polynomen sehr hoher Ordnung oder gar Exponentialterme wie bn?

???

Nicht begrenzter und steigender Gradient!

17 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Direkte Lösungsverfahren

Direkte Lösungsverfahren

Single Value Decomposition (SVD)

4

  • Erweiterung der Eigenwertanalyse und verwendet Matrixalgebra und Inversionsmethoden

  • Ansatz: Dekomposition einer (nichtlinearen) Funktion f(x,Θ) mit b Basisfunktionen ϕ, z.B. sin oder ähnlich, mit Parametersatz Θ:

fΘ(x)=bj=1Θjϕj(x)fΘ(x)=ΘTϕ(x)

  • Z.B. ϕ(x) = (1,x,x2,..,xb-1)T, oder ϕ(x) = (1,sin(x),cos(x),sin(2x),...)T
18 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Direkte Lösungsverfahren

  • Die gesamte Trainingstabelle wird in Matrixform repräsentiert, und somit erhält man eine Parametermatrix Φ mit den Basisfunktionstermen für die anzupassenden Funktion f(x)Θ (Design Matrix):

^Φ=ϕ1(x1)..ϕb(x1)ϕ1(xn)..ϕb(xn)

Die Größe der Design Matrix als Ausgangspunkt für SVD/LS Verfahren wächst quadratisch mit der Anzahl der Trainingsdateninstanzen!

19 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Direkte Lösungsverfahren

  • Die Lösung (der Funktionsparameter Θ) geschieht dann doch Matrixinversion der Designmatrix Φ:

^ΘLS=(ΦTΦ)1ΦTy^ΘLS=ΦGy

mit ΦG als generalisierte Inverse der Matrix Φ

Die generalisierte Inverse wird dann mit dem SVD Verfahren mit sogenannten links- und rechtssingulären Vektoren bestimmt.

Vertiefung: M. Sugiyama, Introduction to Statistical Machine Learning. 2016, Kapitel 22.2

20 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Support Vector Machines (SVM)

Support Vector Machines (SVM)

Obwohl die SVM zu den linearen (oder nichtlinearen) Regressionsverfahren gehören, wird die SVM primär für die binäre Klassifikation eingesetzt!

  • SVM Verfahren gehören zu den "Maximum Margin" Methoden
21 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Binärer Klassifikator

Binärer Klassifikator

  • Ein binärer Klassifikator soll durch eine lineare Funktion repräsentiert werden (y={-1,+1}, linearer Kernel):

f(x):xy=wTx+γ

Dabei sind w und γ die Parameter des Modells die durch das Training an das Problem angepasst werden müssen.

  • w ist ein Normalenvektor der bei einem binären Klassifikationsproblem die beiden Instanzklassen trennt

  • y kann tatsächlich auch außerhalb der Grenzen [-1,1] liegen (klar: Polynome haben keine Grenzen)!

22 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Binärer Klassifikator

4 (Oben) w ist der Normalenvektor und γ die Verschiebung der Trennungsgrenze für zwei Klasseninstanzen (Unten) Verschiedene w/γ Varianten der Trennungsgrenze mit unterschiedlichen Rändern (Sicherheitsbereichen)

23 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Training

Training

  • Das Lernen von w und γ erfordert die Berechnung des Abstandes von allen Dateninstanzen (x,y)i von der Trenngrenze. Die Abstände müssen positiv sein:

f(xi)yi=(wTxi+γ)yi>0,i

für alle Dateninstanzen D={(xi,yi)}n.

  • Da w und γ beliebig gewählt werden können, kann die Randbedingung auch mit (..)yi ≥ 1 gewählt werden.

  • Weiterhin kann es sinnvoll sein alle Dateninstanzen um den Ursprung des Koordinatensystems zu zentrieren

24 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Training

Wichtig: Die Werte für y liegen im Intervall [-1,1]!

  • Alle Probleme die (..)yi ≥ 1 erfüllen mit einem (w,γ) sind linear separierbar.

  • Es gibt unendlich viele Lösungen (also Entscheidungsgrenzen)

  • Man wählt das (w,γ) aus bei der alle Dateninstanzen die größte Trennung besitzen (breitester Trennbereich, siehe Abb.)

  • Der Abstand der Dateninstanzen D ist definiert als das Minimum des normalisierten Abstandes:

mi=(wTxi+γ)yi/||w||

25 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Training

  • D.h. SVM zu trainieren ist das Minimierungsproblem zu lösen:

mini(wTxi+γ)yi||w||=1||w||

Vertiefung: M. Sugiyama, Introduction to Statistical Machine Learning. 2016., Kapitel 27

  • Jede Dateninstanz die nicht in den Trennbereich "eindringt" ist ein Supportvektor!
26 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Training

Harter Trennungsbereich (Hard SVM)

  • Bei einer "harten" Trennung einer SVM gilt dann:

mini1/2||w||2,(wTxi+γ)yi1,i

Hier wird aber keine Lösung für w und γ gefunden wenn das Problem nicht strikt linear separierbar ist (also keine einzige Gerade die Klassen trennen kann)

27 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Training

Weicher Trennungsbereich (Soft SVM)

  • Die SVM mit harten Trennungsbereich erfordert lineare Separierbarkeit der Dateninstanzen

    • Ist in der Realität aber nicht immer oder eher selten gegeben
  • Die weiche Trennung durch eine SVM führt einen Fehlerparametervektor ξ={ξi}n für die Bestimmung des Trennbereichs ein:

mini:w,ξ,γ[1/2||w||2+Ciξi],(wTxi+γ)yi1ξi,ξi0,i

  • Sie lässt einzelne nicht (linear) separierbare Datenpunkte zu (zur Erinnerung: i ist der i-te Datenpunkt, d.h. die i-te Dateninstanz).
28 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Training

4 Weicher Trennbereich einer SVM (Soft margin SVM). Durch ξ werden kleine Klassifikationsfehlerbereiche erlaubt.

Die Ausreißer können durch Rauschen und Messunsicherheit (random. und systematischer Fehler) aber auch aufgrund eines nichtlinear separierbaren Problems entstehen!

29 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Training

Dabei ist C ein einstellbarer Parameter der den Fehler steuert und für den gilt:

C=αi+βi

Größere C Werte machen den Abstandsfehler kleiner und für große C geht die weiche in eine harte SVM über

  • αi = 0 impliziert mi ≥ 1: die i-te Trainingsinstanz xi ist auf der Margengrenze oder innerhalb der Marge und ist korrekt klassifiziert.
  • αi = C impliziert mi ≤ 1: xi ist auf der Margengrenze oder außerhalb der Marge. Wenn ξi > 1, mi < 0 dann ist xi falsch klassifiziert.
  • 0 < αi < C impliziert mi = 1: xi ist auf der Margengrenze und ist korrekt klassifiziert.
  • mi > 1 impliziert αi = 0: wenn xi innerhalb der Marge ist, αi = 0.
  • mi < 1 impliziert αi = C: wenn xi außerhalb der Marge ist, αi = C.
30 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Multiklassen SVM

Multiklassen SVM

Jedes Multiklassenproblem mit m verschiedenen (diskreten) Klassenwerten kann auf m binäre Klassifikationsprobleme transformiert werden

  • Anders als bei ANN ist bei SVMs aber nur eine One-hot Kodierung möglich (ggfs. mit Softmaxfunktion).

31 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: R SVM (custom)

R SVM (custom)

model <- svm(
x = data.frame,
y? = vector, # scaled to [-1,1]?
formula? = y ~ x,
# threshold function on output? highest value of multi-svms is winner
threshold = boolean,
# default : 1.0. C in SVM.
C = number,
# default : 1e-4. Higher tolerance --> Higher precision
tol = number,
# default : 20. Higher max_passes --> Higher precision
max_passes = number,
# default : 1e-5. Higher alpha_tolerance --> Higher precision
alpha_tol = number,
kernel = string|list, # linear, rbf, .. list(type= 'rbf', sigma= 0.5) ..
# list( type = "polynomial", c = 1, d = 5=
)
32 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Beispiel

Beispiel

33 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Künstliche Neuronale Netze

Künstliche Neuronale Netze

  • Ein Künstliches Neuronales Netz (KNN) ist ein gerichteter Graph bestehend aus einer Menge von Knoten N und Kanten E die die Knoten verbinden
    • Knoten: Neuron oder Perzeptron mit einem oder mehreren Eingängen I und einem Ausgang o; Berechnungsfunktion g(I): Io
    • Kanten: Gewichteter Datenfluss vom Ausgang eines Neurons zum Eingang eines anderen (oder des selben) Neurons

Ein KNN ist eine Komposition aus einer Vielzahl von Abbildungsfunktionen G=(g1,g2,..,gm). Es gibt Parallelen zu Regressionsverfahren mit Funktionen.

34 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Künstliche Neuronale Netze

  • Zusammengefasst ausgedrückt:

M(X):XY,X={xi},Y={yj}KNN=Nx,Nd,Ny,ENx={ni:ni{xj}},Nd={nd:ninj},Ny={nk:nkyk}n=g(p,w,b):po=f(iwipi+b)E={eij:ninjwij} 

  • f ist eine Transferfunktion die die akkumulierten Eingangswerte auf den Ausgangswert o abbildet, und g ist dann die gewichtete und akkumulative Transferfunktion
35 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Künstliche Neuronale Netze

  • Unterschied (künstliches) Neuron und Perzeptron:
    • Ein Neuron ist immer eine Elementarzelle
    • Ein Perzeptron kann ein einzelnes Neuron oder ein Netzwerk aus Neuronen beschreiben
  • Daher gibt es:
    • Single Layer Perceptron (SLP) → Nur Eingangs- Nx und Ausgangsneuronen Ny
    • Multi Layer Perceptron (MLP) → + Innere Neuronen Nd
36 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Das Neuron

Das Neuron

15 Ein einzelnes Neuron mit einem einzelnen Eingang p und einem Ausgang o. w ist ein Gewichtungsfaktor (ein Gewicht für eingehendes p) und b ist ein Bias (Offset)

37 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Das Mehreingangsneuron

Das Mehreingangsneuron

15 Ein einzelnes Neuron mit einem Eingangsvektor p und einem skalaren Ausgang o. w ist ein Gewichtungsfaktorvektor (ein Gewicht für eingehendes p) und b ist ein Bias (Offset)

38 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Neuronale Netze und Matrizen

Neuronale Netze und Matrizen

  • Neuronale Netze werden durch eine Graphenstruktur (statische Parameter) und mathematisch durch Matrizen (dynamische Parameter) beschrieben:

15 Ein einzelnes Neuron mit einem Eingangsvektor p und einem skalaren Ausgang o. w ist ein Gewichtungsfaktorvektor (ein Gewicht für eingehendes p) und b ist ein Bias (Offset); jetzt in Matrizenform (Annotation)

39 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Schichten von Neuronalen Netzen

Schichten von Neuronalen Netzen

  • I.A. werden Neuronen von neuronalen Netzen in Schichten (Layer) angeordnet und gruppiert
    • Günstig für Matrixalgebra
    • Aber nicht notwendig!

15

Neuronales Netzwerk mit Neuronen in einer Schicht angeordnet

40 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Struktur eines KNN

Struktur eines KNN

15