Maschinelles Lernen und Datenanalyse

In der Werkstoff- und Prüftechnik

Prof. Dr. Stefan Bosse

Universität Koblenz - FB Informatik - Praktische Informatik

Universität Siegen - FB Maschinenbau / LMW

1 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN ::

Regressionsverfahren, SVM und KNN

Bisher wurden vor allem kategorische Zielvariablen betrachtet. Nun soll ein Schwerpunkt auf numerischen Variablen liegen.

2 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN ::

Regressionsverfahren, SVM und KNN

Bisher wurden vor allem kategorische Zielvariablen betrachtet. Nun soll ein Schwerpunkt auf numerischen Variablen liegen.

Regressionsverfahren passen eine parametrisierte mathematische Funktion an Messdaten an.

3 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN ::

Regressionsverfahren, SVM und KNN

Bisher wurden vor allem kategorische Zielvariablen betrachtet. Nun soll ein Schwerpunkt auf numerischen Variablen liegen.

Regressionsverfahren passen eine parametrisierte mathematische Funktion an Messdaten an.

Neben den "klassischen" Regressionsverfahren wie Least Square Fit gehören grundsätzlich auch Support Vector Machines (SVM) und Künstliche Neuronale Netzwerke dazu!

4 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN ::

SVM gehören zu den Regressionsverfahren

5 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN ::

SVM gehören zu den Regressionsverfahren

SVM nutzen aber bei der Parameteranpassung (Training) eine andere Fehlerfunktion (Loss) als bei anderen gängigen Regressionsverfahren (z.B. Least-Square Minimierung)

6 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN ::

SVM gehören zu den Regressionsverfahren

SVM nutzen aber bei der Parameteranpassung (Training) eine andere Fehlerfunktion (Loss) als bei anderen gängigen Regressionsverfahren (z.B. Least-Square Minimierung)

SVM können primär kategorische und weniger numerische Zielvariablen abbilden

7 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN ::

SVM gehören zu den Regressionsverfahren

SVM nutzen aber bei der Parameteranpassung (Training) eine andere Fehlerfunktion (Loss) als bei anderen gängigen Regressionsverfahren (z.B. Least-Square Minimierung)

SVM können primär kategorische und weniger numerische Zielvariablen abbilden

SVM sind aber (zunächst) lineare Klassifikatoren!

8 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Regressionsverfahren

Regressionsverfahren

Klassifikationsprobleme sind durch Booleschen Ausgabevariablen gekennzeichnet (Klasse c_i={true,false})
Bei Regressionproblemen findet hingegen eine Ausgabe mit kontinuierlichen Variablen statt, idealerweise y ∈ [0,1]
D.h. es gibt Trainingsdaten mit:

${D}={X}^{{t}}={{\left\lbrace\vec{{x}}^{{t}},{r}^{{t}}\right\rbrace}_{{{t}={1}}}^{{{N}}}}$

wobei r ∈ ℝ (kontinuierliche Zielvariable). Wenn Rauschen vernachlässigt wird handelt es sich um ein reines Interpolationsproblem.

Das Ziel ist es nun, eine Funktion f(x) zu finden, die die Trainingsdaten optimal repräsentiert (also die beste Hypothese g von f finden)

9 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Regressionsverfahren

Beispiel

Lineare Gerade, Polynome zweiter Ordnung und sechster Ordnung werden an denselben Satz von Punkten angepasst. Die höchste Ordnung ergibt eine perfekte Passform, aber angesichts dieser vielen Daten ist es sehr unwahrscheinlich, dass die reale Kurve so geformt ist. Die zweite Ordnung scheint besser zu sein als die lineare Anpassung bei der Erfassung des Trends in den Trainingsdaten (Extrapolation).

10 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Regressionsverfahren

Es wird immer einen Fehler ε geben (Rauschen in den "Trainingsdaten" r):

${y}{\left(\vec{{x}}^{{t}}\right)}={r}^{{t}}={f{{\left(\vec{{x}}^{{t}}\right)}}}+\epsilon$

Ziel der Regression ist es diesen Fehler über eine Verlustfunktion zu minimieren in dem Parameter Θ der Funktion f angepasst werden:

$\text{arg}\ \text{ }\ {\underset{{\theta}}{{\text{min}}}}\ \text{ }\ \epsilon\to{E}{\left({g}{\mid}{X}\right)}=\frac{{1}}{{N}}\sum{\left({r}^{{t}}-{g{{\left(\vec{{x}}^{{t}}\right)}}}\right)}^{{2}}$

11 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Regressionsverfahren

Lineare Multivariate Regression

Es wird angenommen dass die Funktion f(x) durch eine lineare Funktion über x abgebildet werden kann.
Dann gilt:

${y}_{{p}}{\left(\vec{{x}}\right)}={g{{\left(\vec{{x}}\right)}}}={w}_{{1}}{x}_{{1}}+{w}_{{2}}{x}_{{2}}+..+{w}_{{d}}{x}_{{d}}+{w}_{{0}}={\sum_{{{j}={1}}}^{{{d}}}}{w}_{{d}}{x}_{{d}}+{w}_{{0}}$

Schon dieses Problem kann unterbestimmt sein, d.h., es kann unendlich viele Hypothesen g von der unbekannten Funktion f geben!

Bei nichtlinearen Zusammenhängen wird die Regressionsfunktion noch komplexer!

12 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Regressionsverfahren

Nichtlineare Univariate Regression

Es gibt nur eine Eingabevariable und die Hypothesenfunktion wird durch ein Polynom k-ter Ordnung approximiert:

${g{{\left({x}\right)}}}={w}_{{0}}+{w}_{{1}}{x}+{w}_{{2}}{x}^{{2}}+..+{w}_{{k}}{x}^{{k}}={\sum_{{{j}={1}}}^{{{k}}}}{w}_{{j}}{x}^{{j}}+{w}_{{0}}$

Wird von einem Polynom ersten Grades ausgegangen (Gerade) dann gilt es folgende Gleichung zu bestimmen und das Minimierungsproblem zu lösen:

${g{{\left({x}\right)}}}={w}_{{1}}{x}+{w}_{{0}}\\ {E}{\left({w}_{{1}},{w}_{{0}}{\mid}{X}^{{t}}\right)}=\frac{{1}}{{N}}{\sum_{{{t}={1}}}^{{{N}}}}{\left({r}^{{t}}-{\left({w}_{{1}}{x}^{{t}}+{w}_{{0}}\right)}\right)}^{{2}}$

13 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Regressionsverfahren

Den Minimumspunkt dieser Fehlergleichung findet man durch Gradientenbildung der Parameter, das bedeutet dann:

${w}_{{1}}=\frac{{\sum_{{t}}{x}^{{t}}{r}^{{t}}-\overline{{x}}\overline{{r}}{N}}}{{\sum_{{t}}{\left({x}^{{t}}\right)}^{{2}}-{N}\overline{{x}}^{{2}}}}\\ {w}_{{0}}=\overline{{r}}-{w}_{{1}}\overline{{x}}\\ \overline{{x}}=\sum_{{t}}\frac{{x}^{{t}}}{{N}},\overline{{r}}=\sum_{{t}}\frac{{r}^{{t}}}{{N}}$

14 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Regressionsverfahren

Nichtlineare Multivariate Regression

Sehr hochdimensionales Problem! Und i.A. völlig unterbestimmt (d.h. kein eindeutigen Zusammenhänge zwischen x und y)

${g{{\left(\vec{{x}}\right)}}}={\sum_{{{i}={1}}}^{{{d}}}}{\sum_{{{j}={1}}}^{{{k}}}}{w}_{{{i},{j}}}{{x}_{{i}}^{{j}}}+{w}_{{0}}$

Es können auch exponentielle, logarithmische, und sinusoidale Terme hinzukommen!

Ein numerisches Lösen ist meist nicht mehr möglich; daher Verwendung nichtlinearer Randbedingungslöser sowie statistische Verfahren wie randomiserte Monte Carlo Simulation und Simmuliertes Abkühlen (Evolutionäre Algorithmen?)

15 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Regressionsverfahren

Warum können hochdimensionale Polynome nicht mehr mit gradientenbasierten Verfahren numerisch auf einem Computer (gut oder überhaupt) lösbar sein? Hinweis: Wie entwickeln sich Gradienten bei Polynomen sehr hoher Ordnung oder gar Exponentialterme wie bⁿ?

???

16 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Regressionsverfahren

???

Nicht begrenzter und steigender Gradient!

17 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Direkte Lösungsverfahren

Direkte Lösungsverfahren

Single Value Decomposition (SVD)

Erweiterung der Eigenwertanalyse und verwendet Matrixalgebra und Inversionsmethoden
Ansatz: Dekomposition einer (nichtlinearen) Funktion f(x,Θ) mit b Basisfunktionen ϕ, z.B. sin oder ähnlich, mit Parametersatz Θ:

${{f}_{\Theta}{\left(\vec{{x}}\right)}}={\sum_{{{j}={1}}}^{{{b}}}}\Theta_{{j}}\phi_{{j}}{\left({x}\right)}\\ {{f}_{\Theta}{\left(\vec{{x}}\right)}}=\vec{\Theta}^{{T}}\vec{\phi}{\left({x}\right)}$

Z.B. ϕ(x) = (1,x,x²,..,x^b-1)^T, oder ϕ(x) = (1,sin(x),cos(x),sin(2x),...)^T

18 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Direkte Lösungsverfahren

Die gesamte Trainingstabelle wird in Matrixform repräsentiert, und somit erhält man eine Parametermatrix Φ mit den Basisfunktionstermen für die anzupassenden Funktion f(x)_Θ (Design Matrix):

$\hat{\Phi}={\left(\matrix{\phi_{{1}}{\left(\vec{{x}}_{{1}}\right)}&..&\phi_{{b}}{\left(\vec{{x}}_{{1}}\right)}\\\ldots&\ldots&\ldots\\\phi_{{1}}{\left(\vec{{x}}_{{n}}\right)}&..&\phi_{{b}}{\left(\vec{{x}}_{{n}}\right)}}\right)}$

Die Größe der Design Matrix als Ausgangspunkt für SVD/LS Verfahren wächst quadratisch mit der Anzahl der Trainingsdateninstanzen!

19 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Direkte Lösungsverfahren

Die Lösung (der Funktionsparameter Θ) geschieht dann doch Matrixinversion der Designmatrix Φ:

$\hat{\Theta}_{{{L}{S}}}={\left(\Phi^{{T}}\Phi\right)}^{{-{1}}}\Phi^{{T}}{y}\\ \hat{\Theta}_{{{L}{S}}}=\Phi^{{G}}{y}$

mit Φ^G als generalisierte Inverse der Matrix Φ

Die generalisierte Inverse wird dann mit dem SVD Verfahren mit sogenannten links- und rechtssingulären Vektoren bestimmt.

Vertiefung: M. Sugiyama, Introduction to Statistical Machine Learning. 2016, Kapitel 22.2

20 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Support Vector Machines (SVM)

Support Vector Machines (SVM)

Obwohl die SVM zu den linearen (oder nichtlinearen) Regressionsverfahren gehören, wird die SVM primär für die binäre Klassifikation eingesetzt!

SVM Verfahren gehören zu den "Maximum Margin" Methoden

21 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Binärer Klassifikator

Binärer Klassifikator

Ein binärer Klassifikator soll durch eine lineare Funktion repräsentiert werden (y={-1,+1}, linearer Kernel):

$f(\vec{x}):\vec{x} \rightarrow y=\vec{w}^T\vec{x}+\gamma$

Dabei sind w und γ die Parameter des Modells die durch das Training an das Problem angepasst werden müssen.

w ist ein Normalenvektor der bei einem binären Klassifikationsproblem die beiden Instanzklassen trennt
y kann tatsächlich auch außerhalb der Grenzen [-1,1] liegen (klar: Polynome haben keine Grenzen)!

22 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Binärer Klassifikator

4 (Oben) w ist der Normalenvektor und γ die Verschiebung der Trennungsgrenze für zwei Klasseninstanzen (Unten) Verschiedene w/γ Varianten der Trennungsgrenze mit unterschiedlichen Rändern (Sicherheitsbereichen)

23 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Training

Training

Das Lernen von w und γ erfordert die Berechnung des Abstandes von allen Dateninstanzen (x,y)_i von der Trenngrenze. Die Abstände müssen positiv sein:

$f(\vec{x}_i)y_i=(\vec{w}^T\vec{x}_i+\gamma)y_i > 0, \forall i$

für alle Dateninstanzen D={(x_i,y_i)}ⁿ.

Da w und γ beliebig gewählt werden können, kann die Randbedingung auch mit (..)y_i ≥ 1 gewählt werden.
Weiterhin kann es sinnvoll sein alle Dateninstanzen um den Ursprung des Koordinatensystems zu zentrieren

24 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Training

Wichtig: Die Werte für y liegen im Intervall [-1,1]!

Alle Probleme die (..)y_i ≥ 1 erfüllen mit einem (w,γ) sind linear separierbar.
Es gibt unendlich viele Lösungen (also Entscheidungsgrenzen)
Man wählt das (w,γ) aus bei der alle Dateninstanzen die größte Trennung besitzen (breitester Trennbereich, siehe Abb.)
Der Abstand der Dateninstanzen D ist definiert als das Minimum des normalisierten Abstandes:

$m_i=(\vec{w}^T\vec{x}_i+\gamma)y_i/||\vec{w}||$

25 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Training

D.h. SVM zu trainieren ist das Minimierungsproblem zu lösen:

$\mathop {\min }\limits_i \frac{(\vec{w}^T\vec{x}_i+\gamma)y_i}{||w||}=\frac{1}{||w||}$

Vertiefung: M. Sugiyama, Introduction to Statistical Machine Learning. 2016., Kapitel 27

Jede Dateninstanz die nicht in den Trennbereich "eindringt" ist ein Supportvektor!

26 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Training

Harter Trennungsbereich (Hard SVM)

Bei einer "harten" Trennung einer SVM gilt dann:

$\mathop {\min }\limits_i 1/2 ||w||^2, (\vec{w}^T\vec{x}_i+\gamma)y_i \geqslant 1, \forall i$

Hier wird aber keine Lösung für w und γ gefunden wenn das Problem nicht strikt linear separierbar ist (also keine einzige Gerade die Klassen trennen kann)

27 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Training

Weicher Trennungsbereich (Soft SVM)

Die SVM mit harten Trennungsbereich erfordert lineare Separierbarkeit der Dateninstanzen
- Ist in der Realität aber nicht immer oder eher selten gegeben
Die weiche Trennung durch eine SVM führt einen Fehlerparametervektor ξ={ξ_i}ⁿ für die Bestimmung des Trennbereichs ein:

$\mathop {\min }\limits_{\forall i:w,\xi,\gamma} \left[1/2 ||w||^2 + C\sum_i\xi_i\right],\\ (\vec{w}^T\vec{x}_i+\gamma)y_i \geqslant 1 - \xi_i, \xi_i \geqslant 0, \forall i$

Sie lässt einzelne nicht (linear) separierbare Datenpunkte zu (zur Erinnerung: i ist der i-te Datenpunkt, d.h. die i-te Dateninstanz).

28 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Training

4 Weicher Trennbereich einer SVM (Soft margin SVM). Durch ξ werden kleine Klassifikationsfehlerbereiche erlaubt.

Die Ausreißer können durch Rauschen und Messunsicherheit (random. und systematischer Fehler) aber auch aufgrund eines nichtlinear separierbaren Problems entstehen!

29 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Training

Dabei ist C ein einstellbarer Parameter der den Fehler steuert und für den gilt:

${C}=\alpha_{{i}}+\beta_{{i}}$

Größere C Werte machen den Abstandsfehler kleiner und für große C geht die weiche in eine harte SVM über

α_i = 0 impliziert m_i ≥ 1: die i-te Trainingsinstanz x_i ist auf der Margengrenze oder innerhalb der Marge und ist korrekt klassifiziert.
α_i = C impliziert m_i ≤ 1: x_i ist auf der Margengrenze oder außerhalb der Marge. Wenn ξ_i > 1, m_i < 0 dann ist x_i falsch klassifiziert.
0 < α_i < C impliziert m_i = 1: x_i ist auf der Margengrenze und ist korrekt klassifiziert.
m_i > 1 impliziert α_i = 0: wenn x_i innerhalb der Marge ist, α_i = 0.
m_i < 1 impliziert α_i = C: wenn x_i außerhalb der Marge ist, α_i = C.

30 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Multiklassen SVM

Multiklassen SVM

Jedes Multiklassenproblem mit m verschiedenen (diskreten) Klassenwerten kann auf m binäre Klassifikationsprobleme transformiert werden

Anders als bei ANN ist bei SVMs aber nur eine One-hot Kodierung möglich (ggfs. mit Softmaxfunktion).

31 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: R SVM (custom)

R SVM (custom)

model <- svm(
    x = data.frame, 
    y? = vector, # scaled to [-1,1]?
    formula? = y ~ x,
    # threshold function on output? highest value of multi-svms is winner
    threshold = boolean,  
    # default : 1.0. C in SVM.
    C = number, 
    # default : 1e-4. Higher tolerance --> Higher precision
    tol = number, 
    # default : 20. Higher max_passes --> Higher precision
    max_passes = number,
    # default : 1e-5. Higher alpha_tolerance --> Higher precision
    alpha_tol = number, 
    kernel = string|list, # linear, rbf, .. list(type= 'rbf', sigma= 0.5) .. 
    # list( type = "polynomial", c =  1, d = 5=
)

32 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Beispiel

Beispiel

33 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Künstliche Neuronale Netze

Künstliche Neuronale Netze

Ein Künstliches Neuronales Netz (KNN) ist ein gerichteter Graph bestehend aus einer Menge von Knoten N und Kanten E die die Knoten verbinden
- Knoten: Neuron oder Perzeptron mit einem oder mehreren Eingängen I und einem Ausgang o; Berechnungsfunktion g(I): I → o
- Kanten: Gewichteter Datenfluss vom Ausgang eines Neurons zum Eingang eines anderen (oder des selben) Neurons

Ein KNN ist eine Komposition aus einer Vielzahl von Abbildungsfunktionen G=(g₁,g₂,..,g_m). Es gibt Parallelen zu Regressionsverfahren mit Funktionen.

34 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Künstliche Neuronale Netze

Zusammengefasst ausgedrückt:

$\begin{gathered} M(X):X \to Y,X = \{ {x_i}\} ,Y = \{ {y_j}\} \hfill \\ KNN = \left\langle {{N_x},{N_d},{N_y},E} \right\rangle \hfill \\ {N_x} = \{ {n_i} : n_i \leftrightarrow \{x_j\} \} ,{N_d} = \{ n_d: n_i \leftrightarrow n_j\}, {N_y} = \{ {n_k}: n_k \leftrightarrow y_k\} \hfill \\ n = g(\vec{p},\vec{w},b): \vec{p}\rightarrow o = f(\sum_i w_ip_i+b) \hfill \\ E = \{ {e_{ij}}:{n_i} \mapsto {n_j}w_{ij} \} \hfill \ \end{gathered}$

f ist eine Transferfunktion die die akkumulierten Eingangswerte auf den Ausgangswert o abbildet, und g ist dann die gewichtete und akkumulative Transferfunktion

35 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Künstliche Neuronale Netze

Unterschied (künstliches) Neuron und Perzeptron:
- Ein Neuron ist immer eine Elementarzelle
- Ein Perzeptron kann ein einzelnes Neuron oder ein Netzwerk aus Neuronen beschreiben
Daher gibt es:
- Single Layer Perceptron (SLP) → Nur Eingangs- N_x und Ausgangsneuronen N_y
- Multi Layer Perceptron (MLP) → + Innere Neuronen N_d

36 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Das Neuron

Das Neuron

15 Ein einzelnes Neuron mit einem einzelnen Eingang p und einem Ausgang o. w ist ein Gewichtungsfaktor (ein Gewicht für eingehendes p) und b ist ein Bias (Offset)

37 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Das Mehreingangsneuron

Das Mehreingangsneuron

15 Ein einzelnes Neuron mit einem Eingangsvektor p und einem skalaren Ausgang o. w ist ein Gewichtungsfaktorvektor (ein Gewicht für eingehendes p) und b ist ein Bias (Offset)

38 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Neuronale Netze und Matrizen

Neuronale Netze und Matrizen

Neuronale Netze werden durch eine Graphenstruktur (statische Parameter) und mathematisch durch Matrizen (dynamische Parameter) beschrieben:

15 Ein einzelnes Neuron mit einem Eingangsvektor p und einem skalaren Ausgang o. w ist ein Gewichtungsfaktorvektor (ein Gewicht für eingehendes p) und b ist ein Bias (Offset); jetzt in Matrizenform (Annotation)

39 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Schichten von Neuronalen Netzen

Schichten von Neuronalen Netzen

I.A. werden Neuronen von neuronalen Netzen in Schichten (Layer) angeordnet und gruppiert
- Günstig für Matrixalgebra
- Aber nicht notwendig!

Neuronales Netzwerk mit Neuronen in einer Schicht angeordnet

40 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Struktur eines KNN

Struktur eines KNN

15 Grundlegende Struktur eines KNN mit Matrizen (blaue Ellipse=1 Neuron)

41 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Vereinfachte Form eines KNN

Vereinfachte Form eines KNN

15 Vereinfachte Struktur eines KNN mit Matrizen

42 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Klassen von KNN

Klassen von KNN

Vorwärtsgekoppelte Netzwerke: Azyklischer gerichteter Graph, d.h. es gibt nur eine Vorwärtspropagation von einer Schicht zur nächsten (keine Rückkopplung).

Diese Netzwerke können rein funktional beschrieben und berechnet werden.
Es gibt keinen Zustand!
D.h. die aktuellen Ausgangswerte hängen nur von den aktuellen Eingangswerten ab!

43 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Klassen von KNN

Rückgekoppelte Netzwerke: Zyklischer gerichteter Graph, d.h. es gibt Rückkopplungen (Ausgang eines Neurons geht in Eingänge der aktuellen oder vorherigen Schichten).

Diese Netzwerke können nicht rein funktional beschrieben und berechnet werden!
Sie besitzen einen Zustand, d.h. der Ausgangswert hängt von der Historie vergangener Eingabewerte und Berechnungen ab!

44 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Rückgekoppelte Netzwerke

Rückgekoppelte Netzwerke

Geeignet für Prädiktion auf zeit- und Datenserien D(t)=d₀,d₁,...,d_t

15 Rückgekoppeltes und zustandsbehaftetes KNN mit einer Verzögerungsfunktion (Speicher)

45 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Transferfunktion

Transferfunktion

Auch Aktivierungsfunktion genannt (in Anlehnung an biologische Vorbild mit stark nichtlinearer Übertragungskennline)
- Biologisch: Häufig eine Schwellwertfunktion
- Künstlich / ML: Auch lineare Übertragunsfunktionen!
Es gibt eine Vielzahl verschiedener Funktionen
- Die einfachste wäre (wenn auch wenig in Gebrauch): ${f{{\left({a}\right)}}}={a}$

Warum ist eine solche Übertragungsfunktion ungeeignet bzw. problematisch?

46 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Transferfunktion

Welche mathematischen Eigenschaften (Übertragungskurve) sollte wohl eine Transferfunktion besitzen?
- Zur Erinnerung: Wir nehmen an dass der Wertebereich von einem x ≈ [-1,1] ist. Ebenso für ein y ≈ [-1,1].

47 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Transferfunktion

Transferfunktionen besitzen häufig begrenzende Eigenschaften (Sättigungsverhalten), und nicht lineares Übertragungsverhalten

15 Verschiedene gebräuchliche Transferfunktionen f(a)

48 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Ein einfaches Neuron - Funktional

Ein einfaches Neuron - Funktional

$f_{sigmoid}(a) = \frac{1}{1+e^{-a}} \\ g(x_1,x_2,x_3) = f_{sigmoid}(b + \sum w_ix_i)$

49 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Parametersatz des KNN

Parametersatz des KNN

Statische Parameter

Anzahl der Eingangsneuronen (verbunden mit x), abhängig von der Anzahl der Eingabevariablen |x| und der Kodierung (numerisch vs. kategorisch)
Anzahl der Ausgangsneuronen (abhängig von der Kodierung). Bei numerischen Zielvariablen y gilt also: |N_y|=|y|
Anzahl der inneren verdeckten Neuronen |N_d| und deren Anordnung in Schichten
D.h. die Konfiguration des Netwerks ist [c₁,c₂,..,c_m] bei m Schichten und c_i Neuronen pro Schicht

50 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Parametersatz des KNN

Bei vollständig verbundenen Schichten ist keine Angabe der Vernetzung notwendig

Dynamische Parameter

Im wesentlichen die Gewichtungsmatrix W_i (Schicht i):

$W_i = \left[ {\begin{array}{*{20}{c}} {{w_{1,1}}}&{{w_{1,2}}}& \cdots &{{w_{1,R}}} \\ {{w_{2,1}}}&{{w_{2,2}}}& \cdots &{{w_{2,R}}} \\ \vdots & \vdots &{}& \vdots \\ {{w_{S,1}}}&{{w_{S,2}}}& \cdots &{{w_{S,R}}} \end{array}} \right],B_i = \left[ {\begin{array}{*{20}{c}} {{b_1}} \\ \vdots \\ {{b_S}} \end{array}} \right]$

Mit S: Anzahl der Neuronen in der Schicht, R: Anzahl der Eingangsvariablen (oder Neuronen der vorherigen Schicht)

51 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Parametersatz des KNN

Der Ausgangswert eines Neurons n_j ist dann gegeben durch einen Wert aus B und die j-te Zeile von W:

$o(\vec{p})=f(_jW^T\vec{p}+b_i)$

Bei mehrschichtigen Netzwerken hat man eine Menge von Gewichtematrizen, die zu einem Tensor zusammengefasst werden können.

52 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Training von KNN

Training von KNN

Wie bei allen überwachten Lernproblemen gilt es eine Fehlerfunktion zu minimieren:

$M(\vec{x}): \vec{x} \rightarrow \vec{y} \\ \underset{W}{\mathrm{argmin}} \,\,\, err(M)=|y(\vec{x})-y_0(\vec{x})|, \forall (x,y_0) \in D$

Ziel ist die Minimierung des Fehlers unserer Modellhypothese M(x) durch Anpassung der Gewichtematrix W und evtl. (wenn vorhanden) des Offsetvektors B

53 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Fehler

Fehler

LS1

${e}{r}{r}={y}-{y}_{{0}}\\ {e}{r}{r}={\left|{y}-{y}_{{0}}\right|}$

LS2

${e}{r}{r}={\left({y}-{y}_{{0}}\right)}^{{2}}$

54 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Fehler

Es ist leicht zu erkennen dass das Training einen hochdimensionalen Parametersatz anpassen muss. Es ist nicht unmittelbar klar wie ein optimales W abgeleitet werden kann!

Erklärbarkeit

Der Zusammenhang von y und x (x → y) ist schon bei einem einschichtigen Netzwerk nur noch schwer nachvollziehbar!
Eine Invertierung (inverses Problem y → x) ist ebenso nur schwer möglich
Eigentlich ist nur ein einzelnes Neuron erklärbar und verständlich
- Dort ist die Anpassung (des Gewichtungsvektors w) noch durch multivariate Regression möglich

55 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Fehler

Beispiel

Trainingsverfahren: Einfache Fehlerückpropagation
Problem: x=(a,b), y
Netzwerk: Ein Neuron, Sigmoid Transferfunktion

56 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Nichtlineare Probleme

Nichtlineare Probleme

SLP können nur lineare Probleme separieren.

15 Nichtlinear separierbare Probleme - nur mit MLP klassifizierbar

57 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Nichtlineare Probleme

58 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Error Backpropagation Verfahren

Error Backpropagation Verfahren

Bekanntes und gängiges Verfahren

https://hmkcode.com/ai/backpropagation-step-by-step

Gradientenverfahren

Baut auf dem Minimierungsansatz "Gradient Descent" (GD) auf (Absteigender Gradient)
Beim GD Verfahren wird eine Funktion, z.B. f(x,w): x → y derart über den Parameter w angepasst so dass der Fehler err=|y-y₀| minimal wird

59 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Error Backpropagation Verfahren

Es wird nun die Änderung des Fehlers ∂err beobachtet und der (oder später die) Parameter w mit der Ableitung des Fehlerwerts ∂err/∂w zu der Änderung des Parameters korrigiert:

$w' = w - \alpha \frac{\partial err}{\partial w}$

Zur Berechnung des Fehlergradientens wird die Ableitung der Transferfunktion benötigt.

Vereinfacht gilt für die analytische Ableitung aber (grobe Näherung), d.h. die numerische Ableitung:

$\frac{\partial err}{\partial w_i} \sim \frac{\Delta err}{\Delta w_i} = \frac{\Delta (y-y_0)}{\Delta w_i} = \frac{\Delta (f(x,\vec{w})-y_0)}{\Delta w_i}= \frac{(f(x,w_i+\epsilon)-f(x,w_i)-y_0)}{\epsilon}$

Jetzt wird ein neuronales Netzwerk betrachtet, wo die Neuronen ebenfalls Funktionen mit Eingangsvariablen und Ausgangsvariablen sind

60 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Error Backpropagation Verfahren

Bei zusammengesetzten Funktionen (z.B. auch Neuronen in inneren Schichten) müssen die Gewichte schrittweise von hinten nach vorne angepasst werden

hmkcode.com/ai/backpropagation-step-by-step Beispiel eines ANN mit Kantengewichten und dem Ansatz der Backpropagation

61 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Error Backpropagation Verfahren

Die Anpassung in der letzten Ausgabeschicht ist einfach, da der Fehler direkt verfügbar ist (E=y_i-y_i,0)
Es wird für jedes Gewicht die Ableitung an der Stelle x_i, also der jweilige EIngangswert der Funktion, entweder analytisch ode numerisch approximiert mit einer kleine VAriation ε des Parameters w_i berechnet.

Berechnung aller Gradientenwerte (gesamtes Netzwerk)
Anpassung der Gewichte anhand der berechneten Gradientenwerte

Die Anpassung in inneren/ vorderen Schrichten bedarf der Berechnung von rückwärts geleiteten Fehlerwerten, d.h. der Ausgangsfehlerwert wird zurück propagiert, und damit dann jeweils der Fehlergradient berechnet.

62 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Error Backpropagation Verfahren

Die Gewichte werden nun Schicht für Schicht unter Einbeziehung der gewichteten Fehlerpropagation gleichermaßen angepasst

hmkcode.com/ai/backpropagation-step-by-step Backpropagation des Fehlers zu den Eingängen des Beispielnetzwerkes

63 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Error Backpropagation Verfahren

Ansatz: Jeder Knoten i in der Schicht n liefert (bei FCANN) einen Beitrag über die gewichteten Kanten zu allen Konten j der Schicht n+1=m.
Sei n die Aktuelle Schicht mit I Konten und m die nächste Schicht mit J Knoten, d.h. bei der Rückpropagation die vorherige. Dann gilt für den Fehler e_i des i-ten Knoten in n (vor m) die gewichtete Fehlersumme:

${e}_{{i}}={\sum_{{{j}={1}}}^{{{J}}}}{e}_{{j}}{w}_{{i}}\\ {{g}_{{k}}=}\frac{{\partial{f}}}{{\partial{w}_{{k}}}}\\ {e}{{g}_{{k}}=}{e}_{{i}}{{g}_{{k}}}$

Die Ableitung des Fehlers für das k-te Gewicht des i-ten Knotens wird in den Fehlerterm e_i (gesamter Knoten) und die reine Ableitung der Funktion nach dem Parameter w_k aufgespalten.
Schließlich werden beide Werte multipliziert

64 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Error Backpropagation Verfahren

Der Einfluss des Ausgabefehlers bei der Rüchpropagation nimmt von Schicht zu Schicht praktisch ab. Daher sind mehrschichtige Netzwerke zunächst schwerer/langsamer (bis gar nicht) trainierbar.

Bei Transferfunktionen mit Sättigung (Clipping) kann es zu "toten" Netzwerknoten kommen,
- d.h. weder eine kleine Änderung am Eingang eines Neurons noch eine kleine Korrektur der Gewichte/des Bias führen zu einer Änderung des Ausgangswertes kommen (gesättigte Netzwerkknoten)
- Eine weitere Fehlerpropagation wird dadurch verhindert
Ausweg: Randomisiertes Drop-out (Abschalten von Neuronen) und Suche nach gesättigten Neuronen mit anschließender Parameterkorrektur so dass der Ausgang der Transferfunktion in den Arbeitsbereich verlegt wird!

65 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Kategorische Multiklassen Probleme

Kategorische Multiklassen Probleme

Wenn die Ergbnisvariable vom kategorischen Typ ist dann gibt es zwei Möglichkeiten:

One-Hot Kodierung: Jedes Klassensymbol (also ein diskreter Wert v_i der Zielvariable y) wird durch ein Ausgangsneuron repräsentiert

Multi-level Kodierung: Jedes Klassensymbol wird durch einen Wert aus dem Wertebereich eines Ausgangsneurons repräsentiert

Problem: Nicht lineare Transferfunktion und Sättigungsverhalten

Die gleichen Verfahren sind auch auf kategorische Eingabevariablen anwendbar

66 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Numerische Prädiktorfunktionen

Numerische Prädiktorfunktionen

Neben der Klassifikation lassen sich mit ANN auch numerische (kontinuierliche) Funktionen lernen
Damit wird Funktionsapproximation wie bei den Regressionsverfahren möglich
- Unterschied: Bei der Regression ist die funktionale Struktur von f(x): x → y bereits fest und muss vorgegeben sein
- Die Verwendung eines ANN bietet da auch noch indirekt das Lernen der funktionalen Strukturen neben der Anpassung der Parameter

67 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Numerische Prädiktorfunktionen

Es können auch mehrdimensionalen Vektorfunktionen (also mit mehreren Ausgabevariablen) approximiert werden durch:
1. Mehrere Ausgangsneuronen (gekoppeltes Netzwerk)
2. Mehrere Netzwerke mit jeweils einem Ausgangsneuron (entkoppelte Netzwerke)

Die Wahl der Transferfunktion muss sorgfältig geschehen. Nichtlinearitäten der Transferfunktionen in den Randbereichen des Übertragungsbereichs muss berücksichtigt oder genutzt werden.

Die Sigmoid (Log Rregression) Funktion ist abschnittsweise linear - ähnlich einem elektronischen Operationsverstärker ⇒ Analoge Rechner!!
Begrenzung/Sättigung schränkt den Lösungsraum ein (gewollt!)

68 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Literatur zur Vertiefung

Literatur zur Vertiefung

[1] M. T. Hagan, howard B. Demuth, M. H. Beale, and O. D. Jesus, Neural Network Design. https://hagan.okstate.edu/nnd.html

Sugiyama, ItSML, pp 303

69 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Zusammenfassung

Zusammenfassung

Regressionsverfahren werden auf kontinuierliche Zielvariablen angewendet (der Hypothesenraum kann bei nichtlinearen Problemen sehr groß werden)
Eine SVM wird als binärer Klassifikator verwendet und wird i.A. durch eine lineare Funktion (Kernel) repräsentiert
- Das Problem sollte dann linear separierbar sein!
Multiklassenprobleme werden auf Multi-SVMs zurückgeführt
- Verwendung einer Softmax Funktion für eindeutige Klassentrennung
Das Training einer SVM ist ein Minimierungsproblem dass den Trennbereich maximiert und den Fehler minimiert

70 / 71

Stefan Bosse - Automatische Schadensdiagnostik - Modul E Regressionsverfahren, SVM und KNN :: Zusammenfassung

Zusammenfassung

Neuronale Netze bestehen aus Neuronen
Neuronen sind zusammengesetzte Funktionen: Produktsummation und Transferfunktion
Die Kanten verbinden Ausgänge von Neuronen mit den Eingängen nachfolgender Neuronen mit einer Multiplikation eines Gewichtfaktors
Alle Eingänge eines Neurons werden summiert, das Ergebnis einer Transfer/Aktivierungsfunktion übergeben (reduktion eines Vektors auf Skalar)
Training ist ein Minimierungsproblem und bedeutet Anpassung der Gewichte um den Ausgangsfehler zu minimieren
- Gängiges Verfahren: Fehlerrückpropagation und Fehlergradient

71 / 71