Algorithmen und Datenstrukturen

Praktische Einführung und Programmierung

Stefan Bosse

Universität Koblenz - Praktische Informatik

1 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik ::

Numerische Algorithmen und Mathematik

Mathematik ist Algorithmik!

2 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik ::

Numerische Algorithmen und Mathematik

Mathematik ist Algorithmik!

Das Lösen von mathematischen Problemen ist Algorithmik

3 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik ::

Numerische Algorithmen und Mathematik

Mathematik ist Algorithmik!

Das Lösen von mathematischen Problemen ist Algorithmik

Das Lösen von mathematischen Problemen mit Computer Algorithmen ist seinerseits ein Problem!

4 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Mathematik

Mathematik

Algorithmen: Funktionen

Datenstrukturen: Funktionen (!), Vektoren, Matrizen, Tensoren usw.

5 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Künstliche Intelligenz

Künstliche Intelligenz

Algorithmen: Iterative Trainingsalgorithmen, Vereinfachung

Datenstrukturen: Funktionen, Datengraphen und Bäume, Funktionsgraphen

6 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Numerik

Numerik

Man spricht von numerischen Algorithmen wenn diese basierend auf mathematischen Prinzipien und optional auf naturwissenschaftlichen Modellen "natürliche" Daten verarbeiten, also i.A. gemessene Daten.

numalg Beziehung der Numerik zu anderen Bereichen:

7 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Numerik

Numerik

Das Ziel der Numerik ist die Konstruktion ökonomischer (effizienter) und stabiler Algorithmen. Speziell gilt es, mögliche Fehlerquellen zu berücksichtigen. Diese ergeben sich durch Modellierungsfehler, durch Fehler in den Eingangsdaten, durch Fehler im Algorithmus, und durch Diskretisierungsfehler in der Numerik.

8 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Numerik: Anwendungen und Probleme

Numerik: Anwendungen und Probleme

Arithmetik mit diskreten Zahlensystemen (Ganzzahl-, Festpunkt-, Fliesskommarithmetik)
Vektor- und Matrixalgebra
Verfahren zur Lösung linearer Gleichungssysteme
- Gauß–Elimination, LR–Zerlegung und QR–Zerlegung von Matrizen, Cholesky–Verfahren
Ausgleichsrechnung (Least–Squares–Approximation)
- Ausgleichsprobleme über Normalengleichungen
- QR–Zerlegung von Matrizen
Berechnung von Eigenwerten und Eigenvektoren
- Principle Component Analysis ⇒ ML
- QR–Zerlegung von Matrizen

9 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Numerik: Anwendungen und Probleme

Numerik: Anwendungen und Probleme

Iterative Verfahren zur Lösung nichtlinearer Gleichungen
Nichtlineare Ausgleichsprobleme
Interpolation mit Polynomen
- Support Vector Machines ⇒ ML
Splinefunktionen:
Numerische Integration (Quadratur): Selbst bei gegebenem Integranden kann die In-tegration einer Funktion theoretisch häufig nicht durchgeführt werden. Zur numerischen Berechnung greift man daher entweder auf Punktauswertungen des Integranden zu oder approximiert den Integranden durch einfacher zu integrierende Funktionen wie Splines
- Newton-Cotes-Formel
- Gauss Formel
Approximierte Berechnung von Gradienten und Gradientengleichungen
Training von Künstlichen Neuronalen Netzwerken (Gradientverfahren) ⇒ ML

10 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Numerik: Anwendungen und Probleme

Numerik: Anwendungen und Probleme

Da sich viele konstruktive Verfahren aus der Theorie nicht zur praktischen Durchführung auf Computern eignen (Numerik), erfordert für schwierige Probleme die Entwicklung guter numerischer Verfahren umfangreiche Kenntnisse und große Erfahrung.

Wir werden einige überraschende Ergebnisse sehen und dass Numerik (und die Ergebnisse daraus) ähnlich verwirrend und unerwartet sein können wie bei der Betriebssystemprogrammierung!

11 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Numerik: Fehleranalyse

Numerik: Fehleranalyse

Wir haben bei numerischen Problemen folgende Randbedingungen zu berücksichtigen:

Kondition
Rundungsfehler
Stabilität

algomat Beim Ausführen von Rechnungen gibt es verschiedene Fehlerquellen

12 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Numerik: Fehleranalyse

Numerik: Fehleranalyse

Kondition eines Problems: Die Kondition eines Problems gibt an, welche Genauigkeit man bei exakter Lösung bestenfalls erreichen kann: Ein Problem heißt gut konditioniert, wenn kleine Störungen der Eingangsdaten kleine Änderungen im Ergebnis bewirken, sonst schlecht konditioniert.

Rundungsfehler: In der Mathematik werden kontinuierliche und gar unendlich große Zahlenmenge betrachtet (reele Zahlen). In der Numerik haben wir immer diskerete und begrenzte Wertemengen!. Daher sind numerische Verfahren immer ungenauer als mathematische.

Stabilität: Iterative Algorithmen können eine "richtige" Lösung liefern (Konvergenz), können aber auch falsche Ergebnisse liefern (Divergenz). Man versucht Algorithmen stabil gegen Divergenz zu machen.

13 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Numerik und Zahlensysteme

Numerik und Zahlensysteme

Mathematisch können wir zwei Basismengen von Zahlen unterscheiden:

Ganze Zahlen ℕ: Eine unendlich große Menge ganzer positiver und negativer Zahlen inklusive 0. Aber die Menge ist abzählbar! Es gibt keine weitere ganze Zahl in jedem Intervall [x,x+1].

Reelle Zahlen ℝ: Eine unendlich große Menge kontinuierlicher positiver und negativer Zahlen inklusive 0. Aber die Menge ist nicht abzählbar! Es gibt unendlich viele weitere Zahlen in jedem Intervall [x,x+δ], egal wie klein man das Intervall macht.

14 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Computer Zahlensysteme

Computer Zahlensysteme

Maschinenzahlen und Rundungsfehler

Maschinenzahlen werden durch Datenbits repräsentiert (kodiert).

Ganze Zahlen (Integer Datentyp): Eine endlich große Menge ganzer positiver und negativer Zahlen inklusive 0. Es gibt keine weitere ganze Zahl in jedem Intervall [x,x+1].

Festpunktzahlen (Fixed Point Datentyp): Eine endlich große Menge diskreter positiver und negativer Zahlen inklusive 0. Aber es gibt keine weiter Zahl in einem kleinen Intervall [x,x+δ_min], δ_min ist absolut und hängt von der Anzahl der Datenbits und der absoluten Größe des Zahlenintervalls ab! Eigentlich ganze Zahlen mit einem festen verschobenen Dezimalpunkt.

Gleitkommazahlen (Floating Point Datentyp): Eine endlich große Menge diskreter positiver und negativer Zahlen inklusive 0. Aber es gibt keine weiter Zahl in einem kleinen Intervall [x,x+δ_min], δ_min ist relativ und hängt von der Anzahl der Datenbits ab!

15 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Computer Zahlensysteme

Computer Zahlensysteme

Integer Zahlen

Die digitalen Zahlen (Kodierung) d kann man in dezimale mit der gewichteten Summe umrechnen (Binärzahlensystem mit Basis b=2):

${a}={\left(-{1}\right)}^{{s}}{\sum_{{{i}={0}}}^{{{m}-{1}}}}{d}_{{i}}\cdot{b}^{{i}}$

algomat Zahlenbereich hängt von der Anzahl Bits ab (m). Für das Vorzeichen kommt noch ein Bit hinzu (oder der Zahlenbereich verringert sich). Es gibt keinen Rundungsfehler!

16 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Arithmetik

Arithmetik

Es gibt die grundlegenden numerischen arithmetischen Operationen:

Addition (Subtraktion)
Multiplikation (Division)
Negierung

Die Reihenfolge von arithmetischen Operationen kann in der Numerik von elementarer Bedeutung sein. Top oder Flop! Vor allem bei Integer Zahlenarithmetik

a=1; b=10; c=100;
x1 = (a/b)*c
x2 = (a*c)/b
print(x1,x2)

17 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Arithmetik

Das Experiment (Hinweis: JavaScript verarbeitet alle Zahlen als Gleitkommazahlen, daher ist Umwandlung in Integer erforderlich)

+

18 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Arithmetik

Gleitkommazahlen

${a}={\left(-{1}\right)}^{{s}}{\sum_{{{i}={0}}}^{{{m}-{1}}}}{d}_{{i}}\cdot{b}^{{-{i}+{e}}}$

Es gibt eine Mantisse Σd_ib^-i und einen Exponenten e.
Anders als bei der Festpunktdarstellung (die einfach nur reelen Zahlen in einen Ganzzahlbereich durch Skalierung verschiebt) ist hier die Position des Dezimalpunktes durch die Zahl e festgelegt.

Eigenschaften verschiedener Datenformate bei Gleitkommazahlen

19 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Rundungsfehler

Rundungsfehler

oder richtig ausgedrückt Diskretisierungsfehler bezüglich des Zahlensystems und deren Kodierung (da niemand explizit rundet)
Rundungsfehler, Über- und Unterlauf und "Not a Number NaN" können bei arithmetischen Operationen auftreten.

Diskretisierung

Die Diskretisierung von Integer Zahlen ist ohne Genauigkeitsverlust möglich, nur die Wertemenge ist begrenzt
Die Diskretisierung von reellen Zahlen ist i.A. immer mit Genauigkeitsverlust und einer Einschränkung der Wertemenge verbunden (also schon hier Rundungsfehler möglich)

20 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Rundungsfehler

Rundungsfehler

Arithmetik

Arithmetische Operationen wie Division können bei ganzen Zahlen zu erheblichen Rundungsfehlern führen (bis zu 100%), Addition und Multiplikation führen keine weiteren Rundungsfehler ein, können aber zum Überlauf bei Integer Zahlen führen!
Arithmetische Operationen können bei Gleitkommazahlen (aber nicht reellen) zu Rundungsfehlern führen (bis zu 1%), und es kann zum Überlauf kommen!

Der Klassiker in der Numerik: Ein Quotient wird Null obwohl es mathematisch eine Zahl ≠ 0 ergeben müsste.

Im Bereich der ML Algorithmen spricht man vom verschwindenden Gradienten (auch ein Quotient mit Divisionsoperation)
Bei Gleitpunktarithmetik gibt es eine Fehlerverstärkung bei den elementaren Rechenoperationen!

21 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Funktionen und Schleifen

Funktionen und Schleifen

Funktionsrekursion ist eine gängige Methode in der Mathematik um eine Berechnung auszudrücken.
Programmatisch können wir in fast allen Programmiersprachen die Funktionsrekursion nutzen, es gibt aber auch Nachteile (welche?)
Man kann rekursive Funktionen in Schleifen transformieren und umgekehrt!

Rekursion

function fac(n) {
  if (n<2) return 1
  else return n*fac(n-1)
}

Schleife

y=1
for(i=2;i<=n;i++) {
  y=y*i
}

22 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 1: Berechnung von e

Algorithmus 1: Berechnung von e

numalg pp 6

Es gibt viele verschiedene Möglichkeiten, um die Eulersche Zahl e numerisch zu approximieren. Nachfolgend führen wir vier verschiedene Varianten ein.

Grenzwert

${e}=\lim_{{{n}\to\infty}}{\left({1}+\frac{{x}}{{n}}\right)}^{{n}}$

für x=1 berechnen.

⇒ Grenzwerte können nicht direkt prozedural (iterativ) algorithmisch gelöst werden (deklarative und symbolische Methodik erforderlich). Nur endliche Approximation möglich!

23 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 1: Berechnung von e

Algorithmus 1: Berechnung von e

n=100
e=pow(1+1/n,n)
print(e)

+

24 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 1: Berechnung von e

Algorithmus 1: Berechnung von e

Summe: Eine andere Möglichkeit ist, die Funktion

${e}^{{x}}={\sum_{{{n}={0}}}^{{\infty}}}\frac{{x}^{{n}}}{{{n}!}}$

für x=1 zu berechnen.

e=0;N=100
function fac(n) { return n<2?1:n*fac(n-1) } 
for(n=0;n<=N;n++) {
  e=e+1/fac(n)
}
print(e)

Was ändert sich algorithmisch und bei der Laufzeit im Vergelich zu Methode 1?

25 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 1: Berechnung von e

Algorithmus 1: Berechnung von e

+

26 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 1: Berechnung von e

Algorithmus 1: Berechnung von e

numalg Vergleich der Ergebnisse von den beiden Varianten 1 und 2 zur Berechnung der Eulerschen Zahle e für verschiedene n (n=10^m). Es gibt eine Überraschung!

27 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 1: Berechnung von e

Algorithmus 1: Berechnung von e

Warum scheitert Verfahren 1 (numerisch!) für große n, aber nicht Verfahren 2?

28 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 1: Berechnung von e

Algorithmus 1: Berechnung von e

Warum scheitert Verfahren 1 (numerisch!) für große n, aber nicht Verfahren 2?

Hinweis: Wir haben diskrete und intervallbegrenzte Numerik!

29 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 2: Approximierte Berechnung des Integrals

Algorithmus 2: Approximierte Berechnung des Integrals

Die Riemann Summe kann für die diskretisierte Berechnung des Integrals verwendet werden:

${\int_{{a}}^{{b}}}{f{{\left({x}\right)}}}{\left.{d}{x}\right.}\approx{\sum_{{{i}={1}}}^{{{N}}}}\Delta{x}_{{i}}{f{{\left({{x}_{{i}}^{\star}}\right)}}}\\ \Delta{x}_{{i}}={x}_{{i}}-{x}_{{{i}-{1}}}\\ {{x}_{{i}}^{\star}}\in{\left[{x}_{{{i}-{1}}},{x}_{{i}}\right]}$

Jetzt wird es spannend: Das Berechnungsproblem ist nicht eindeutig definiert da es auf die Auswahl eines x-Wertes innerhalb des Intervalls [x_i-1,x_i] ankommt:
- x^*=x_i-1 ⇒ linke Riemann Summe
- x^*=x_i ⇒ rechte Riemann Summe
- x^*=(x_i+x_i-1)/2 ⇒ mittlere Riemann Summe

30 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 2: Approximierte Berechnung des Integrals

Algorithmus 2: Approximierte Berechnung des Integrals

Wikipedia

Die Genauigkeit der approximierten Berechnung vom Integral hängt von der Partitionierung und der diskretisierten x-Auswahl ab

Algorithmus

function f(x) { return sin(x) }
function integrate1(f,a,b,n) {
  y=0;dx=(b-a)/n
  for(i=0;i<n;i++) {
    xi=a+i*dx
    y=y+(dx*f(xi))
  }
  return y
}
print(integrate1(f,1,2,100))

Einfache Integralberechnung mit einer einzigen Stützstelle pro Diskretisierungsintervall

31 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 2: Approximierte Berechnung des Integrals

Algorithmus 2: Approximierte Berechnung des Integrals

+

32 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 2: Approximierte Berechnung des Integrals

Algorithmus 2: Approximierte Berechnung des Integrals

Einige Fragen:

Wie hängt die Rechenzeit (Einheitsoperationen) von n und [a,b] ab?
Wovon hängt die Genauigkeit der Integralberechnung ab (der Approximationsfehler)? Nur von n?
Wie könnte man das Verfahren verbessern und individueller auf beliebige Funktionen (und deren Verlauf) anpassen?

33 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 2B: Approximierte Berechnung des Integrals

Algorithmus 2B: Approximierte Berechnung des Integrals

Bisher haben wir nur einen Funktionswert pro Stützpunkt evaluiert hatten ist die Berechnung schwierig vorherzusagen, je nachdem welchen x Wert wir aus dem Intervall [x_i,x_i+1] gewählt haben.
Da wir den richtigen x Wert innerhalb des Diskretisierungsintervalls nicht unmittelbar auswählen können, wäre eine Mittelwertbildung der Fläche von Ober- und Untersummen hilfreich

Bei einer Verfeinerung der Zerlegung wird die Obersumme kleiner, die Untersumme größer, die Differenz abs(O-U) ist der Diskretisierungsfehler.

Wikipedia

34 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 2B: Approximierte Berechnung des Integrals

Trapezregel

Es werden Unter- und Obersumme gemittelt (Trapezregel)
- Zwischen zwei Stützpunkten wird eine lineare Verbindung geschaffen, die Fläche des entstehenden Trapezes wird als Näherung des Integrals benutzt
- Auch möglich mit weiteren Termen/Stützpunkten

Wikipedia Annäherung eines nichtlinearen Kurvenverlaufs durch eine lineare Funktion durch zwei Stützpunkte x_i und x_i+1

35 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 2B: Approximierte Berechnung des Integrals

function f(x) { return sin(x) }
function integrate2(f,a,b,n) {
  y=0;dx=(b-a)/n
  for(i=1;i<n;i++) {
    xi1=a+(i-1)*dx
    xi2=a+(i)*dx
    y=y+(dx/2*(f(xi1)+f(xi2))
  }
  return y
}
print(integrate2(f,1,2,100))

Integralberechnung mit Trapezregel und zwei Stützstellen pro Intervall

36 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 2B: Approximierte Berechnung des Integrals

Es können mehr als zwei (Sub)Stützpunkte zwischen zwei Schritten gewählt und berechnet werden, d.h., statt einer linearen Interpolation dann eine polynomielle höherer Ordnung
Aber letztlich ist das eine Erhöhung der gesamten Anzahl der Stützpunkte N und bringt noch nicht die Balance zwischen Genauigkeit und Effizienz.

Stützstellen zwischen [x,x+δ] und die Termgewichte

37 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 2B: Approximierte Berechnung des Integrals

Simpson Regel

Die Simpsonregel oder Simpsonsche Formel (nach Thomas Simpson) ist ein Verfahren der numerischen Integration, bei dem eine Näherung zum Integral einer in einem Intervall schwer zu integrierenden Funktion berechnet wird, indem man die Funktion durch eine exakt integrierbare Parabel annähert.

Vereinfachung: Die Parabel oder das Parabelstück zwischen zwei Stützstellen wird durch Rechtecke approximiert.

Wikipedia Simpson Regel für die Integration von Funktionen

38 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 2B: Approximierte Berechnung des Integrals

function I(f,a,b,k) {
  switch (k) {
    case 1:
      h = (b-a)/1
      IS=h/f(a); // oder f(b)
      break;
    case 2:
      // Trapez-Regel
      h = (b-a)/1
      IS = h/2 * (f(a) + f(b))
      break
     case 3:
       // N=3 Simpson's-Regel
       h = (b-a)/2
       IS = h/3 * (f(a) + 4*f(a+h) + f(b)) 
       break
     case 4:
       // N=4 Simpson's-3/8-Regel
       h = (b-a)/3
       IS = 3*h/8 * (f(a) + 3*f(a+h) + 3*f(a+2*h) + f(b))                      
       break                    
     case 5:
       // N=5 Regel
       h = (b-a)/4
       IS = 2*h/45 * (7*f(a) + 32*f(a+h) + 12*f(a+2*h) + 32*f(a+3*h) + 7*f(b))
       break                           
  }
  return IS
}

Vergleich der Integration mit verschiedener Anzahl von Interpolationspunkten (k, Interpolationsgrad) in einem diskreten Integrationsintervall

39 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 2B: Approximierte Berechnung des Integrals

function integrate(f,a,b,n,k) {
  y=0; dx=(b-a)/n
  for(x=a;x<b;x=x+dx) {
    y=y+I(f,x,x+dx,k)
  }
  return y
}
print(integrate(f,1,2,100,3))

Wie zuvor muss jetzt noch eine iterative Summation für das gesamte Intervall [a,b] erfolgen. k ist der Interpolationsgrad.

40 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 2B: Approximierte Berechnung des Integrals

numbook Zusammenfassung der wichtigsten Integralapproximationen (ein Intervallschritt Δx ∈ [a,b])

41 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 2B: Approximierte Berechnung des Integrals

Bisher haben wir nur mit äquidistanten Knoten gearbeitet und so ein einfaches und klares Formelrepertoire erhalten. Wollten wir höhere Genauigkeiten, so wurden einfach der Grad oder die Anzahl der Zusammensetzungen erhöht, um eine geringere Maschen-breite und einen als geringer abschätzbaren Fehler zu erhalten. Die Verfahren sind zwar recht einfach, doch rechnen diese bei schon längst vorhandener hoher Genauigkeit der Iteration immer noch weiter.

Bessere Approximation (höhere Genauigkeit) bei dynamisch adaptiven Intervallen

42 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 2C: Approximierte Berechnung des Integrals

Algorithmus 2C: Approximierte Berechnung des Integrals

Die Genauigkeit hängt von der Intervallbreite Δx und somit n, aber auch von dem Kurvenverlauf der zu integrierenden Funktion ab.

Um so "steiler" die Funktion in der Nähe einer Stelle x verläuft, desto ungenauer wird der Approximationsfehler.
Eine Lösung wäre die Wahl eines dynamischen Intervalls in Abhängigkeit vom Gradienten der Funktion an der Stelle x

43 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Adaptive Algorithmen

Adaptive Algorithmen

Iterative numerische Algorithmen haben immer eine Schrittweite. Diese Schrittweite kann statisch oder adaptive veränderlich sein.

Wie schon bei der diskreten und approximierten Integration von Funktionen gezeigt kann eine adaptive Berechnung die auf Fehlertoleranzen und Fehlerschwellen mit der Anpassung der Schrittweite basiert das Endergebnis deutlich verbessern.

Beispiele für numerische Software die adaptive Schrittweiten nutzt:
- Elektroniksimulator SPICE3
- Lösung von Diffentialgleichungen (Physik, Atmosphäre, Wetter)
- Maschinelles Lernen (ADAM Optimierer für KNN)

44 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Adaptive Algorithmen

Adaptive Schrittweite

Alexander Schwanecke Beispiel einer oszillierenden Funktion

45 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Adaptive Algorithmen

Adaptive Schrittweite

Wie soll ohne Fehlerbetrachtung ein günstiges kleineres Intervall dx gewählt werden?

46 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Adaptive Algorithmen

Adaptive Schrittweite

Wie soll ohne Fehlerbetrachtung ein günstiges kleineres Intervall dx gewählt werden?

Durch dynamische Verkleinerung des Intervalls wird jetzt die Rechenzeit (also das tatsächliche N) abhängig von der zu integrierenden Funktion (also den Daten)

Die Schrittweite kann durch relativen Fehlervergleich schrittweise angepasst werden
Die Schrittweite kann durch Analyse der zu integrierenden Funktion (Gradient) absolut angepasst werden (mit analytischen Fehlermodell)
Die Schrittweite wird bei Überschreitung von Schwellwerten reduziert.

47 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Adaptive Algorithmen

Gradientenbasierte Anpassung

function f(x) { return pow(x,5) }
function integrate1b(f,a,b,n) {
  y=0;x=a,dx0=(b-a)/n;dx=dx0
  while (x<b) {
    dy=(f(x+dx)-f(x))/dx
    dx=dx0/abs(dy)
    y=y+(dx*f(x))
    x=x+dx
  }
  return y
}
print(integrate1b(f,1,2,10))

Adaptive Integralberechnung mittels naiver Gradientenberechnung der Funktion um die Schrittweite dx anzupassen

48 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Adaptive Algorithmen

Aber eigentlich interessiert uns nicht der Gradient der Funktion (Fehler immer noch vom Startwert n abhängig), sonder der Fehler selbst. Den Fehler wollen wir unter eine Schwelle ε bringen (auch Toleranz genannt).

49 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Adaptive Algorithmen

Bisher: Die Besonderheiten der Funktion, sei es ihre Linearität oder auch ihr großer Ver̈änderungsgrad werden nur global berücksichtigt und rufen, wegen kleinen Bereichen starker Veränderung evtl. eine sehr enge Maschenbreite bei vorgegebenem Fehler hervor.
Wir müssen jetzt den aktuellen Diskretisierungsfehler abschätzen. Aber wie? Wir kennen das "richtige" Ergebnis nicht.
Aber wir können die Simpsonregel mit verschiedener Anzahl von Stützpunkten vergleichen. Beide haben einen Fehler relativ zum "richtigen" Wert, aber unterschiedlich. Dieser Unterschied definiert die Entscheidung ob verfeinert wird oder nicht.

50 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Adaptive Algorithmen

Adaptiver Simpson Algorithmus

Alexander Schwanecke

a = 0.; // Linke Grenze.
b = 1.; // Rechte Grenze.
e = 1e-7; // Erlaubter Gesamtfehler.
function SV(f,a,b,e,t,h) {
  g = 15*e/(b-a) 
  if (t >= b) return 0// Erforderlicher Bereich integriert?
  // Die Simpsonregel.
  IS = h/3*(f(t)+ 4*f(t+h)+f(t+2*h))
  // Die zusammengesetzte Simpsonregel.
  IZS = h/6*(f(t)+4*f(t+h/2)+2*f(t+h)+4*f(t+3*h/2)+f(t+2*h))
  if (abs(IZS-IS) <= (g*h)) { // Die Fehlerabschaetzung.
    I = IZS; // Aufsummierung.
    I += SV(f,a,b,e,t+2*h,(b-(t+2*h))/2) // Restlicher Intervall.
    return I
  } else 
    return SV(f,a,b,e,t,h/2) // Verfeinerung.  
}
function integrate4(f,a,b,eps) {
  y=SV(f,a,b,eps,a(b-a)/2)
  return y
}

In Abhängigkeit vom Fehler zweier unterschiedlicher Teilberechnungen wird entweder das Teilergebnis für die Summation verwendet oder verfeinert.

51 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Adaptive Algorithmen

Vergleich der verschiedenen Algorithmen

+

52 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Universelle Berechnungsfunktionen

Universelle Berechnungsfunktionen

Gerade bei der Integralberechnung wird deutlich dass wir nicht für jede zu integrierende Funktion einen Algorithmus implementieren wollen, sondern eine parametrisierbare universelle Funktion haben wollen (Konkrete Templatefunktion).

In dynamisch typisierten Programmiersprachen und funktionalen Sprachen kein Problem. Man benötigt dazu nur einfache Lambda Ausdrücke.

Lambda Ausdruck

Die universelle Funktion F(f,p) soll eine parametrisierte Berechnung (Parametersatz p, wie z.B. Integralgrenzen, Stützpunkte usw.) einer beliebigen Funktion f durchführen.

Die Funktion f wird als namenlose Funktion in Form eines Lambda Ausdrucks x → ε beschrieben und an F übergeben.

53 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Universelle Berechnungsfunktionen

Universelle Berechnungsfunktionen

function mean(f,p) {
  dx=(p.b-p.a)/p.n
  x=p.a; sum=0
  for(i=0;i<p.n;i++) {
    sum+=f(x)
    x+dx
  }
  return sum/p.n
}
print(mean(x => (1/x),{
  a:1,
  b:10,
  n:5
}))

Berechnung des Mittelwerts einer beliebigen Funktion

54 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Universelle Berechnungsfunktionen

Universelle Berechnungsfunktionen

+

55 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Universelle Berechnungsfunktionen

Lambda Ausdrücke in Java (ab 8)

In Java müssen früher oder später die "on-the-fly" Lambda Ausdrücke typisiert werden.
Aber Java Version 8 allgemein üblich über die Funktionsklasse: Function <T,R>

import java.util.function.Function;
class MyMath {
  public float mean(Function <Float,Float> f,float a, float b,float delta) {
    float y=0; int n=0;
    for(float x=a;x<=b;x+=delta) { n++; y+=(f.apply(x)) };
    return y/n;
  }  
}
class Test {
  public static void main(String[] args) {
    Function<Float,Float> foo = (x) -> { return x+1; };
    MyMath m = new MyMath();
    System.out.println(m.mean(foo,1,2,(float)0.1));
    System.out.println(m.mean((x) -> { return 1/x; },1,2,(float)0.1));
  }
}

Lambda Ausdrücke in Java

56 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Universelle Berechnungsfunktionen

Lambda Ausdrücke in Java (ab 8)

+

57 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Universelle Berechnungsfunktionen

Lambda Ausdrücke in Java (bis 7)

Bis Java Version 7 gab es keine Lambda Ausdrücke. Hier müssen wir uns eine Funktionsklasse selbst bauen.

// The only way to define functions that can be passed to methods
abstract interface Function {
  // unary function f(x)
  double apply(double x);
}
class Integrate  {
  public double integrate1(Function f,double a, double b, int N) {
    // Einzelpunkt
    double y=0;
    double delta=(b-a)/N;
    for(double x=a;x<b;x+=delta) y=y+delta*f.apply(x);
    return y;
  }
}
... main ...
  Function foo = new Function() {
    public double apply(double x) {
      return Math.sin(x)*Math.cos(x);
    }
  }
  Integrate im = new Integrate();
  Double I = im.integrate1(foo,a,b,N)
};

58 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 3: Iterative Berechnung der Quadratwurzel

Algorithmus 3: Iterative Berechnung der Quadratwurzel

Die Berechnung der Quadratwurzel steht meist als mathematische Funktion in der Standard Mathematikbibliothek (Math) zur Verfügung und kann im numerischen Koprozessor des Rechners erfolgen
Aber wie wird sie berechnet? Es gibt keine geschlossene Funktion, nur eine iterative Approximation.

matalg Gegeben: eine positive reelle Zahl a > 0.
Gesucht: eine numerische Näherung für die Quadratwurzel von a.

Die Berechnung ist iterativ nach dem Heron Verfahren:

${x}_{{{n}+{1}}}=\frac{{1}}{{2}}{\left({x}_{{n}}+\frac{{a}}{{x}_{{n}}}\right)}$

59 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 3: Iterative Berechnung der Quadratwurzel

Algorithmus 3: Iterative Berechnung der Quadratwurzel

+

60 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 3: Iterative Berechnung der Quadratwurzel

Algorithmus 3: Iterative Berechnung der Quadratwurzel

Fragen:

Gibt es immer eine Konvergenz, d.h. ist das Stabilitätskriterium gewährleistet? Kann man als Theorembeweis bestätigen!
Wie sieht es mit der Genauigkeit aus? Könnten Rundungsfehler eine Rolle spielen?
Wie hoch ist der Rechenaufwand und wovon hängt er ab? Ist ein statisches N sinnvoll?
Wie könnte man den Algorithmus verbessern (Laufzeit und Genauigkeit)?

61 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 4: Vektorprodukt

Algorithmus 4: Vektorprodukt

Vektoren sind integraler Bestandteil der Numerik. Vektoren (Arrays) sind Datenstrukuren!
Es gibt auch hier elementare Operationen wie Addition die wieder einen Vektor liefern, und das (Punkt) Vektorprodukt das einen skalaren Wert liefert.

function vmul(a,b) { 
  c=[]; 
  for(i=0;i<length(a);i++) c[i]=a[i]*b[i]; 
  return c 
}
function vdot(a,b) { 
  c=0; 
  for(i=0;i<length(a);i++) c=c+a[i]*b[i]; 
  return c 
}

vmul: Elementweise Multiplikation vdot:Skalarprodukt

Wie sieht es mit dem Rechenaufwand bezüglich N=length(vec) aus?

62 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 4: Vektorprodukt

Algorithmus 4: Vektorprodukt

Welchen Rechenaufwand hat das Vektorprodukt (als Größe der Vektorelemente N)?

+

63 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 5: Matrixprodukt

Algorithmus 5: Matrixprodukt

Jetzt geht es in zwei Dimensionen. Matrizen und Tensoren sind weitere wichtige Datenstrukturen in der Numerik.
Matrixoperationen kommen häufig vor, auch im ML

function mmul(a,b) {           function mdot(a,b) {            
  c=matrix(nrow(a),ncol(a));     c=matrix(nrow(a),ncol(b));            
  for(i=0;i<nrow(a);i++)         for(i=0;i<nrow(a);i++)        
    for(j=0;j<ncol(a);j++)         for(j=0;j<ncol(b);j++)      
      c[i][j]=a[i][j]*b[i][j];       for(k=0;k<ncol(a);k++) 
  return c                             c[i][j]=c[i][j]+a[i][k]*b[k][j];
                                 return c
}                              }

mmul: Elementweise Multiplikation mdot:Matrixprodukt

Wie sieht es mit dem Rechenaufwand bezüglich N=max(nrow(mat),ncol(mat)) aus?

64 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 4: Matrixprodukt

Algorithmus 4: Matrixprodukt

Welchen Rechenaufwand hat das Matrixprodukt im Vergleich zum Vektorprodukt (mit Größe von N als die Anzahl Zeilen oder Spalten)?

+

65 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 6: Polynomberechnung

Algorithmus 6: Polynomberechnung

Ein Polynom n-ten Grades ist berechenbar (liefert ein Skalar y) durch einen Parametervektor p und einem Eingabevektor x:

${y}={\sum_{{{i}={0}}}^{{{n}-{1}}}}{p}_{{i}}\cdot{x}^{{i}}$

Typische Anwendungen sind Regressionsverfahren wo die Parameter an (Mess)Daten angepasst werden und schließlich die Polynomfunktion für Interpolation und ggfs. Extrapolation verwendet wird.

⇒ ML Anwendung (Messwertvorhersage)

66 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 6: Polynomberechnung

Algorithmus 6: Polynomberechnung

+

67 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 7: Lösung eines Linearen Gleichungssystems

Algorithmus 7: Lösung eines Linearen Gleichungssystems

Ein LGS ist gegeben als:

$\hat{{A}}\vec{{x}}=\vec{{b}}\\ \hat{{A}}={\left(\matrix{{a}_{{{1},{1}}}&{a}_{{{1},{2}}}&..&..&{a}_{{{1},{n}}}\\{a}_{{{2},{1}}}&{a}_{{{2},{2}}}&..&..&{a}_{{{2},{n}}}\\\vdots&\vdots&\ddots&\vdots&\vdots\\\vdots&\vdots&\vdots&\ddots&\vdots\\{a}_{{{n},{1}}}&{a}_{{{n},{2}}}&..&..&{a}_{{{n},{n}}}}\right)}\\ \vec{{b}}={\left({b}_{{1}},{b}_{{2}},..,{b}_{{n}}\right)}\\ \vec{{x}}={\left({x}_{{1}},{x}_{{2}},..,{x}_{{n}}\right)}$

Der Vektor x wird gesucht, mit einem gegebene Satz an Parametern a_i.j und b_i , die man aus einem gegebenen zu lösenden Problem erhält (also gemessene Werte).

68 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 7: Lösung eines Linearen Gleichungssystems

Bei der Lösung des Gleichungssystems Ax=b spielen Dreiecksformen der A-Matrize eine große Rolle. Man spricht von der linken (L) und rechten (R, oder U für Upper) Dreiecksmatrix.

Hat man L und R bestimmt, kann man direkt das LNG lösen (also x berechnen).

$\hat{{L}}={\left(\matrix{{l}_{{{1},{1}}}&{0}&..&..&{0}\\{l}_{{{2},{1}}}&{l}_{{{2},{2}}}&..&..&{0}\\\vdots&\vdots&\ddots&\vdots&\vdots\\\vdots&\vdots&\vdots&\ddots&{0}\\{l}_{{{n},{1}}}&{l}_{{{n},{2}}}&..&..&{l}_{{{n},{n}}}}\right)},\hat{{R}}={\left(\matrix{{r}_{{{1},{1}}}&{r}_{{{1},{2}}}&..&..&{r}_{{{1},{n}}}\\{0}&{r}_{{{2},{2}}}&..&..&{r}_{{{2},{n}}}\\{0}&\vdots&\ddots&\vdots&\vdots\\\vdots&\vdots&\vdots&\ddots&\vdots\\{0}&{0}&..&..&{r}_{{{n},{n}}}}\right)}$

69 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 7: Lösung eines Linearen Gleichungssystems

Hat die Matrix A linke oder rechte Dreiecksgestalt, dann ist das Lösen des Gleichungssystems besonders einfach. Beim Lösen von

$\hat{{L}}\vec{{x}}=\vec{{b}}$

spricht man von Vorwärtssubstitution und beim Lösen von

$\hat{{R}}\vec{{x}}=\vec{{b}}$

spricht man von Rückwärtssubstitution.

Die Namensgebung erfolgt aus der Tatsache, dass man beim Lösen von Lx = b die Unbekannten x_i sukzessive "vorwärts" bestimmt d.h. zuerst x₁ = b₁ /a_1,1 , mit dessen Hilfe man x₂ bestimmt, dann x₃ usw.
Bei Lösen von Rx = b werden die Unbekannten x_i sukzessive "rückwärts" bestimmt, d.h. zuerst x_n = b_n / a_n,n , dann damit x_n−1, dann x_n−2 usw.
Dieses Vorwärts- und Rückwärtseinsetzen formalisieren wir in den folgenden zwei Algorithmen

70 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 7: Lösung eines Linearen Gleichungssystems

Bei der Vorwärtssubstitution ist L, bei der Rückwärtssubstitution ist R zu benutzen, und man erhält dann folgende Algorithmen die x vollständig berechnen:

$\forall{i}\in{\left\lbrace{1},{2},..,{n}\right\rbrace}\\ {y}_{{i}}\:=\frac{{1}}{{l}_{{{i},{i}}}}{\left({b}_{{i}}-{\sum_{{{k}={1}}}^{{{i}-{1}}}}{l}_{{{i},{k}}}{x}_{{k}}\right)}\\ \forall{i}\in{\left\lbrace{n},{n}-{1},{n}-{2},..,{1}\right\rbrace}\\ {x}_{{i}}\:=\frac{{1}}{{r}_{{{i},{i}}}}{\left({y}_{{i}}-{\sum_{{{k}={i}+{1}}}^{{{n}}}}{r}_{{{i},{k}}}{x}_{{k}}\right)}$

Habrecht, 2024

71 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 7: Lösung eines Linearen Gleichungssystems

Gauss’scher Algorithmus und LR-Zerlegung

Wir haben gesehen, dass gestaffelte Gleichungssysteme (d.h. solche, bei denen die Matrix A linke oder rechte Dreiecksgestalt hat) besonders einfach aufzulösen sind.
Der Gauss'sche Algorithmus führt nun den allgemeinen Fall auf diese beiden Fälle zurück, indem er eine Matrix A in ein Produkt aus einer Linksdreiecksmatrix und einer Rechtsdreiecksmatrix zerlegt:

$\hat{{A}}=\hat{{L}}\hat{{R}}$

Im Grunde ist die LR Zerlegung das Verfahren was wir aus der Schule kennen um händisch ein LGS zu lösen ↠ Treppeniteration.
Der Ansatz: Die LR-Zerlegung einer Matrix A geschieht in n − 1 Schritten.
- Es wird nun von der zweiten, dritten, etc. Zeile ein geeignetes Vielfaches der ersten Zeile subtrahiert, um die Variable x₁ in Zeilen 2 bis n zu eliminieren.

${l}_{{{i},{1}}}\:=\frac{{a}_{{{i},{l}}}}{{a}_{{{1},{1}}}}\\ {{a}_{{{i},{j}}}^{{{\left({1}\right)}}}}\:={a}_{{{i},{j}}}-{a}_{{{1},{j}}}{l}_{{{i},{1}}}$

72 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 7: Lösung eines Linearen Gleichungssystems

Schließlich erhält man:

Dabei sind die a⁽¹⁾, a⁽²⁾, usw. die aus der i-ten Iteration erhaltenen modifizierten A Koeffizienten.

73 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 7: Lösung eines Linearen Gleichungssystems

function LR(A) {
  n=nrow(A)
  L=matrix(n,n)
  R=matrix(n,n)
  for(i=0;i<n;i++) L[i][i]=1; // Identitätsmatrix
  // L=Linksdreiecksanteil von A
  for(k=0;k<(n-1);k++) {
    for(i=k+1;i<n;i++) {
      L[i][k]=A[i][k]/A[k][k]
      for(j=k+1;j<n;j++) {
        A[i][j]=A[i][j]-L[i][k]*A[k][j]
      }
    }
  }
  // R=Rechtsdreiecksanteil von A
  for(i=0;i<n;i++) {
    for(j=i;j<n;j++) {
      R[i][j]=A[i][j]
    }
  }
  return [L,R]
}

Inplace (L) Gauss'sche LR Zerlegung ohne Pivotsuche

74 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 7: Lösung eines Linearen Gleichungssystems

Gesamte Vorgehensweise:

Bestimme LR-Zerlegung von A
Löse Ly = b mithilfe der Vorwärtssubstitution. Dabei beachtet man, dass für die Diagonalelemente von L gilt: L_i,i = 1.
Löse Rx = y mithilfe der Rückwärtssubstitution Algorithmus

Achtung: LR-Zerlegung nur möglich wenn Diagonalelemente (Pivotelemente) von A(a_k,k) nicht Null sind. Ein Pivot wäre in einen der Zwischenschritte dass A_k,k = 0 ist.

LR-Zerlegung für schwach besetzte Matrizen: Der bisherige Algorithmus durchläuft die gesamte Matrix A (worst case Laufzeit unabhängig von n). Da gibt es Verbesserungsbedarf!

75 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 7: Lösung eines Linearen Gleichungssystems

Beispiel

+

76 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 7: Lösung eines Linearen Gleichungssystems

Laufzeit

Teilberechnung	Laufzeit
LR-Zerlegung	1/3 n(n-1)(n+1)
Vorwärtssubstitution	1/2 n(n-1)
Rückwärtssubstitution	1/2 n(n-1)
Gesamt	1/3 n³+n²-1/3n = O(n³)

Kosten für das Lösen eines linearen Gleichungssystems nach Guass

77 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 7: Lösung eines Linearen Gleichungssystems

Laufzeit

In der Praxis (z.B. in der Strukturmechanik und bei der Diskretiersierung von partiellen Differen-tialgleichungen) sind die auftretenden Matrizen oft schwach besetzt (engl. sparse), d.h. viele Einträge von A sind gleich Null. Dies kann in zweierlei Hinsicht ausgenutzt werden:

Speicherersparnis: Man speichert nicht die gesamte Matrix A ab, sondern nur die wesentliche Information, d.h. welche Einträge von Null verschieden sind und was ihre Werte sind.
Die Matrizen L und R der LR-Zerlegung von A sind ebenfalls schwach besetzt. Auch hier kann Speicher und Rechenzeit eingespart werden, indem nur die nicht-trivialen Einträge von L und R berechnet werden.

78 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 7: Lösung eines Linearen Gleichungssystems

Spezielle Matrizen sind:

Bandmatrizen
Skylinematrizen

Big O bleibt auch bei der Rechnung mit reduzierten Matrizen O(n³), die Komplxitätsklasse bleibt unverändert. Aber dennoch sinkt die Rechenzeit signifikant, was schon hilfreich sein kann (i.A. n•p•q, wobei p,q < n sind.

79 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 7: Lösung eines Linearen Gleichungssystems

Pivotisierung

Was machen wir wenn Diagonalelemente Null sind oder bei der Iteration Null werden?

Ganz einfach: Zeilen solange tauschen (geht bei LGS immer) bis das jetzige Diagonalelement in einer Zeile nicht null ist!
Dazu kann z.B. man Permutationsmatrizen benutzen

Die Zeilenvertauschungen müssen notiert werden, da später bei der Resubstituierung die richigen b Werte und x Zuordnungen ausgweählt werden müssen.

80 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 8: Differenzieren und Gradientenberechnung

Algorithmus 8: Differenzieren und Gradientenberechnung

Neben der Integration von Funktionen die wir schon kennen gelernt haben ist das Differenzieren von Funktion eine weitgere häufig vorkommende und wichtige Methode in der Mathematik und Numerik.

Bei der Integration wurden Kuvrenabschnitte durch Rechtecke approximiert.
Bei der Differenzierung führt ähnlich der Trapezregel eine Linearisierung des i.A. nicht-linearen Kurvenverlaufs zwischen zwei Intervallpunkten [x₁,x₂] durch:

numbook Kann man eine Funktion f(x) in abschnittsweise lineare Abschnitte (lineare Teilfunktionen) zerlegn ("Hüte"), dann ist die Ableitung dieser linearisierten Funktion f'(x) dann eine Folge von konstanten Funktionen. (Pice-wise linear Function)

81 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 8: Differenzieren und Gradientenberechnung

Ansatz ist die Approximation durch endliche Differenzen...

${f}\text{'}{\left({x}\right)}=\lim_{{{h}\to{0}}}\frac{{{f{{\left({x}+{h}\right)}}}-{f{{\left({x}\right)}}}}}{{h}}$

Entfällt der Grenzwert dann kann auch schreiben:

${f}\text{'}{\left({x}\right)}=\frac{{{f{{\left({x}+{h}\right)}}}-{f{{\left({x}\right)}}}}}{{h}}+{O}{\left({h}\right)}$

O(h) ist ein Fehlerterm, und schließlich gilt für die Vorwärtsdifferenzapproximation:

${f}\text{'}{\left({x}\right)}\approx\frac{{{f{{\left({x}+{h}\right)}}}-{f{{\left({x}\right)}}}}}{{h}}$

Weiterhin kann man auch die Rückwärtsdifferenzapproximation verwenden:

${f}\text{'}{\left({x}\right)}=\frac{{{f{{\left({x}+{h}\right)}}}-{f{{\left({x}-{h}\right)}}}}}{{{2}{h}}}+{O}{\left({h}^{{2}}\right)}\\ \approx\frac{{{f{{\left({x}+{h}\right)}}}-{f{{\left({x}-{h}\right)}}}}}{{{2}{h}}}$

82 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 8: Differenzieren und Gradientenberechnung

Höhere Ableitungen lassen sich entsprechend einfach berechnen:

${f}\text{''}{\left({x}\right)}\approx\frac{{{f{{\left({x}+{h}\right)}}}-{2}{f{{\left({x}\right)}}}+{f{{\left({x}-{h}\right)}}}}}{{h}^{{2}}}$

Divide & Conquer

numbook Die Berechnung der zweiten Ableitung f''(x) durch geteilte Differenzen kann als die mehrfache Anwendung der geteilten Differenzregel angesehen werden, einmal angewendet um f' zu approximieren und ein zweites Mal, um f'' zu approximieren.

83 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 8: Differenzieren und Gradientenberechnung

Auch hier haben wir wieder das Problem steigender Ungenauigkeit bei kleinen Differenzen, wie das folgende Beispiel zeigt.

numbook Die Differenz (f(x+h)−f(x)/h als eine Funktion von h für die Funktion f(x)=x²/2 mit IEEE Gleitkommaarithmetik. Wichtig: Der numerische (Rundungs)fehler ist bei kleinen h dominierend, bei großen h der Diskretisierungsfehler der Differenz

84 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 8: Differenzieren und Gradientenberechnung

Algorithmus

function diff(f,x,h) {
  return (f(x+h)-f(x-h))/(2*h)
}
y=diff(sin,1,0.01)

Numerische Differenzierung einer Funktion. Es wird für einen bestimmten x-Wert berechnet, anders als beim Integral wo eine Akkmulation von x-Werten in einem Intervall stattfindet.

Komplexität

O(1) oder O(n) bei n Differenzwerten.

85 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 8: Differenzieren und Gradientenberechnung

+

86 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 9: KNN / Perzeptron

Algorithmus 9: KNN / Perzeptron

Die Berechnung von künstlichen neuronalen Netzwerken (KNN) basiert starak auf Matrixakgebra und Grdaientberechnung (also Differentiation)

Ein KNN ist mathematisch eine i.A. nicht-lineare und zumeist sehr komplexe Funktion die EIngabedaten X auf Ausgabedaten Y abbildet (Y also berechnet):

${M}{L}:{X}\times{P}\to{Y}\\ {{f}_{{P}}{\left({X}\right)}}:{X}\to{Y}$

Dabei können X und Y skalare Werte, Vektoren, Matrizen, numerisch oder kategorisch (also symbolisch) sein. P sind Modellparameter.

Man unterscheidet bei KNN zwei Phasen der Berechnung:

Vorwärtsberechnung f(X) : X → Y
Rückwärtsberechnung f(Y): Y → ∂E(Y)/∂P, mit E: Fehlerfunktion, P: Modellparameter (Rückpropagation == Training durch Anpassung von P)

87 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 9: KNN / Perzeptron

Das Perzeptron

Ein Perzeptron ist einem biologischen Neuron mathematisch sehr grob nachempfunden.
Das Perzeptron hat als Eingabe einen Vektor x, als Ausgabe ein skalaren Wert y
Die Berechnungsfunktion lautet:

${a}{\left(\vec{{x}}\right)}={f{{\left({u}{\left(\vec{{x}}\right)}+{b}\right)}}}\\ {u}{\left(\vec{{x}},\vec{{w}}\right)}={\sum_{{{i}={1}}}^{{{n}}}}{x}_{{i}}{w}_{{i}}\\ {f{{\left({u}\right)}}}=\frac{{1}}{{{1}+{e}^{{-{u}}}}}\\ \vec{{P}}=\vec{{W}}={\left({w}_{{1}},..,{w}_{{n}}\right)}$

Dabei ist a(x) die Ausgabefunktion des Perzeptrons und setzt sich aus zwei verketteten Funktionen zusammen:
- u(x): Gewichte Summation der Elemente von x
- f(u): Die sogenannte Aktivierungsfunktion, hier z.B. die sigmoid Funktion

88 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 9: KNN / Perzeptron

Das Perzeptron

Der Eingabevektor x kann verschiedene sensorische Variablen zusammenfassen:
- Temperatur
- Luftfeuchtigkeit
- Länge eines Blattes
- Zeitaufgelöste Signale (Schall)
- Bilder
- usw.
Der Ausgabewerte eines Perzeptrons y kann genutzt werden für:
- Klassifikation (hier eine Klasse oder zwei mutual exklusive Klassen 0/1)
- Regression

89 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 9: KNN / Perzeptron

Das Perzeptron

NNbook Perzeptron (künstliches Neuron) mit mehreren Eingängen

Vektoralgebra: W ist ein Vektor, b ist ein Skalar

90 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 9: KNN / Perzeptron

Neuronale Netzwerke (eine Schicht)

NNbook Eine Schicht aus mehreren Neuronen

Matrixalgebra

91 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 9: KNN / Perzeptron

Neuronale Netzwerke

Bei einer Schicht sind jetzt W eine Matrize und b ein Vektor
Jetzt wird ein Matrix-Vektor Produkt benötigt, ähnlich dem Matrixprodukt, aber als Ergebnis gibt es einen Vektor.

92 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 9: KNN / Perzeptron

Neuronale Netzwerke (mehrere Schichten)

NNbook Komplexes Neurnales Netzwerk (hier mit drei Schichten und S_i Neuronen pro Schicht)

93 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 9: KNN / Perzeptron

Neuronale Netzwerke (mehrere Schichten)

NNbook Kompakte Darstellung des komplexen Neurnalen Netzwerks (hier mit drei Schichten und S_i Neuronen pro Schicht)

94 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 9: KNN / Perzeptron

Aktiverungsfunktionen

Sie spielen eine wichtige Rolle, es gibt eine Vielzahl verschiedener Funktionen
Bekannt sind teillineare (ReLU) für Regression und sigmoid sowie Schrittfunktionen für Klassifikation.

Vergleich zweier bekannter Aktivierungsfunktionen deren Ausgabe limitiert ist (Abschneeidung, Clipping)

95 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 9: KNN / Perzeptron

Training eines Perzeptrons

Die Modellparameter P sind unbekannt, vielleicht mit zufälligen Werten initialisiert. Wie sollen die richtigen Modellparameter P (hier W und b) bestimmt werden damit das Modell x auf y korrekt abbildet?

Fehlerminimierung mit absteigenden Gradienten

Es gibt Trainingsdaten, die Beispiele für x und y liefern. Z.B.

  x1 │ x2 │ y   
―――――┼――――┼―――――
  0  │ 0  │ 0   
  0  │ 1  │ 1   
  1  │ 0  │ 1   
  1  │ 1  │ 1    
     │    │

96 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 9: KNN / Perzeptron

Mit einem gegeben Parametersatz können wird jetzt für alle Beispiele einen Fehler berechnen, wobei y das Ziel und a die momentane Ausgabe des Modells ist:

${E}{\left(\vec{{x}},{y},{a}\right)}={y}-{a}{\left(\vec{{x}}\right)}$

Jetzt müssen die Parameter angepasst werden, bei einem Perzeptron sind es die Gewichte W und der Biaswert b.
Hierfür kann man vereinfacht (gilt eigentlich nur bei linearer Aktivierungsfunktion) den Fehler verwenden, d.h. für jedes Beispiel werden die Parameter nacheinander angepasst:

${w}_{{i}}\leftarrow{w}_{{i}}+\alpha{E}{x}_{{i}}\\ {b}\leftarrow{b}+\alpha{E}\\ {E}={y}-{a}$

α ist dabei die "Lernrate" ∈ (0,1] die bestimmt wie große der Fehleranteil bei der Anpassung der Parameter ist.
- Zu kleines α: Langsame Anpassung des Modells
- Zu großes α: Sprünge und Divergenz (keine Konvergenz in Richtung Fehler 0)

97 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 9: KNN / Perzeptron

+

98 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 9: KNN / Perzeptron

Bisher wurde eine lineare Aktivierungsfunktion angenommen. Stückweise ist die sigmoid Funktion auch linear, daher "geht so".

Verbesserte Anpassung der Parameter mit dem Ziel der Fehlerminimierung (absteigender Gradient) mit Differenzierung der Perzeptron Funktion (bzw. deren Fehler) nach den einzelnen Parametern:

${w}_{{i}}\leftarrow{w}_{{i}}+\Delta{w}_{{i}}\\ \Delta{w}_{{i}}=-\alpha\frac{{\partial{E}}}{{\partial{w}_{{i}}}}\\ {E}{\left(\vec{{x}}_{{j}}\right)}={y}_{{j}}-{a}{\left(\vec{{x}}_{{j}}\right)}$

In der Neuronfunktion a stecken ja zwei Funktionen drin. Die Ableitung der Summenfunktion u ist konstant, bleibt nur noch die Aktivierungsfunktion f, so dass dann gilt:

$\Delta{w}_{{i}}=-\alpha{E}{f}\text{'}{\left({u}\right)}{x}_{{i}}$

99 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 9: KNN / Perzeptron

Ableitung von einer Funktion? Geschlossen analytisch oder approximativ numerisch?

Es gibt verschiedene gängige Aktivierungsfunktionen wie z.B. die sigmoid Funktion.
U.A. die sigmoid Funktion hat eine Eigenschaft die es erlaubt die Ableitung f' wieder mit f auszudrücken ("Selbstähnlichkeit")!

${f{{\left({u}\right)}}}=\frac{{1}}{{{1}+{e}^{{-{u}}}}}\\ {f}\text{'}{\left({u}\right)}={f{{\left({u}\right)}}}{\left({1}-{f{{\left({u}\right)}}}\right)}$

Numerisch: Auch angenehm da die sigmoid Funktion einen begrenzter Gradienten besitzt, nämlich [0,0.25] da der Wertebereich von der sigmoid Funktion auf (0,1) begrenzt ist!
- Apprximationsfehler sind auch bei größeren h Intervall (aber h < 1) klein!
- Numerische Fehler sind nicht zu erwarten (also Divergenz)

100 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Algorithmus 9: KNN / Perzeptron

+

101 / 102

Stefan Bosse - Algorithmen und Datenstrukturen - Modul B Numerische Algorithmen und Mathematik :: Zusammenfassung

Zusammenfassung

Numerik ist Algorithmik.
Datenstrukturen sind hier:
- Funktionen (Werte erster Ordnung, Lambda Ausdrücke!)
- Vektoren
- Matrizen
Operationen (Funktionen) auf den Daten sind hier:
- Iterative approximative Berechnungen von Zahlen und Funktionen mit Summen
- Integration von Funktionen
- Differenzierung von Funktionen (Gradienten)
- Regression
- Vektor- und Matrixalgebra
- Lösung linearer Gleichungssysteme (V/M Algebra)
- Maschinelles Lernen (V/M Algebra, Gradient)
Korrektheit == Konvergenz + Genauigkeit abhängig von Verfahren und Daten!
Effizienz == Abhängig von Verfahren und Daten, i.A. polynomielle Laufzeitklasse O(n|n²|n³)!

102 / 102