Geil, ich hab die Deep-Learning-Skripte des Hasso-Plattner-Instituts (HPI aus dem Jahr 2018 vo Dr. Haojin Yang auf meinem PC wiedergefunden.
Darin wird der Backpropagation-Algorithmus auf Basis des Gradientenabstiegsverfahrens genau dokumentiert und nachvollziehbar gemacht. Ja sogar die Hesse-Matrix kommt im weiteren Varlauf noch zur Anwendung in dem Kontext. Die Aufgabe für die Studenten war damals from scratch ein DL-System aufzubauen und darüber manuell die Gewichte zusteuern. Hier ist alles genauestens erklärt inkl. 3D-Abbildungen der Plateau-Sackgassen.
Diese Skripte sind von unschätzbarem Wert, da sie Wissen vermitteln, was heute fast verloren gegangen ist bei den ganzen KI-Experten.
Rauschen hilft zwar aus ganz kleinen lokalen Minima herauszuspringen aber es heilt keine schlechte Konditionierung. Wenn die Hesse-Matrix extrem unterschiedliche Eigenwerte hat, 'eiert' der Gradientenabstieg trotz Rauschen wie eine Kugel in einer extrem schmalen Dachrinne. Man verschwendet massiv Rechenzeit. Man optimiert nicht gegen das Rauschen, sondern man nutzt die Hesse-Matrix, um die Schrittweite (Lernrate) so zu kalibrieren, dass das Rauschen nicht zur Divergenz führt. Die Hesse-Matrix beschreibt die lokale Krümmung. Sie ist das Gegenteil von statisch – sie ist ein Instrument, das die Topologieveränderung im Gewichtsraum dynamisch darstellt. Wie so ein moving-window - nur mit Weitblick auch über den nächsten Hügel hinaus.Theoretisch ist das schon richtig, nur praktisch spielt das halt keine Rolle. Du musst dir halt mal mein Video anschauen. Perfektion ist das Ende jeder Geschichte. Was wir wollen ist, die Landschaft flach halten, dass passiert in der Regel von selbst, aufgrund von Batch-Rauschen und der unscharfen Opmisierungs-Parameter. Nehmen wir an, wir hätten die Ressourcen für Hesse-Matrix Optimierung…was würdest du erreichen? Du hast einen fixierten Istzustand auf den Trainingstext und den Erwartungswert. Das bringt nur niemand weiter. Es wäre statisch.
ratloses Staunen angesagt, mit dem Verwis, dass man damit praktisch überfordert ist
Ggf. auch mal mit Sachse- oder Bayer-Matrix probieren. Die Schwabe-Matrix ist mit Vorsicht zu genießen, die geizt mit Informationen.Hesse-Matrix
Aber Chapeau an alle die in dieser Materie Know-How haben.
Rauschen hilft zwar aus ganz kleinen lokalen Minima herauszuspringen aber es heilt keine schlechte Konditionierung. Wenn die Hesse-Matrix extrem unterschiedliche Eigenwerte hat, 'eiert' der Gradientenabstieg trotz Rauschen wie eine Kugel in einer extrem schmalen Dachrinne. Man verschwendet massiv Rechenzeit. Man optimiert nicht gegen das Rauschen, sondern man nutzt die Hesse-Matrix, um die Schrittweite (Lernrate) so zu kalibrieren, dass das Rauschen nicht zur Divergenz führt. Die Hesse-Matrix beschreibt die lokale Krümmung. Sie ist das Gegenteil von statisch – sie ist ein Instrument, das die Topologieveränderung im Gewichtsraum dynamisch darstellt. Wie so ein moving-window - nur mit Weitblick auch über den nächsten Hügel hinaus.
Hier geht es in erster Linie um das Verstehen der neuronalen Netze. Damit kann man das Netz auch besser steuern und verschwendet nicht so viel (Rechen)Zeit.
Ich glaube, wir reden aneinander vorbei. Ich schlage nicht vor, bei Milliarden Parametern die Hesse-Matrix live zu berechnen – das wäre in der Tat Wahnsinn. Mir geht es um das Prinzip: Wenn die Detektoren feststecken, hilft 'Vorscannen' oder 'Hoffen auf flache Landschaften' nicht weiter. Das HPI-Material zeigt die Physik dahinter. Es geht darum, das Training so zu designen, dass man die Eigenwert-Problematik von vornherein in den Griff bekommt bzw. nicht in die Falle tappt.Das Gegenteil ist der Fall, die Landschaft ist von sich aus relativ flach, es gibt bereits implementierte Methoden, die zu steile Regionen vorscannen. Jedoch benötigt das alles Rechenleistung, Rechenleistung die bei Milliarden an Parametern einfach nicht mehr leistbar ist.
Me2
Aber Chapeau an alle die in dieser Materie Know-How haben.
Ggf. auch mal mit Sachse- oder Bayer-Matrix probieren. Die Schwabe-Matrix ist mit Vorsicht zu genießen, die geizt mit Informationen.![]()
Ich glaube, wir reden aneinander vorbei. Ich schlage nicht vor, bei Milliarden Parametern die Hesse-Matrix live zu berechnen – das wäre in der Tat Wahnsinn. Mir geht es um das Prinzip: Wenn die Detektoren feststecken, hilft 'Vorscannen' oder 'Hoffen auf flache Landschaften' nicht weiter. Das HPI-Material zeigt die Physik dahinter. Es geht darum, das Training so zu designen, dass man die Eigenwert-Problematik von vornherein in den Griff bekommt bzw. nicht in die Falle tappt.
Es ist letztendlich das was ich gelernt habe über eine Zeitraum von 17 Jahren. 2002/3 rum die Grundlagen der theoretischen Informatik in Form der diskreten Mathematik, der formalen Sprachen und Automatentheorie und der angewandten Logik. Da lernte ich auch zum ersten mal Eigenwerte und Eigenvektoren kennen und imaginäre Zahlen. Auch Hesse- und Jacobi-Matrix tauchten da schon auf.
Im Geo-Studium lernte ich vor 15 Jahren Eigenwerte, Eigenvektoren, Determinante, Jacobi und Hesse-Matrix neu kennen - unter geowissenschaftlichem Gesichtspunkt - diesmal mussten wir sie auch selbst rechnen, was enorm schwierig war (2. partielle Ableitungen am Fließband bilden).
Im Master-Studium Geo dann hatte ich vor Langeweile mir die HPI-Skripte reingezogen. War zwar kein Informatik-Sudent (mehr) aber mich hat das immer noch interessiert. Da stolperte ich über die konkrete Anwendung der Hessematrix und deren Verantwortlichkeit für die Gewichtung in neuronalen Netzen. Da machte es das erste mal klick.
7 Jahre später stolpere ich über ein Optimierungsproblem, das in genau dem Skript damals beschrieben wurde. Das war der zweite Klick.
Heute ist dieses Wissen um die Mathematik und das theoretische Fundament hinter neuronalen Netzen im Angesichte der überboardenden Flut von Gradientenabstegsverfahren-Modellen etwas in Vergessenheit geraten. Was mich doch sehr wundert. Ich war ja nicht der einzige Student damals. Aber vielleicht der einzige mit so einer spezifischen Laufbahn.
Am Simulator oder mit einem Modellflieger würde ich mich das trauen … zugegeben vermutlich mit höherer Unfallrate als bei einem entspr. ausgebildeten Piloten.Du kannst kein Düsenjet oder gar Tornado fliegen
Es geht um das Verständnis! Du kannst kein Düsenjet oder gar Tornado fliegen ohne tiefergehende Kenntnisse von Strömungsdynamik.
Wäre es 'bekannt', würde von den Experten nicht gefragt werden 'Was ist eine Hesse-Matrix?'.
? Welche Experten meinst du? Ich denke schon, dass die Hesse-Matrix bekannt ist. Also wenn ich die sogar schon mal gehört habe. Nur bringt die zweite Ableitung einen nicht weiter, weil sie nicht realistisch durchführbar ist. Also versucht man Näherungen oder andere Verfahren. Ich mag zum Beispiel Dropout. Man schaltet quasi random Knoten aus und ein und glättet so die Landschaft
Nur über die Information der Hesse-Matrix (die Eigenwerte) erkennt man, dass es Richtungen gibt, in denen man 'ausbrechen' könnte. Ohne dieses Wissen bleibt der Detektor im Sattelpunkt hängen. Hohe Eigenwerte schießen den Detektor aus der Kurve (Instabilität). Eigenwerte gegen Null ihn 'verhungern' (Stagnation). Die 'Goldlöckchen-Zone' wird gesucht. Wenn der Detektor feststeckt, sind die Eigenwerte vermutlich im Keller – die Landschaft ist zu flach, als dass der aktuelle Optimierer noch genug 'Zug' nach unten findet. Dann muss man die Lernrate kurzfristig erhöhen um 'auszubrechen'.
mal am Rande: gibt es für das Feststecken in solchen "Krümmungsfallen" anschauliche Beispiele der aktuellen LLM, die Ottonormalbürger versteht?Die so schlau ist, nicht in jede Krümmungsfalle zu tappen und da feststecken zu bleiben.
mal am Rande: gibt es für das Feststecken in solchen "Krümmungsfallen" anschauliche Beispiele der aktuellen LLM, die Ottonormalbürger versteht?
OKHier geht es in erster Linie um das Verstehen der neuronalen Netze
Sattelpunkt-Dilemma
Gradientenabstiegsverfahren
Problem mit den scharfen Minima
steilere Landschaft
Was wir wollen ist, die Landschaft flach halten
mir ist schon klar, was das topologisch bedeutet (hatte ja auch Analysis in der Uni) - ich meinte konkrete Auswirkungen des Problems anhand von LLM-Antworten.Stell dir eine Bettdecke vor - tritt einmal kräftig mit dem Fuß rein - fertig ist dein topologisches Minimum.
Stell dir das Storchennest auf dem Mast vor. Das ist die Sattelpunktkrise.

Funktioniert! Auch mit Firefox, habe jetzt nur ein bisschen mit den Reglern und ohne Video rumgespielt:
Anhang anzeigen 280338
Okay dann auch mal mit Video (auf die Schnelle)
Anhang anzeigen 280370
Top an deinem Programm: es ist simple I-proofed©, muß nicht installiert werden und sollte komplett Plattform unhabhängig überall laufen. Toll auch die Möglichkeit das Ganze gleich als Video rauszugeben.
Aber für einen Adavanced Audio Visualzer Pro würde ich mir gleich einmal wesentlich mehr Grafik Möglichkeiten wünschen, bloß mit den Reglern ist kein großartiger Unterschied zu machen. Wenn das passiert ist, möchte ich verschiedene Szenen speichern und umschalten können, am besten über einen Sequenzer speichern.
Folge dem Video um zu sehen, wie unsere Website als Web-App auf dem Startbildschirm installiert werden kann.
Anmerkung: Diese Funktion ist in einigen Browsern möglicherweise nicht verfügbar.