Das Maschinelle Lernen beschäftigt sich mit Computeralgorithmen, die anhand von Daten oder Beobachtungen in einem gewissen Sinne Lernen. Ein einfaches Beispiel hierfür ist die automatische Erkennung von handgeschriebenen Ziffern oder Buchstaben. Die Daten bestehen in diesem Fall z.B. aus Bildern von handgeschriebenen Ziffern und der zusätzlichen Information, um welche Ziffer es sich denn handelt. Letztere werden Label genannt. Maschinelle Lernverfahren verarbeiten diese Daten dann so, dass sie neue, zuvor nicht gesehene handschriftliche Ziffern möglichst gut erkennen. Der wesentliche Unterschied zu herkömmlichen Computeralgorithmen besteht nun darin, dass die Programmierer (fast) keine Information über die Art des zu lösenden Problems, in diesem Fall also z.B. über strukturelle Unterschiede zwischen einer handgeschriebenen Eins und Acht, in dem Computeralgorithmus einarbeiten. In diesem Sinne lernt also ein maschinelles Lernverfahren tatsächlich aus den Daten. Die Mathematik spielt bei diesen Lernverfahren an verschiedenen Stellen eine zentrale Rolle: Dies fängt bei der präzisen Definition von "Lernen" an, umschließt in vielen Fällen die Beschreibung des Lernverfahrens sowie dessen effiziente Umsetzung als Computeralgorithmus, und endet bei mathematisch beweisbaren Garantien, wann und wie gut bestimmte Lernverfahren tatsächlich lernen.
Wie sehen solche Garantien aus?
Dies hängt natürlich von vielen Faktoren ab. Schauen wir uns daher vielleicht das Beispiel der sogenannten binären Klassifikation ab. Hier gibt es nur zwei mögliche Label, im obigen Beispiel z. B. "1" und "8", und das Lernverfahren soll für möglichst viele zukünftige Ziffern das Label richtig bestimmen. Bei der mathematischen Beschreibung dieses Lernziels wird dann angenommen, dass die handgeschriebenen Ziffern in einem gewissen Sinne zufällig aus allen möglichen Bildern von Ziffern gezogen werden, ohne jedoch diese möglichen Bilder näher zu beschreiben. Idealerweise nehmen wir daher nur an, dass uns die Größe der Bilder, z.B. 100 x 100 Pixel, bekannt ist. Zusätzlich wird angenommen, dass die Label auch in einem gewissen Rahmen zufällig sein können, um beispielsweise die natürliche Unsicherheit bei sehr krakeliger Handschrift zu berücksichtigen.
Für viele Lernverfahren kann dann gezeigt werden, dass mit hoher Wahrscheinlichkeit die optimale Fehlerrate angenähert erreicht werden kann, falls genügend Daten bereitgestellt werden. Ferner zeigt das sogenannte "No-Free-Lunch-Theorem", dass die hierfür benötigte Datengröße für kein Lernverfahren vorher bestimmt werden kann, ohne den Zufallsmechanismus etwas genauer zu beschreiben.
Die interessanten Garantien bewegen sich dann in dem Spannungsfeld zwischen möglichst kleiner Datengröße einerseits und möglichst vager Beschreibung des Zufallsmechanismus andererseits. Hierbei ist eine möglichst vage Beschreibung deswegen so wichtig, weil wir ja gerade nicht auf umfangreiches Wissen über das konkrete Anwendungsproblem bei der Erstellung des Lernverfahrens zurückgreifen wollen oder können. Sogenannte adaptive Lernverfahren schaffen es schließlich, für viele unterschiedliche vage Beschreibungen des Zufallsmechanismus die benötigte Datengröße in optimalen Schranken zu halten, ohne zu wissen, ob eine, und wenn ja welche, vage Beschreibung für das konkrete Problem zutrifft.
Welche speziellen mathematischen Kenntnisse sind hierbei wichtig?
Bei all diesen Untersuchungen spielt natürlich ein genaues Verständnis von Zufallsmechanismen eine große Rolle, und deswegen ist die Wahrscheinlichkeitstheorie sicher zentral. Daneben sind viele Verfahren aber ohne detailliertes Wissen über spezielle hoch- oder unendlich-dimensionale Räume nicht zu verstehen. Dies führt zur Funktionalanalysis und Approximationstheorie. Da bei der Umsetzung von Lernverfahren in der Regel ein Optimierungsproblem zu lösen ist, sind entsprechende Kenntnisse ebenfalls wichtig, und schließlich ist bei der konkreten, eigenen Implementierung eines Lernverfahrens ein gutes Verständnis über die internen Abläufe eines Computers essentiell, um die in der Regel hohen Rechenkosten möglichst klein zu halten. In diesem Sinne sollte man also recht breit aufgestellt sein.
Was sind aktuelle Herausforderungen?
Trotz des gegenwärtigen Booms ist unser Verständnis vieler Lernverfahren äußerst begrenzt. So gibt es beispielsweise keine vollständige Theorie darüber, ob neuronale Netze, die in den letzten Jahren wieder sehr beliebt geworden sind, im obigen Sinne tatsächlich lernen können. Daneben sind die meisten Lernverfahren sogenannte Black-Box-Verfahren, die es nicht ermöglichen, z.B. eine getroffene Vorhersage zu erklären. Andere Aspekte wie Privacy und Fairness, die aus Datenschutz- und Antidiskriminierungs-Gründen eine zunehmend wichtige Rolle spielen, sind momentan in den allermeisten Lernverfahren ebenfalls schwer zu integrieren. Das gleiche gilt für die Integration von spezifischem Vorwissen, das in vielen konkreten Anwendungen eben doch vorhanden ist. Ferner ist die Generierung von Labeln in der Regel mit hohen Kosten verbunden, so dass sich die Frage nach Lernverfahren stellt, die auf die Label möglichst umfangreich verzichten können. Dies ist natürlich nur eine kleine Auswahl von offenen Fragen, die aber schon verdeutlicht, dass noch ein erheblicher Forschungsbedarf besteht.
Was wird am ISA dazu geforscht?
Wir beschäftigen uns seit nunmehr 20 Jahren mit der Mathematik des Maschinellen Lernens. Hierbei spielten zunächst Lerngarantien für sogenannte kernbasierte Lernverfahren eine zentrale Rolle. Seitdem spielt aber auch die effiziente Umsetzung dieser Lernverfahren für große Datenmengen eine wichtige Rolle. In den letzten Jahren sind schließlich Untersuchungen zu Lernen ohne Labels und zu neuronalen Netzen hinzugekommen. Daneben haben wir uns immer wieder mit Fragen zur Robustheit von Lernverfahren und zur richtigen Beschreibung von Lernproblemen beschäftigt.
Momentan sind wir z.B. im Exzellenzcluster SimTech , der International Max Planck Research School for Intelligent Systems , die zu der Cyber-Valley-Initiative des Landes Baden-Württemberg gehört, und dem European Laboratory for Learning and Intelligent Systems vertreten.
Vielen Dank für das Interview.
Prof. Ingo Steinwart
Institut für Stochastik und Anwendung
Lehrstuhl für Stochastik