Adversarial Resilience Learning
Dr.-Ing. Eric Veith
Department für Informatik (» Postanschrift)
Adversarial Resilience Learning
Leitbild
Unsere Forschung zielt darauf ab, lernende Agentensysteme zu schaffen, die geeignet sind, kritische nationale Infrastrukturen zu kontrollieren. Unser Anliegen ist es, menschliche Bediener zu unterstützen: Unsere Agenten lernen aus dem Wissen von Domänenexperten und geben Verhaltensgarantien. Sie beziehen bekannte gute Steuerungen mit ein. Unsere Agenten können unvorhersehbaren Ereignissen ("schwarzer Schwan") begegnen, von Prognoseabweichungen bis hin zu Cyberangriffen, und kritische Infrastrukturen widerstandsfähig machen. Unser Ziel ist es, den Stand der Technik im Bereich des tiefen Verstärkungslernens, des neuroevolutionären Verstärkungslernens, des Offline-Lernens und des erklärbaren Verstärkungslernens so weit voranzutreiben, dass eine verallgemeinerte Agentenarchitektur den KI-Experten im Tagesgeschäft überflüssig macht: Sie soll es ermöglichen, diesen Agenten in kritischen Infrastrukturen zur Unterstützung von Fachexperten einzusetzen.
Forschungsfragen
Autocurricula für KRITIS
Der Kern unserer Methodik ist ein Autocurriculum: Während des Trainings wird unser Agent immer mit einem exakten Gegenspieler gepaart. Dies erleichtert die Erkundung und begünstigt die Entwicklung robusterer Strategien. Der Aufbau des Autocurriculums als methodische Grundlage für das Erlernen resilienter Strategien für komplexe Cyber-Physical Systems ist die Quelle unseres Namens, Adversarial Resilience Learning.
Wenn Sie mehr wissen möchten, empfehlen wir Ihnen die folgende Publikation:
Offline Deep Reinforcement Learning
Deep Reinforcement Learning ist ressourcenintensiv. Vor allem wenn es um komplexe kritische Infrastrukturen geht, können Simulationen eine Menge Rechenleistung verbrauchen. Es ist jedoch bereits eine Menge Fachwissen vorhanden. Agenten sollten dieses nicht neu entdecken müssen. Unsere Forschung ermöglicht es Agenten, aus bereits modellierten Anwendungsfällen und Missbrauchsfällen zu lernen.
Wenn Sie mehr wissen möchten, empfehlen wir Ihnen die folgende Veröffentlichung:
eXplainable Reinforcement Learning
Deep reinforcement learning agents are still largely a black box. Whether an agent has learned a sensible strategy or simply got “lucky” during tests because the simulation setup provided supportive situations that are easy to exploit, cannot be validated by simulation alone. Even large-scale simulation setups still leave a trace of doubt, especially when the agent is transferred into another, real environment. This precondition makes it unfit for deployment in critical infrastructures. Our research advances the state of the art to seamlessly provide equivalent representations of DRL policy networks, which make the agent analyzable and enable us to give behavioral guarantees, or verify the effect of our autocurriculum setup.
If you’d like to know more, we suggest the following publication:
Neuroevolutionary Deep Reinforcement Learning
Jeder Algorithmus im Bereich des maschinellen Lernens oder des Verstärkungslernens hat seine Hyperparameter, und auch für das Deep Reinforcement Learning muss ein neuronales Netz aufgebaut werden. Alles hängt von der jeweiligen Aufgabe und Umgebung ab. Wir stellen uns ein System vor, bei dem kein Forscher oder DRL-Experte für die Feinabstimmung der Hyperparameter eines Agenten und der von ihm verwendeten Lernalgorithmen erforderlich ist - dies sollte automatisch geschehen.
Dieser Teil unserer Forschung steckt noch in den Kinderschuhen.
Erweiterte Agentenarchitektur
Die genannten Module müssen auf sinnvolle Weise miteinander interagieren, ohne dass es zu störenden Nebeneffekten kommt. Eine allumfassende Architektur ist das Herzstück der Forschung zum Adversarial Resilience Learning. Sie hat zwei Hauptmerkmale: Ein Discriminator verfolgt die Effizienz bestehender Regeln (z. B. aus dem NN2EQCDT-Algorithmus) und die DRL-Politik, so dass der Agent auf unbekannte Situationen reagieren und die Leistungsfähigkeit des Deep Reinforcement Learning nutzen kann, ohne dabei auf Garantien verzichten zu müssen. Zweitens bilden der Regelextraktor, der Regelspeicher und die Regelpolitik einen vollständigen Zyklus, in dem der Agent gelernte Strategien kodiert, sie überprüfen kann und sie sogar in einem einfachen Rehearsal-Ansatz verwenden kann, um katastrophalem Vergessen entgegenzuwirken.
Wenn Sie mehr wissen möchten, empfehlen wir Ihnen die folgende Publikation:
Software
Wir erstellen freie/libre Open-Source-Software! Die Referenzimplementierung unserer Agentenarchitektur wird vollständig offen entwickelt.
Wir sind auch Teil des Kernentwicklungsteams von palaestrAI, einem Trainingsgelände für autonome Agenten und dem Rahmen für fundierte Experimente, die wir zur Überprüfung unserer Behauptungen nutzen.