Transkript zum Hintergrundgespräch "Raus aus der Black Box"

Transkript

Es handelt sich um ein Transkript der Veranstaltung "Raus aus der Black Box. Algorithmen für alle verständlich machen – aber wie?" mit Dr. Andreas Dewes und Leonie Beining vom 21.11.2019 in der Stiftung Neue Verantwortung. Der Text wurde zur besseren Lesbarkeit bearbeitet. Es gilt das gesprochene Wort.

-Beginn des Transkripts-

Leonie Beining:  Es wurde gerade bereits erwähnt, zu den übergreifenden Ergebnissen des Projekts gehörten auch die beiden Aspekte aktive Kommunikation und Nachvollziehbarkeit algorithmischer Systeme. Genau das ist heute Abend unser Thema.  

Nachvollziehbarkeit wird in der gesellschaftlichen und politischen Debatte oft gefordert. Da muss man aber immer unterscheiden, für wen Nachvollziehbarkeit eigentlich hergestellt werden muss. Und wir haben uns in den letzten Monaten vor allem damit beschäftigt, wie man algorithmische Systeme für Betroffene nachvollziehbar macht, das heißt, für Menschen, deren Leben durch algorithmische Entscheidungen, durch Prognosen oder durch Empfehlungen beeinflusst werden. Und dabei kam heraus, dass viele Informationen, die wichtig sind, damit Betroffene algorithmische Systeme und algorithmische Entscheidungsprozesse verstehen und bewerten können, eigentlich nicht technischer Natur sind. Nichtsdestotrotz, um zu verstehen, wie algorithmische Entscheidungen zustande kommen, auch um sie zum Beispiel zu kontrollieren, ist es natürlich wichtig, zu verstehen, was algorithmische Systeme machen und was auf technischer Ebene abläuft. Und genau deswegen richten wir heute den Fokus auf diese technische Ebene. Ich freue mich, dass mit Andreas ein Gesprächspartner gefunden wurde, der uns bestimmt viele Einblicke geben kann.

Andreas, ich stelle dich kurz vor. Du hast Physik und Betriebswirtschaft studiert, im Bereich Quantencomputing promoviert und bist seither aktiv als Data Scientist, Softwarenentwickler und auch als mehrfacher Gründer. Und ich habe einmal nachgeguckt: Auf deiner re:publica-Seite steht, Zitat: „Mein Ziel ist es, Menschen dabei zu helfen, besser zu verstehen, wie Datenanalysen ihr Leben beeinflussen, im Guten wie im Schlechten.“ Das steht nicht nur auf deiner Seite, das tust du auch tatsächlich. Wer sich erinnern kann, vor ein paar Jahren gab es diese große NDR-Recherche „Nackt im Netz“, in der aufgedeckt wurde, wie systematisch das Surfverhalten von Nutzern, mitgeschnitten oder erhoben und gespeichert und recht personalisiert in ganzen Datensätzen zum Verkauf angeboten wird. Da hast du zum Beispiel die Datenanalyse für gemacht. Und aktuell treibst du mit deinem Team das Projekt Algoneer voran, über das wir heute sprechen. Das ist eine Open-Source-Software, die es ermöglicht, algorithmische Systeme auf technischer Ebene besser zu verstehen und nachvollziehen zu können, was die Systeme eigentlich tun.

Es gibt in der Informatik bereits etablierte Tests, die man machen kann, wenn man algorithmische Systeme kontrollieren will. Und das Besondere an Algoneer ist im Prinzip, dass ihr diese Tests zusammenbringt und in einem Framework leicht anwendbar und verfügbar macht. Darüber wollen wir heute sprechen.

Andreas Dewes: Perfekt. Dann muss ich eigentlich fast gar nichts mehr dazu sagen.

Leonie Beining: Ich habe mich gefragt, du, der sich aus professioneller Sicht damit jeden Tag befasst: Was war das letzte algorithmische System, bei dem du dich persönlich gefragt hast, wie funktioniert das eigentlich?

Andreas Dewes: Also erst mal vielen Dank für die Einladung. Ich freue mich sehr, hier zu sein. Ich denke, in meinem Alltag gibt es immer wieder Momente, wo ich mich frage, wie algorithmische Entscheidungen getroffen werden. Wenn ich beispielsweise auf Social-Media-Seiten wie Twitter oder YouTube unterwegs bin, wo ich dann Empfehlungen sehe. Das sind eher Dinge, die mich ein bisschen ärgern, wenn sie nicht so gut funktionieren. Aber eine Entscheidung oder ein System, das mich persönlich mehr betrifft, das viele Menschen betrifft, sind Kreditwürdigkeits- oder Bonitätsratings. Wenn ich jetzt überlege, wie viele andere bei den Mietpreisen in Berlin sicher auch, ob man sich ein Eigenwohnheim zulegen sollte, dann braucht man als Normalsterblicher natürlich einen Kredit. Und eine Kreditbewertung findet heute unter anderem durch die Schufa mit allen möglichen Faktoren statt. Man kann eigentlich gar nicht einschätzen, wie oder welche Daten einfließen, wie sie verwertet werden und was die Effekte von diesen Datenpunkten auf beispielweise meine Kreditwürdigkeit sind.

Ich habe seit meiner Promotion eine Reihe von Unternehmen gegründet, deswegen habe ich wahrscheinlich auch, mehr Bankkonten als der normale Durchschnittsbürger und da frage ich mich zum Beispiel: Was macht das jetzt mit meinem Rating? Wird es dadurch negativ oder positiv beeinflusst? Und das ist etwas, das viele Menschen bewegt, weil es natürlich einen sehr großen Einfluss auf das eigene Leben hat, auf die eigenen Freiheiten. Man hat eigentlich kaum eine Kontrolle oder kaum eine Möglichkeit, im Detail nachzuvollziehen, wie dieses System intern funktioniert. Es gab auch tolle Projekte dazu, wo versucht wurde, das ein bisschen aufzubrechen, aber bis jetzt hält dieser Wall aus proprietären Algorithmen mehr oder weniger stand.

Leonie Beining: Genau. Wenn in der politischen und gesellschaftlichen Debatte Nachvollziehbarkeit gefordert wird, dann ist damit meistens gemeint, was du gerade erwähnt hast. Weil man darin eine Möglichkeit sieht, Vertrauen in diese algorithmischen Systeme herzustellen oder eben Probleme wie Bias und Diskriminierung aufzudecken oder die Blackbox aufzubrechen.

Was waren die Gründe, die euch zu der Entwicklung von Algoneer bewogen haben?

Andreas Dewes: Also generell ist Algoneer für uns erstmal ein Forschungsprojekt, das wir mit Unterstützung vom BMBF und dem Prototype Fund realisiert haben. Es ist also ein ganz kleines Projekt, in dem wir uns in drei Monate lang angeschaut haben, wie wir algorithmische Systeme, insbesondere Machine-Learning-Systeme für alle beteiligten Akteure besser nachvollziehbar machen können und das Testen und die Untersuchung der Systeme einfacher ermöglichen können. Weil wir natürlich gesehen haben, dass algorithmische Systeme kontrolliert werden müssen. Das ist klar. Ich glaube, wir sind in dem Prozess alle so weit zu sagen: Okay, das muss gemacht werden. Als Entwickler oder als Data Scientist haben wir uns die Frage gestellt, wie wir das machen würden, weil es für die normale Softwareentwicklung eine Menge Tools und Möglichkeiten gibt, um zum Beispiel bei jeder Änderung, die an einem Softwaresystem vorgenommen wurde, nachzuvollziehen, was genau gemacht wurde und welchen Effekt die Änderung auf das System hatte. Und mit Tests kann man beispielsweise prüfen, ob die Software sich noch so verhält, wie sie sich verhalten soll.

Aber was wir aus unseren eigenen Beobachtungen und auch aus vielen Gesprächen mit Data Scientists aus Unternehmen gelernt haben, ist, dass es im Machine-Learning-Bereich oder bei der Entwicklung von Machine-Learning-Systemen sehr viel weniger Möglichkeiten oder sehr viel weniger formelle Rahmenbedingungen gibt, um die Systeme in dem gleichen Maß zu testen, wie heute Software getestet wird. Das ist oft ein Prozess, der von Data Scientist zu Data Scientist oder unter Teams ganz unterschiedlich gehandhabt wird und bei dem es auch relativ wenig Systematik gibt, um ein solches System überhaupt über die Zeit nachzuvollziehen. Beispielsweise um nachvollziehen zu können mit welchem Datensatz und welchen Modellparametern genau der Algorithmus trainiert wurde, welche Datenpunkte in das Ergebnis eingeflossen sind und wie für einen einzelnen Datenpunk eine bestimmte Entscheidung zustande gekommen ist.

Wir wollten ein System schaffen, das es zunächst für Entwickler von solchen Machine-Learning-Systemen sehr einfach macht, bei jeder einzelnen Änderung an ihrem System, also sowohl bei einer Änderung von dem Lernalgorithmus selbst, als auch bei einer Änderung von dem Datensatz, systematisch Tests laufen zu lassen, um zum Beispiel Nachvollziehbarkeit, aber auch Robustheit, Sicherheit und andere Aspekte des Systems zu prüfen und die Ergebnisse dann verschiedenen anderen Stakeholdern, also beispielsweise Auditoren oder Betroffenen später zur Verfügung stellen zu können.

Leonie Beining: Unter Sicherheit kann sich jeder etwas vorstellen. Robustheit, kannst du das noch mal kurz erklären?

Andreas Dewes: Robustheit bedeutet in dem Fall, dass eine kleine Änderung in den Eingabedaten des Algorithmus zum Beispiel nicht dazu führt, dass das System eine ganz andere Entscheidung trifft. In den letzten Jahren hat sich insbesondere bei Systemen für Texterkennung oder Bilderkennung gezeigt, dass mit ganz kleinen Abweichungen an den Eingabedaten ganz große Veränderungen an den Vorhersagewerten erzielt werden. Das ist natürlich ein Sicherheitsproblem und für den Betroffenen ebenfalls problematisch, weil vielleicht eine ganz kleine Abweichung an den Daten dazu führt, dass der Algorithmus auf einmal seine Entscheidung rabiat ändert, ohne dass es überhaupt eine Veranlassung dafür gibt. So etwas überhaupt einmal sichtbar zu machen und testen zu können, war eines der Ziele des Projekts.

Besonders weil heute die meisten Algorithmen auf ganz wenige sehr einfache Metriken optimiert werden. Das heißt, ich habe als Entwickler von solchen algorithmischen Systemen zum Beispiel die Genauigkeit im Blick: Also wie viel Prozent der Entscheidungen, die mein Algorithmus trifft, sind richtig und wie viel sind falsch? Das optimiere ich dann und versuche einen möglichst hohen Wert von dieser Genauigkeit zu erzielen. Aber das zeigt mir nicht wie sich die Genauigkeit für einzelne Gruppen von Datenpunkten, die zum Beispiel zu einer bestimmten Gruppe von Personen gehören, verändert. Es kann sein, dass der Algorithmus für eine kleine Gruppe von Personen sehr viel schlechter funktioniert. Aber weil ich eine sehr große Gesamtzahl von Datenpunkte habe, ist dieser Effekt nicht sichtbar, er wird durch die Genauigkeit in den anderen Datenpunkten kompensiert.

Das heißt, viele Probleme sehe ich als Data Scientist oder als Machine-Learning-Entwickler heute gar nicht, weil ich mich nur auf diese sehr einfachen Metriken konzentriere. Deswegen wollten wir mit Algoneer Tests für einzelne Datenpunkte oder bestimmte Gruppen im Datensatz vereinfachen, um solche Probleme möglichst früh erkennen zu können.

Leonie Beining: Kannst du ein konkretes Beispiel aus einem konkreten Anwendungsbereich geben, bei dem Algoneer schon einmal eingesetzt wurde, oder bei dem ihr es getestet habt?

Andreas Dewes: Wir haben verschiedene Datensätze, mit denen wir Algoneer getestet haben. Das sind Vorhersageprobleme, aber beispielsweise auch Klassifikationsprobleme. Es gibt zum Beispiel einen Standarddatensatz, der eine Einkommensverteilung oder eine Kreditwürdigkeitsprüfung macht. Mit Algoneer haben wir verschiedene Verfahren getestet und analysiert inwiefern bestimmte Attribute oder einzelne Werte von einer Person bzw. einem Datenpunkt Einfluss auf die Entscheidung des Algorithmus haben. Wir haben sichtbar gemacht wie Daten, zum Beispiel das Einkommen oder die Postleitzahl, das Ergebnis einer Kreditwürdigkeitsprüfung beeinflussen. Das ist sowohl für den Entwickler als auch für die betroffene Person interessant und wichtig, damit auch sie die Entscheidung, zumindest für diesen einen speziellen Datenpunkt, nachvollziehen kann.

Leonie Beining: An den Themen Nachvollziehbarkeit und Erklärbarkeit wird viel geforscht. Es gibt verschiedene Ansätze, wie man Nachvollziehbarkeit herstellen kann. Was ist euer Beitrag in diesem großen Universum Explainable AI oder Machine Learning?

Andreas Dewes: Es gibt eine Unzahl von großartigen Projekten und Forschungsansätzen, um Algorithmen erklärbar zu machen. Wir sind ein ganz kleines Team, deswegen haben wir auch nicht den Anspruch unsere eigene Systematik zu entwickeln. Wir wollten bestehende Verfahren, die es in der akademischen Forschung gibt und die für einzelne Bereiche sehr gut funktionieren, für eine Großzahl an Entwicklern einfacher nutzbar machen. Denn Machine Learning Entwickler oder Data Scientists haben sehr viel zu tun, oft haben sie für das testen und für die Validierung der Systeme nur ein begrenztes Zeitfenster. Das heißt, wenn der Aufwand für das Testen und die Untersuchung der Systeme sehr hoch ist, steigt die Wahrscheinlichkeit, dass gar nicht oder nur oberflächlich getestet wird. Indem wir eine Großzahl von den Testverfahren, die es gibt, in einer sehr einfachen Form nutzbar machen und die Anbindung an Algoneer mit sehr wenig Softwarecode möglich ist, wollen die Chance erhöhen, dass mehr Entwickler und mehr Unternehmen die Verfahren systematisch testen und dadurch mehr Einblicke generieren, ohne viel mehr an Aufwand investieren zu müssen.

Leonie Beining: Nur weil algorithmische Systeme für Experten nachvollziehbar werden, heißt es noch lange nicht, dass diese Erklärung auch für technische Laien verständlich sind oder Betroffenen etwas nützen und sie besser verstehen, was ein System macht. Wie sieht es deiner Meinung nach mit anderen Personengruppen aus? Wie sollte der Output für Betroffene aussehen?

Andreas Dewes: Das ist ein sehr wichtiger Aspekt, Nachvollziehbarkeit richtet sich stark nach dem Adressaten. Was für mich als Data Scientist nachvollziehbar ist, ist für einen normalen Nutzer eventuell sehr kryptisch oder überhaupt nicht nachvollziehbar. Deswegen haben wir auch mit Algoneer den Anspruch gehabt, ein Werkzeug für unterschiedliche Zielgruppen, also Auditoren, Betroffene und Entwickler zur Verfügung zu stellen. Wir haben den Umfang der Lösung für das Prototype-Projekt beschränken müssen, weil wir nur drei Monate Zeit hatten. Wir haben erstmal nur die Entwickler als Zielgruppe adressiert, weil sie zumindest am Anfang den größten Einfluss darauf haben, wie solche Systeme gestaltet werden und am wahrscheinlich am meisten von einer besseren Erklärbarkeit der Systeme profitieren. Zudem sind sie die Zielgruppe, die uns am nächsten liegt und bei der wir das beste Verständnis davon haben, was sie benötigen, um das System nutzen zu können.

Wir haben auch mit Gewerkschaften gesprochen, die mittlerweile sehr viel Interesse an dem Thema haben. Gerade in sehr großen Unternehmen werden immer mehr automatisierte Entscheidungsverfahren eingesetzt und die Gewerkschaft bzw. der Betriebsrat versucht, diesen Prozess möglichst von Anfang an mitzugestalten. Auch stellen sich Gewerkschaften die Frage, wie sie die Forderung, die sie in puncto Nachvollziehbarkeit, Sicherheit, Bedienbarkeit et cetera stellen, effektiv in der Praxis testen können? Müssen sie dem Anbieter oder dem Unternehmen vertrauen oder können sievielleicht auch ein System wie Algoneer benutzen, um speziell aufbereitete Ergebnisse von den Tests auswerten zu können, ohne von anderen Personen abhängig zu sein?

Es war uns extrem wichtig damit die Person zu ermächtigen und dazu zu befähigen, sich solche Systeme selbstbestimmt anschauen und die Ergebnisse von solchen Tests verstehen zu können. Das ist natürlich ein langer Weg. Wir haben jetzt den ersten Schritt getan und werden auch in den nächsten Jahren versuchen, das System weiter auszubauen, um es für Zielgruppen ansprechender zu machen, die keinen technischen Hintergrund haben und trotzdem davon profitieren können, die Ergebnisse zu verstehen.

Leonie Beining: Habt ihr schon konkrete Schritte unternommen, beispielweise mit Gewerkschaften zusammen überlegt, wie das aussehen könnte?

Andreas Dewes: Wir haben angefangen mit einer großen Gewerkschaft einen Prozess zu definieren, wie eine betriebliche Mitbestimmung bei der Gestaltung von algorithmischen Systemen aussehen könnte, wie wir als Technologiepartner-System bestimmte Aspekte von diesem Prozess mit einer Software abbilden können, um Kontrollmöglichkeiten et cetera automatisch anbieten zu können. Da sind wir noch im Prozess. Die Gewerkschaften sind natürlich auch etwas zögerlich. Sie sind generell skeptisch gegenüber neuen Technologien oder Algorithmen per se.

Ich glaube aber, dass ein Bewusstseinswandel im Gange ist, der dazu führt, dass die sich mehr mit den Themen beschäftigen, weil sie sehen, dass das Thema nicht verschwinden wird und dass es in der Zukunft nicht weniger Automatisierung geben wird. Sie müssen als Gewerkschaft eine Möglichkeit und Instrumente finden um effektiv mit dem Thema umgehen und solche Projekte oder Einführungen solcher Systeme steuern zu können.

Leonie Beining: In dem Papier zum Thema Nachvollziehbarkeit für Betroffene, was wir in den letzten Monaten erarbeitet haben, führen wir an, dass es auch stark auf die Zeit, auf das Wissen, auf die Bereitschaft und die Erwartung von Menschen ankommt, wie und in welchem Maße algorithmische Systeme erklärt werden können und sollen. Ihr habt viel UX-Research, also Nutzerforschung gemacht. Was erwarten Nutzer und Entwickler, worauf kommt es ihnen an?

Andreas Dewes: In dem Projekt haben wir uns erstmal angeschaut, welche Erfahrungen in der akademischen Forschung gemacht wurden, um algorithmische Systeme nachvollziehbar zu machen. Dann haben wir Interviews mit Personen aus unterschiedlichen Unternehmen geführt, von kleinen Startups bis hin zu großen DAX-Konzernen, und gefragt, ob das für sie ein relevantes Problem bei der Entwicklung von Algorithmen ist. Weiterhin haben wir gefragt ob sie diese Verfahren, die es in der akademischen Forschung gibt, kennen und nutzen und wie sie sich einen Ansatz oder eine generelle Testbarkeit von Algorithmen wünschen würden. Da haben wir gesehen, dass es in Bezug auf den Kenntnisstand bei der Testbarkeit von algorithmischen Systemen sehr große Unterschiede in Unternehmen gibt, je nachdem, mit wem man spricht und wie das Unternehmen sich aufgestellt hat.

Es gibt Unternehmen, die kennen alle akademischen Verfahren, sind informiert was die Forschung angeht, und haben sie teilweise auch schon eingesetzt. Andere haben sich mit dem Thema noch gar nicht beschäftigt und haben was Nachvollziehbarkeit angeht noch sehr wenig Erfahrung.

Das zeigt, dass es sehr schwierig ist, einen einzigen Ansatz zu haben, der alle möglichen Anwendungsfälle abdecken kann. Deswegen haben wir versucht, das System möglichst offen zu gestalten, damit der Nutzer sehr einfach seine eigenen Tests anbinden  und das System anpassen kann. Weil in den Unternehmen auch die eingesetzten Softwaresprachen oder Programmiersprachen unterschiedlich sind, wollten wir ein Tool bieten, das wirklich sehr einfach anbindbar und für eine möglichst große Anzahl von Anwendungsfällen nutzbar ist.

Leonie Beining: Habt ihr je nach Anwendungsbereich Unterschiede festgestellt? Ich nehme an, dass ihr mit Unternehmen aus ganz unterschiedlichen Sektoren gesprochen habt. Gab es unterschiedliche Bedürfnisse oder Ansprüche, die ihr feststellen konntet?

Andreas Dewes: Gerade in stark regulierten Bereichen, im Finanz- oder im Gesundheitsbereich ist Nachvollziehbarkeit ein sehr viel ausgeprägteres Thema, weil entsprechende gesetzliche Verpflichtungen bestehen. In anderen Bereichen, wie zum Beispiel dem E-Commerce oder dem Handel generell, gibt es mehr Freiheit auch mal Dinge zu testen, weil weniger reguliert wird und der Einflussbereich des Algorithmus auf das Individuum oder auf das Leben geringer ist. Wie zu Anfang gesagt, wenn ich auf einer Shoppingseite eine schlechte Empfehlung bekomme, dann ist das für mich weniger schädlich, als wenn mich meine Krankenkasse nicht mehr in einen bestimmten Tarif aufnimmt. Daher rührt die Uneinigkeit darüber, wie Nachvollziehbarkeit hergestellt bzw. wie viel Wert auf sie gelegt wird. Folglich haben Unternehmen unterschiedliche Herangehensweisen.

Manche Firmen haben von vornerein gesagt, dass sie auf schwer nachvollziehbare Verfahren ganz verzichten. Sie benutzen gar keine Deep-Learning-Verfahren oder neuronale Netze, die sehr viele Parameter haben und bei denen man eigentlich nie voraussagen kann, wie die Systeme ihre Entscheidung treffen. Sie nutzen stattdessen Verfahren, die auch für einen Menschen oder eine geschulte Person nachvollziehbar sind und haben damit sozusagen die Nachvollziehbarkeit eingebaut. Beispielsweise durch Entscheidungsbäume oder lineare Verfahren, bei denen auch Mathematiker oder Statistiker verstehen können, wie das System die Entscheidung trifft, und bei denen sie Probleme relativ einfach oder zumindest einfacher als bei neuronalen Netzen und anderen Blackbox-Systemen erkennen und dementsprechend beheben können.

Diese Strategie verfolgen heute noch viele Unternehmen. Sie bleiben von komplexen Modellen fern und nutzen eher einfache Modelle, die in vielen Fällen relativ gute Ergebnisse liefern. Es gibt natürlich bestimmte Bereiche, in denen Komplexität notwendig ist, in denen man mit traditionellen Methoden kaum eine Chance auf Problemlösung hat. Bei Bilderkennung oder Textverarbeitung beispielsweise sind diese komplexen neuronalen Modelle erforderlich bzw. haben sie eine sehr viel bessere Chance, gute Ergebnisse zu erzielen. Besonders dort ist der Aspekt der Nachvollziehbarkeit wirklich wichtig, weil die Systeme immer komplexer werden und teilweise schon einige Milliarden Parameter haben. In dem Fall ist es eigentlich kaum mehr möglicheine globale Erklärbarkeit oder eine einfache Erklärbarkeit zu bieten.

Leonie Beining: Es ist ja so ein prominentes Argument, dass sich manche Modelle oder Systeme gar nicht erklären lassen oder Erklärbarkeit auch auf Kosten von Präzision oder Genauigkeit der Systeme geht und es deswegen einen Zielkonflikt gibt. Was hältst du von diesem Argument?

Andreas Dewes: Das ist eine der Haupterkenntnisse, die wir während des Projektes hatten: Eine globale Erklärbarkeit, also die Möglichkeit ein Machine-Learning-Modell oder einen Algorithmus für alle Datenpunkte gleich zu erklären, gibt es bei diesen modernen Verfahren eigentlich gar nicht mehr. Genau deswegen wird Machine Learning ja oft eingesetzt, da es oft nicht möglich ist, für alle Datenpunkte ein einfaches Modell zu definieren. Für einzelne Gruppen von Datenpunkten in Abhängigkeit von spezifischen Attributwerten kann aber eventuell ein einfaches Modell definiert werden. Das globale Modell kann man sich dann als eine Zusammensetzung aus vielen kleinen Modellen vorstellen, die alle in ihrem Geltungsbereich, z.B. für bestimmte Personengruppen, darauf spezialisiert sind, Entscheidungen für diese zu treffen.

Leonie Beining: Könntest du das mit einem Beispiel konkretisieren?

Andreas Dewes: Wenn ich eine Kreditwürdigkeitsvorhersage mache, dann könnte ich zum Beispiel ein globales Modell haben, das für Männer und Frauen unterschiedliche lokale Modelle definiert und damit unterschiedliche Kriterien ansetzt. Das wäre in dem Fall natürlich sehr schlecht. Genauso können für verschiedene Gruppen von Personen, die zum Beispiel durch Alter, Wohnort, Einkommen et cetera zu einer gegebenen Gruppe gehören, lokale Modelle definiert werden. Für manche dieser lokalen Modelle könnte das Einkommen einen positiven Einfluss auf die Kreditwürdigkeitsentscheidung, für andere könnte der Effekt aber umgekehrt sein. Daher ist eine globale Erklärung des Einflusses eines Attributwerts für viele Machine-Learning Modelle meist nicht machbar.

Man kann sich ein Machine-Learning-Modell als eine Zusammensetzung aus vielen kleinen Modellen vorstellen, die erklärbar sind, und jeweils für eine spezifische Gruppe an Personen angewandt werden. So funktionieren im Prinzip auch viele Verfahren die Machine-Learning-Modelle erklärbar machen. Sie gehen davon aus, dass so ein Modell nie wirklich global erfasst werden kann, aber anhand eines konkreten Datenpunkts, zum Beispiel den Daten von einer Person, gesehen werden kann, wie das System mit sehr ähnlichen Datenpunkten bzw. Personen umgeht. Man kann die Daten der Person etwas verändern und sehen wie sich die Vorhersage des Modells verändert. Aus diesem lokalen, kleinen Modell kann man dann ein einfacheres Vorhersagemodell bauen, zum Beispiel eine lineare Vorhersage, die man dann benutzen kann, um die Ergebnisse des Modells für diesen einen Datenpunkt zu erklären.

Und das ist, was man als lokale Erklärbarkeit bezeichnet. Man kann für diesen gegebenen Datenpunkt, beispielsweise für mich als Person, die Entscheidung des Modells nachvollziehen und kann sagen, welche von meinen Eigenschaften einen positiven und welche einen negativen Effekt auf die Vorhersage haben werden. Aber wenn ich jetzt von mir weggehe, zum Beispiel zu dir als Datenpunkt, dann kann es sein, dass das Modell eine andere lokale Form hat. Das heißt, dass die Dynamik wieder ganz anders funktioniert. Das ist die Herausforderung, die auch die Mächtigkeit von komplexen Machine-Learning Modellen ausmacht, aber eben eine globale Erklärbarkeit de facto ausschließt. Das Beste, was man für viele moderne Machine-Learning-Modelle bekommen kann, ist eine lokale Erklärbarkeit, durch die ich zumindest für einen Datenpunkt oder für eine Gruppe von Datenpunkten sagen kann, wie das Modell lokal funktioniert. Das sagt natürlich nichts darüber aus, wie das Modell in anderen Bereichen eventuell funktionieren kann.

Leonie Beining: Wie bewertest du die Frage, wo man solche Modelle und solche Systeme einsetzen und wo man sie vielleicht nicht einsetzen sollte, wenn nur eine beschränkte Nachvollziehbarkeit gegeben ist?

Andreas Dewes: Es gibt viele Bereiche, in denen man problemlos sehr komplexe Modelle einsetzen kann. Die Bilderkennung für bestimmte Anwendungen oder andere Dinge, die eher peripher Leben betreffen sind ein gutes Beispiel. Da kann man auch ein bisschen „riskieren“ und komplexere Modelle einsetzen, ohne alles ganz nachvollziehbar machen zu müssen. Aber gerade in Bereichen, wo sehr starker Einfluss auf das eigene Leben genommen wird; Kreditwürdigkeitsentscheidungen, Entscheidungen im Gesundheitsbereich ­­– da fände ich es gut, wenn wir Modelle haben, die man vielleicht sogar global erklären kann oder die im Idealfall ganz normale Statistik sind bzw. mit statistischen Daten befüttert wurden. Hier ist der Trend zu mehr und mehr Komplexität in Machine Learning vielleicht nicht immer sinnvoll.

Leonie Beining: Was denkst du, wie hoch sollten unsere Ansprüche an die Erklärbarkeit von algorithmischen Systemen tatsächlich sein vor dem Hintergrund der Beschränktheit der Erklärbarkeit menschlicher Entscheidungen?

Andreas Dewes: Das Tolle oder das Schreckliche an Softwaresystemen ist ja, dass sie auf großer Skala auch funktionieren. Das heißt, ich kann einmal eine Software schreiben und dann ist es eigentlich egal, ob ich sie an zehn Personen verkaufe oder an eine Million. Das ist bei Machine-Learning-Verfahren auch so, das heißt, wenn ich sie einmal trainiert habe, dann treffen sie auch Entscheidungen über zehn Millionen oder hundert Millionen Datenpunkte. Das ist der Unterschied zu einem Menschen. Ich kann auf einen schlechten Sachbearbeiter treffen, zum Beispiel mit einem Hass auf Saarländer, der mich deswegen schlecht bewertet. Das macht er aber nicht bei allen Leuten aus dem Saarland. Ein Algorithmus, der dieses Problem hat, würde genau das tun. Der würde die Entscheidung, die er aus den Trainingsdaten extrahiert hat, auf alle Personen anwenden und diese Diskriminierung dann systematisieren und skalieren.

Deswegen muss man die Systeme unterschiedlich betrachten oder den Algorithmus mit besonderer Sorgfalt testen, mehr als einen einzelnen, menschlichen Entscheider, der eine Einzelfallentscheidung trifft. Im Idealfall sollte es dazu noch eine manuelle Einspruchsmöglichkeit geben, damit es also wirklich einen Menschen gibt, der auch sich die Entscheidung anschauen kann. Für einige Bereiche ist es sicher wichtig, sehr viel strengere Maßstäbe anzulegen als die, die wir an uns selbst anlegen würden.

Leonie Beining: In dem Papier argumentieren wir deswegen auch, dass es in Zukunft immer wichtiger wird, dass sich Entwicklerinnen auch mit den Zusammenhängen und den Auswirkungen von algorithmischen Systemen befassen, damit man sie sinnvoll erklären und auch begründen kann. Du hast deine Erfahrungen mit Softwareentwicklung. Was, würdest du sagen, wie steht es um das Bewusstsein von Entwicklerinnen für Nachvollziehbarkeit?

Andreas Dewes: Die meisten Entwickler, mit denen wir gesprochen haben, waren eigentlich sehr aufgeschlossen was Datenschutz und Datensicherheit angeht. Auch gegenüber Themen, die damit zusammenhängen. Das Interesse ist auf jeden Fall da. Aber was ein bisschen fehlt, ist die Zeit. Entwickler sind eine sehr wertvolle Ressource und eigentlich fast immer ausgelastet, deswegen fallen solche Sachen oft hinten runter oder werden nur am Rande beachtet. Es ist ein wirklich entscheidender Punkt zu realisieren, dass es wichtig ist, sich mit diesen Themen zu beschäftigen und dass man die entsprechende Zeit für sie allokieren muss.

Ich glaube, das wird im Endeffekt nur funktionieren, wenn wir eine Regulierung in der einen oder anderen Form haben. Es gibt Unternehmen, die sich von allein mit Datenschutz beschäftigen, aber sie tun es eben auch, weil es eine gesetzliche Voraussetzung ist. Wenn wir so eine Voraussetzung im algorithmischen Bereich hätten, würde ein bisschen mehr Aufmerksamkeit auf das Thema gelenkt werden.

Und zum anderen glaube ich, muss das auch in der Ausbildung sehr viel stärker thematisiert werden. Wie gesagt, in den letzten Jahren lag der Fokus bei der Ausbildung von Data Scientists oder Machine-Learning-Ingenieuren auf der Optimierung von Systemen. Das heißt darauf, zu verstehen, wie man Datensätze strukturieren und Algorithmen aufbauen muss, um die höchste Genauigkeit zu erreichen. Es gibt zum Beispiel diese Webplattformen, auf denen Top Data Scientists gegeneinander antreten. Dabei ist eigentlich nur die Vorhersagegenauigkeit des Algorithmus‘ relevant. Das bedeutet, als Data Scientist in Ausbildung bekommt man immer wieder vermittelt, dass die Vorhersagegenauigkeit eigentlich das Allerwichtigste und alles andere nebensächlich ist.

Ich denke, man müsste in der Ausbildung schon stärker auf die anderen Aspekte eingehen und klarstellen, dass Genauigkeit wichtig ist, aber Robustheit, Sicherheit und Nachvollziehbarkeit für ein algorithmisches System genauso erfolgsentscheidend sein können. Das ist ähnlich wie in der Softwareentwicklung, wo es um Codequalität geht. Wenn die Software funktioniert dann ist erstmal alles gut, doch wenn das System zum Beispiel intern nicht verstanden wird, dann ist das auch für das Unternehmen schädlich, weil man allmählich die Kontrolle verliert. Das könnte man vermeiden, wenn von Anfang an mehr auf Nachvollziehbarkeit, Robustheit und Sicherheit der Systeme geachtet würde. Durch das Schreiben von Tests verbessert sich die Gesamtqualität des Systems in den meisten Fällen automatisch und es wird für die Organisation einfacher, das System zu verstehen und weiterzuentwickeln. Es gibt also gute Gründe für Unternehmen mehr Wert auf diese Faktoren zu legen, aber in einem gewissen Maße wird sicherlich ein gesetzlicher Zwang nötig sein.

Leonie Beining: Welche Rahmenbedingungen würdest du dir wünschen, damit es in Zukunft zu besser nachvollziehbaren algorithmischen Systemen kommt?

Andreas Dewes: Wie man reguliert, ist natürlich noch mal die Frage. Ich persönlich würde eher eine eigenschaftsbasierte Regulierung fordern, das heißt spezifische Kriterien nicht an die Algorithmen selber anlegen, sondern an ihre Eigenschaften, also daran wie sie sich verhalten. So bewertet man nämlich auch menschliche Entscheider: nicht nach beliebigen technischen Eigenschaften, sondern nach ihrem Verhalten oder nach den Entscheidungen, die sie getroffen haben. Ich glaube, wenn man einen guten Mittelweg findet, der ähnlich wie die Datenschutzgrundverordnung nicht im Detail vorschreibt, was man genau machen soll, sondern nur, was erreicht werden soll, dann könnte das einen positiven Effekt auf die Entwicklung haben.

Leonie Beining: Ich wollte noch eure Finanzierung ansprechen, die ist besonders, denn ihr habt euch mit Algoneer für den Prototype Fund beworben. Da würde mich interessieren, warum ihr euch beworben habt? Man könnte sich denken, dass die Wirtschaft auch ein Interesse daran hat das Thema voranzutreiben. Warum ist für ein so relevantes Thema eigentlich eine alternative Finanzierung notwendig?

Andreas Dewes: Wir sind ein kleines Startup und algorithmische Systeme besser zu verstehen, ist für uns aktuell noch ein Forschungsgebiet. Wir haben Produkte eher im Bereich Datenschutz und Datensicherheit. Wir versuchen erst mal die Daten, die man für solche Systeme einsetzt, sicher zu machen und datenschutzkonform zur Verfügung zu stellen. Aber wir sehen auch, dass die Systeme selbst bzw. das Testen der algorithmischen Systeme in den nächsten Jahren sehr bedeutend werden wird. Deshalb wollten wir in dem Bereich auch eine Entwicklung machen und der Community ein Open-Source-Tool zur Verfügung stellen, das relativ einfach nutzbar ist, um verschiedene Dinge auszutesten. Ohne den Prototype Fund oder das BMBF hätten wir eigentlich kaum eine Möglichkeit gehabt, das aus dem eigenen Umsatz zu finanzieren.

Es ist wirklich eine großartige Projektförderung und auch nach meiner Kenntnis die einzige in Deutschland, die solche Open-Source-Projekte in dieser Form fördert. Ohne die Förderung würde die Software in der jetzigen Form nicht existieren. Wir hätten sicherlich daran gearbeitet, vielleicht auch im Rahmen von Kundenprojekten, aber es hätte auf jeden Fall sehr viel länger gedauert und es wäre vielleicht auch keine Open-Source-Lösung geworden.

Leonie Beining: Zum Schluss würde ich gerne Rückbezug auf das Zitat von deiner re:publica-Seite nehmen. Du willst dich dafür einsetzen, dass Menschen besser verstehen, wie Datenanalysen ihr Leben beeinflussen. Was würdest du sagen, welche Fortschritte werden wir in Sachen Nachvollziehbarkeit machen und werden Menschen in fünf Jahren bessere Möglichkeiten haben, zu verstehen, wie Datenanalysen ihr Leben betreffen?

Andreas Dewes: Ich denke, in der akademischen Forschung machen wir schon extreme Fortschritte. Es gibt eine Reihe von Verfahren, die wir auch in Algoneer implementiert haben, die in den letzten Jahren entwickelt wurden und die es viel einfacher machen, sehr komplexe Machine-Learning-Verfahren zumindest lokal nachvollziehbar zu machen. Ich sehe auch, dass dieses ganze Forschungsgebiet FAT ML, also Fairness, Accountability and Transparency in Machine Learning, in den letzten Jahren förmlich explodiert ist, damit beschäftigen sich mittlerweile eine Vielzahl von Forschungsgruppen auf der ganzen Welt. Deswegen denke ich, da wird in den nächsten Jahren noch sehr viel Fortschritt gemacht werden. Die Frage ist nur, wie man das in die Organisation und die Unternehmen hereinträgt.

Ich hoffe, dass wir mit Algoneer einen kleinen Beitrag dazu leisten können und dass wir es einfacher machen, diese Verfahren auch in der Praxis zu nutzen. Ich glaube, die Wahrscheinlichkeit, dass wir in fünf Jahren eine kleine Regulierung haben, ist auch nicht gering. Deswegen wird da sicherlich, wie durch die DSGVO, ein kleiner Schub passieren, der Unternehmen motiviert, ihre Systeme auf den Prüfstand zu stellen und neue Systeme mit einem stärkeren Fokus auf Nachvollziehbarkeit und Sicherheit zu entwickeln. Ansonsten hoffe ich, dass wir generell weniger personenbezogene Daten benutzen.

Wir arbeiten auch daran, dass Unternehmen Datenanalysen eher mit anonymisierten Daten machen und damit schon per se das Risiko gesenkt wird, auch beim Einsatz von Machine-Learning-Verfahren. Meine Vision ist es, dass ich als Bürger die Kontrolle über meine eigenen Daten habe und mir die Systeme und wie sie Entscheidungen treffen zumindest grob anschauen kann.

Leonie Beining: Gut, dann sprechen wir in fünf Jahren noch mal darüber, und sehen was daraus geworden ist.  Vielen Dank, Andreas, für das aufschlussreiche Gespräch!

-Ende des Transkripts-

10. Dezember 2019