Verantwortung kann man nicht an einen Algorithmus delegieren

Machine Learning for Science: In letzter Zeit häufen sich Berichte über algorithmische Diskriminierung. Scheinbar objektive, algorithmenbasierte Systeme entscheiden zum Nachteil von Einzelnen und entpuppen sich somit als unfair. Es geht dabei etwa um Gesichtserkennungs-Programme, die schwarze Menschen schlicht nicht erkennen, oder um Programme, die Bewerbungen für einen bestimmten Job vorsortieren und die Lebensläufe von Männern besser bewerten als die von Frauen. Die gesellschaftliche Forderung an die Entwicklerinnen und Entwickler, aber auch an die Forschenden, lautet oftmals: Korrigiert das! Geht das denn so einfach?

Ulrike von Luxburg: Wir drücken auf einen Knopf und machen den Algorithmus fair – so einfach ist es nicht. Maschinelles Lernen ist ja nicht nur der eine Algorithmus, den ich anwende. Sondern eigentlich ist Maschinelles Lernen eine ganz lange Pipeline.

Wie meinen Sie das?

Es könnte schon an den Daten liegen, wer sie erhoben hat, wie sie gelabelt sind. Es könnte auch an der Definition der Gruppen liegen, also der Frage, wem gegenüber ich fair sein muss, und dann kommt erst der Algorithmus. Und in dieser ganzen Pipeline muss man die Fairness mitdenken.

Gehen wir diese Pipeline, die verschiedenen Schritte, doch mal gemeinsam durch. Am Anfang stehen also die Daten. Die Daten, mit denen der Algorithmus trainiert wird, anhand derer er lernt, Entscheidungen zu treffen.

„Oft wurden die Daten nicht für den Zweck zusammengestellt, zu dem sie im Maschinellen Lernen benutzt werden.“

Genau hier kommt bereits der erste „Bias“ rein, also die erste Verzerrung oder das erste Vorurteil. Bei vielen der öffentlich diskutierten Anwendungen, bei denen schwarze Menschen schlecht dastanden, geht es schon an der Stelle schief. In den Daten waren viel zu wenige Bilder von schwarzen Menschen enthalten. Inzwischen ist, glaube ich, allen Leuten klar: Wenn sie Gesichtserkennung machen, müssen Menschen mit verschiedenen Hautfarben in ihrem Datensatz gut repräsentiert sein. Oder bei Lebensläufen: Wenn in der Vergangenheit meist Männer eingestellt wurden, dann steckt das natürlich in den Daten drin, und ein darauf trainiertes System wird versuchen, dieses Verhalten zu imitieren. Oft wurden die Daten auch gar nicht für den Zweck zusammengestellt, zu dem sie dann im Maschinellen Lernen benutzt werden. Eine wichtige Frage ist also: Wo kommen die Daten her und wer hat sie ausgesucht? Werden die gezielt erhoben oder werden sie einfach aus dem Internet gecrawlt? Und wer bewertet sie, labelt sie?

Das Labeln, also das Einteilen in Kategorien, übernehmen ja oft Crowdworker, also Menschen, die als Freiberufler über Internetplattformen kleinere Jobs quasi auf Zuruf annehmen.

Und so entstehen dann zum Beispiel Tools, die mithilfe von Maschinellem Lernen die Attraktivität eines Menschen auf einem Foto bewerten sollen. Das Labeln übernehmen dann 25-jährige Männer – Crowdworker sind meist männlich und jung – und bewerten, wie attraktiv die Menschen auf den Fotos sind. So ein Datensatz ist dann von vornherein „biased“ und spiegelt in erster Linie die Präferenzen der beteiligten Crowdworker wider.

Gehen wir weiter zum nächsten Schritt, der Frage, wem gegenüber man fair sein will oder soll.

„Für jede spezielle Anwendung muss man sich zuerst überlegen, was „fair“ in diesem Kontext überhaupt heißt.“

Ulrike von Luxburg leitet seit 2019 gemeinsam mit Philipp Berens den Exzellenzcluster "Maschinelles Lernen" © SOPHIA CARRARA/UNIVERSITY OF TÜBINGEN

Da ist zunächst die Definition der Fairness: Welchen Gruppen gegenüber will ich fair sein? Frauen im Vergleich zu Männern? Schwarzen im Vergleich zu Weißen? Damit ich einen Algorithmus fair machen kann, muss ich ihm das im Vorfeld „sagen“, und je mehr Gruppen ich nenne, umso schwieriger wird es. Und dann kommt der Fairness-Begriff an sich. Für jede spezielle Anwendung muss man sich zuerst überlegen, was fair in diesem Kontext überhaupt heißt. Hier gibt es ein paar Standard-Fälle. Einer ist zum Beispiel „demographic parity“, also „demografische Parität“ oder „ausgeglichene Anteile“. Zum Beispiel könnte man sagen: Eine Hochschule soll bei der Zulassung von Studierenden das Verhältnis von Männern und Frauen so abbilden, wie es auch in der Bevölkerung ist, also etwa zur Hälfte Frauen und zur Hälfte Männer zulassen.

Man schaut dabei nur auf die absolute Anzahl, nicht auf die Qualifikation der Personen. Ein anderer Fairness-Begriff wäre „equalized odds“ oder „equalized opportunity“, was man mit Chancengleichheit übersetzen kann. Wenn wir beim Beispiel der Hochschulzulassung bleiben, würde das bedeuten: Wenn du die gleiche Begabung hast, sollst du – egal ob du eine Frau oder ein Mann, ob du schwarz oder weiß bist – zu diesem Studium zugelassen werden. Man kann nicht alle Begriffe der Fairness gleichzeitig erfüllen, man muss sich für einen entscheiden.

Das klingt alles so, als könne man Prozesse des Maschinellen Lernens ganz gut auf Fairness trimmen, solange man sich über den Fairness-Begriff im Klaren ist. Wo ist der Haken?

In dem Moment, in dem ich Fairness herstellen will, gehen andere Sachen den Bach runter. Wenn ich mehr Fairness will, geht zum Beispiel die Genauigkeit der Vorhersagen runter.

Was bedeutet das genau?

Das hört sich vielleicht ein bisschen abstrakt an. Aber es heißt einfach: Wenn es zum Beispiel um Kreditvergabe geht, und es sollen gleich viele Weiße wie Schwarze oder Männer wie Frauen einen Kredit kriegen, dann könnte es sein, dass ich auch Leuten einen Kredit gebe, die ihn möglicherweise nicht zurückzahlen können. Aber irgendwo muss das Geld am Schluss wieder herkommen. Die Bank oder die Kunden oder die Gesellschaft müssten dann gemeinsam für das verloren gegangene Geld aufkommen. Das heißt, damit sind Kosten verbunden. Es stellt sich dann die ganz konkrete Frage: Wie viel ist uns Fairness wert?

Nach der Frage der Datenerhebung und der Definition des Fairness-Begriffs sind wir jetzt also beim Algorithmus angekommen.

Für den Algorithmus strebt man zwei Ziele an: Er soll einerseits fair sein, andererseits auch akkurat. Um bei unserem Beispiel zu bleiben: Der Algorithmus soll also trotz der definierten Fairness-Kriterien möglichst die Anwärter für einen Kredit heraussuchen, die den Kredit auch abbezahlen werden. Jetzt muss ich diesen „Trade-Off“, den Abwägungsprozess, lösen zwischen Fairness und dem eigentlichen Ziel des Algorithmus. Hier habe ich jetzt eine Stellschraube: Wie viel Fairness will ich, wie viel Genauigkeit? Als Bank kann ich zum Beispiel beschließen, zehn Prozent meiner Kredite an bedürftige Personen zu geben. Ich kann aber auch beschließen, es sollen nur fünf Prozent sein. Je nachdem, wie ich entscheide, geht die Fairness rauf oder runter. Gleichzeitig geht abhängig davon auch die Genauigkeit – und damit letzten Endes auch die entstehenden Kosten – rauf und runter.

Nehmen wir an, ich entscheide mich tatsächlich als Universität dafür, den Algorithmus eines Start-ups einzusetzen, um die Auswahl der Studierenden automatisiert ablaufen zu lassen und Personal und Kosten zu sparen. Dann würde ich natürlich gern wissen, ob dieser Algorithmus eine einigermaßen faire Auswahl trifft. Wie Algorithmen aufgebaut sind, ist aber meist ein Betriebsgeheimnis, das Firmen selten offenlegen.

Das ist eine Frage, die ich spannend finde: Wie könnte man als Staat versuchen, sowas zu zertifizieren? Wenn man jetzt mal in die Zukunft denkt: Es gibt viele Start-ups, die Algorithmen rausbringen, und sie wollen auch sagen dürfen, wir machen das gut. Und sie wünschen sich zum Beispiel sowas wie ein TÜV-Siegel auf ihrer Webseite, auf dem steht: „Geprüft vom Bundesdatenschutzamt: Ist fair“. Oder zumindest: „Im Rahmen der Möglichkeiten fair“. Aber wie würde sowas aussehen? Wie würde man eine Art Minimalstandard definieren, der hinterher testbar ist, ohne dass der Algorithmus offengelegt werden muss? Darüber diskutiere ich oft mit meinen Mitarbeiterinnen und Mitarbeitern, aber eine fertige Lösung haben wir auch nicht.

In ihrer Forschung beschäftigt sich Ulrike von Luxburg damit, Algorithmen des maschinellen Lernens von einem theoretischen Standpunkt aus zu verstehen. © SOPHIA CARRARA/UNIVERSITY OF TÜBINGEN

Wie sollte sich Ihrer Meinung nach eine Gesellschaft, sollte sich ein Staat positionieren, so lange es keinen „TÜV“ für Algorithmen gibt? Bleibt da nur die Möglichkeit, sensible Bereiche, in denen diskriminierende Entscheidungen weitreichende Folgen hätten, zur Tabuzone für Algorithmen zu erklären?

Ich glaube, es gibt tatsächlich Bereiche, wo ich aus ethischen Gründen ein solches System nicht haben möchte. Wenn es um lebensrelevante Entscheidungen geht wie Gefängnis oder nicht, ein Kind wird jemandem weggenommen oder nicht – diese Verantwortung kann man nicht einfach an einen Algorithmus delegieren.

Man könnte einwenden, dass das algorithmenbasierte System nicht zwingend die Entscheidung treffen muss. Es könnte auch nur ein Assistenzsystem sein, das uns Menschen Vorschläge macht.

Das Argument hört man immer wieder, aber in der Praxis klappt das halt oft nicht. Der Richter, der eh unter Zeitdruck steht, wird sich nicht dauernd gegen das Assistenzsystem entscheiden. Die Tendenz wird immer sein, den Empfehlungen des Systems zu folgen. Es gibt aber andere Bereiche, wo ich sagen würde: Da können Systeme, die mit Maschinellem Lernen arbeiten, auch Gutes bringen. Medizin ist ein typisches Beispiel dafür: Ein Assistenzsystem, das Vorschläge für Diagnosen macht oder für Medikamente, die man nehmen soll. Da würde ich sagen: Wenn es gut gemacht ist, ist vielleicht der Nutzen doch größer als der Schaden. Da sehe ich jedenfalls in näherer Zukunft Potenzial.

„Es könnte sein, dass Systeme des Maschinellen Lernens an manchen Stellen besser oder fairer sind als Menschen.“

Ganz allgemein wird man sich an den Gedanken gewöhnen müssen, dass diese Systeme nicht perfekt sind und dass man mit dieser Tatsache einfach auch umgehen muss. Es könnte aber sein, dass sie an manchen Stellen besser sind als Menschen oder fairer als Menschen. Denn eines ist ja klar: Auch menschliche Entscheider sind nicht immer fair und haben Vorurteile, die ihre Entscheidungen beeinflussen. Der Unterschied ist vielleicht: Wir haben nun Methoden an der Hand, mit denen man die Fairness oder Genauigkeit eines Algorithmus bewerten kann, aber eben auch die Fairness oder Genauigkeit von menschlichen Entscheidungsträgern. Der Vergleich zwischen beiden könnte je nach Anwendung mal zugunsten der Menschen und mal zugunsten der Maschinen ausgehen.

Interview: Theresa Authaler

Kommentare

Science Storys

19. Juli 2021 Nina Himmer

Wenn künstliche Intelligenz den Herzinfarkt vorhersagt

Algorithmen werden immer besser darin, medizinische Bilder zu analysieren und Krankheiten zu erkennen. Die Forscher Christian Baumgartner und Sergios Gatidis - der eine KI-Experte, der andere Radiologe – rechnen damit, dass sich dadurch die Arbeit von Ärztinnen und Ärzten fundamental verändern wird.

Science Storys

18. Juli 2021 Agustinus Kristiadi , Philipp Hennig

Wie man neuronale Netze mit Unsicherheiten ausstattet

Mit dem Bayesschen Formalismus kann man tiefe neuronale Netze um Unsicherheiten ergänzen. Bayessches Deep Learning gilt allerdings als umständlich und teuer. Neue Ergebnisse zeigen jedoch, wie eine kalibrierte Unsicherheit in tiefen Netzen erreicht werden kann - effizient und ohne die Vorhersagekraft zu beeinträchtigen.

Science Storys

19. Juli 2021 Thomas Grote

Algorithmus und Mensch als Partner

Wer stellt die bessere medizinische Diagnose, Algorithmus oder Mensch? Aus Sicht von Technikphilosoph Thomas Grote ist dieser Wettstreit nicht zielführend. Er plädiert dafür, den Blick auf das Zusammenspiel der beiden zu richten – und betont die Bedeutung der Philosophie.