Accuracy, Precision, Recall, F1-Score und Specificity

In diesem Artikel werden wir die gängigsten Metriken zur Bewertung der Leistung eines Modells in den Bereichen Data Science, Machine Learning und Deep Learning erörtern. Insbesondere werden wir uns mit der Accuracy, der Precision, dem Recall, dem F1-Score, der Spezifität und der ROC-Kurve (Receiver Operating Characteristic) befassen.

Inhaltsübersicht

  1. Einführung
  2. Konfusionsmatrix
  3. Fallstudie: Binäres Klassifizierungsmodell für die Krebserkennung
  4. Accuracy
  5. Precision
  6. Recall
  7. F1-Score
  8. Specificity
  9. ROC-Kurve
  10. Multiklassen-Klassifikation

1. Warum brauchen wir Bewertungsmetriken wie Accuracy, Precision etc.?

Nachdem der Implementierung eines Machine Learning Algorithmus oder eines neuronales Netz, kann sich mit der Frage beschäftigt werden, ob das algorithmische Modell die erforderliche Leistung vorweisen kann. 

Die Bewertungsmetriken, die zur Messung der Leistung eines Modells gewählt wird, ist von Projekt zu Projekt unterschiedlich und hängt davon ab, was genau in dem Projekt erzielt werden soll. Aus diesem Grund muss man sich über das Ziel im Klaren sein. So klar wie das Ziel ist, so klar müssen auch die Metriken definiert werden, mit denen die Leistung der Modelle zu messen ist. 

Hierbei ist Vorsicht geboten. Einige Bewertungsmetriken könnten darauf hindeuten, dass das Modell sehr gut abschneidet, während andere Metriken eine schlechte Leistung suggerieren könnten. 

In diesem Tutorial lernen Sie die Bedeutung der gängigsten Evaluationsmetriken kennen und erfahren, welche Metriken in welchem Fall verwendet werden sollten.


2. Konfusionsmatrix / Wahrheitsmatrix

Bevor wir uns mit den Bewertungsmetriken beschäftigen, müssen wir zunächst das Konzept der sogenannten Konfusionsmatrix (bzw. Wahrheitsmatrix) diskutieren.

Im Bereich des maschinellen Lernens und speziell des Problems der Klassifizierung stellt eine Konfusionsmatrix eine tabellarische Darstellung dar, mit der die Leistung eines Algorithmus visualisiert werden kann. Genauer gesagt ist eine Konfusionsmatrix eine Zusammenfassung der Vorhersageergebnisse in einem Klassifizierungsproblem.

Die Berechnung einer Konfusionsmatrix kann Ihnen eine bessere Vorstellung davon geben, was das Klassifizierungsmodell richtig macht und welche Fehler das Modell macht.

Bevor wir über die verschiedenen Bewertungsmetriken sprechen, die zur Messung der Leistung eines algorithmischen Modells verwendet werden können, ist es sehr wichtig zu verstehen, wie eine Konfusionsmatrix funktioniert. Der Grund dafür ist, dass alle wichtigen Metriken aus der Konfusionsmatrix abgeleitet werden können.

Binäre Klassifikation

Der Typ der Konfusionsmatrix, den ich hier vorstelle, wird nur für binäre Klassifikationen verwendet. Wenn Sie jedoch das Konzept dahinter verstanden haben, können Sie Ihr Wissen auf ein „Mehrklassen“-Klassifikationsproblem erweitern.

Werfen wir einen Blick darauf, wie eine Konfusionsmatrix in einem binären Klassifikationsproblem aussieht.

Konfusionsmatrix
Abb. 1 Konfusionsmatrix für binäre Klassifizierung.

Die Konfusionsmatrix für ein binäres Klassifikationsproblem ist eine 2×2-Matrix. Jede Zeile der Matrix stellt die Instanzen einer vorhergesagten Klasse dar, während jede Spalte die Instanzen der tatsächlichen Klasse repräsentiert.

Jeder der vier Matrixeinträge (True Positives, False Positives, False Negatives, True Negatives) entspricht der Anzahl bestimmter Ergebnisse, die das Modell vorhergesagt hat. Jeder dieser vier Einträge hat eine bestimmte Bedeutung, die im Folgenden erklärt wird.

Wie immer ist es am einfachsten zu verstehen, wie etwas funktioniert, wenn man sich ein Beispiel ansieht.


3. Binäres Klassifizierungsmodell für eine Krebserkennung

Angenommen, wir erstellen ein binäres Klassifizierungsmodell, das Ärzten in einem Krankenhaus hilft, anhand der medizinischen Daten eines Patienten vorherzusagen, ob dieser Patient Krebs hat oder nicht. Dieses Modell könnte bspw. ein neuronales Netz sein.

Nachdem wir das Modell implementiert und trainiert haben, wollen wir seine Leistung an noch nicht gesichteten Daten bewerten. Wir testen das Modell mit medizinischen Daten von 100 000 Patienten. Von diesen 100 000 Patienten haben 1192 haben Krebs, der Rest nicht. 

Angenommen, das Modell hat 542 Patienten korrekt identifiziert, die tatsächlich Krebs haben. Diese Vorhersagen werden als sog. True Positives bezeichnet, die wir mit TP abkürzen und in der Konfusionsmatrix entsprechend eintragen:

True Positives
Abb. 2 True Positives

True Positives: Der Patient hat Krebs, und das Modell hat dies richtig erkannt.

Außerdem konnte das Modell ebenfalls 98700 Patienten korrekt identifizieren, die keinen Krebs haben. Die korrekt identifizierten Fälle von gesunden Patienten werden als True Negatives oder TN bezeichnet. Die Konfusionsmatrix sieht nun wie folgt aus:

 True Positives + True Negatives
Abb. 3 True Positives + True Negatives

True Negatives: Der Patient ist gesund, und das Modell hat dies richtig erkannt.

Natürlich ist das Modell nicht perfekt und hat auch einige Fehler bei der Klassifizierung gemacht. Das Modell sagte 108 Patienten mit Krebs voraus, die in Wirklichkeit keinen Krebs hatten. Diese falschen Vorhersagen werden als False Positives (FP) oder Fehler vom Typ I bezeichnet:

True Positives, True Negatives & False Positives
Abb. 3 True Positives, True Negatives & False Positives

False Positives: Der Patient ist gesund, aber das Modell hat ihn fälschlicherweise als krank eingestuft.

Dieser Fehler vom Typ I ist zwar immer noch ein Fehler, aber nicht so schwerwiegend, wie es vielleicht den Anschein hat. In der Realität würde dies bedeuten, dass fälschlicherweise als krank eingestufte Patienten ärztlich untersucht werden. Dennoch würde dieser Fehler keinen Schaden für die Gesundheit der Patienten bedeuten. 

Auf der anderen Seite, das Modell hat 650 Patienten ohne Krebs vorhergesagt, die in Wirklichkeit Krebs haben. Diese falschen Vorhersagen werden als Falsch-Negative (FN) bezeichnet. Dies ist ein Fehler vom Typ II, der viel schlimmer ist als der Fehler vom Typ I. 

Vollständige Konfusionsmatrix.
Abb. 4 Vollständige Konfusionsmatrix.

False Negative: Der Patient hat Krebs, aber das Modell hat ihn fälschlicherweise als gesund eingestuft.

In diesem Fall würden 650 Patienten, die eine Krebsbehandlung benötigen, diese nicht erhalten, weil der Krebs bei diesen Patienten von dem Modell nicht erkannt wurde. Und das ist natürlich viel gefährlicher als ein Fehler vom Typ I, denn in diesem Fall stellt der Fehler eine direkte Gefahr für die Gesundheit der Patienten dar. 


Zusammenfassung: True-Positives, True-Negatives, False-Positives, False-Negatives

  • Def. True Positiv: Ein wahrer Positivwert ist eine Vorhersage oder ein Ergebnis, bei dem das Modell die positive Klasse korrekt vorhersagt. Dies ist in der Regel die Klasse, die von Interesse ist (z. B. ein Patient mit Krebs). In unserem Beispiel konnte das Modell richtig erkennen, dass ein Patient Krebs hat.
  • Def. True Negative: Ein True Negativ ist die Vorhersage bzw. das Ergebnis, bei der das Modell die negative Klasse richtig vorhersagt. In der Regel ist dies die Klasse, die weniger interessant ist. In unserem Beispiel konnte das Modell richtig erkennen, wenn ein Patient gesund ist.
  • Def. False Positive: Ein falsches Positiv ist eine Vorhersage des Ergebnisses des Modells, bei der die positive Klasse falsch vorhergesagt wird. Die betreffende Klasse ist in Wirklichkeit eine negative Klasse. In unserem Beispiel klassifizierte das Modell einen gesunden Patienten als einen, der Krebs hat.
  • Def. False Negative: Eine falsch negative Vorhersage ist eine Vorhersage, bei der das Modell fälschlicherweise die negative Klasse vorhersagt. Die betreffende Klasse ist in Wirklichkeit eine positive Klasse. In unserem Beispiel wurde ein kranker Patient, der Krebs hat, vom Modell als gesund eingestuft.

Nachdem wir nun einen Überblick über die Art der möglichen Ergebnisse einer binären Klassifikation haben, werden wir im Folgenden einige der gebräuchlichsten Bewertungsmetriken diskutieren, die zur Bewertung eines binären Klassifikationsmodells verwendet werden.

Dabei werden wir uns erneut auf das obige Beispiel von dem binären Klassifikators für Krebsdiagnosen beziehen und die Leistung anhand der unterschiedlichen Bewertungsmetriken berechnen.


4. Accuracy

Eine der am häufigsten verwendeten Metriken zur Messung der Leistung von einem algorithmischen Modell für binäre Klassifizierung, ist die Accuracy (deutsch: Genauigkeit). Die Accuracy gibt den Anteil der korrekt gemachten Vorhersagen eines Modells an. 

Um die Accuracy zu erhalten, müssen Sie die Anzahl der korrekten Vorhersagen (d. h. der True Positives und True Negatives) durch die Anzahl aller gemachten Vorhersagen teilen.:

Accuracy
Gl. 1 Berechnung der Accuracy.


In unserem Fall erhalten wir eine Accuracy von 0.992, was bedeutet, dass 99,2 % aller Vorhersagen des Modells richtig waren.

Wann sollten wir die Accuracy verwenden?

Wir sollten die Accuracy verwenden, um die Leistung von Modellen für Klassifizierungsprobleme zu bewerten, bei denen die Klassen ausgewogen sind. Das bedeutet, dass das Verhältnis der Klassen in einem Datensatz ungefähr gleich sein muss. Ein Verhältnis von (z. B.) 90% / 10% wäre in diesem Fall nicht geeignet.


5. Precision

Eine weitere sehr wichtige Bewertungsmetrik ist die Precision. Die Precision gibt das Verhältnis der wahren positiven Ergebnisse an, die vom Modell korrekt vorhergesagt wurden.

Die Precision versucht, die folgende Frage zu beantworten: Wie viele der positiven Ergebnisse wurden von dem Modell richtig vorhergesagt? 

In unserem Beispiel würde die Precision die folgenden Fragen beantworten: „Von allen Patienten, die das Modell als krebskrank vorausgesagt hat, wie viele dieser Patienten haben tatsächlich Krebs?

Mathematisch gesehen erhält man die Precision, indem man die Anzahl der wahren positiven Ergebnisse durch die Anzahl aller positiven Vorhersagen des Modells teilt:

Precision
Gl. 2 Berechnung der Precision.

In unserem Fall teilen wir 542 durch 650. Als Ergebnis erhalten wir eine Precision von 83,3 %. 83,3 % ist ein ziemlich guter Wert für die Precision. Dieser Wert bedeutet, dass wenn das Modell einen Patienten als krebskrank einstuft, liegt das Modell in 83,3 % der Fälle richtig.

Wann sollten wir Precision verwenden?

Wir sollten die Precision als Bewertungsmetrik verwenden, wenn wir sehr sicher sein wollen, dass die positive Vorhersage korrekt ist. Ein Beispiel: Wenn wir ein System entwickeln, das vorhersagen soll, ob wir das Kreditlimit für ein bestimmtes Konto herabsetzen sollten, müssen wir sehr sicher sein, dass unsere Vorhersage richtig ist, da sonst der Kunde unzufrieden sein könnte.



6. Recall / Sensitivität

Der Recall, auch Sensitivität genannt, ist eine Metrik, die uns sagt, wie gut das Modell in der Lage ist positive Ergebnisse zu identifizieren.

In unserem Beispiel versucht der Recall, die folgende Frage zu beantworten: „Wie gut oder wie empfindlich ist das Modell bei der Erkennung von Krebs in Patientendaten im Allgemeinen?“ 

Während die Precision angibt, wie viele der Patienten, die vom Modell als krebskrank eingestuft wurden, tatsächlich an Krebs erkrankt sind, gibt der Recall Aufschluss darüber, welchen Anteil aller krebskranken Patienten das Modell identifizieren konnte.

Das Modell identifizierte 542 True Positives. Das bedeutet, dass das Modell 542 Patienten korrekt als krebskrank eingestuft hat. Die Anzahl aller Patienten im Datensatz, die Krebs haben, beträgt jedoch 1192. Der perfekte Recall oder die Sensitivität wäre, wenn das Modell alle diese 1192 Patienten identifizieren könnte.

Der Recall wird berechnet, indem man die Anzahl der True Positives durch die Gesamtzahl der Patienten, die Krebs haben, teilt:

Recall
Gl. 3 Berechnung von Recall.

Die Gesamtzahl der Patienten, die an Krebs erkrankt sind, ist die Summe der True Positives und False Negatives. Daraus ergibt sich ein Recall von 45,4 %. Dieser Wert bedeutet, dass das Modell insgesamt 45,4% aller Krebsfälle im Datensatz identifizieren konnte.

Dies ist eine ziemlich niedrige Trefferquote. Das bedeutet, dass das Modell nur 45,4 % der Patienten im Datensatz identifizieren konnte, die Krebs haben. Damit bleibt mehr als die Hälfte aller Krebspatienten für das Modell „unsichtbar“. Das bedeutet, dass mehr als die Hälfte der Patienten, die eine medizinische Behandlung benötigen, diese möglicherweise nicht erhalten.

Wann sollten wir Recall verwenden?

Wir wollen den Recall für die Leistungsbewertung eines Modells verwenden, wenn wir so viele positive Ergebnisse wie möglich identifizieren wollen. Ein Beispiel: Wenn wir ein System entwickeln, das vorhersagen soll, ob eine Person Krebs hat oder nicht, wollen wir die Krankheit auch dann erfassen, wenn wir uns nicht ganz sicher sind (wie in unserem Beispiel).


7. F1-Score

Der F1-Score ist eine Bewertungsmetrik, die sowohl den Recall als auch die Precision eines Modells kombiniert. Genauer gesagt ist der F1-Score ein harmonisches Mittel aus beiden Metriken. Diese Metrik wurde eingeführt, um die Leistung eines Modells zu messen, ohne explizit Recall- und Precision anzugeben, sondern um sie in einer einzigen Metrik zu kombinieren:

Gl. 4 Berechnung von F1-Score.

In unserem Fall hat der F1-Score einen Wert von 0.558. Im Gegensatz zu den anderen Metriken gibt es für diesen Wert keine intuitive Erklärung. Es handelt sich lediglich um einen mathematischen Wert, der Precision und Recall berücksichtigt.

Wann sollten wir Recall verwenden?

Wir sollten Recall verwenden, wenn wir sowohl Recall als auch Precision so hoch wie möglich halten wollen.


8. Specificity

Die Spezifität ist eine Bewertungskennzahl, die als das Gegenteil von dem Recall betrachtet werden kann. Die Spezifität gibt das Verhältnis der korrekt identifizierten negativen Instanzen zu allen negativen Instanzen im Datensatz an. In unserem Fall wäre es das Verhältnis von korrekt klassifizierten Patienten ohne Krebs zu allen Patienten im Datensatz, die keinen Krebs haben:

Specificity
Gl. 5 Berechnung von Specificity.

Unser Modell konnte 98 700 negative Instanzen korrekt identifizieren, während 108 Patienten ohne Krebs fälschlicherweise als krebskrank klassifiziert wurden. Daraus ergibt sich ein Spezifitätswert von 99,8 %.


Auswertung der Ergebnisse

Nachdem wir das Modell auf der Grundlage verschiedener Metriken bewertet haben, können wir zu einer Schlussfolgerung kommen. Wie Sie vielleicht erkannt haben, ist die Accuracy eines Klassifikationsmodells nicht immer aussagekräftig

Obwohl wir eine sehr hohe Accuracy von 99,2 % erhalten haben, haben wir später gesehen, dass das Modell nicht so gut war, wie wir zunächst dachten. In diesem speziellen Fall hatten wir es mit einem sehr unausgewogenen Datensatz zu tun. Von 100.000 Patienten im Datensatz hatten wir lediglich 1192 Fälle von Krebs und 98808 Patienten, die gesund waren.

Leider sind unausgewogene Datensätze ein sehr häufiges Problem im Bereich von Data Science. Normalerweise sind die Dinge, die von größerer Interesse sind, deutlich seltener; z.B. Es gibt (glücklicherweise) sehr viel mehr gesunde Menschen als mit Krebs.

Ich hoffe, dass Sie inzwischen davon überzeugt sind, wie wichtig es ist, sich frühzeitig Ziele für das Projekt zu setzen. Wenn das Ziel darin bestünde, jede beliebige Klasse vorherzusagen, hätten wir tatsächlich ein sehr starkes Modell, das mit einer Accuracy von 99,2 % fast alle Patienten richtig klassifiziert. Aber dieses Ziel wäre nicht sehr klug. Eigentlich wollen wir die Krebspatienten (True Positives) identifizieren, damit eine medizinische Behandlung eingeleitet werden kann, um diesen Menschen zu helfen. 

Die hohe Accuracy resultiert aus der großen Anzahl negativer Instanzen (True Negatives), also Patienten ohne Krebs. Das Modell konnte aus dieser großen Menge an Datenproben leicht lernen und diese negativen Instanzen sehr effizient identifizieren.

In der Zwischenzeit war die wirklich interessante Klasse, nämlich Patienten mit Krebs (True Positives), ein sehr seltenes Ereignis im Datensatz, von dem man lernen konnte. 

Dies war zwar nur ein theoretisches Beispiel, aber solche Datensätze sind in der Praxis sehr häufig anzutreffen. Aus diesem Grund habe ich die Precision und den Recall eingeführt. Diese Bewertungsmetriken sind deutlich besser geeignet, um die Leistung von einem Modell zu bewerten, das auf einem unausgewogenen Datensatz trainiert wurde.



9. Precision vs. Recall

Angesichts unseres Ziels, die seltenen Ereignisse (True Positives) zu klassifizieren, sind Precision und Recall besser geeignet, um die Leistung des Modells zu bewerten. Aber auch hier gilt, dass wir zunächst das Ziel definieren müssen.

Wenn wir den Erfolg des Modells anhand seiner Fähigkeit, Krebspatienten zu identifizieren, messen wollen, dann wollen wir einen hohen Recall erreichen. Auf der anderen Seite kann ein hoher Recall zu einer niedrigen Precision führen. Eine niedrige Precision bedeutet, dass das Modell zwar viele True Positives identifiziert, aber auch sehr viele False Positives macht. 

Wenn wir ein Modell haben wollen, das bei der Vorhersage, ob ein Patient Krebs hat oder nicht, so wenig Fehler wie möglich machen soll, müssen wir eine hohe Precision anstreben. Aber auf der anderen Seite wird das Modell viele dieser Krebspatienten übersehen und damit nur sehr wenige True Positives identifizieren können.

Bei der Arbeit an Problemen im Bereich des maschinellen Lernens / Deep Learning ist i.d.R. ein Trade-Off zwischen Recall und Precision zu beobachten. Es ist sehr schwierig, beide Metriken gleichzeitig zu verbessern. Bei einer Erhöhung des Recall-Wertes wird i.d.R. die Precision sinken und umgekehrt. 

Die Entscheidung, welche Metrik für Sie wichtiger ist, hängt von dem Ziel ab, das Sie sich für das Projekt gesetzt haben.


10. Receiver Operating Characteristics (ROC) – Curve

Die ROC-Kurve gibt an, wie gut die Wahrscheinlichkeiten für die positiven Klassen von den negativen Klassen getrennt sind.

Eine andere Möglichkeit, die Leistung eines Klassifizierungsmodells zu visualisieren und zu messen, ist die so genannte Receiver Operating Characteristic curve. Um diese Kurve zu erhalten, müssen wir den Recall-Wert eines Modells gegen den Wert (1-Spezifität) auftragen. 

Und das tun wir für verschiedene Schwellenwerte der Klassifizierungswahrscheinlichkeit. Was will ich damit sagen? Im vorherigen Beispiel haben wir eine binäre Klassifizierung von Patienten in zwei verschiedene Klassen vorgenommen. Die eine Klasse war, dass der Patient Krebs hat, die andere, dass der Patient gesund ist. Bei solchen Klassifikationen wird in der Regel davon ausgegangen, dass, wenn ein Modell mit einer Wahrscheinlichkeit von > 0,5 vorhersagt, dass der Datenpunkt zu einer bestimmten Klasse gehört, dies tatsächlich zutrifft.

Das Gegenteil ist der Fall, wenn die Vorhersagewahrscheinlichkeit unter 0,5 liegen. Für das obige Beispiel würde es bedeuten, dass ein Patient, für den das Modell eine Wahrscheinlichkeit von mehr als 0,5 vorhersagt, dass dieser an Krebs erkrankt ist, es als wahr angesehen wird.

Für die (ROC) – Curve verwenden wir unterschiedliche Schwellenwerte zwischen 0 und 1. Für jeden Schwellenwert erhalten wir verschiedene Werte für True Positives, True Negatives usw., die zur Berechnung von dem Recall und von (1-Spezifität) verwendet werden können. Am Ende werden viele solcher (Recall) – (1-Spezifität)-Paare in einem einzigen Diagramm gegeneinander aufgetragen. Dabei könnte sich das folgende Bild ergeben:

ROC AUC
Abb. 5 Beispiel einer ROC-Kurve.

Dieses Diagramm zeigt die ROC-Kurve für drei verschiedene Modelle, die die gleiche Klassifizierungsaufgabe erfüllen. Um die Leistung anhand der ROC-Kurve von jedem dieser drei Modelle zu bestimmen, müssen wir die Fläche unter der Kurve des entsprechenden Modells messen. Diese Fläche wird auch als AUC bezeichnet.

Eine größere Fläche unter der Kurve bzw. höhere AUC bedeutet, dass das entsprechende Modell besser zwischen zwei verschiedenen Klassen (True Positives, True Negatives) unterscheiden kann. 

Eine Fläche von 1 bedeutet, dass das Modell perfekt ist und immer die richtige Klassifizierung vornimmt. Die schlechtest mögliche Fläche unter der Kurve beträgt AUC=0.5. In diesem Fall kann das Modell überhaupt nicht zwischen den Klassen unterscheiden.

Im Allgemeinen würde ich empfehlen, eine Fläche unter der Kurve zu erreichen, die einen Wert von mehr als 0,8 aufweist.


11. Multi-Klassen-Klassifikation

Die vorgestellten Bewertungsmetriken wurden für ein binäres Klassifizierungsproblem vorgestellt. Natürlich können alle diese Konzepte auf eine Mehrklassen-Klassifikation ausgedehnt werden, bei der man es mit 3, 5 oder sogar Dutzenden von Klassen zu tun haben kann. 

Zu diesem Zweck müssen Sie das Konzept der wahren Positiven und wahren Negativen für jedes einzelne Klassenlabel anwenden. Anschließend können Sie entweder die individuelle Leistung Ihres Modells für ein Klassenlabel untersuchen oder die Gesamtleistung berechnen, indem Sie den Durchschnitt der einzelnen Leistungen bilden.

Zusätzliche Informationen für ein effizienteres Training der künstlichen neuronalen Netze finden Sie in folgenden Artikeln auf dieser Website:

© KI-Tutorials

2 Comments

  1. Nico Manthey

    Tolle Zusammenfassung! Als kleine Ergänzung vielleicht: Typ 1 Error ist nicht immer, sondern nur in diesem Szenario der weniger schlimmer Error. Wenn das Szenario wäre: Ein Mensch steht an der Straße und schaut nach links und rechts, um zu sehen, ob ein Auto kommt, bevor er die Straße überquert. In diesem Falle wäre ein Typ 1 Error schlimmer (Mensch geht los und wird vom Auto überfahren, weil ein Auto kam, er das aber in seiner Prediction nicht erkannt hatte) als der Typ 2 Error (Mensch bleibt am Straßenrand stehen, weil er fälschlicher Weise dachte, dass ein Auto kommt).

  2. Lara

    Der F1 Score ist falsch berechnet. Dieser sollte F1 = TP/(TP+(FP+FN)/2) sein.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert