hintergrundbild

KI Use Case: Natural Language Processing

Natural Language bezieht sich auf die Art und Weise, wie wir Menschen miteinander kommunizieren.

Nämlich Sprache und Text.

Wir sind von Text umgeben.

Überlegen Sie, wie viel Text Sie in Ihrem Alltag sehen:

  • Verkehrsschilder
  • Menüs
  • Email
  • SMS
  • Webseiten
  • und so viel mehr…

Die Liste ist endlos.

Denken Sie jetzt an die Sprache.

Wir können als Spezies mehr miteinander sprechen, als wir schreiben. Es kann sogar einfacher sein, sprechen zu lernen als zu schreiben.

Sprache und Text sind die Art und Weise, wie wir miteinander kommunizieren.

Angesichts der Bedeutung dieser Art von Daten benötigen wir Methoden, um natürliche Sprache zu verstehen und zu argumentieren, genau wie wir es für andere Arten von Daten tun. Hier kommt Natural Language Processing ins Spiel.


Was ist Natural Language Processing?

Natural Language Processing (NLP) ist ein Teilgebiet der Linguistik, Informatik und künstlichen Intelligenz, das sich mit den Interaktionen zwischen Computern und menschlicher Sprache beschäftigt, insbesondere mit der Programmierung von Computern zur Verarbeitung und Analyse großer Mengen natürlicher Sprachdaten.

bücher

Das Ziel ist ein Computer, der in der Lage ist, den Inhalt von Dokumenten zu „verstehen“, einschließlich der kontextuellen Nuancen der darin enthaltenen Sprache. Die Technologie kann dann die in den Dokumenten enthaltenen Informationen und Erkenntnisse genau extrahieren sowie die Dokumente selbst kategorisieren und organisieren.

Zu den Herausforderungen bei der Verarbeitung natürlicher Sprache gehören häufig Spracherkennung, natürliches Sprachverständnis und natürliche Spracherzeugung.

Für mich persönlich, wenn ich ein Unternehmer wäre, der nach neuen Business Möglichkeiten im Deep Learning Bereich sucht, wäre Natural Language Processing das spannendste Gebiet überhaupt, weil es sich so rasant entwickelt.


Statistische Methode vs. Neuronale Netze

Bis in die 2010er wurde fast alle Aufgaben im Bereich von NLP durch sog. statistische Inferenz realisiert. Auf diese Verfahren wird in diesem Artikel nicht eingegangen. Ein wesentlicher Nachteil statistischer Methoden besteht darin, dass sie aufwendiges Feature Engineering erfordern. Seit 2015 hat das Feld daher statistische Methoden weitgehend aufgegeben und sich für das maschinelle Lernen auf neuronale Netze verlagert.

Zu den beliebten Techniken gehören die Verwendung von Worteinbettungen, um semantische Eigenschaften von Wörtern zu erfassen, und eine Steigerung des End-to-End-Lernens einer übergeordneten Aufgabe (z. Part-of-Speech-Tagging und Dependency-Parsing).

In einigen Bereichen hat dieser Wandel zu erheblichen Veränderungen im Design von NLP-Systemen geführt, so dass Ansätze auf der Grundlage von tiefen neuronalen Netzwerken als ein neues Paradigma angesehen werden können, das sich von der statistischen Verarbeitung natürlicher Sprache unterscheidet. Beispielsweise betont der Begriff neuronale maschinelle Übersetzung (NMT) die Tatsache, dass auf Deep Learning basierende Ansätze der maschinellen Übersetzung Sequenz-zu-Sequenz-Transformationen direkt lernen, wodurch Zwischenschritte wie Wortausrichtung und Sprachmodellierung, die in der Statistik verwendet wurden, überflüssig werden maschinelle Übersetzung (SMT). Neueste Arbeiten neigen dazu, nicht-technische Strukturen einer gegebenen Aufgabe zu verwenden, um ein geeignetes neuronales Netzwerk aufzubauen.


Willst Du einen Job in Data Science und AI?

Gerade als Quereinsteiger oder kompletter Berufseinsteiger ist es mittlerweile nahezu unmöglich, einen Job im Bereich AI/Data Science zu ergattern.

Mittlerweile gibt es durchschnittlich einhundert Bewerber auf jede Stelle und es kommt mir so vor, als hätte jeder, der sich bewirbt, bereits mehrere Online-Kurse zum Thema Data Science absolviert und ein halbes Dutzend Zertifikate vorzuweisen.

Ohne aus dieser großen Masse an Kandidaten herauszustechen, landet die Bewerbung schnell im virtuellen Mülleimer.

Als Teamleiter im Bereich KI/Data Science habe ich im Laufe der Jahre Bewerbungen von Hunderten von Kandidaten gesehen. Ich weiß, worauf es ankommt.

Ein Quereinsteiger oder Berufseinsteiger ohne nennenswerte Erfahrung hat nur eine Chance, den Job zu bekommen: mit einem umfangreichen Data-Science-Portfolio, das perfekt auf die ausgeschriebene Stelle zugeschnitten ist. Damit überzeugst du die HR und die Entscheidungsträger warum gerade Du der richte Kandidat für die Stelle bist.

Ich unterstütze dich persönlich dabei, ein maßgeschneidertes Data-Science-Projektportfolio zu entwickeln und umzusetzen, das genau auf deine Wunschstelle zugeschnitten ist.

Interesse? Dann, trage unten deinen Namen und Email ein und ich melde mich bei dir mit weiteren Informationen.


Anwendungsfälle für Natural Language Processing

Ein Anwendungsgebiet für dieses KI Use Case ist die Übersetzung. Beispielsweise hat Google 2016 eine neue Version von Google Translate veröffentlicht, die auf Deep Learning basiert. Die Anwender sahen sofort einen Durchbruch, und viele Beobachter sehen darin den Moment, in dem KI marktreif wurde.

anwendungsfälle für nlp

Google Translate basiert nicht auf Übersetzungen, bei denen Sie in einer riesigen Datenbank nach dem Wort in einer anderen Sprache suchen. Vielmehr werden die Übersetzungen durch ein künstliches neuronales Netz implementiert. Während des Trainings wurden dem Netzwerk Milliarden von Sätzen in zwei verschiedenen Sprachen gezeigt. Ein Satz, in einer Sprache als Merkmal und die dazugehörige Übersetzung als Label. NLP basiert auf einer neuronalen Netzwerkarchitektur namens Recurrent Neural Networks.

Im Laufe der Zeit hat das neuronale Netz die Sprache, die Übersetzungen sowie die Grammatik praktisch von alleine gelernt.

Sie können der Google Translate App jetzt sogar Sätze oder Absätze vorsprechen, und die App erkennt das Gesagte und wandelt es in einen Text um, der im nächsten Schritt übersetzt wird.

Dies funktioniert auch umgekehrt. Gesprochene Wörter können aus geschriebenen Texten mit Hilfe natürlicher Sprachverarbeitung erstellt werden.

Ebenso können Texte aus dem Nichts generiert werden. Zum Beispiel bei der Kommunikation mit dem Chatbot auf der Website Ihrer Versicherung. Mit neuronalen Netzen wurde sogar bereits Musik erzeugt, die nicht von echter Musik, die in einem Studio aufgenommen wurde, zu unterscheiden ist.

Schauen wir uns nun einige weitere häufige Anwendungsfälle für NLP an.


Spracherkennung

Bei der Spracherkennung wird anhand des Sounds einer sprechenden Personen oder mehrerer sprechenden Personen die Textdarstellung dieser Reden bestimmt. Dies ist das Gegenteil von Text-to-Speech und gehört zu den äußerst schwierigen Problemen, die umgangssprachlich als „KI-komplett“ bezeichnet werden. Bei natürlicher Sprache gibt es kaum Pausen zwischen aufeinanderfolgenden Wörtern, daher ist die Sprachsegmentierung eine notwendige Teilaufgabe der Spracherkennung.

What Is Natural Language Processing?

In den meisten gesprochenen Sprachen verschmelzen die Laute, die aufeinanderfolgende Buchstaben darstellen, in einem als Koartikulation bezeichneten Prozess ineinander, so dass die Umwandlung des analogen Signals in diskrete Zeichen ein sehr schwieriger Prozess sein kann. Da Wörter in derselben Sprache von Menschen mit unterschiedlichen Akzenten gesprochen werden, muss die Spracherkennungssoftware außerdem in der Lage sein, die große Vielfalt der Eingaben als identisch in Bezug auf ihre Textäquivalente zu erkennen.

Sprachsegmentierung

Hier wird die gesprochene Sprache einer Person oder Personen in einzelne Wörter aufgeteilt. Sprachsegmentierung ist eine Teilaufgabe der Spracherkennung.

Text-To-Speech

Bei dieser Anwendung generiert eine KI aus einem Text gesprochene Sprache.

Extraktion von Informationen aus Texten

Eine weitere Anwendung ist die Extraktion von Informationen aus Texten. Beispielsweise wenn sie einen Text haben und daraus die wichtigsten Wörter oder Informationen extrahieren möchten.

Zusammenfassung von Texten

Zusammenfassung von texten. Wenn Sie eine lange Email erhalten und es nicht von Anfang bis Ende durchlesen möchten, können Sie es auch zusammenfassen lassen. Gleichzeitig können Sie diese E-Mail kategorisieren. Ist diese E-Mail eine Spam-Email oder nicht?

Text Klassifizierung/Sentiment Analysis 

Genauso häufig werden Recurrent Neural Networks für Sentiment Analysis verwendet. Sentiment analysis bedeutet die Identifikation der Gefühle in einem Text. Ist das verfasste Review über ein Film oder Produkt positiv oder negativ? Beschwert sich der Kunde oder ist er vollkommen zufrieden. Damit lässt sich beispielsweise die allgemeine Stimmung in der Bevölkerung zu einem gewissen Thema oder Produkt erfassen. Sehr wichtig im Trading oder Marketing.


Potential für Natural Language Processing

Vor 2018 gab es in den meisten Unternehmen nur wenige praktische Anwendungen für NLP, aber die Tools und die Forschung schreiten rasch voran. Jetzt ist ein guter Zeitpunkt, um die vielfältigen Auswirkungen von NLP auf ein Unternehmen genauer zu untersuchen – denn das Potenzial ist enorm. Wie viele Fachleute verbringen den größten Teil ihres Tages mit der Interaktion mit Daten in natürlicher Sprache?

Die meisten Unternehmen verwenden erhebliche Ressourcen zum Lesen und Klassifizieren von Dokumenten. Zum Beispiel:

  • Bearbeitung von Formularen und Anträgen
  • Analyse und Klassifizierung von Texten/Dokumenten
  • Priorisierung eingehender Verkaufs und Support-Anfrage
  • Beantwortung von Routine-Support-Anfragen
  • Lesen und Beantworten von Routine-Mails
  • Lesen von Anträgen

Viele dieser Aufgaben werden in der Zukunft durch KI-basiertes NLP ersetzt, und wahrscheinlich finden Sie in Ihrem Unternehmen viele ähnliche Anwendungen für die Technologie. NLP erhöht auch die menschliche Produktivität, wenn wir Routinetätigkeiten an KI übertragen. Stellen Sie sich vor, wie viel Zeit Sie sparen können, wenn ein Computer Ihre E-Mails lesen, kategorisieren und zusammenfassen oder an einer Besprechung teilnehmen und Ihnen eine Zusammenfassung mit den 10 wichtigsten Sätzen senden kann. Die Möglichkeiten für NLP sind endlos.

Praktische, kostengünstige NLP-Techniken zur Klassifizierung von Dokumenten entwickeln sich rasant weiter und Sie können davon ausgehen, dass im Jahr 2019 und darüber hinaus viele das unternehmerische Wettbewerbsumfeld erreichen. Beginnen Sie Ihre KI-Strategie, indem Sie nach Orten suchen, an denen derzeit Dokumente gelesen und klassifiziert werden. Aus diesen Gründen möchte ich Ihnen raten nach NLP-Anwendungen in den bereits vorhandenen Geschäftsprozesses zu suchen.

In diesen Geschäftsprozesses müssen Ausgabedaten produziert werden.

Wenn Sie beispielsweise Formulare automatisch verarbeiten, identifizieren Sie zunächst die Ausgabedaten, die die Personen produziert, die diese Formulare aktuell lesen und verarbeiten. 


Welche Daten braucht man für Natural Language Processing?

Das Generieren von Trainingsdaten kann in NLP aus verschiedenen Gründen eine größere Herausforderung darstellen als in der Bildverarbeitung. Das hat folgende Gründe:

  • Das Lesen, Übersetzen, Kategorisieren und Zusammenfassen eines Dokuments ist häufig mühsam und subjektiv. Wenn Sie auf ein Bild schauen, können Sie sofort sehen, was auf dem Bild zu sehen ist. Aber wenn sie ein komplexeres Dokument oder Textpassage durchlesen erfordert es mehr Aufwand um zu verstehen, oder in eine Kategorie zu klassifizieren.
  • Dokumente enthalten von Natur aus weniger Eingaben als Bilder. Eine Seite mit englischem Text enthält ungefähr 1500 Zeichen, während ein 500×500-Pixel-Bild 750.000 Pixel enthält
  • Texte haben unterschiedliche Qualität. In meisten Fällen werden auch die Texte, die sie als Trainingsdaten zur Verfügung haben unterschiedliche Qualität haben. Ein Schreiben, das von einem Anwalt verfasst ist, wird sauberer,  und präziser formuliert worden sein, als ein Post auf twitter oder ein Review auf Amazon.

In einem Paper über Textklassifizierung mit Deep Learning, das ich gelesen habe war z.B. von einem neuronalen Netz die Rede, das an 560 000 Wikipedia Artikeln trainiert wurde, um neue Wikipedia Artikel in 14 unterschiedliche Kategorien zu klassifizieren, wie Technologie, Politik, Wissenschaft usw. Das neuronale Netz erreicht dabei eine Genauigkeit von 98%.

Auf der anderen Seite wurde ein neuronales Netz an 3 Millionen Amazon Reviews trainiert, um zukünftig neue Reviews in 5 Unterschiedliche Kategorien zu klassifizieren. Jede Kategorie entsprach dabei der Sternenanzahl, die dem entsprechendem Produkt gegeben worden ist. Das neuronale Netz erzielte hierbei eine Genauigkeit von nur 60%. 

Wie geht man jetzt damit um, wenn man als Trainingsdaten eher unsaubere Texte wie Twitter-Posts oder Reviews hat?

In diesem Fall würde ich raten die Problemstellung zu vereinfachen. Anstatt die Reviews, Posts oder andere verfasste Textpassagen in 5 oder gar noch mehr Kategorien einzuordnen, ist es empfehlenswert die Anzahl der Kategorien zu verringern. Anstatt die Reviews in eine 5-Sternekategorien einzuordnen, könnte man Sie schlicht in positive oder negative Klassen einteilen.

Willst Du einen Job in Data Science und AI?

Gerade als Quereinsteiger oder kompletter Berufseinsteiger ist es mittlerweile nahezu unmöglich, einen Job im Bereich AI/Data Science zu ergattern.

Mittlerweile gibt es durchschnittlich einhundert Bewerber auf jede Stelle und es kommt mir so vor, als hätte jeder, der sich bewirbt, bereits mehrere Online-Kurse zum Thema Data Science absolviert und ein halbes Dutzend Zertifikate vorzuweisen.

Ohne aus dieser großen Masse an Kandidaten herauszustechen, landet die Bewerbung schnell im virtuellen Mülleimer.

Als Teamleiter im Bereich KI/Data Science habe ich im Laufe der Jahre Bewerbungen von Hunderten von Kandidaten gesehen. Ich weiß, worauf es ankommt.

Ein Quereinsteiger oder Berufseinsteiger ohne nennenswerte Erfahrung hat nur eine Chance, den Job zu bekommen: mit einem umfangreichen Data-Science-Portfolio, das perfekt auf die ausgeschriebene Stelle zugeschnitten ist. Damit überzeugst du die HR und die Entscheidungsträger warum gerade Du der richte Kandidat für die Stelle bist.

Ich unterstütze dich persönlich dabei, ein maßgeschneidertes Data-Science-Projektportfolio zu entwickeln und umzusetzen, das genau auf deine Wunschstelle zugeschnitten ist.

Interesse? Dann, trage unten deinen Namen und Email ein und ich melde mich bei dir mit weiteren Informationen.


Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert