hintergrunbild

KI Use Case: Vorhersage des nächsten Elements

Die Vorhersage des nächsten Elements ist das praktischste und am besten umsetzbare KI Use Case überhaupt.

Bei diesem Use Case handelt es sich um die Vorhersage der nächsten Ergebnisse/Ereignisse anhand der vorherigen Ergebnisse/Ereignisse in einem strukturierten Datensatz.

Dieses Use Case passt nicht in den Bereich traditioneller Herausforderungen der Informatik wie Computer Vision oder Natural Language Processing. Sie werden wahrscheinlich auf Konferenzen nichts davon hören. Nur wenige KI-Forscher werden die Bedeutung dieses Use Cases erkennen und die Bandbreite der Probleme, die damit gelöst werden können.

Nichtsdestotrotz ist es wahrscheinlich das praktischste und umsetzbarste Anwendungsfall für die künstliche Intelligenz, weil in diesem Fall selbst bescheidene Ergebnisse einen klaren ROI generieren können. Mit diesem Use Case wird das häufig auftretende Geschäftsproblem der Vorhersage von „nächsten“ Ergebnissen oder Ereignissen auf der Grundlage vorheriger Ergebnisse oder Ereignisse in einem strukturierten Datensatz angegangen.  

Mehr Informationen über weitere KI Use Cases finden Sie in meinen Artikeln KI Use Case: Computer Vision sowie „KI Use Case: Natural Language Processing. Im ersteren behandeln wir das Thema, wie Bilder- und Video-Daten für das Training einer KI verwendet werden können. Im zweiten Artikel geht es um Definition von einem KI-Business Case, wenn die zugrundeliegenden Daten in Audio- und Video-Format vorliegen.


Anwendungsfälle für die „Vorhersage des nächsten Elements“

Bei der Vorhersage des nächsten Elements werden strukturierte Daten verwendet, um damit ein neuronales Netz zu trainieren.

Die daraus abzuleitenden Aufgaben für die neuronalen Netze sind zahlreich und hängen vom vorhandenen Datensatz ab, mit dem die Netze trainiert werden. Hier sind einige wenige Beispiele aufgelistet:

  • Credit-Scoring
    • Kreditwürdigkeit eines Kreditnehmers
  • Erwartete Verkäufe/Nachfrage nach einem Produkt
    • Unter Verwendung von vergangenen Verkaufs-Historien
  • Klassifikation der Log-Einträge von Maschinen oder Sensoren
    • Normale Events oder Fehlfunktionen?
  • Detektion von betrügerischen Finanztransaktionen 
    • z.B. Kreditkartenüberweisungen
  • Vorhersage der Wahrscheinlichkeit von einem Ereignis
    • Wird ein Benutzer innerhalb des nächsten Jahres den Vertrag oder das Abo kündigen?

Da wäre der Anwendungsfall, bei dem ein neuronales Netz ein Credit-Score an Personen vergibt, die einen Kredit bei einer Bank oder Sparkasse beantragen.

Darüber hinaus könnten die neuronalen Netze auf der Grundlage vergangener Verkaufs-Historien zu einem bestimmten Zeitpunkt unter bestimmten Marktbedingungen den zu erwartenden Absatz oder die Nachfrage nach einem Produkt vorhersagen.

Ein weiteres Beispiel ist die Klassifikation von Log-Einträgen eines Systems oder einer Maschine in unterschiedliche Kategorien. Die Log-Einträge könnten hier in normale Events oder Fehlfunktionen des Systems eingeteilt werden. Ist diese Maschine kaputtgegangen, wurde das System gehackt oder sind das ganz normale Ereignisse, die die Maschine oder System aufgezeichnet und im Log gespeichert haben?

Die Erkennung betrügerischer Finanztransaktionen ist eine weitere Anwendung, die mit Deep-Learning-Modellen implementiert werden kann, die auf Tabellendaten trainiert werden. Die Daten wären hier beispielsweise der Zeitpunkt der Transaktion, der Betrag, der Ort, der Empfänger und weitere Daten, die typischerweise bei einer Transaktion erfasst werden.


Anforderung: Strukturierte Daten

Damit die neuronalen Netze die genannten Aufgaben ausführen können, sind sog. strukturierte Daten erforderlich. Diese Daten werden verwendet um die neuronalen Netze zu trainierten, damit diese die Aufgaben ausführen können.

Und wahrscheinlich werde Sie überrascht sein, auf wie viele dieser Daten Sie bereits zugreifen können. Mit großer Wahrscheinlichkeit sind Sie bereits im Besitz von vielen strukturierten Daten

white printing paper with numbers

Der Begriff strukturierte Daten kann viele verschiedene Bedeutungen haben. In diesem Zusammenhang beziehen sich strukturierte Daten auf die Art von Daten, die in einer Datenbanktabelle oder einem analysierbaren Format gefunden werden können. Dazu gehören bspw. :

  • Datenbanken
  • .csv/.dat-Dateien
  • Excel Dokumente

Diese Daten können entweder kontinuierlich oder kategorisch sein.

  • Kontinuierliche Daten haben (theoretisch) unendlich viele mögliche Werte. Beispiele sind Preise oder Temperatur
  • Kategoriale (oder diskrete) Daten haben einen endlichen Wertesatz. Zum Beispiel: Land, Alter, Beruf, und Blutgruppe sind kategoriale Werte. 

Die Art von Daten, die in diesen Formaten gespeichert werden, können beispielsweise Daten von Kunden sein. Kunden einer Bank oder Sparkasse, Versicherungsgesellschaft, Telekommunikationanbieter Stromanbieter.

Allgemein kann man sagen, dass wenn die Daten so aussehen, als ob sie in einer Datenbank gespeichert werden können, sind diese Daten ein guter Kandidat für dieses Use Case. 

Umgekehrt sind Daten wie Textdokumente und nutzergenerierte Zeichenfolgen (z. B. Tweets, Web Kommentare) ein besserer Kandidat für NLP. Bilder werden normalerweise nicht in Datenbanken gefunden und eignen sich besser für Computer-Vision-Methoden.



Welche Eingangsdaten/Trainingsdaten werden benötigt?

Das Finden von genügend Trainingsdaten für Algorithmen in diesem Produkt Modell ist im Allgemeinen weniger problematisch als z.B. in Computer Vision oder NLP. Sie brauchen keine Mitarbeiter, die neue Daten von Hand beschriften oder generieren, da die Ergebnisse aus den Daten direkt abgeleitet werden können.

Für dieses Use Case sind die Trainingsdaten in der Regel einfacher zu finden. 

Ihre Herausforderung besteht darin, die richtigen Daten auszuwählen und zu organisieren, um ein effizientes Training ihres Modells zu ermöglichen.

Allgemein sind Kundendaten mit ziemlich hoher Wahrscheinlichkeit Ihre wertvollsten Daten, mit denen Sie Deep Learning Modelle für dieses Use Case trainieren können.

Bester Ansatz sind die bereits vorhanden Kundendaten, wie z.B. die Kaufhistorien.

Beispielsweise könnten es die Kaufhistorien der Kunden sein. Daten über Käufe von Kunden, mit ihren Adressen, ausgegebenen Beträgen, gekauften Produkten, Zahlungsmethoden, Retouren und anderen Informationen bilden einen reichen Fundus.

Sie können diese Informationen verwenden, um eine neuronales Netz zu trainieren, um viele Fragen zu beantworten. Diese könnten bspw. sein:

  • Wer sind Ihre besten Kunden? 
  • Was mögen Sie am liebsten?
  • Wie reagieren die Kunden auf bestimmte Marketingaktionen?
  • Wann kündigt ein bestimmter Kunde ein Abonnement oder Produkt?

Integration in die Geschäftsprozesse

Mithilfe einiger Techniken können Sie ermitteln, wie Sie dieses Use Case in ihren Geschäftsprozessen anwenden können. Stellen sich die Frage, was sie genau erreichen möchten. Möchten Sie die Anzahl ihrer Kunden reduzieren, die ihre Produkte kündigen?

Möchten Sie vorhersagen, wie sich ein Produkt verkaufen? Soll bestimmt werden, welche Marketingaktion einen Kunden mehr anspricht?

Für jeder dieser Fragen müssen Sie Daten finden, die eine gewisse Vorhersagekraft aufweisen. Meistens ist hier die Intuition und Domain-Expertise gefragt. 

person holding pencil near laptop computer

Nehmen Sie als Beispiel die folgende Frage, die mit einem neuronalen Netz beantworten werden soll: Wie hoch ist die Wahrscheinlichkeit, dass der Kunde nach einem Jahr das Produkt oder Service kündigt?

Die Menge aller Produkte, die ein Kunde in ihrem Unternehmen in Anspruch nimmt, entscheidet höchstwahrscheinlich mehr darüber, ob er oder sie für eine längere Zeit ein Kunde bleibt oder nicht, als seine Adresse. Obwohl hier könnte wiederum die Stadt von Interesse sein. Sogar die Postleitzahl in größeren Städten, aber die nicht die Straße.

Wie hoch ist die Wahrscheinlichkeit, dass der Kunde nach einem Jahr noch Kunde bleibt? Viel Vorhersagekraft: Anzahl der Produkte/Dienste, die der Kunde bereits in Anspruch nimmt. Wenig Vorhersagekraft: Die Adresse (Aber vielleicht nicht die Stadt oder Postleitzahl)

Wenn Sie nach Gelegenheiten für diese Art von Anwendungen Ausschau halten, empfehle ich Ihnen damit anzufangen, Ihre bestehenden Daten im Unternehmen anzuschauen. Sind bereits strukturierte Daten vorhanden? Diese könnten sein:

  • Kundendaten
  • Log-Einträge von Maschinen und Sensoren
  • Protokoll-Daten
  • Verkaufs-Ereignisse/Historien 
  • Online-Nutzerverhalten

Da die meisten Geschäftsanwendungen bereits Unmengen von Daten in Datenbanken enthalten, bieten sich Ihnen viele Möglichkeiten für Ansätze innerhalb dieses Use Cases. Sensoren, Protokolldateien, Verkaufsergebnisse und Online-Nutzerverhalten Ereignisse sind gute Kandidaten für das Implementieren von Modellen, die Vorhersagen machen.

Möglicherweise verfügen die Teams der Abteilungen in ihrem Unternehmen über Datenverzeichnisse. Ein Datenverzeichnis ist ein Katalog von Metadaten, der die Definitionen und Darstellungsregeln für alle Daten eines Unternehmens und die Beziehungen zwischen den verschiedenen Datenobjekten enthält:

Beispiel für Metadaten.
Beispiel für Metadaten.

Metadaten sollten von einem Menschen gelesen werden, der wissen möchte, was sich in der Datenbank befindet und was die einzelnen Felder in dieser Datenbank bedeuten. Sie können Möglichkeiten identifizieren, indem Sie einfach die Metadaten-Verzeichnisse lesen oder sich von jemandem in die einzelnen Felder einweisen lassen. 

Haben sie ein Team, das Daten ansprechend visualisiert? Beginnen Sie mit den Daten, die dafür verwendet werden.


Betrachten Sie bitte das folgende Metadaten-Verzeichnis für Verkäufe bei Corporación Favorita, dem größten Lebensmittelgeschäft in Ecuador.

Das Datenverzeichnis von Corporación Favorita enthält alle erforderlichen Daten für das Training eines neuronalen Netzes. 

 Metadaten-Verzeichniss für Verkäufe bei Corporación Favorita
Metadaten-Verzeichniss für Verkäufe bei Corporación Favorita

Können Sie in dieser Tabelle Ein- und Ausgangsdaten erkennen, die für die „Vorhersage des nächsten Elements“ benutzt werden können?

Überlegen Sie sich zunächst, was Sie vorhersagen möchte. In anderen Worte: Was die Ausgangsdaten des neuronalen Netzes sein müssen.

In diesem Beispiel wäre die Planung des Inventars ein guter Ansatz. Dabei könnte ein neuronales Netz die erwartete Anzahl der verkauften Produkte vorhersagen: die unit_sales. Damit wären die Ausgabedaten des Netzes eine Zahl, die die unit_sales darstellt.

Was sind nun die Eingabedaten? In anderen Worte: Welche Daten spielen für die Vorhersage von unit_sales eine Rolle? Die Eingabedaten könnten sein: Das Datum, die ID des Geschäfts, in dem der Verkauf stattgefunden hat, die ID des verkauften Produkts, und ob zum Zeitpunkt des Verkaufs das Produkt beworben wurde.

Diese Daten sind somit die Eingangsdaten für das KI-Modell, auf deren Basis das Modell die unit_sales prognostizieren könnte.

Wie wäre es mit dem Feld id? Es ist weder als Eingabe noch als Ausgabe nützlich.


Bei der Vorhersage des nächsten Elements haben Sie für einen vorhandenen Datensatz oft mehrere potenzielle Kandidaten für die Vorhersage. Es ist Ihre Aufgabe den besten Kandidaten zu identifizieren.

Sie können beispielsweise das Verkaufsvolumen für einen bestimmten Artikel in einem Geschäft vorhersagen.

Oder Sie können den Umsatz für das gesamte Geschäft oder den Umsatz für eine Region oder einen Zeitraum bis zum nächsten Verkauf prognostizieren.

Die Ermittlung der richtigen Ausgabe erfordert eine detaillierte Untersuchung der Daten und Kenntnisse der Geschäftsprozesse. Idealerweise wählt ein funktionsübergreifendes Team aus Analysten, Datenwissenschaftlern, Programmierern und Betriebsleitern gemeinsam die besten Ergebnisse aus.

Dabei ist es in der Praxis empfehlenswert, ein Dutzend Modelle zu erstellen, die jede potenziell nützliche Ausgabe vorhersagen, und dann zu testen, welche Ausgabe den meisten Mehrwert generiert.

©KI Tutorials

One Comment

  1. Shannon Detering

    This site was… how do you say it? Relevant!! Finally I’ve found something that helped me. Cheers!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert