Willkommen bei PreDaTor

Preditcive Data Tool


Maschinelles Lernen
Erstellung von Vorhersagemodellen
Prozessimulation
Datenvisualisierung

BLOGS Direkt zur App (Basic - Kostenlos) Erfahre mehr über PreDaTor Get Started

Über PreDaTor

Was kann PreDaTor?

PreDaTor erlaubt eine effektive Visualisierung und Analyse Ihrer Excel-, TXT-, JSON- oder CSV-basierten Daten. Erzeugen Sie aus Ihren Datenschätzen wirksame Steueralghorythmen über das Maschinelle Lernen! Für eine effiziente Verarbeitung, Berechnung und Visualisierung der ML Modelle, werden die hochgeladenen Daten für die Analyse automatisch aufbereitet.
Eine erste Sicht auf die Qualtät der Daten erlauben die Korrelationsmatrix und die SPLOM-Technik (Scatter Plot Matrix). Die trainierten Modelle testen Sie im Predator Sandbox Modul.

Erfahre mehr über Visualisierung Get Started
Das ML-Modul stellt zur die Berechnung folgende Methoden zur Verfügung:
  • Simple Linear Regression
  • Multiple Linear Regression
  • Support Vector Regression (SVR)
  • Ridge Regression
  • Lasso Regression
  • Ordinary Last Square Regression
  • Gradient Booster Regression
  • SGD Regression
  • MLP Regression
  • Decission Tree (DT) Regression
  • Gradient Booster Klassifizierung
  • SGD Klassifizierung
  • MLP Klassifizierung
  • Decission Tree (DT) Klassifizierung
  • KNN
  • K-Means
  • Random Forrest Klassifizierung

Fett gedruckt = steht in Basic-Version zur Verfügung



Erfahre mehr über Machine Learning
Get Started Zu den Leistungen

Leistungen

W H I T E S H E E T - Eine Übersicht

FeatureBasicAdvancedPro
Zugriff auf 5 ML-Tools
Zugriff auf 17 ML-Tools
Zugriff auf die Std-Visualisierungs-Tools
Zugriff auf die erweiterte Visualisierungs-Tools
Descission Tree Visualisierung
Statistikmodul (MW,Median, S, MAD)
Erweitertes Statistikmodul (Ausreißer-Test, Regressionen)
Export von ML-Modellen in JSON Format
Speichern von ML-Modellen in Datenbank
Sandbox-Prozesssimulation
Sandbox-Prozesssimulation mit gespeicherten Modellen
Datenexport nach Excel
Datenimport aus Excel/CSV
Multi-Sheet in Excel
Teilnahme an der PreDaTor-Community
Werbefrei
Jahresgebühr0,-€20,-€50,-€


Versionen

Es stehen folgende Ausbaustufen zur Verfügung

B A S I C

Kostenfrei

PreDaTor Account
Import von Excel, CSV, TXT oder JSON-Daten
ML-Tools
Statistik-Modul
Zugang zum PreDaTor-Forum


A D V A N C E D

20€ / Jahr

Zusätzlich zur BASIC-Variante :
Multi Excel-Sheets
Exportieren von ML-Modellen in JSON Format
Sandbox-Prozessimulation mit ML-Modellen
Datenvisualisierung
Erweitertes Statistik-Modul
Werbefrei


P R O

50€ / Jahr

Zusätzlich zur BASIC-Variante :
Speichern von ML-Modellen in der PreDaTor-Datenbank
15 ML Tools
Visualisierung von Decission Trees
Werbefrei



PreDaTor : Get Started - Erste Schritte

Kurzanleitungen für den Schnellstart


  • Starten wir mit der Bedienoberfläche der PreDaTor-App. Es gibt hier die klassische Aufteilung Left-Side-Menu und Top-Menu mit den Navigationselementen und Right-Side-Menu mit den Einstellungen (mit Klick auf die 4-fach Kachel oben rechts).



    Vorab : der Login ist nicht zwingend zum Testen des Systems. Mit vorhandenem Account lassen sich jedoch interessante Features freischalten. Zum Beispiel die zusätzliche Funktion, aus verschiendenen Tabs einer Excel Datei auszuwählen, zusätzliche ML-Methode und die Möglichkeit die berechneten Modelle zu speichern und zum späteren Zeitpunkt wieder zu verwenden.
    Hier geht's zur Anmeldung
    Wenn Sie bereits einen Account haben, klicken Sie "Login" an, worauf das Fenster zur Anmeldung aufgeht. Nach Angabe das User-Namens und des Passwortes, werden die gebuchten zusätzlichen Features angezeigt.



    Zentraler Beginn aller Aktionen, ist die die Auswahl des zu analysierenden Datensatzes. Stehen keine eigene Daten im CSV, TXT, Excel oder JSON Fomat zur Verfügung, kann für die ersten Tests aus der Liste freier Datensätze die entsprechende Datei heruntergeladen werden. Klicken Sie hierzu auf "Externe Daten".



    Laden Sie mit einem Klick auf das "Download"-Feld die Datei herunter. Typischer Weise befindet sich diese Datei nun in Ihrem "Download"-Ordner. Schließen Sie das Fenster ("OK" oder "x"). Über den "Browse"-Button, der sich auf der oberen Menue-Leiste in der Mitte befindet, wählen Sie die heruntergeladene Datei aus dem Download Ordner aus. So können Sie auch eigene Dateien als Datenbasis für Ihre Auswertungen laden.
    Hat alles funktioniert, sollten Sie folgendes sehen:



    Auf der rechten Seite sehen Sie nun die zur Verfügung stehenden Namen der Tabellenfelder sowohl als Eingangsparameter (Mehrfachauswahl), als auch im Feld der Zielgrößen der ML-Modelle. Darunter befinden sich die Tool-Boxen für die Datenvisualisierung und die Erstellung der ML-Modelle. Rechts oben befinden sich einige Tabs. Nach dem Laden der Daten wird automatisch der Tab für die Darstellung der Tabelle mit den Basisdaten und der Datenvisualisierung geöffent.
    In der PRO-Version finden Sie an erster Stelle den Tab "Sheets". Falls Sie eine Microsoft Excel Tabelle geladen haben, welche mehrere Seiten enthält, können Sie hier die gewünschte Seite auswahlen. In der Basic Variante wird im Fall einer Multi-Sheet-Datei die Erste ausgewählt.

    Weiter geht's mit der Datenanalyse.

  • Für die Steuerung der Datenvisualisierung dient die "Chart Toolbox". Diese befindet sich im linken, mittleren Segment des Hauptbildschirms.



    Die einfachste Art die geladenen Daten darzustellen, ist ein Doppelklick auf die entsprechende Spalte in der Tabelle. In der Chart-Sektion wird das Diagramm dargestellt. Voreingestellt ist der Scatterplot. Bei nicht vorhandener Datumsspalte wird automatisch der "X-Num"-Modus aktiviert. Hier wird die fortlaufende Nummer des Datensatzes auf der x-Achse und der entsprechende Wert auf der y-Achse als Punktwolke angezeigt. Ist ein Datumsfeld vorhanden wird das entsprechende Datum auf der x-Achse aufgetragen.
    Ebenfalls als Voreinstellung, wird das Verteilungsdiagramm (rechts), die 3s-Streuung und Ausreißer als rote Markierung auf MAD Basis angezeigt.
    Rechts neben dem Chart sind die statistischen Kennwerte der Datenmenge tabellarisch aufgelistet. (Mittelwert, Std-Abweichung, Median, Varianz, etc).
    Nach dem Doppelklick auf die Tabellenspalte, sollte sich dann folgendes Bild ergeben:



    Sie können die Spalten einzeln durchklicken und die Verteilung der Datensätze analysieren. Soll das Verhältnis zweier Parameter dargestellt werden, wählen Sie aus den Eingangsparametern zwei Felder aus den Eingangsparametern aus und klicken in der "Chart Toolbox" auf "Scatter".



    Einen guten Überblick über das Verhältnis der Parameter untereinander, bieten die Features "Korrelationsmatrix" und "Splom". Beide Funktionen sind in der "ML-Toolbox" zu finden und stehen in jeder Version zur Verfügung.



    Wählen Sie aus den Eingangsparametern die Felder, die Sie untereinander vergleichen wollen. Mindestens zwei Felder müssen hierfür ausgewählt sein. Nach einem Klick auf "Corr-Matrix" in der ML-Toolbox, erzeugt PreDaTor aus den Daten folgende Matrix-Darstellung.



    Die Parameter werden auf der jeweils x- und y-Achse tabellarisch dargestellt. In dem jeweiligen Kreuzungsfeld, d.h. Parameter n auf der x-Achse kreuzt Parameter n auf der y-Achse, wird die Verteilung der Daten als Histogramm dargestellt. In den n/m-Kreuzungsfeldern wird das aus den Datensätzen resultirende Bestimmtheitsmaß r² dargestellt. Für das Bestimmtheitsmaß gilt : 0 = keine Korrelation der Daten ; 1 = 100%ige Korrelation der Daten. Das Matrixfeld färbt sich bei höheren r² in entsprechend abgestuften Grüntönen (Dunkelgrün = 1).
    Ein Doppelklick auf eins dieser Felder stellt die statistische Abhängigkeit im Stats-Modul graphisch dar.



    Neben der Punktwolke, den Verteilungen oben und rechts und den statistischen Kennwerten x/, +/-1,2,3 s, wird ebenfalls die resultierende Korrelationsgrade inkl. der Konfidenzintervalle dargestellt. In der Toolbox oben rechts, findet sich ein Auswahlfeld, aus welchem man die gewünschte Regressionsfunktion auswählt. Es stehen neben der linearen auch die logarhythmische, exponentielle, potenz- sowie die polinomialen Funktionen 2-5 Grades zur Verfügung.
    Sowohl in der ML-Toolbox als auch im Stats-Modul stehen Funktionen zur schnellen Datenfilterung zur Verfügung. Die jeweiligen Schaltfelder "Ex-Null", entfernen Datensätze in denen Nullen vorhanden sind. "Ex-Out"-Schaltflächen eliminieren Ausreißer aus der Grundgesamtheit. (Ausreißersuche gemäß Median/MAD oder x/s in "Einstellungen" auswählbar.) Bleibt noch die Darstellung des Splom; der Scatter Plot Matrix! Die Funktion "Corr-Splom" ist in der ML-Toolbox zu finden und stellt, ähnlich wie die Korrelationsmatrix, das Verhältnis zweier Parameter dar. Allerdings wird das Verhältnis nicht numerisch, sondern graphisch dargestellt. Die Vorgehensweise funktioniert genau wie bei "Corr-Matrix". Auwahl der darzustellenden Parameter, und ein Klick auf die Schaltfläche.



    Wie auch bei der Korrelationsmatrix, gelangen Sie mittels Doppelklick auf das entsprechende Feld in das Stats-Modul zur weiteren Analyse.

    Jetzt zu der Erstellung von Modellen..

  • Die einfachste Version eines Datenmodells ist die einfache linare Regression. Diese haben wir schon im Stats-Modul kennengelernt. Soll über mehrere Eingangsparameter ein Ziel korreliert werden, ist in diesem Kontext die multiple lineare Regressionsanalyse eine erste Wahl. Um ein erstes Modell zu erstellen, laden Sie hierzu den entsprechenden Datensatz über den Browse-Button.
    Es stehen zwei Ansätze für die multiple linerare Regressionsnanalyse zu Verfügung. OLS, Ordinary Least Square und PLS , Partial Least Square. Der mathematisch Hintergrund ist hier zu finden (OLS | PLS). Klicken Sie die Eingangsparameter an, mit denen Sie das Vorhersagemodell erstellen wollen. Klicken Sie in der ML-Toolbox entweder auf PLS oder OLS. Die Funktion Nullen und Ausreißer zu entfernen, ist voreingestellt. (Änderbar im Side-Menu "Einstellungen"). Falls Sie dies nicht wollen, müssen Sie die Funktion explizit deaktivieren. Zum Start der Berechnungssequenz klicken Sie auf den Button des Zielparameters in der Box "Zielwert". Nach der Berechnung ergibt sich folgendes Bild:



    Was ist nun alles vor, während und nach der Berechnung passiert?

    1) Bevor die Berechnungen losgehen, werden die Daten vorbereitet.
    Gemäß Einstellungen werden Nullen und Ausreißerdatensätze gelöscht. Ein weiterer Schritt ist die Aufteilung der Datensätze in Trainings- und Validierungsdatensätze. In den Voreingestellungen ist festgelegt, das 75% der Datensätze für das Trainieren des Modells verwendet werden sollen. Dieser Wert ist in den Einstellungen unter dem Reiter "Learner Optionen" frei wählbar. Der Anteil der Trainingsdaten sollte jedoch den Wert 50% nicht unterschreiten. Der Rest der Datensätze wird für die spätere Validierung des Modells herangezogen. Validierung bedeutet hier, dass die Vorhersagekraft des Modells anhand von unbekannten Daten bewertet wird. Die gesplitteten Datensätze werden im Reiter "Auswahl Trainingsdaten" angezeigt.



    Hier können auch noch manuell ungewünschte Datensätze aus der aktuellen Tabelle entfernt werden. Die Daten in der ursprünglichen Datei bleiben dabei erhalten. Die Datei wird als solche nicht verändert! Wurden die Daten nach Wunsch bereinigt, wird durch einen weiteren Klick auf den Zielparameter die Modellberechnung aktualisiert.

    2) Die Ergebnisse im Reiter "Ergebnisse" werden sowohl tabellarisch als auch graphisch dargestellt. Zusäzlich werden die Statistik und die Metrik der Ergebnisse ebenfalls tabellarisch angezeigt. Die Ergebnistabelle zeigt neben den realen (Trainings-)Eingangsdaten und den realen Werten des Zielparameters auch die Vorhersage "Prediction" und die resultierende Abweichung zum Realwert an.



    Die Gegenüberstellung des realen zum berechneten Wert des vorherzusagenden Zielparameters ist im Korrelationschart zu sehen. Die grüne Linie hat die theoretische Korrelation von 1, d.h. alle Werte liegen auf der grünen Linie. Die orangenen Punkte sind die resultierenden Ergebnisse der Validierungsdatensätze zu den Abweichungen. Die Koordinaten der Punkte sind : x = Ziel real | y = Ziel berechnet. Es ergibt sich ein Korrelationskoeffizient aus dieser linearen Beziehung, welcher für die Güte der Vorhersage steht. Umso näher der Wert an der 1 liegt (100% Übereinstimmung), desto besser ist die Vorhersagekraft des Modells.



    Rechts neben dem Chart, befindet sich die Stats-Box. Diese enthält die statistischen Kenngrößen der realen und des vorhergesagten Daten. Für Regressionen sollte der Regressionskoeffizient r² als Qualitätsmasstab verwendet werden. Für Klassifizierungen eignet sich der Metrik-Wert "Accuracy" (Acc) sowie die Metriken MSE und MAE (Std- und Average Error). Des weiteren finden Sie die Gewichtungen der einzelnen Eingangsparameter im unteren Teil der Tabelle.

    Sie haben soeben ihr erstes Modell erstellt! Herzlichen Glückwunsch!

    Jetzt zu der Sandbox - die Prozessimulation..

  • Die Sandbox erlaubt es Ihnen, das berechnete Modell anhand von beliebigen Daten zu testen.



    Unabhängig von der PreDaTor-Version, steht Ihnen die Sandbox immer zu Verfügung. Der Unterschied zwischen Basic und Pro besteht in der Möglichkeit, das erstellte Modell in der PreDaTor Datenbank abzuspeichern und später wieder zu verwenden. Pro-Anwender speichern das erstellte Modell über den "Save Model"-Button in der "ML-Toolbox", bzw. auch lineare Regressionsmodelle im "Stats-Modul".
    Sowohl in der Basic- als auch der Pro-Version aktivieren Sie die Sandbox über den Button in der "ML-Toolbox" nach erfolgreicher Erstellung des Modells. Das aktuelle Modell wird geladen und visuell dargestellt. In der linken Sektion befindet sich die Auswahlbox der gespeicherten Modelle (Pro-Version). Darunter befindet sich das Control-Panel für die Prozesssimulation. Die Schieberegler sind gemäß des Daten-Ranges der Eingangsdaten beschriftet und skaliert. Über die Schieberegler erstellen Sie den Eingangsdatensatz, welcher in das Modell gespeist wird. Der resultirende Zielwert wird automatisch berechnet und im Chart in der "Modell"-Box als rote Markierung angezeigt.

F.A.Q

Frequently Asked Questions

  • Maschinelles Lernen
    Ein Programm oder System (z.B. Predator), das ein Vorhersagemodell aus Eingabedaten erstellt, dem sogenannten Training. Das System verwendet das erlernte Modell, um nützliche Vorhersagen aus neuen (noch nie zuvor gesehenen) Daten zu treffen (z.B. Predator Sandbox), die aus derselben Verteilung stammen wie die, die zum Trainieren des Modells verwendet wurde. Maschinelles Lernen bezieht sich auch auf das Studiengebiet, das sich mit diesen Programmen oder Systemen befasst.

  • Regression vs. Klassifikation beim maschinellen Lernen: Regressions- und Klassifizierungsalgorithmen sind überwachte Lernalgorithmen. Beide Algorithmen werden für die Vorhersage beim maschinellen Lernen verwendet und arbeiten mit den gekennzeichneten Datensätzen. Der Unterschied zwischen beiden besteht jedoch darin, wie sie für verschiedene Probleme des maschinellen Lernens verwendet werden. Der Hauptunterschied zwischen Regressions- und Klassifizierungsalgorithmen besteht darin, dass Regressionsalgorithmen verwendet werden, um die kontinuierlichen Werte wie Preis, Gehalt, Alter usw. vorherzusagen, und Klassifizierungsalgorithmen verwendet werden, um die diskreten Werte wie männlich oder weiblich, wahr oder falsch vorherzusagen/zu klassifizieren. Spam oder kein Spam usw.

    Regression : Regression ist ein Prozess zum Auffinden der Korrelationen zwischen abhängigen und unabhängigen Variablen. Es hilft bei der Vorhersage der kontinuierlichen Variablen wie der Vorhersage von Markttrends, der Vorhersage von Hauspreisen usw. Die Aufgabe des Regressionsalgorithmus besteht darin, die Abbildungsfunktion zu finden, um die Eingabevariable (x) auf die kontinuierliche Ausgabevariable (y) abzubilden.

    Beispiel: Angenommen, wir möchten Wettervorhersagen erstellen, also verwenden wir dafür den Regressionsalgorithmus. Bei der Wettervorhersage wird das Modell mit den vergangenen Daten trainiert, und sobald das Training abgeschlossen ist, kann es das Wetter für zukünftige Tage leicht vorhersagen.

    Klassifizierung / Einstufung: Die Klassifizierung ist ein Prozess, bei dem eine Funktion gefunden wird, die dabei hilft, den Datensatz basierend auf verschiedenen Parametern in Klassen zu unterteilen. Bei der Klassifizierung wird ein Computerprogramm mit dem Trainingsdatensatz trainiert und kategorisiert die Daten basierend auf diesem Training in verschiedene Klassen.
    Die Aufgabe des Klassifizierungsalgorithmus besteht darin, die Abbildungsfunktion zu finden, um die Eingabe (x) auf die diskrete Ausgabe (y) abzubilden.

    Beispiel: Das beste Beispiel zum Verständnis des Klassifizierungsproblems ist die E-Mail-Spam-Erkennung. Das Modell wird anhand von Millionen von E-Mails auf verschiedene Parameter trainiert und erkennt bei jeder neuen E-Mail, ob es sich um Spam handelt oder nicht. Wenn es sich bei der E-Mail um Spam handelt, wird sie in den Spam-Ordner verschoben.

    Das ML-Modul stellt zur die Berechnung folgende Methoden zur Verfügung:
    • Simple Linear Regression
    • Multiple Linear Regression
    • Support Vector Regression (SVR)
    • Ridge Regression
    • Lasso Regression
    • Ordinary Last Square Regression
    • Gradient Booster Regression
    • SGD Regression
    • MLP Regression
    • Decission Tree (DT) Regression
    • Gradient Booster Klassifizierung
    • SGD Klassifizierung
    • MLP Klassifizierung
    • Decission Tree (DT) Klassifizierung
    • KNN
    • K-Means
    • Random Forrest Klassifizierung

    Fett gedruckt = steht in Basic-Version zur Verfügung



  • CSV, Excel, TXT, JSON

  • Ab der Version Advanced fallen 20€ Jahresgebühr an.

Kontakt

Kontaktieren Sie uns

Nachricht wird verschickt!
Die Nachricht wurde übermittelt. Danke!
-->