Data Lake zur Verwaltung unstrukturierter Daten

25.09.2019

Data Lake zur Verwaltung unstrukturierter Daten

Data Lake

Sichern einer großen Menge unstrukturierter Daten

Seit mehr als 30 Jahren generieren unsere automatisierten Qualitätskontrollsysteme und unsere Prüfstände eine sehr große Datenmenge. Einige unserer Systeme erfassen seit über 10 Jahren Daten von 100% der Produkte, die aus den Produktionslinien unserer Kunden stammen. Wir möchten jetzt neue Funktionen anbieten, die Daten hervorheben, um beispielsweise Produktionsprozesse besser zu verstehen. Dazu ist es notwendig, alle Daten zu zentralisieren und intelligent recherchieren zu können. Der Data Lake ist das ideale Tool. Daher haben wir einen Prozess eingeleitet, um das Know-how des QMT-Know-how-Portfolios zu erweitern.

QMTMesure-Software

Implementierung eines effizienten Data Lake

Datenmanagement und deren Bewertung

Was ist ein Data Lake?

Ein Datensee ist ein Mittel zum Speichern von Daten verschiedener Art in ihren ursprünglichen Formaten. Auf der Makroskala sind in einem Datensee drei Arten von Daten vorhanden:

Strukturierte Daten wie Daten in einer Datenbank oder eine Excel-Datei
Halbstrukturierte Daten wie * .xls, * .csv, * .json-Dateien oder Protokolle
Unstrukturierte Daten wie Bild-, Ton- oder Textdateien

Die Unterscheidung zwischen strukturierten und unstrukturierten Daten erfolgt durch die Eigenschaft von Daten, mit denen ein Benutzer arbeitet. Bei strukturierten Daten werden die Werte der Daten verarbeitet, bei unstrukturierten Daten Informationen zu diesen Daten. Diese Informationen werden als Metadaten oder "Tags" bezeichnet.

Links: Beispiel für strukturierte Daten (eine Excel-Datei); Rechts: Eine Bibliothek, die einen Datensee mit unstrukturierten Daten schematisiert, aber anhand ihrer Beschriftungen erkennbar ist ("Tag").

Benchmarking bestehender Lösungen

Amazon, Microsoft und Google sind führend bei Data Lake-Tools. Wir haben Amazon AWS und Microsoft Azure verglichen.

Amazon AWS

Grundlegende Cloud-Lösung mit interner Lokalisierungsoption (geplant für 2020)
Die verschiedenen Dienstleistungen werden "à la carte" angeboten, um Ihre ideale Lösung zu erstellen.
Die Kosten sind gering

Microsoft Azure

Großer Kundenstamm mit dem Namen Microsoft
Umständliche Implementierung und schlechte Sichtbarkeit von Änderungen und deren Auswirkungen
Hohe Kosten und nicht sehr transparent

Wir haben uns für die AWS-Lösung entschieden, um unsere Lösungen zu standardisieren

Der QMT Data Lake

Wir haben einen Data Lake für unsere Verwendung eingerichtet, der Folgendes umfasst:

Ein S3 Bucket-Datenserver in Irland
Strukturierter AWS Glue-Datenkatalog (ETL & Datenkatalog)
Strukturierte Datenabfrage-Engine von Amazon Athena (interaktive Abfragen)
Elastische Suchmaschine von Amazon ES (Elastic Search) für unstrukturierte oder halbstrukturierte Daten mit ihrer grafischen Oberfläche von Kibana
QuickSight Data Viewer

Integration in die QMT-Software

Wir haben ein Softwaretool entwickelt, das sich problemlos in unsere Systeme integrieren lässt, um Daten Etiketten hinzuzufügen, sie an den Datensee zu senden und sie mit der elastischen Suche zu finden.

Die nächsten Schritte

Die nächsten Schritte bestehen darin, die Beschriftungen (oder Tags) zu standardisieren, das QMT-Tool an die Verwaltung von Standard-Tag-Katalogen anzupassen und die Suche nach Tags durch unser Tool zu vereinfachen.

Wir werden daher bereit sein, Werkzeuge für künstliche Intelligenz auf die Daten anzuwenden, um die Korrelationen zwischen den Daten zu untersuchen.