Software > Software-Nachrichten > Data Vault für Data Warehouse: Datenmigration von RDB-Datenbankmodell in eine hybride Data Vault 2.0 Architektur!

Data Vault für Data Warehouse: Datenmigration von RDB-Datenbankmodell in eine hybride Data Vault 2.0 Architektur!


Die optimale Kombination von 3NF und Sternschema: Data Vault zusätzlich mit synthetischen Testdaten füllen!

Big Data Management seit 40 Jahren: IRI CoSort kam 1978 auf den Markt, um Sortier- und Berichtsfunktionen im Großrechnerformat auf Abteilungs- und Desktop-Computer zu bringen. Heute können Sie die jahrzehntelangen Fortschritte bei der Hochgeschwindigkeitsdatenbewegung und -manipulation in ergonomischen Softwareprodukten nutzen - oder in einer einzigen Plattform IRI Voracity, die Folgendes kombiniert:

  1. Data Discovery - Klassifizierung, Diagrammerstellung, Profilerstellung und Suche in strukturierten, halbstrukturierten und unstrukturierten Datenquellen, vor Ort oder in der Cloud
  2. Datenintegration - individuell optimierte, aber konsolidierte E-, T- und L-Operationen in einem Durchgang sowie CDC, sich langsam ändernde Dimensionen und Möglichkeiten zur Beschleunigung oder zum Verlassen jeder bestehenden ETL-Plattform
  3. Datenmigration - Konvertierung von Datentypen, Dateiformaten und Datenbankplattformen sowie inkrementelle oder Massendatenreplikation und Föderation
  4. Data Governance - Maskierung von PII-Daten und Re-ID-Risikobewertung, DB-Subsetting, Generierung synthetischer Testdaten, Datenvalidierung, -bereinigung und -anreicherung, Master- und Metadatenmanagement usw.
  5. Analysen - eingebettete Berichte, Integrationen mit DataDog, KNIME und Splunk sowie schnelle Datenverarbeitung für BOBJ, Cognos, Microstrategy, Power BI, Qlik, R, Spotfire, Tableau usw.

All diese Funktionalitäten werden in der gleichen Eclipse-IDE bereitgestellt - und ein Großteil davon läuft gleichzeitig über IRI CoSort oder austauschbare Hadoop-Engines in der IRI Voracity-Plattform. Voracity Subskriptions- oder unbefristete Lizenzmodelle zählen nur Engine-Knoten, nicht Quellen, Benutzer oder Kerne. Die IRI Workbench IDE enthält einen Data Vault Generator Assistenten, der den Benutzern der IRI Voracity Plattform hilft, ein relationales Datenbankmodell in eine Data Vault 2.0 (DV) Architektur zu migrieren. Der Assistent hat drei Ausgabeoptionen, die von den Bedürfnissen des Benutzers abhängen.

Alle Optionen erstellen das Entity Relationship Diagram (ERD) für die Ausgaben. Die erste Option erzeugt nur die vollständige DDL und ERD. Die zweite Option erstellt eine DDL für Tabellen, die noch nicht existieren, und erstellt außerdem Jobskripte zum Laden der Daten aus den Quelltabellen in die neuen Zieltabellen. Die dritte Option erstellt eine DDL für Tabellen, die nicht existieren, und lädt die neuen Tabellen mit zufällig generierten Testdaten. Dieser Artikel behandelt Option drei.

Laut Dan Lindstedt, dem Erfinder des Data Vault, "ist der Data Vault ein detailorientierter, historisch nachverfolgender und eindeutig verknüpfter Satz normalisierter Tabellen, die einen oder mehrere Funktionsbereiche des Unternehmens unterstützen.

Data Vault ist ein hybrider Ansatz, der das Beste aus der 3. Normalform (3NF) und dem Sternschema umfasst ... [es] ist eine Datenintegrationsarchitektur; eine Reihe von Standards und definitorischen Elementen oder Methoden [dafür, wie] Informationen innerhalb eines RDBMS-Datenspeichers verbunden werden, um sie sinnvoll zu nutzen."

Im DV2-Standard gibt es drei Arten von Tabellen. Ein Hub enthält die eindeutigen Geschäftsschlüssel. Ein Link definiert die Beziehungen zwischen den Geschäftsschlüsseln. Ein Satellit enthält den Kontext (Attribute) der Tabelle. Ein Satellit kann entweder ein Kind einer Hub- oder einer Link-Tabelle sein.

In jeder dieser Tabellen wird ein Hash der Rohdaten des Schlüssels als Primärschlüssel der neuen Tabelle verwendet. Jede Tabelle enthält auch die Quelle der ursprünglichen Daten und einen Ladezeitstempel für die historische Verfolgung. Ein Satellit enthält auch einen Endzeitstempel und eine optionale Hash-Differenz zur Verfolgung von Änderungen an den Datensätzen.

Der "Voracity Data Vault Generator Wizard" verwendet die vorhandenen Primär- (PK) und Fremdschlüssel (FK) als Ausgangspunkt für die Organisation der neuen Tabellen. Die Standardwerte pro Tabelle sind wie folgt:

  1. Ein Knotenpunkt für jeden PK-Schlüssel (einschließlich zusammengesetzter Schlüssel).
  2. Ein Link für jeden selbstreferenzierenden FK.
  3. Ein Link für jede Gruppe von FKs (ohne die selbstreferenzierenden Schlüssel).
  4. Ein Satellit auf dem Hub, wenn die Tabelle null FKs enthält.
  5. Ein Satellit auf dem Link, wenn mindestens ein FK existiert.

In diesem Beispiel werden sieben verknüpfte Tabellen verwendet, die Personaldaten darstellen. Alle technischen Details dazu sind hier im Blog-Artikel zu finden.

Weltweite Referenzen: Seit über 40 Jahren nutzen unsere Kunden wie die NASA, American Airlines, Walt Disney, Comcast, Universal Music, Reuters, das Kraftfahrtbundesamt, das Bundeskriminalamt, die Bundesagentur für Arbeit, Rolex, Commerzbank, Lufthansa, Mercedes Benz, Osram,.. aktiv unsere Software für Big Data Wrangling und Schutz! Sie finden viele unserer weltweiten Referenzen hier und eine Auswahl deutscher Referenzen hier.

Partnerschaft mit IRI: Seit 1993 besteht unsere Kooperation mit IRI (Innovative Routines International Inc.) aus Florida, USA. Damit haben wir unser Portfolio um die Produkte CoSort, Voracity, DarkShield, FieldShield, RowGen, NextForm, FACT und CellShield erweitert. Nur die JET-Software GmbH besitzt die deutschen Vertriebsrechte für diese Produkte. Weitere Details zu unserem Partner IRI Inc. hier.

Quelle: JET-Software GmbH
Pressemitteilung vom 08.08.2023 zur Software Voracity
Voracity
Links und Kontakt:
Videotermin
anfragen
Online-Vorführung
Termin anfordern
Informationsmaterial
URL anfordern
Software-Exposé
URL anfordern