02.11.2023 Babenhausen - Um das Testdatenmanagement sicherer zu gestalten, schlägt Amadeus Thomas, Chef des Iri-Partners Jet-Software GmbH, vier Methoden zur Datenveredelung vor: Datenmaskierung, Datenbank-Subsetting oder Datensynthese oder eine Kombination davon.
Daten, die durch Anwendungsentwicklung, maschinelles Lernen oder Analyse-Pipelines fließen, müssen mehrere Anforderungen erfüllen, die allen Bereichen gemeinsam sind, darunter:
„Die an diesen Pipelines beteiligten Akteure verstehen diese Anforderungen aus ihrer eigenen Perspektive“, sagt Amadeus Thomas, Chef des Iri-Partners Jet-Software GmbH, Babenhausen. Um diese Anforderungen zu erfüllen, liefere der Partner mit seiner Cosort-Suite ein vielschichtiges Testdatenmanagement-Framework mit. Auslöser für die Entwicklung dieses Frameworks sei die Notwendigkeit gewesen, umfangreiche, realistische Daten zu erstellen, um das Volumen und die Vielfalt der Datenumwandlungs- und Formatierungsaktivitäten zu testen, die im Cosort-Produkt zur Datenveredelung und -synthese unterstützt werden.
Datenmaskierung, Datenbank-Subsetting oder Datensynthese
Via Datenmaskierung, Datenbank-Subsetting oder Datensynthese erzeugt Cosort schnell sichere und gleichzeitig realistische Testdaten in Datenbanken, Flat-Files, semi-strukturierten Dateien und in formatierten Berichtszielen. Dabei können vier Methoden eingesetzt werden:
Unter Verwendung der zentralen Daten-Definitionssprache „SortCL“und des Verarbeitungsprogramms von Cosort wurde die Eingabephase des ETL-Prozesses vom Lesen von Dateien zum Erstellen von Dateien geändert, entweder durch das Generieren von Zufallswerten für bestimmte Datentypen und -bereiche und/oder durch die zufällige Auswahl von Daten aus externen Beständen. Mit dem Spin-Off Rowgen lassen sich einzig und allein auf Basis von DDL-Details vorsortierte, strukturell und referentiell korrekte RDB-Schemata analysieren, synthetisieren und laden.