Den Schutz personenbezogener Daten in semi- und unstrukturierten Json- oder XML-Datenbeständen („Dark Data“) verbessert die Jet-Software GmbH. Babenhausen. Diese Daten werden dort durch die Software Darkshield automatisch lokalisiert, de-identifiziert und maskiert.
Persönlich identifizierbare Informationen (PII) wie Namen, Sozialversicherungsnummern oder Adressen, etc. werden in mehreren Quellen und Silos gespeichert, einschließlich halbstrukturierter Dateien im Json- und XML-Format. Diese Formate sind durch Schlüssel-Werte-Paare gekennzeichnet, die Datenelemente identifizieren; diese Identifikatoren können nun zum Auffinden und Maskieren von PII-Werten in der Software Darkshield mit ihrer eingebaute Suchfunktion verwendet werden.
Schon mit dem Iri-Produkt Fieldshield ließen sich PII in strukturierten Json- und XML-Formaten finden und maskieren. Darkshield jedoch verarbeitet komplexere, semi- und unstrukturierte Dokumente – und kann dabei durch eine neue Methode („Path Filters“) Zeit im Suchprozess sparen. Dabei lassen sich nicht nur Texte und Zahlen, sondern auch Bilddateien (z.B. Gesichter) lassen sich auch Datenklassen für die Gesichtserkennung (z.B. alle Gesichter verschwimmen) oder die Erkennung zur Verschleierung bestimmter Gesichter in Ihrer Modellbibliothek definieren.
Die Anonymisierung von PII in semistrukturierten Dateien kann mit Darkshield in Verbindung mit sogenannten „Search Matchers“ verwendet werden, also z. B. Musterabgleiche, Wertesuchvorgänge oder NER-Modellen zur Worterkennung, als schnellere und zuverlässigere Methode zum Auffinden personenbezogener Daten. Damit lässt sich zum Beispiel eine Liste von Rechnungen in einer XML-Datei (mit Vor- und Nachnamen sowie anderen PII), die in frei formatierten Textelementen versteckt sind, die möglicherweise dazu verwendet werden könnten, die Identität des Kunden aufzudecken. Diese PII werden überall dort maskiert, wo sie in den Rechnungen auftauchen, wobei aber die Kundeninformationen in anderen Teilen des Dokuments beibehalten werden.
Darkshield unterstützt solche Anwendungsfälle durch die Verwendung von Filtern; das sind dateiart-spezifische Objekte (u.a. .json, .xml, .txt, .doc, .ppt, .rtf, .bmp, .gif, .tif, .eml oder .html) die an Suchabgleiche angehängt sind. Mit Hilfe der Abfragesprache XPaths kann man auch durch XML-Dateielelemente und -attribute navigieren und einen Wert zurückgeben, der sich auf das angegebene Element bezieht.