Zusicherungen und Nachvollziehbarkeit von Daten und Operationen

 

Die Verwaltung und Integration großer Datenmengen und die darauf aufbauenden Anfragen/Auswertungen benötigen Zusicherungen über die Qualität der Daten und Berechnungen.

Wir erforschen mehrere, komplementäre Ansätze für solche Zusicherungen:

Nachweise der Quellen und Transformationen von Daten: Provenance

Beschreibung/Validierung des Datenformats: Schema

Modelle für die Veränderung der Daten und der Anfragen: Transaktionen/Lifecycle-Modelle

Aus konzeptioneller Sicht hat die Erfassung und Auswertung von Ausbreitungswegen in sozialen Medien große Ähnlichkeit mit (Daten-)Provenance. In Zusammenarbeit mit der Universität Gent entwickelten wir eine Modellierung von Informationsausbreitung im Rahmen des W3C-Prov-Standards, die unter anderem auch die Kombination von Provenance verschiedener Granularität erlaubt, sodass explizite, feingranulare Ausbreitungswege und inhaltsorientierte, grobgranulare Provenance zusammen einen vollständigeren Einblick bieten.

Aus technischer Sicht stellt die Berechnung von Provenance insbesondere für Datenstromsysteme eine Herausforderung dar. In Zusammenarbeit mit der University of Chicago und den Intel Labs entwickelten wir einen Ansatz, der auf der Instrumentierung der Operatoren basiert und daher sowohl hohe Genauigkeit als auch moderaten Overhead ermöglicht.

Die Beschreibung der Daten mit Hilfe von Schema ermöglicht die Validierung der Eingabedaten, Optimierung von Anfragen und Datenspeicherung sowie die Vereinfachung und Unterstützung der Anfrageformulierung. Während im relationalen Modell Schema eine Grundvoraussetzung ist, bieten nicht alle anderen Datenmodelle dafür ausdrucksmächtige Möglichkeiten. Wir entwickelten ein Schema für Datenströme und einen Vorschlag für RDF Constraints; für beide zeigen wir, wie die Gültigkeit effizient überprüft und die Beschreibungen zu Optimierungen genutzt werden können.

Suche