Einfügen, Aktualisieren und Löschen auf Datensatzebene in Amazon S3 mit Amazon EMR

Version 5.28.0 von Amazon EMR unterstützt jetzt Apache Hudi (Incubating). Für Data Engineers, die Amazon EMR zur Datenpipelineentwicklung und Datenverarbeitung nutzen, vereinfacht Apache Hudi ab sofort das inkrementelle Datenmanagement und den Datenschutz in Fällen, bei denen Daten auf Datensatzebene eingefügt, aktualisiert und gelöscht werden müssen. Apache Hudi ermöglicht die Datenschutz-Compliance von auf Amazon S3 basierten Data Lakes, die Erfassung von Echtzeit-Streams und Change Data Capture-Protokollen, das Einordnen von spät eingehenden Daten sowie die Nachverfolgung von Änderungen und Rollbacks. Apache Hudi ist Open-Source-basiert und unterstützt die Datenspeicherung auf Amazon S3 in anbieterunabhängigen Open-Source-Formaten wie Apache Parquet und Apache Avro.
Quelle: aws.amazon.com

Published by