Redner Info | Universität Freiburg, Technische Fakultät |
Beginn | 17.02.2017, 15:00 Uhr |
Ort | TU Braunschweig, Informatikzentrum, Mühlenpfordtstraße 23, 1. OG, Hörsaal M 161 |
Eingeladen durch | Prof. Dr. Wolf-Tilo Balke |
Apache Hadoop bietet eine Reihe von open-source Frameworks für verteilte Speicherung und Auswertung von Daten auf einem Cluster von Maschinen. Es bestehen keine besonderen Anforderungen an die Hardware so dass Hadoop mit vergleichsweise geringen Kosten zuverlässige und hochgradig skalierende verteilte Anwendungen ermöglicht. Hadoop hat sich als Softwarebasis für Big Data Anwendungen etabliert. Bekannte Beispiele hierfür zum Einsatz kommender Systeme sind Mahout (Maschinelles Lernen und Data Mining), Hive (Datawarehouse) und Spark SQL für strukturierte Daten. Das Web of Data besteht aus den im Web durch unterschiedliche Quellen bereitgestellten Daten, üblicherweise genannt Linked Open Data. Das gewählte Datenformat ist der W3C-Standard RDF, mittels dem eine flexible Datenrepräsentation in Form von Subjekt-Prädikat-Objekt-Tripeln vorgenommen wird zu der eine intuitive Darstellung mittels eines kantenbeschrifteten gerichteten Graphen existiert. Um so strukturierte Daten mittels SQL effizient verarbeiten zu können sind in den letzten Jahren eine ganze Reihe von Vorschlägen gemacht worden. Im Vortrag wird der Einsatz von Spark SQL zur Verarbeitung von großen RDF Datenbeständen behandelt. Es wird zunächst gezeigt, wie mittels Vorberechnung von Semi-Verbünden die Effizienz von Anfragen in der RDF-Anfragesprache SPARQL gesteigert werden kann. Es wird argumentiert, dass der zusätzliche Speicheraufwand vertretbar ist. Es wird dann eine Erweiterung von SPARQL um Pfadanfragen vorgestellt, die im Unterschied zu der üblichen existentiellen Semantik auch die Berechnung aller möglichen Pfade eines RDF-Graphen erlaubt. |
Technische Universität Braunschweig
Universitätsplatz 2
38106 Braunschweig
Postfach: 38092 Braunschweig
Telefon: +49 (0) 531 391-0