Praktikum Semantic Web

Verantwortlich: Axel Ngonga, Jens Lehmann
Wann: min. 3 Termine Dienstag 13.15–14.45 Uhr (siehe unten); ansonsten individuell mit Betreuer
Wo: Paulinum, P-801
Modul: Semantic Web

Inhalt

Ziel der Veranstaltung ist die praktische Einarbeitung in Semantic Web Technologien. Zu diesem Zweck sollen existierende Frameworks (siehe AKSW Projektseite) um einzelne Module erweitert werden. Am ersten Termin werden die zu entwickelnden Module vorgestellt, welche Teile von Werkzeugen aus unterschiedlichen Schichten des Semantic Web Stacks sein werden. Die vorgestellten Themen werden dann bilateral mit den jeweiligen Betreuern bearbeitet und die Ergebnisse anschließend im Rahmen der Veranstaltung vorgestellt.

Voraussetzungen

Das Praktikum richtet sich an Studierende des Bachelor- und Master-Studiengangs Informatik. Inhaltliche Vorkenntnisse sind nicht erforderlich. Interesse an semantischen Technologien und Spaß an der Konzeption und Implementierung von Software-Modulen sind von Vorteil.

Organisatorisches


  • PDF DocumentEinführung
  • Präsenzveranstaltungen: Auftakt (08.04.); Endpräsentation (01.07. – mehr Termine je nach Anzahl Themen)
  • Individuelle Zusammenarbeit in Absprache mit den Betreuern
  • Praktikumsbericht in Form einer Online Publikation (Wiki, Issue-Tracker, ggf. Source-Code) und Endpräsentation (20 min). Besonders gute Arbeiten, werden auf unserem Arbeitsgruppen-Blog veröffentlicht, bzw. auf der Studentenkonferenz SKIL
  • Repository: Individuell, z.B. Bitbucket, Git, Sourceforge, Googlecode
  • Bewertungskriterien: Erfolgreiche Präsentation.
  • Je nach Teilnehmerzahl werden die Praktikumsaufgaben einzeln oder in Zweier-Gruppen vergeben.

Vorträge


Vorträge werden im Laufe der Veranstaltung bekannt gegeben.


Thema Termin Anmerkung
TBA  01.07.2014 Raumänderung: P-502
TBA  08.07.2014

Themengebiete

Inhalt

Anreicherung von RDF Datensätzen

Betreuer: Axel Ngonga
Studenten: Stefan Richter, Ying-Chi Lin
Slides: PDF DocumentSlides

Viele RDF Datensätze erhalten implizite Referenzen zu geographischen Entitäten. Ziel von GeoLift ist es, diese Entitäten im Datensatz zu explizieren. Im Rahmen dieser Aufgabe soll Geo Lift um folgende Module erweitert werden:

  • DL-Learner Anreicherung
  • Split Operator für Datensätze
  • Merge Operator
  • Anreicherung über DBpedia Spotlight

Die Skalierbarkeit der Erweiterungen ist mit echten Daten zu evaluieren.

Web-Oberfläche für Geo Lift

Betreuer: Axel Ngonga
Studenten: Alrik Hausdorf, Eugen Rein
Slides: PDF DocumentSlides

Viele RDF Datensätze erhalten implizite Referenzen zu geographischen Entitäten. Ziel von GeoLift ist es, diese Entitäten im Datensatz zu explizieren. Im Rahmen dieser Aufgabe ist eine Weboberfläche für Geo Lift zu bauen. Die Kommunikation mit Geo Lift ist über REST Interfaces zu realisieren. Die zu implementierende Oberfläche soll auch mit neuen Versionen von Geo Lift funktionieren. Daher soll zunächst abgefragt werden, welche Module von der aktuellen Geo Lift- Version implementiert werden und wie diese zu parametrisieren sind. Aus diesen Daten heraus soll die Oberfläche gestaltet werden. Nach der Zusammenstellung von Verarbeitungsschritten für die Eingabedaten soll eine Geo Lift- Konfigurationsdatei erstellt und an den Geo Lift- Server geschickt werden. Das Ergebnis der Verarbeitung, ein Link zu einer RDF Datei, soll abschließend gezeigt werden.

Erweiterung von FOX

Betreuer: René Speck, Axel Ngonga
Studenten: Oliver Schurig
Slides: PDF DocumentSlides

Zur Extraktion von RDF aus unstrukturierten Daten werden Named Entity recognition sowie Relation Extraction Rahmenwerke benötigt. Über die letzten Jahre wurde eine Vielzahl von Open-Source NER Lösungen implementiert (Clear NLP, Open NLP, ...). FOX ist ein Rahmenwerk, welches die Ergebnisse mehrerer Named Entity Recognition Frameworks aggregiert, um eine hörere Genauigkeit (Precision) sowie Vollständigkeit (Recall) zu erreichen. Ziel dieser Praktikumsaufgabe ist die Integration von Clear NLP in FOX sowie die Evaluation der neuen FOX Version mit zur Verfügung stehenden Testdaten.


Skalierbare Ähnlichkeitsberechnungen

Betreuer: Tommaso Soru, Axel Ngonga
Studenten: Dániel Szabó, Peggy Lucke (Smith Waterman), Marcel Jacob (Ratcliff / Obershelp), Lukas Fischer, Kevin Dreszler (Jaro-Winkler), Franz Teichmann (Soundex), Lukas Kairies
Slides: PDF DocumentSlides

Die Verknüpfung von Wissensbasen spielt eine zentrale Rolle bei einer Vielzahl von Anwendungen, wie z.B. Question Answering, föderierte Anfrage, etc. Zur Berechnung von Links zwischen Wissenbasen führen Frameworks wir LIMES Ähnlichkeitsberechnungen durch, anhand derer sie bestimmen können, welche Ressourcen aus zwei Wissensbasen ähnlich sind. Ziel dieser Aufgabe ist die Erarbeitung von skalierbaren Ansätzen zur zeiteffizienten Erkennung von Paaren von Ressourcen deren Ähnlichkeit über einem vorgegebenen Schwellwert liegt. Zur Evaluation sind Skalierbarkeitsexperimente durchzuführen.

Parallelisierung von Ähnlichkeitsberechnungen

Betreuer: Tommaso Soru, Axel Ngonga
Studenten: Alexander Böhm
Slides: PDF DocumentSlides

Zur Berechnung von Links zwischen Wissenbasen führen deklarative Link Discovery Frameworks wie LIMES Ähnlichkeitsberechnungen durch. Obwohl skalierbare Algorithmen für bestimmte Ähnlichkeitsmetriken bereits existieren, erfordern die großen zu verarbeitenden Datenmengen die Parallelisierung dieser Ansätze zum Erreichen annehmbarer Laufzeiten. Ziel dieser Aufgabe ist die Parallelisierung eines Verfahrens zur Berechnung von Links zwischen Wissensbasen. Zur Evaluation sind Skalierbarkeitsexperimente durchzuführen. Parallelisierung in GPUs sind ebenso von Interesse wie Thread-basierte Ansätze.

Linked Data Browser

Betreuer: Axel Ngonga
Studenten: Ramon Bernert, Jakob Matthes
Slides: PDF DocumentSlides

Im Semantic Web werden Daten als RDF beschrieben und es stehen selten natürlichsprachliche Beschreibung dieser Ressourcen zur Verfügung. Ziel dieser Aufgabe ist die Entwicklung eines auf SPARQL2NL basierenden Browsers für RDF Daten, welches in der Lage ist, nicht nur RDF Daten anzuzeigen sondern auch natürlichsprachliche Beschreibungen dieser Ressourcen generieren und anzeigen kann.

Implementierung von Metriken zur Qualitätsbewertung von RDF-Daten

Betreuer: Patrick Westphal, Jens Lehmann
Studenten:
Ressourcen: PDF DocumentSlides

Nachdem in den letzten Jahren Umfang und Verfügbarkeit von RDF-Daten, insbesondere von Linked Data-Endpunkten, enorm zugenommen haben, sind aktuell verschiedene Bemühungen sichtbar, die Qualität dieser Daten zu bestimmen und zu verbessern. Um die Frage, wie gut die Qualität einer Menge von Daten ist, bewerten zu können, wurden verschiedene Qualitätsdimensionen vorgeschlagen. Diese ermöglichen die Abgrenzung unterschiedlicher Aspekte von Datenqualität, die separat mit dimensionsspezifischen Metriken ausgewertet werden können.
Ziel dieser Aufgabe ist es, neben der Beschäftigung mit dem Problemfeld der Qualität von RDF-Daten, vorgeschlagene Metriken zur Qualitätsanalyse zu implementieren. Als Framework soll UnifiedViews, ein generisches RDF-Datenverarbeitungs-Tool, zum Einsatz kommen. Weiterhin soll mit den implementierten Metriken eine Qualitätsanalyse durchgeführt und die Ergebnisse präsentiert werden.

openQA – Opensource Question Answering Framework

Betreuer: Edgard Marx
Studenten:
Ressourcen: PDF DocumentSlides
Project Page: http://aksw.org/Projects/openQA

The use of Semantic Web technologies led to an increasing number of structured data published on the Web. Despite the advances on question answering systems retrieving the desired information from structured sources is still a substantial challenge. Users and researchers still face difficulties to integrate and compare their results. openQA is an open source question answering framework that unifies approaches from several domain experts. The aim of openQA is to provide a common platform that can be used to promote advances by easy integration and measuring different approaches.


  • In this topic the student will be invited to write (help to write) a small project for one of the openQA modules. The student have the oportunity to choose a theme that is interested: optimization, data representation, between others.

Benutzeroberfläche zum semi-automatischen Lernen von Interlinks auf geographischen Daten

Betreuer: Claus Stadler, Jens Lehmann
Studenten: Simon Vetter, Eric Kurzhals
Ressourcen: PDF DocumentSlides

Die Auswertung, ob Links zwischen RDF Ressourcen auch tatsächlich korrekt sind, ist in der Regel mit hohem manuellen Aufwand verbunden. Im Falle von Daten mit geographischem Bezug (z.B. Hotels, Museen, Flughäfen, ...) können dazu unterstützend Dartellungen auf einer Karte vorgenommen werden. Unsere Facete2 Applikation bietet dabei einen einfachen Weg, eine solche Darstellung für geographische RDF Daten zu erzeugen Demo.
Desweiteren ermöglicht das LIMES Framework die Generierung von Links zwischen Ressourcen aus zwei gegebenen RDF Datensets. Dabei erfolgt die Konfiguration eines Verlinkungsvorgangs über XML-basierte “Link Specifications” (kurz: Link Specs). Die Ausführung einer Link Spec liefert als Resultat eine Menge von Links gemäß der Spezifikation.
Limes bietet nun u.a. folgende Funktionen:


  • Die automatische Generierung einer (initialen) Link Spec mittels Angabe von zwei zu verlinkenden Konzepten mit einem jeweiligem RDF Datenset, z.B. «Städte aus Linked Geo Data» mit “Orte aus DBpedia”.
  • Das semi-automatische Lernen einer neuen Link Spec basierend auf Nutzerbewertungen von Links aus einer entsprechenden vorangehenden Spec. Diese zwei Funktionen koennen zu einem Prozess aneinandergereiht werden, in welchem ein Nutzer sich zuerst eine initiale Link Spec generieren laesst, welche er anschliessend iterativ mittels Bewertungen («richtig», “falsch”, “unbewertet”) verfeinert.

Die Ziele der Praktikumsaufgabe sind:


  • Client-seitig: Die Erweiterung von Facete 2 um entsprechende Benutzeroberflaechenkomponenten, welche die Durchfuehrung des beschriebenen Interlinking Prozesses ermöglichen.
  • Server-seitig: Die Implementierung eines entsprechenden REST-API-Wrappers für Limes.

Die Umsetzung der Komponenten fuer den Client muss mittels HTML/CSS/JavaScript erfolgen, die der Server-seite mittels Java.

Automatischer Upload von Metadaten in ein Meta Data repository

Betreuer: Martin Brümmer
Studenten:
Ressourcen: PDF DocumentSlides

Datenrepositories wie http://datahub.io dienen der Sammlung von Datensätzen und Metadaten zu den Datensätzen, wie Autoren, Größe des Datensatzes, Links zu anderen Datensätzen etc. Die Wartung dieser Metadaten ist schwierig, da sie bei Änderung des Datensatzes angepasst werden müssten. Data ID erlaubt die strukturierte Beschreibung dieser Daten zusammen mit dem Datensatz. Durch autmatischen Upload dieser Metadaten zu Datahub bleiben die Vorteile des Repositories erhalten.


Aufgabe:

  • Implementierung eines Tools zum automatischen Extrahieren der Daten aus Data Id und Upload zu datahub.io
  • Bevorzugte Sprache: Python

XSLT Transformation Dictionary 2 lemon

Betreuer: Martin Brümmer
Studenten:
Ressourcen: http://kdictionaries.com/

In den nächsten Wochen soll ein Wörterbuch in das neue lemon OWL Format transformiert werden mit Hilfe von XSLT.

Upgrade of People Viewer


Momentan ist der People Viewer für 4 oder 5 Konferenzen deployed. Der Nachteil ist, dass er nicht generisch ist, sondern immer wieder stark angepasst werden muss. Er soll besser konfigurierbar gemacht werden.

NIF2Brat


Das neue Austauschformat NIF, z.B. hier zu sehen http://brown.nlp2rdf.org/ soll auf den Input des State-of-the-Art NLP Visualisierungstool Brat gemappt werden (ideallerweise integriert in Brat als Reader / Writer).

Anwendungen überwachten machinellen Lernens im Life-Science-Bereich

Betreuer: Lorenz Bühmann, Jens Lehmann
Studenten: Lucas Stadler

Unter Anwendung des DL-Learner Frameworks sollen Machine Learning Algorithmen weiterentwickelt und angewandt werden, zum Beispiel im Kontext des Rheumatoid Arthritis Responder Challenge.


 
Zu dieser Seite gibt es keine Dateien. [Zeige Dateien/Upload]
Kein Kommentar. [Zeige Kommentare]