Praktikum Semantic Web
Wann: min. 3 Termine Dienstag 13.15–14.45 Uhr (siehe unten); ansonsten individuell mit Betreuer
Wo: Paulinum, P-801
Modul: Semantic Web
Inhalt
Ziel der Veranstaltung ist die praktische Einarbeitung in Semantic Web Technologien. Zu diesem Zweck sollen existierende Frameworks (siehe AKSW Projektseite) um einzelne Module erweitert werden. Am ersten Termin werden die zu entwickelnden Module vorgestellt, welche Teile von Werkzeugen aus unterschiedlichen Schichten des Semantic Web Stacks sein werden. Die vorgestellten Themen werden dann bilateral mit den jeweiligen Betreuern bearbeitet und die Ergebnisse anschließend im Rahmen der Veranstaltung vorgestellt.
Voraussetzungen
Das Praktikum richtet sich an Studierende des Bachelor- und Master-Studiengangs Informatik. Inhaltliche Vorkenntnisse sind nicht erforderlich. Interesse an semantischen Technologien und Spaß an der Konzeption und Implementierung von Software-Modulen sind von Vorteil.
Organisatorisches
- Einführung
- Präsenzveranstaltungen: Auftakt (08.04.); Endpräsentation (01.07. – mehr Termine je nach Anzahl Themen)
- Individuelle Zusammenarbeit in Absprache mit den Betreuern
- Praktikumsbericht in Form einer Online Publikation (Wiki, Issue-Tracker, ggf. Source-Code) und Endpräsentation (20 min). Besonders gute Arbeiten, werden auf unserem Arbeitsgruppen-Blog veröffentlicht, bzw. auf der Studentenkonferenz SKIL
- Repository: Individuell, z.B. Bitbucket, Git, Sourceforge, Googlecode
- Bewertungskriterien: Erfolgreiche Präsentation.
- Je nach Teilnehmerzahl werden die Praktikumsaufgaben einzeln oder in Zweier-Gruppen vergeben.
Vorträge
Vorträge werden im Laufe der Veranstaltung bekannt gegeben.
Thema | Termin | Anmerkung |
TBA | 01.07.2014 | Raumänderung: P-502 |
TBA | 08.07.2014 |
Themengebiete
Anreicherung von RDF Datensätzen
Viele RDF Datensätze erhalten implizite Referenzen zu geographischen Entitäten. Ziel von GeoLift ist es, diese Entitäten im Datensatz zu explizieren. Im Rahmen dieser Aufgabe soll Geo Lift um folgende Module erweitert werden:
- DL-Learner Anreicherung
- Split Operator für Datensätze
- Merge Operator
- Anreicherung über DBpedia Spotlight
Die Skalierbarkeit der Erweiterungen ist mit echten Daten zu evaluieren.
Web-Oberfläche für Geo Lift
Viele RDF Datensätze erhalten implizite Referenzen zu geographischen Entitäten. Ziel von GeoLift ist es, diese Entitäten im Datensatz zu explizieren. Im Rahmen dieser Aufgabe ist eine Weboberfläche für Geo Lift zu bauen. Die Kommunikation mit Geo Lift ist über REST Interfaces zu realisieren. Die zu implementierende Oberfläche soll auch mit neuen Versionen von Geo Lift funktionieren. Daher soll zunächst abgefragt werden, welche Module von der aktuellen Geo Lift- Version implementiert werden und wie diese zu parametrisieren sind. Aus diesen Daten heraus soll die Oberfläche gestaltet werden. Nach der Zusammenstellung von Verarbeitungsschritten für die Eingabedaten soll eine Geo Lift- Konfigurationsdatei erstellt und an den Geo Lift- Server geschickt werden. Das Ergebnis der Verarbeitung, ein Link zu einer RDF Datei, soll abschließend gezeigt werden.
Erweiterung von FOX
Zur Extraktion von RDF aus unstrukturierten Daten werden Named Entity recognition sowie Relation Extraction Rahmenwerke benötigt. Über die letzten Jahre wurde eine Vielzahl von Open-Source NER Lösungen implementiert (Clear NLP, Open NLP, ...). FOX ist ein Rahmenwerk, welches die Ergebnisse mehrerer Named Entity Recognition Frameworks aggregiert, um eine hörere Genauigkeit (Precision) sowie Vollständigkeit (Recall) zu erreichen. Ziel dieser Praktikumsaufgabe ist die Integration von Clear NLP in FOX sowie die Evaluation der neuen FOX Version mit zur Verfügung stehenden Testdaten.
Skalierbare Ähnlichkeitsberechnungen
Studenten: Dániel Szabó, Peggy Lucke (Smith Waterman), Marcel Jacob (Ratcliff / Obershelp), Lukas Fischer, Kevin Dreszler (Jaro-Winkler), Franz Teichmann (Soundex), Lukas Kairies
Slides: Slides
Die Verknüpfung von Wissensbasen spielt eine zentrale Rolle bei einer Vielzahl von Anwendungen, wie z.B. Question Answering, föderierte Anfrage, etc. Zur Berechnung von Links zwischen Wissenbasen führen Frameworks wir LIMES Ähnlichkeitsberechnungen durch, anhand derer sie bestimmen können, welche Ressourcen aus zwei Wissensbasen ähnlich sind. Ziel dieser Aufgabe ist die Erarbeitung von skalierbaren Ansätzen zur zeiteffizienten Erkennung von Paaren von Ressourcen deren Ähnlichkeit über einem vorgegebenen Schwellwert liegt. Zur Evaluation sind Skalierbarkeitsexperimente durchzuführen.
Parallelisierung von Ähnlichkeitsberechnungen
Zur Berechnung von Links zwischen Wissenbasen führen deklarative Link Discovery Frameworks wie LIMES Ähnlichkeitsberechnungen durch. Obwohl skalierbare Algorithmen für bestimmte Ähnlichkeitsmetriken bereits existieren, erfordern die großen zu verarbeitenden Datenmengen die Parallelisierung dieser Ansätze zum Erreichen annehmbarer Laufzeiten. Ziel dieser Aufgabe ist die Parallelisierung eines Verfahrens zur Berechnung von Links zwischen Wissensbasen. Zur Evaluation sind Skalierbarkeitsexperimente durchzuführen. Parallelisierung in GPUs sind ebenso von Interesse wie Thread-basierte Ansätze.
Linked Data Browser
Im Semantic Web werden Daten als RDF beschrieben und es stehen selten natürlichsprachliche Beschreibung dieser Ressourcen zur Verfügung. Ziel dieser Aufgabe ist die Entwicklung eines auf SPARQL2NL basierenden Browsers für RDF Daten, welches in der Lage ist, nicht nur RDF Daten anzuzeigen sondern auch natürlichsprachliche Beschreibungen dieser Ressourcen generieren und anzeigen kann.
Implementierung von Metriken zur Qualitätsbewertung von RDF-Daten
Nachdem in den letzten Jahren Umfang und Verfügbarkeit von RDF-Daten, insbesondere von Linked Data-Endpunkten, enorm zugenommen haben, sind aktuell verschiedene Bemühungen sichtbar, die Qualität dieser Daten zu bestimmen und zu verbessern. Um die Frage, wie gut die Qualität einer Menge von Daten ist, bewerten zu können, wurden verschiedene Qualitätsdimensionen vorgeschlagen. Diese ermöglichen die Abgrenzung unterschiedlicher Aspekte von Datenqualität, die separat mit dimensionsspezifischen Metriken ausgewertet werden können.
Ziel dieser Aufgabe ist es, neben der Beschäftigung mit dem Problemfeld der Qualität von RDF-Daten, vorgeschlagene Metriken zur Qualitätsanalyse zu implementieren. Als Framework soll UnifiedViews, ein generisches RDF-Datenverarbeitungs-Tool, zum Einsatz kommen. Weiterhin soll mit den implementierten Metriken eine Qualitätsanalyse durchgeführt und die Ergebnisse präsentiert werden.
openQA – Opensource Question Answering Framework
The use of Semantic Web technologies led to an increasing number of structured data published on the Web. Despite the advances on question answering systems retrieving the desired information from structured sources is still a substantial challenge. Users and researchers still face difficulties to integrate and compare their results. openQA is an open source question answering framework that unifies approaches from several domain experts. The aim of openQA is to provide a common platform that can be used to promote advances by easy integration and measuring different approaches.
- In this topic the student will be invited to write (help to write) a small project for one of the openQA modules. The student have the oportunity to choose a theme that is interested: optimization, data representation, between others.
Benutzeroberfläche zum semi-automatischen Lernen von Interlinks auf geographischen Daten
Die Auswertung, ob Links zwischen RDF Ressourcen auch tatsächlich korrekt sind, ist in der Regel mit hohem manuellen Aufwand verbunden. Im Falle von Daten mit geographischem Bezug (z.B. Hotels, Museen, Flughäfen, ...) können dazu unterstützend Dartellungen auf einer Karte vorgenommen werden. Unsere Facete2 Applikation bietet dabei einen einfachen Weg, eine solche Darstellung für geographische RDF Daten zu erzeugen Demo.
Desweiteren ermöglicht das LIMES Framework die Generierung von Links zwischen Ressourcen aus zwei gegebenen RDF Datensets. Dabei erfolgt die Konfiguration eines Verlinkungsvorgangs über XML-basierte “Link Specifications” (kurz: Link Specs). Die Ausführung einer Link Spec liefert als Resultat eine Menge von Links gemäß der Spezifikation.
Limes bietet nun u.a. folgende Funktionen:
- Die automatische Generierung einer (initialen) Link Spec mittels Angabe von zwei zu verlinkenden Konzepten mit einem jeweiligem RDF Datenset, z.B. «Städte aus Linked Geo Data» mit Orte aus DBpedia.
- Das semi-automatische Lernen einer neuen Link Spec basierend auf Nutzerbewertungen von Links aus einer entsprechenden vorangehenden Spec. Diese zwei Funktionen koennen zu einem Prozess aneinandergereiht werden, in welchem ein Nutzer sich zuerst eine initiale Link Spec generieren laesst, welche er anschliessend iterativ mittels Bewertungen («richtig», falsch, unbewertet) verfeinert.
Die Ziele der Praktikumsaufgabe sind:
- Client-seitig: Die Erweiterung von Facete 2 um entsprechende Benutzeroberflaechenkomponenten, welche die Durchfuehrung des beschriebenen Interlinking Prozesses ermöglichen.
- Server-seitig: Die Implementierung eines entsprechenden REST-API-Wrappers für Limes.
Die Umsetzung der Komponenten fuer den Client muss mittels HTML/CSS/JavaScript erfolgen, die der Server-seite mittels Java.
Automatischer Upload von Metadaten in ein Meta Data repository
Datenrepositories wie http://datahub.io dienen der Sammlung von Datensätzen und Metadaten zu den Datensätzen, wie Autoren, Größe des Datensatzes, Links zu anderen Datensätzen etc. Die Wartung dieser Metadaten ist schwierig, da sie bei Änderung des Datensatzes angepasst werden müssten. Data ID erlaubt die strukturierte Beschreibung dieser Daten zusammen mit dem Datensatz. Durch autmatischen Upload dieser Metadaten zu Datahub bleiben die Vorteile des Repositories erhalten.
Aufgabe:
- Implementierung eines Tools zum automatischen Extrahieren der Daten aus Data Id und Upload zu datahub.io
- Bevorzugte Sprache: Python
XSLT Transformation Dictionary 2 lemon
In den nächsten Wochen soll ein Wörterbuch in das neue lemon OWL Format transformiert werden mit Hilfe von XSLT.
Upgrade of People Viewer
Studenten:
Ressourcen: http://mlode.nlp2rdf.org/peopleviewer/mlode2012.html
Momentan ist der People Viewer für 4 oder 5 Konferenzen deployed. Der Nachteil ist, dass er nicht generisch ist, sondern immer wieder stark angepasst werden muss. Er soll besser konfigurierbar gemacht werden.
NIF2Brat
Studenten:
Ressourcen: http://nlp.stanford.edu:8080/corenlp/process, http://brat.nlplab.org/
Das neue Austauschformat NIF, z.B. hier zu sehen http://brown.nlp2rdf.org/ soll auf den Input des State-of-the-Art NLP Visualisierungstool Brat gemappt werden (ideallerweise integriert in Brat als Reader / Writer).
Anwendungen überwachten machinellen Lernens im Life-Science-Bereich
Unter Anwendung des DL-Learner Frameworks sollen Machine Learning Algorithmen weiterentwickelt und angewandt werden, zum Beispiel im Kontext des Rheumatoid Arthritis Responder Challenge.