Praktikum Semantic Web

Verantwortlich: Axel Ngonga, Jens Lehmann
Wann: min. 3 Termine Dienstag 13.15–14.45 Uhr (siehe unten); ansonsten individuell mit Betreuer
Wo: Paulinum, P-801
Modul: Semantic Web

Inhalt

Ziel der Veranstaltung ist die praktische Einarbeitung in Semantic Web Technologien. Zu diesem Zweck sollen existierende Frameworks (siehe AKSW Projektseite) um einzelne Module erweitert werden. Am ersten Termin werden die zu entwickelnden Module vorgestellt, welche Teile von Werkzeugen aus unterschiedlichen Schichten des Semantic Web Stacks sein werden. Die vorgestellten Themen werden dann bilateral mit den jeweiligen Betreuern bearbeitet und die Ergebnisse anschließend im Rahmen der Veranstaltung vorgestellt.

Voraussetzungen

Das Praktikum richtet sich an Studierende des Bachelor- und Master-Studiengangs Informatik. Inhaltliche Vorkenntnisse sind nicht erforderlich. Interesse an semantischen Technologien und Spaß an der Konzeption und Implementierung von Software-Modulen sind von Vorteil.

Organisatorisches


  • PDF DocumentEinführung
  • Präsenzveranstaltungen: Auftakt (07.04.); Endpräsentation (07.07. – mehr Termine je nach Anzahl Themen)
  • Individuelle Zusammenarbeit in Absprache mit den Betreuern
  • Praktikumsbericht in Form einer Online Publikation (Wiki, Issue-Tracker, ggf. Source-Code) und Endpräsentation (20 min). Besonders gute Arbeiten, werden auf unserem Arbeitsgruppen-Blog veröffentlicht, bzw. auf der Studentenkonferenz SKIL
  • Repository: Individuell, z.B. Bitbucket, Git, Sourceforge, Googlecode
  • Evaluation
  • Bewertungskriterien: Erfolgreiche Präsentation (15min + 5min)
  • Je nach Teilnehmerzahl werden die Praktikumsaufgaben einzeln oder in Zweier-Gruppen vergeben.

Vorträge


Vorträge werden im Laufe der Veranstaltung bekannt gegeben.


Thema Termin Anmerkung
TBA  TBA  TBA 

Themengebiete

Inhalt

openQA – Open source Question Answering Framework

Betreuer: Edgard Marx Jens Lehmann
Studenten:
Ressourcen: PDF DocumentSlides
Project Page: http://openqa.aksw.org

openQA Hybrid – Querying unstructured and structured data on the Web 

Betreuer: Edgard Marx Jens Lehmann
Studenten:
Project Page: http://openqa.aksw.org

DBtrends – Ranking Resources out of Knowledgebases

Betreuer: Edgard Marx Jens Lehmann
Studenten:
Project Page: http://dbtrends.aksw.org

  • In this topic the student will be invited to add a new dataset or ranking function into the project.

Erweiterung des AGDISTIS NLP Tools

Betreuer: Ricardo Usbeck, Axel Ngonga
Website: AGDISTIS
Studenten: Moritz Wilke
Slides: PDF DocumentSlides

Deutsche Version. Die Vision des Semantic Web von Tim Berners Lee ist ein Internet der Daten, in dem eine Maschine jede digitale Information versteht, diese verarbeiten, verbinden und uns Menschen zur Verfügung stellen kann.
AGDISTIS dient der Extraktion von semantischen Entitäten aus unstrukturierten Texten. Zur Zeit basiert das Framework auf linguistischen Heuristiken, String-Ähnlichkeiten und dem Graphalgorithmus HITS. Ziel dieser Arbeit ist es:

  1. weitere Algorithmen zur Verbesserung der Erkennung von Entitäten zu implementieren
  2. diese Algorithmen mittels Machine Learning zu trainineren und so das Gesamtergebnis zu verbessern.

Es wird angestrebt, die Ergebnisse dieser Arbeit wissenschaftlich zu publizieren.

HAWK – Question Answering over Linked Data

Betreuer: Ricardo Usbeck, Axel Ngonga
Website: HAWK
Studenten: Max Kießling, Erik Körner, Nicole Scheeren
Slides: PDF DocumentSlides

HAWK ist das erste Open Source Question Answering System, das wie Google oder Siri, Fragen auf der Grundlage von Texten aber auch strukturierten Daten beantworten kann. In dieser Arbeit soll das System erweitert werden in einem der folgenden Gebiete:

  1. andere Fragetypen beantworten
  2. die Performance des Systems verbessern, LGG einbauen
  3. eine Live-Demo bauen unter Einbindung von SIRIUS.

GERBIL – General Entity Annotator Benchmark

Betreuer: Ricardo Usbeck, Axel Ngonga
Website: GERBIL
Studenten: Simon Vetter
Slides: PDF DocumentSlides

GERBIL ist eine Open Source Platform zum Testen und Archivieren von Annotations Experimenten. Sie ermöglicht publizierte Experiment aufzubewahren und nachzuvollziehen. Viele Tool Entwickler würden gerne wissen, warum ihr Annotationstoll (z.B. http://dbpedia-spotlight.github.io/demo/) auf einem bestimmten Datensatz schlecht funktioniert oder Fehler wirft. Dafür soll eine Web-Applikation gebaut werden, die verschiedene Feature und deren Auftreten mit D3JS Grafiken anzeigt.

Platform for Semantic Ranking

Betreuer: Ricardo Usbeck, Axel Ngonga
Studenten:
Slides: PDF DocumentSlides

Create a platform to enable extensible, archivable and repeatable semantic ranking approaches for dataset, document, triple and entity ranking.

  • Implement and upload ranking algorithm, or give URI to webservice
  • Implement dataset wrapper
  • Implement metrics
  • Implement a first machine learning algorithm for combining several single approaches

Suchmaschine für akademische Jobs

Betreuer: Ricardo Usbeck, Axel Ngonga
Studenten: Falk Müller
Slides: PDF DocumentSlides

Die Suche nach Jobs im akademischen Umfeld gestaltet sich schwierig, da keine größere Platform existiert und jede Hochschule ihre Angebote verschiedentlich ins Web stellt. Es sollen standardisierte Tools genutzt werden, um alle relevanten Webseiten zu crawlen (Crawler 4 J), sie zu semantifizieren (FOX+AGDISTIS) und darzustellen (beliebig). Ziel ist die Schaffung eines Demonstrators.

Integration von RDF Datensätzen

Betreuer: Mohamed Sherif, Axel Ngonga
Studenten: Wolfgang Otto
Slides: PDF DocumentSlides

Viele RDF Datensätze erhalten implizite sowie explizite Referenzen zu anderen Datensätzen. Ziel von DEER ist es daher, Datensätze für Anwendungen wie Question Answering und statistisch Analysen zu integrieren und zu fusionieren. Im Rahmen dieser Aufgabe soll DEER um folgende Module erweitert werden:

  • Anreicherung über DBpedia Spotlight
  • Relationsextraktion über Stanford NLP Suite

Die Skalierbarkeit der Erweiterungen ist mit echten Daten zu evaluieren.

Erweiterung von FOX

Betreuer: René Speck, Axel Ngonga
Studenten: Benjamin Rösch, Andreas Krause
Slides: PDF DocumentSlides

Zur Extraktion von RDF aus unstrukturierten Daten werden Named Entity Recognition (NER) sowie Relation Extraction Rahmenwerke benötigt. Über die letzten Jahre wurde eine Vielzahl von Open-Source NER Lösungen implementiert (Clear NLP, Open NLP, ...). FOX ist ein Rahmenwerk, welches die Ergebnisse mehrerer Named Entity Recognition Frameworks aggregiert, um eine hörere Genauigkeit (Precision) sowie Vollständigkeit (Recall) zu erreichen. Ziel dieser Praktikumsaufgabe sind

  1. die Integration von NER Werkzeugen für andere Sprachen (insb. Französisch) in FOX sowie
  2. die Evaluation der neuen FOX Version.

Skalierbare Ähnlichkeitsberechnungen

Betreuer: Axel Ngonga
Studenten: Benedict Preßler
Slides: PDF DocumentSlides

Die Verknüpfung von Wissensbasen spielt eine zentrale Rolle bei einer Vielzahl von Anwendungen, wie z.B. Question Answering, föderierte Anfrage, etc. Zur Berechnung von Links zwischen Wissenbasen führen Frameworks wir LIMES Ähnlichkeitsberechnungen durch, anhand derer sie bestimmen können, welche Ressourcen aus zwei Wissensbasen ähnlich sind. Ziel dieser Aufgabe ist die Erarbeitung von skalierbaren Ansätzen zur zeiteffizienten Erkennung von Paaren von Ressourcen deren Ähnlichkeit über einem vorgegebenen Schwellwert liegt. Zur Evaluation sind Skalierbarkeitsexperimente durchzuführen.

Linked Data Browser

Betreuer: Axel Ngonga
Studenten: Yves Bugge und Dan Häberlein
Slides: PDF DocumentSlides

Im Semantic Web werden Daten als RDF beschrieben und es stehen selten natürlichsprachliche Beschreibung dieser Ressourcen zur Verfügung. Ziel dieser Aufgabe ist die Entwicklung eines auf SPARQL2NL basierenden Browsers für RDF Daten, welches in der Lage ist, nicht nur RDF Daten anzuzeigen sondern auch natürlichsprachliche Beschreibungen dieser Ressourcen generieren und anzeigen kann.

Benutzeroberfläche zum semi-automatischen Lernen von Interlinks auf geographischen Daten

Betreuer: Claus Stadler, Jens Lehmann
Studenten: Martin Stoffers, Kevin Shrestha
Ressourcen: PDF DocumentSlides

Die Auswertung, ob Links zwischen RDF Ressourcen auch tatsächlich korrekt sind, ist in der Regel mit hohem manuellen Aufwand verbunden. Im Falle von Daten mit geographischem Bezug (z.B. Hotels, Museen, Flughäfen, ...) können dazu unterstützend Dartellungen auf einer Karte vorgenommen werden. Unsere Facete2 Applikation bietet dabei einen einfachen Weg, eine solche Darstellung für geographische RDF Daten zu erzeugen Demo.
Desweiteren ermöglicht das LIMES Framework die Generierung von Links zwischen Ressourcen aus zwei gegebenen RDF Datensets. Dabei erfolgt die Konfiguration eines Verlinkungsvorgangs über XML-basierte “Link Specifications” (kurz: Link Specs). Die Ausführung einer Link Spec liefert als Resultat eine Menge von Links gemäß der Spezifikation.
Limes bietet nun u.a. folgende Funktionen:


  • Die automatische Generierung einer (initialen) Link Spec mittels Angabe von zwei zu verlinkenden Konzepten mit einem jeweiligem RDF Datenset, z.B. «Städte aus Linked Geo Data» mit “Orte aus DBpedia”.
  • Das semi-automatische Lernen einer neuen Link Spec basierend auf Nutzerbewertungen von Links aus einer entsprechenden vorangehenden Spec. Diese zwei Funktionen koennen zu einem Prozess aneinandergereiht werden, in welchem ein Nutzer sich zuerst eine initiale Link Spec generieren laesst, welche er anschliessend iterativ mittels Bewertungen («richtig», “falsch”, “unbewertet”) verfeinert.

Die Ziele der Praktikumsaufgabe sind:


  • Client-seitig: Die Erweiterung von Geo Link (siehe unten) um entsprechende Benutzeroberflaechenkomponenten, welche die Durchfuehrung des beschriebenen Interlinking Prozesses ermöglichen.
  • Server-seitig: Die Implementierung eines entsprechenden REST-API-Wrappers für Limes.

Die Umsetzung der Komponenten fuer den Client muss mittels HTML/CSS/JavaScript erfolgen, die der Server-seite mittels Java. Basierend auf Facete 2 und Limes wurde bereits das GeoLink Projekt vorbereitet, welches notwendige Komponenten integriert.

OWL-Reasoner-Vergleich auf Life-Science-Ontologien


Gegenwärtig steht eine Vielzahl von umfangreichen semantischen Datenbanken aus dem Bereich der Biologie, Medizin und Genetik zur Verfügung. Darauf aufbauend und mit der Unterstützung von OWL Reasonern zur Extraktion von implizitem Wissen können bspw. neue Anwendungen zur Unterstützung von Domänenexperten bei der Suche nach Symptomen und Ursachen für Krankheiten und wirksamen Medikamenten entstehen. Leider stellt der Einsatz von Reasoning-Techniken mit aktueller Hardware auf derart umfangreichen Datensätzen gegenwärtig eine Herausforderung dar. Im Praktikum sollen daher verschiedene OWL Reasoner mit Hilfe eines Frameworks auf gegebenen Daten getestet und verglichen werden. Ziel des Praktikums ist es, nach Abschluss der Tests Aussagen darüber treffen zu können, welche OWL Reasoner für welche Datensätze besser geeignet sind, bzw. ob sich bestimmte OWL Reasoner allgemein besser oder schlechter für den Einsatz in der Life-Science-Domäne eignen.


Anwendung von Machine Learning auf Renault Autokonfigurator


Der Renault Konfigurationsassistent für Autohändler bietet auch RDF als Ausgabeformat an. Die Systematik muss analysiert werden. Geeignete Szenarien für Maschinelles Lernen entwickelt, die nötigen Daten automatisiert abgefragt und in einer Wissensdatenbank abgespeichert werden. Danach kann der DL-Learner eingesetzt werden um Zusammenhänge zu erkennen, z.B. Gemeinsamkeiten von Modellreihen oder Inkompatibilitäten.

Evaluation, Verfeinerung des Open Government Data Vokabulars und Test anhand von inkubatorischen Anwendungen

Betreuer: Michael Martin
Studenten: Dennis Konrad
Ressourcen: https://github.com/fraunhoferfokus/ogd-metadata

Die Evaluation, Verfeinerung und Test umfassen folgende Bereiche:
* Ausgestaltung des Open Government Data Vokabulars (OGD). Insbesondere sind Konzepte des Vokabulars unter Aspekten wie Anwendbarkeit und flexibler Erweiterbarkeit zu betrachten. Weiterhin ist die Kombination des entstehenden Vokabulars OGD und bestehenden Vokabularen wie DCAT, Dublin Core, Schema.org, FOAF, ORG, Voi D, Data ID und Service Description zu untersuchen.


* Evaluation und Erarbeitung von Konzepten zur facettierten Suche auf Basis des zu entwickelnden Schemas (OGD-Vokabulars), Kategorisierungskonzeption.


* Konzepterarbeitung zur Textextraktion, Verschlagwortung, Synonymsuche und Integration, Acronymauflösung und Internationalisierung zur Indexerweiterung, um die Suche und Exploration von öffentlichen Daten zu unterstützen.


* Vorschläge für die Erzeugung eines Datenhaltungskonzeptes für den Einsatz im Government.


* Vorschläge für die Infrastrukturplanung im Zusammenspiel mit dem Metadatenkatalog und dezentral organisierter Datenhaltung.


Parser und Serializer Tests

Betreuer: Natanael Arndt, Konrad Abicht
Studenten: Marcus Kastner
Ressourcen: http://www.w3.org/TR/rdf11-testcases/

Um Daten im Resource Description Framework (RDF) in Dateien zu speichern existieren verschiedene Serialisierungsformate (Syntax). Im RDF 1.1 Standard sind RDF/XML, Turtle, N-Triples, N-Quads, Tri G und JSON-LD spezifiziert. Damit diese Formate zum Austausch verwendet werden können, müssen verschiedene Parser und Serializer diese Formate gleich interpretieren. Um diese Konformität zu überprüfen hat die RDF Working Group Testfälle zusammengestellt. Ziel dieses Praktikums ist es die in RDF beschriebenen Testfälle in PHPunit dynamisch umzusetzen, sodass sie auf Parser und Serializer des Saft-Projekts und des Erfurt-Frameworks angewendet werden können.


Interpretation von SPARQL Anfragen in Triple / Quad- Operationen

Die Datenhaltung im Semantic Web bzw. Resource Description Framework (RDF) findet in Form von Triples bzw. Quads statt.
Am häufigsten wird dabei SPARQL an Anfrage-Sprache zur Anfrage auf RDF-Graphen verwendet.
Die einer Anwendung zugrundeliegende Speicherstruktur bassiert allerdings auf Triplen / Quads (z.B. Cache-Lösungen).
Auf diese Strukturen kann mit grundlegenden Triple / Quad- Operationen (add, delete, get) gugegriffen werden.
Ziel dieses Praktikums ist es daher, unter Berücksichtigung existierender Komponenten und Lösungen, SPARQL-Anfragen in Triple / Quad- Operationen zu übersetzen.
Die Umsetzung soll im Saft-Projekt in PHP erfolgen.

Formulare aus SPARQL-Queries

Betreuer: Andreas Nareike, Natanael Arndt
Studenten: Thomas Döring

Aus der graphischen Darstellung einer SPARQL-Query im Visual SPARQL Builder sollen die Formulartemplates transformiert werden, die z.B. mit RDForm ausgewertet werden können, um Formulare im OntoWiki anzuzeigen.


Dabei kann die JSON-Darstellung des VSB genutzt werden, aus der die SPARQL-Query generiert wird, und eventuell Teile das VSB-eigenen Parsers. Als Beispielontologie kann die Ontologie des AMSL-Projekts der UB Leipzig benutzt werden.




Themengebiete aus dem Vorjahr


Web-Oberfläche für Geo Lift

Betreuer: Axel Ngonga
Studenten: Alrik Hausdorf, Eugen Rein
Slides: PDF DocumentSlides

Viele RDF Datensätze erhalten implizite Referenzen zu geographischen Entitäten. Ziel von GeoLift ist es, diese Entitäten im Datensatz zu explizieren. Im Rahmen dieser Aufgabe ist eine Weboberfläche für Geo Lift zu bauen. Die Kommunikation mit Geo Lift ist über REST Interfaces zu realisieren. Die zu implementierende Oberfläche soll auch mit neuen Versionen von Geo Lift funktionieren. Daher soll zunächst abgefragt werden, welche Module von der aktuellen Geo Lift- Version implementiert werden und wie diese zu parametrisieren sind. Aus diesen Daten heraus soll die Oberfläche gestaltet werden. Nach der Zusammenstellung von Verarbeitungsschritten für die Eingabedaten soll eine Geo Lift- Konfigurationsdatei erstellt und an den Geo Lift- Server geschickt werden. Das Ergebnis der Verarbeitung, ein Link zu einer RDF Datei, soll abschließend gezeigt werden.


Parallelisierung von Ähnlichkeitsberechnungen

Betreuer: Tommaso Soru, Axel Ngonga
Studenten: Alexander Böhm
Slides: PDF DocumentSlides

Zur Berechnung von Links zwischen Wissenbasen führen deklarative Link Discovery Frameworks wie LIMES Ähnlichkeitsberechnungen durch. Obwohl skalierbare Algorithmen für bestimmte Ähnlichkeitsmetriken bereits existieren, erfordern die großen zu verarbeitenden Datenmengen die Parallelisierung dieser Ansätze zum Erreichen annehmbarer Laufzeiten. Ziel dieser Aufgabe ist die Parallelisierung eines Verfahrens zur Berechnung von Links zwischen Wissensbasen. Zur Evaluation sind Skalierbarkeitsexperimente durchzuführen. Parallelisierung in GPUs sind ebenso von Interesse wie Thread-basierte Ansätze.

Automatischer Upload von Metadaten in ein Meta Data repository

Betreuer: Martin Brümmer
Studenten:
Ressourcen: PDF DocumentSlides

Datenrepositories wie http://datahub.io dienen der Sammlung von Datensätzen und Metadaten zu den Datensätzen, wie Autoren, Größe des Datensatzes, Links zu anderen Datensätzen etc. Die Wartung dieser Metadaten ist schwierig, da sie bei Änderung des Datensatzes angepasst werden müssten. Data ID erlaubt die strukturierte Beschreibung dieser Daten zusammen mit dem Datensatz. Durch autmatischen Upload dieser Metadaten zu Datahub bleiben die Vorteile des Repositories erhalten.


Aufgabe:

  • Implementierung eines Tools zum automatischen Extrahieren der Daten aus Data Id und Upload zu datahub.io
  • Bevorzugte Sprache: Python

XSLT Transformation Dictionary 2 lemon

Betreuer: Martin Brümmer
Studenten:
Ressourcen: http://kdictionaries.com/

In den nächsten Wochen soll ein Wörterbuch in das neue lemon OWL Format transformiert werden mit Hilfe von XSLT.

UCI – Machine Learning Repository

Betreuer: Sebastian Hellmann Diego Esteves
Studenten:
Ressourcen: Paper

We are planning to convert the whole UCI MAchine Learning Repository to RDF. As a student, you will have the opportunity to gain Ontology Engineering skills and learn about data management.


NIF2Brat


Das neue Austauschformat NIF, z.B. hier zu sehen http://brown.nlp2rdf.org/ soll auf den Input des State-of-the-Art NLP Visualisierungstool Brat gemappt werden (ideallerweise integriert in Brat als Reader / Writer).

Anwendungen überwachten machinellen Lernens im Life-Science-Bereich

Betreuer: Lorenz Bühmann, Jens Lehmann
Studenten: Lucas Stadler

Unter Anwendung des DL-Learner Frameworks sollen Machine Learning Algorithmen weiterentwickelt und angewandt werden, zum Beispiel im Kontext des Rheumatoid Arthritis Responder Challenge.


 
Zu dieser Seite gibt es keine Dateien. [Zeige Dateien/Upload]
Kein Kommentar. [Zeige Kommentare]