Praktikum Semantic Web
Wann: min. 3 Termine Dienstag 13.15–14.45 Uhr (siehe unten); ansonsten individuell mit Betreuer
Wo: Paulinum, P-801
Modul: Semantic Web
Inhalt
Ziel der Veranstaltung ist die praktische Einarbeitung in Semantic Web Technologien. Zu diesem Zweck sollen existierende Frameworks (siehe AKSW Projektseite) um einzelne Module erweitert werden. Am ersten Termin werden die zu entwickelnden Module vorgestellt, welche Teile von Werkzeugen aus unterschiedlichen Schichten des Semantic Web Stacks sein werden. Die vorgestellten Themen werden dann bilateral mit den jeweiligen Betreuern bearbeitet und die Ergebnisse anschließend im Rahmen der Veranstaltung vorgestellt.
Voraussetzungen
Das Praktikum richtet sich an Studierende des Bachelor- und Master-Studiengangs Informatik. Inhaltliche Vorkenntnisse sind nicht erforderlich. Interesse an semantischen Technologien und Spaß an der Konzeption und Implementierung von Software-Modulen sind von Vorteil.
Organisatorisches
- Einführung
- Präsenzveranstaltungen: Auftakt (07.04.); Endpräsentation (07.07. – mehr Termine je nach Anzahl Themen)
- Individuelle Zusammenarbeit in Absprache mit den Betreuern
- Praktikumsbericht in Form einer Online Publikation (Wiki, Issue-Tracker, ggf. Source-Code) und Endpräsentation (20 min). Besonders gute Arbeiten, werden auf unserem Arbeitsgruppen-Blog veröffentlicht, bzw. auf der Studentenkonferenz SKIL
- Repository: Individuell, z.B. Bitbucket, Git, Sourceforge, Googlecode
- Evaluation
- Bewertungskriterien: Erfolgreiche Präsentation (15min + 5min)
- Je nach Teilnehmerzahl werden die Praktikumsaufgaben einzeln oder in Zweier-Gruppen vergeben.
Vorträge
Vorträge werden im Laufe der Veranstaltung bekannt gegeben.
Thema | Termin | Anmerkung |
TBA | TBA | TBA |
Themengebiete
openQA – Open source Question Answering Framework
Studenten:
Ressourcen: Slides
Project Page: http://openqa.aksw.org
- In this topic the student will be invited to write a small project for one of the openQA modules. The student have the opportunity to choose one of the following themes:
- optimization;
- fixing issues https://bitbucket.org/emarx/openqa/issues?status=new&status=open;
- interface;
- test, between others.
openQA Hybrid – Querying unstructured and structured data on the Web
- In this topic the student will be invited to plug OpenEphyra on openQA.
DBtrends – Ranking Resources out of Knowledgebases
- In this topic the student will be invited to add a new dataset or ranking function into the project.
Erweiterung des AGDISTIS NLP Tools
Deutsche Version. Die Vision des Semantic Web von Tim Berners Lee ist ein Internet der Daten, in dem eine Maschine jede digitale Information versteht, diese verarbeiten, verbinden und uns Menschen zur Verfügung stellen kann.
AGDISTIS dient der Extraktion von semantischen Entitäten aus unstrukturierten Texten. Zur Zeit basiert das Framework auf linguistischen Heuristiken, String-Ähnlichkeiten und dem Graphalgorithmus HITS. Ziel dieser Arbeit ist es:
- weitere Algorithmen zur Verbesserung der Erkennung von Entitäten zu implementieren
- diese Algorithmen mittels Machine Learning zu trainineren und so das Gesamtergebnis zu verbessern.
Es wird angestrebt, die Ergebnisse dieser Arbeit wissenschaftlich zu publizieren.
HAWK – Question Answering over Linked Data
Website: HAWK
Studenten: Max Kießling, Erik Körner, Nicole Scheeren
Slides: Slides
HAWK ist das erste Open Source Question Answering System, das wie Google oder Siri, Fragen auf der Grundlage von Texten aber auch strukturierten Daten beantworten kann. In dieser Arbeit soll das System erweitert werden in einem der folgenden Gebiete:
- andere Fragetypen beantworten
- die Performance des Systems verbessern, LGG einbauen
- eine Live-Demo bauen unter Einbindung von SIRIUS.
GERBIL – General Entity Annotator Benchmark
GERBIL ist eine Open Source Platform zum Testen und Archivieren von Annotations Experimenten. Sie ermöglicht publizierte Experiment aufzubewahren und nachzuvollziehen. Viele Tool Entwickler würden gerne wissen, warum ihr Annotationstoll (z.B. http://dbpedia-spotlight.github.io/demo/) auf einem bestimmten Datensatz schlecht funktioniert oder Fehler wirft. Dafür soll eine Web-Applikation gebaut werden, die verschiedene Feature und deren Auftreten mit D3JS Grafiken anzeigt.
Platform for Semantic Ranking
Create a platform to enable extensible, archivable and repeatable semantic ranking approaches for dataset, document, triple and entity ranking.
- Implement and upload ranking algorithm, or give URI to webservice
- Implement dataset wrapper
- Implement metrics
- Implement a first machine learning algorithm for combining several single approaches
Suchmaschine für akademische Jobs
Die Suche nach Jobs im akademischen Umfeld gestaltet sich schwierig, da keine größere Platform existiert und jede Hochschule ihre Angebote verschiedentlich ins Web stellt. Es sollen standardisierte Tools genutzt werden, um alle relevanten Webseiten zu crawlen (Crawler 4 J), sie zu semantifizieren (FOX+AGDISTIS) und darzustellen (beliebig). Ziel ist die Schaffung eines Demonstrators.
Integration von RDF Datensätzen
Viele RDF Datensätze erhalten implizite sowie explizite Referenzen zu anderen Datensätzen. Ziel von DEER ist es daher, Datensätze für Anwendungen wie Question Answering und statistisch Analysen zu integrieren und zu fusionieren. Im Rahmen dieser Aufgabe soll DEER um folgende Module erweitert werden:
- Anreicherung über DBpedia Spotlight
- Relationsextraktion über Stanford NLP Suite
Die Skalierbarkeit der Erweiterungen ist mit echten Daten zu evaluieren.
Erweiterung von FOX
Zur Extraktion von RDF aus unstrukturierten Daten werden Named Entity Recognition (NER) sowie Relation Extraction Rahmenwerke benötigt. Über die letzten Jahre wurde eine Vielzahl von Open-Source NER Lösungen implementiert (Clear NLP, Open NLP, ...). FOX ist ein Rahmenwerk, welches die Ergebnisse mehrerer Named Entity Recognition Frameworks aggregiert, um eine hörere Genauigkeit (Precision) sowie Vollständigkeit (Recall) zu erreichen. Ziel dieser Praktikumsaufgabe sind
- die Integration von NER Werkzeugen für andere Sprachen (insb. Französisch) in FOX sowie
- die Evaluation der neuen FOX Version.
Skalierbare Ähnlichkeitsberechnungen
Die Verknüpfung von Wissensbasen spielt eine zentrale Rolle bei einer Vielzahl von Anwendungen, wie z.B. Question Answering, föderierte Anfrage, etc. Zur Berechnung von Links zwischen Wissenbasen führen Frameworks wir LIMES Ähnlichkeitsberechnungen durch, anhand derer sie bestimmen können, welche Ressourcen aus zwei Wissensbasen ähnlich sind. Ziel dieser Aufgabe ist die Erarbeitung von skalierbaren Ansätzen zur zeiteffizienten Erkennung von Paaren von Ressourcen deren Ähnlichkeit über einem vorgegebenen Schwellwert liegt. Zur Evaluation sind Skalierbarkeitsexperimente durchzuführen.
Linked Data Browser
Im Semantic Web werden Daten als RDF beschrieben und es stehen selten natürlichsprachliche Beschreibung dieser Ressourcen zur Verfügung. Ziel dieser Aufgabe ist die Entwicklung eines auf SPARQL2NL basierenden Browsers für RDF Daten, welches in der Lage ist, nicht nur RDF Daten anzuzeigen sondern auch natürlichsprachliche Beschreibungen dieser Ressourcen generieren und anzeigen kann.
Benutzeroberfläche zum semi-automatischen Lernen von Interlinks auf geographischen Daten
Die Auswertung, ob Links zwischen RDF Ressourcen auch tatsächlich korrekt sind, ist in der Regel mit hohem manuellen Aufwand verbunden. Im Falle von Daten mit geographischem Bezug (z.B. Hotels, Museen, Flughäfen, ...) können dazu unterstützend Dartellungen auf einer Karte vorgenommen werden. Unsere Facete2 Applikation bietet dabei einen einfachen Weg, eine solche Darstellung für geographische RDF Daten zu erzeugen Demo.
Desweiteren ermöglicht das LIMES Framework die Generierung von Links zwischen Ressourcen aus zwei gegebenen RDF Datensets. Dabei erfolgt die Konfiguration eines Verlinkungsvorgangs über XML-basierte “Link Specifications” (kurz: Link Specs). Die Ausführung einer Link Spec liefert als Resultat eine Menge von Links gemäß der Spezifikation.
Limes bietet nun u.a. folgende Funktionen:
- Die automatische Generierung einer (initialen) Link Spec mittels Angabe von zwei zu verlinkenden Konzepten mit einem jeweiligem RDF Datenset, z.B. «Städte aus Linked Geo Data» mit Orte aus DBpedia.
- Das semi-automatische Lernen einer neuen Link Spec basierend auf Nutzerbewertungen von Links aus einer entsprechenden vorangehenden Spec. Diese zwei Funktionen koennen zu einem Prozess aneinandergereiht werden, in welchem ein Nutzer sich zuerst eine initiale Link Spec generieren laesst, welche er anschliessend iterativ mittels Bewertungen («richtig», falsch, unbewertet) verfeinert.
Die Ziele der Praktikumsaufgabe sind:
- Client-seitig: Die Erweiterung von Geo Link (siehe unten) um entsprechende Benutzeroberflaechenkomponenten, welche die Durchfuehrung des beschriebenen Interlinking Prozesses ermöglichen.
- Server-seitig: Die Implementierung eines entsprechenden REST-API-Wrappers für Limes.
Die Umsetzung der Komponenten fuer den Client muss mittels HTML/CSS/JavaScript erfolgen, die der Server-seite mittels Java. Basierend auf Facete 2 und Limes wurde bereits das GeoLink Projekt vorbereitet, welches notwendige Komponenten integriert.
OWL-Reasoner-Vergleich auf Life-Science-Ontologien
Studenten: Oliver Swoboda, Sebastian Thamm
Slides: Slides
Ressourcen: http://www.easychair.org/smart-program/VSL2014/ORE-competition.html, https://github.com/andreas-steigmiller/ore-2014-competition-framework/
Gegenwärtig steht eine Vielzahl von umfangreichen semantischen Datenbanken aus dem Bereich der Biologie, Medizin und Genetik zur Verfügung. Darauf aufbauend und mit der Unterstützung von OWL Reasonern zur Extraktion von implizitem Wissen können bspw. neue Anwendungen zur Unterstützung von Domänenexperten bei der Suche nach Symptomen und Ursachen für Krankheiten und wirksamen Medikamenten entstehen. Leider stellt der Einsatz von Reasoning-Techniken mit aktueller Hardware auf derart umfangreichen Datensätzen gegenwärtig eine Herausforderung dar. Im Praktikum sollen daher verschiedene OWL Reasoner mit Hilfe eines Frameworks auf gegebenen Daten getestet und verglichen werden. Ziel des Praktikums ist es, nach Abschluss der Tests Aussagen darüber treffen zu können, welche OWL Reasoner für welche Datensätze besser geeignet sind, bzw. ob sich bestimmte OWL Reasoner allgemein besser oder schlechter für den Einsatz in der Life-Science-Domäne eignen.
Anwendung von Machine Learning auf Renault Autokonfigurator
Studenten:
Slides: http://www.slideshare.net/fpservant/product-customization-as-linked-data
Ressourcen: http://uk.co.rplug.renault.com/product/gen?embed=true http://doc.rplug.renault.com/
Der Renault Konfigurationsassistent für Autohändler bietet auch RDF als Ausgabeformat an. Die Systematik muss analysiert werden. Geeignete Szenarien für Maschinelles Lernen entwickelt, die nötigen Daten automatisiert abgefragt und in einer Wissensdatenbank abgespeichert werden. Danach kann der DL-Learner eingesetzt werden um Zusammenhänge zu erkennen, z.B. Gemeinsamkeiten von Modellreihen oder Inkompatibilitäten.
Evaluation, Verfeinerung des Open Government Data Vokabulars und Test anhand von inkubatorischen Anwendungen
Studenten: Dennis Konrad
Ressourcen: https://github.com/fraunhoferfokus/ogd-metadata
Die Evaluation, Verfeinerung und Test umfassen folgende Bereiche:
* Ausgestaltung des Open Government Data Vokabulars (OGD). Insbesondere sind Konzepte des Vokabulars unter Aspekten wie Anwendbarkeit und flexibler Erweiterbarkeit zu betrachten. Weiterhin ist die Kombination des entstehenden Vokabulars OGD und bestehenden Vokabularen wie DCAT, Dublin Core, Schema.org, FOAF, ORG, Voi D, Data ID und Service Description zu untersuchen.
* Evaluation und Erarbeitung von Konzepten zur facettierten Suche auf Basis des zu entwickelnden Schemas (OGD-Vokabulars), Kategorisierungskonzeption.
* Konzepterarbeitung zur Textextraktion, Verschlagwortung, Synonymsuche und Integration, Acronymauflösung und Internationalisierung zur Indexerweiterung, um die Suche und Exploration von öffentlichen Daten zu unterstützen.
* Vorschläge für die Erzeugung eines Datenhaltungskonzeptes für den Einsatz im Government.
* Vorschläge für die Infrastrukturplanung im Zusammenspiel mit dem Metadatenkatalog und dezentral organisierter Datenhaltung.
Parser und Serializer Tests
Studenten: Marcus Kastner
Ressourcen: http://www.w3.org/TR/rdf11-testcases/
Um Daten im Resource Description Framework (RDF) in Dateien zu speichern existieren verschiedene Serialisierungsformate (Syntax). Im RDF 1.1 Standard sind RDF/XML, Turtle, N-Triples, N-Quads, Tri G und JSON-LD spezifiziert. Damit diese Formate zum Austausch verwendet werden können, müssen verschiedene Parser und Serializer diese Formate gleich interpretieren. Um diese Konformität zu überprüfen hat die RDF Working Group Testfälle zusammengestellt. Ziel dieses Praktikums ist es die in RDF beschriebenen Testfälle in PHPunit dynamisch umzusetzen, sodass sie auf Parser und Serializer des Saft-Projekts und des Erfurt-Frameworks angewendet werden können.
Interpretation von SPARQL Anfragen in Triple / Quad- Operationen
Studenten:
Ressourcen: http://www.w3.org/TR/2013/REC-sparql11-query-20130321/
Die Datenhaltung im Semantic Web bzw. Resource Description Framework (RDF) findet in Form von Triples bzw. Quads statt.
Am häufigsten wird dabei SPARQL an Anfrage-Sprache zur Anfrage auf RDF-Graphen verwendet.
Die einer Anwendung zugrundeliegende Speicherstruktur bassiert allerdings auf Triplen / Quads (z.B. Cache-Lösungen).
Auf diese Strukturen kann mit grundlegenden Triple / Quad- Operationen (add, delete, get) gugegriffen werden.
Ziel dieses Praktikums ist es daher, unter Berücksichtigung existierender Komponenten und Lösungen, SPARQL-Anfragen in Triple / Quad- Operationen zu übersetzen.
Die Umsetzung soll im Saft-Projekt in PHP erfolgen.
Formulare aus SPARQL-Queries
Aus der graphischen Darstellung einer SPARQL-Query im Visual SPARQL Builder sollen die Formulartemplates transformiert werden, die z.B. mit RDForm ausgewertet werden können, um Formulare im OntoWiki anzuzeigen.
Dabei kann die JSON-Darstellung des VSB genutzt werden, aus der die SPARQL-Query generiert wird, und eventuell Teile das VSB-eigenen Parsers. Als Beispielontologie kann die Ontologie des AMSL-Projekts der UB Leipzig benutzt werden.
Themengebiete aus dem Vorjahr
Web-Oberfläche für Geo Lift
Viele RDF Datensätze erhalten implizite Referenzen zu geographischen Entitäten. Ziel von GeoLift ist es, diese Entitäten im Datensatz zu explizieren. Im Rahmen dieser Aufgabe ist eine Weboberfläche für Geo Lift zu bauen. Die Kommunikation mit Geo Lift ist über REST Interfaces zu realisieren. Die zu implementierende Oberfläche soll auch mit neuen Versionen von Geo Lift funktionieren. Daher soll zunächst abgefragt werden, welche Module von der aktuellen Geo Lift- Version implementiert werden und wie diese zu parametrisieren sind. Aus diesen Daten heraus soll die Oberfläche gestaltet werden. Nach der Zusammenstellung von Verarbeitungsschritten für die Eingabedaten soll eine Geo Lift- Konfigurationsdatei erstellt und an den Geo Lift- Server geschickt werden. Das Ergebnis der Verarbeitung, ein Link zu einer RDF Datei, soll abschließend gezeigt werden.
Parallelisierung von Ähnlichkeitsberechnungen
Zur Berechnung von Links zwischen Wissenbasen führen deklarative Link Discovery Frameworks wie LIMES Ähnlichkeitsberechnungen durch. Obwohl skalierbare Algorithmen für bestimmte Ähnlichkeitsmetriken bereits existieren, erfordern die großen zu verarbeitenden Datenmengen die Parallelisierung dieser Ansätze zum Erreichen annehmbarer Laufzeiten. Ziel dieser Aufgabe ist die Parallelisierung eines Verfahrens zur Berechnung von Links zwischen Wissensbasen. Zur Evaluation sind Skalierbarkeitsexperimente durchzuführen. Parallelisierung in GPUs sind ebenso von Interesse wie Thread-basierte Ansätze.
Automatischer Upload von Metadaten in ein Meta Data repository
Datenrepositories wie http://datahub.io dienen der Sammlung von Datensätzen und Metadaten zu den Datensätzen, wie Autoren, Größe des Datensatzes, Links zu anderen Datensätzen etc. Die Wartung dieser Metadaten ist schwierig, da sie bei Änderung des Datensatzes angepasst werden müssten. Data ID erlaubt die strukturierte Beschreibung dieser Daten zusammen mit dem Datensatz. Durch autmatischen Upload dieser Metadaten zu Datahub bleiben die Vorteile des Repositories erhalten.
Aufgabe:
- Implementierung eines Tools zum automatischen Extrahieren der Daten aus Data Id und Upload zu datahub.io
- Bevorzugte Sprache: Python
XSLT Transformation Dictionary 2 lemon
In den nächsten Wochen soll ein Wörterbuch in das neue lemon OWL Format transformiert werden mit Hilfe von XSLT.
UCI – Machine Learning Repository
We are planning to convert the whole UCI MAchine Learning Repository to RDF. As a student, you will have the opportunity to gain Ontology Engineering skills and learn about data management.
NIF2Brat
Studenten:
Ressourcen: http://nlp.stanford.edu:8080/corenlp/process, http://brat.nlplab.org/
Das neue Austauschformat NIF, z.B. hier zu sehen http://brown.nlp2rdf.org/ soll auf den Input des State-of-the-Art NLP Visualisierungstool Brat gemappt werden (ideallerweise integriert in Brat als Reader / Writer).
Anwendungen überwachten machinellen Lernens im Life-Science-Bereich
Unter Anwendung des DL-Learner Frameworks sollen Machine Learning Algorithmen weiterentwickelt und angewandt werden, zum Beispiel im Kontext des Rheumatoid Arthritis Responder Challenge.