Praktikum Semantic Web

Verantwortlich: Axel Ngonga, Jens Lehmann
Wann: 3 Termine Dienstag 13–15 Uhr zum Auftakt, Zwischenpräsentation und Endpräsentation; ansonsten individuell mit Betreuer
W: SG 1–10
Modul: Semantic Web

Organisatorisches

Präsenzveranstaltungen:
- Auftakt (10.04.); Zwischenpräsentation (08.05.); Endpräsentation (03.07.)
- Zudem wird die Teilnahme an einem einstündigen Forschungsexperiment gefordert. Es stehen mehrere zur Auswahl, die während der Auftakt-Veranstaltung vorgestellt werden. Die Ergebnisse der Experimente werden am Ende diskutiert, so dass man einen Einblick in aktuelle Forschungsprojekte erhält.
Individuelle Zusammenarbeit in Absprache mit den Betreuern
Praktikumsbericht in Form einer Online Publikation (Wiki, Issue-Tracker, ggf. Source-Code) und Endpräsentation (20 min). Besonders gute Arbeiten, werden auf unserem Arbeitsgruppen-Blog veröffentlicht, bzw. auf der Studentenkonferenz SKIL
Zwischenbericht: Ständige Aktualisierung der Online Publikation und Zwischenpräsentation (10 min)
Repository: Individuell, z.B. Bitbucket
Bewertungskriterien: Erfolgreiche Präsentation.
Je nach Teilnehmerzahl werden die Praktikumsaufgaben einzeln oder in Zweier-Gruppen vergeben.

Themengebiete

Inhalt

Autocompletion von möglichen Bedeutungen von Keyword Queries

Creating a forward-chained DBpedia index

Wiktionary

Erstellen von Sprach-Configs für den Wiktionary Parser

Apache Solr + GUI

Verbessern von Wiktionary durch Vorschläge

Linguistic Linked Open Data (LLOD) Cloud

Daten des MPI Leipzig (Hoher Impact-Faktor)

Daten des Pan Lex Projektes

Omega Wiki

Ethnologue

Weitere (bitte selbst auswählen)

Conversion of XML dataset to RDF

BOA-Framework

Extraktion von Entitäten-Typen aus Fließtext

Generation von Hintergrundwissen für BOA-Framework

GUI für Active Learning von BOA-Pattern

LIMES Webservices

Learning Transformation Rules from Data

Automatic Discovery of Linking Partners

Collaborative Authoring and Annotation for the Social Semantic Web

Combining Web ID and the CAcert certificate authority

Interlinking and Synchronization of Linked Data Resources

Autocompletion von möglichen Bedeutungen von Keyword Queries

Betreuer: Sebastian Hellmann, Saeedeh Shekarpour
Studenten: Sascha Haseloff

Currently, keyword-based search is the most popular and convenient way for finding information on the Web.
The current exposure of most Web users to keyword search, the large amount of research on the successful application of keyword-based search in document retrieval and the acknowledged usability of this paradigm are convincing reasons for employing the keyword search paradigm on the Semantic Web.
Since potentially ambiguity of keyword-based query in graph-structured data is high, involving user in disambiguation process regarding a user-friendly way can help.
Ein erster Schritt ist das Bereitstellen von Autocompletion im Stil von http://www.freebase.com/ (Bitte oben links bei Find Topics anfangen zu tippen) .
Ein weitere Schritt ist es jetzt nicht nur gesuchte Artikel und Entitäten zu finden (z.b. Christian Wulff), sondern auch Fakten, z.b. an welchem Tag Whitney Houston gestorben ist (Keywords: “houston death”). Eine Autocompletion hierfür ist natürlich komplizierter und muss aufwendiger erstellt werden. Ziel des Praktikums ist es eine Autocompletion Visualisierung zu erstellen, die dem Benutzer die Möglichkeit gibt das auszuwählen, was er genau meint. Hierzu soll das JQuery Autocomplete plugin verwendet werden: http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/

Das ganze wird dann bei SINA (http://aksw.org/Projects/lodquery) oder bei Graph of Relations (http://semanticwebarchive.cs.umbc.edu/GOR/example3.html) eingebaut und als Open source veröffentlicht.

Hier ein Beispiel für “michigan primary results”
http://www.google.com/trends/hottrends?q=michigan+primary+results&date=2012-2-29&sa=X
Die Autocompletion könnte dann so aussehen:
https://docs.google.com/drawings/d/1G-0NQEepRldH-snEWWRlRpPQYIXEVBxYIE1FvCIGYVc/edit
(Es gibt die Möglichkeit Kommentare zu schreiben.)

Creating a forward-chained DBpedia index

Betreuer: Saeedeh Shekarpour,Axel Ngonga
Studenten: 1 student

Querying Linked Data sources can be very time-demanding, especially for search applications. One approach for addressing this drawback is the used of indexing. The aim of this taskis to create a forward-chained index of DBpedia over domain and range of properties to enhance the search engine SINA (http://sina.aksw.org).
SINA is a keyword-based search engine over DBpedia using an inference mechanism to formulate a formal query out of the user-supplied keywords. The inference is carried out based on domain and range of properties, for more information refer to (http://aksw.org/Projects/lodquery).
The following prerequisites are necessary:

Working knowledge of SPARQL
Virtuoso

Wiktionary

Es existiert seit kurzem ein am Lehrstuhl entwickelter auf DBpedia basierender generischer Parser, der z.B. Definitionen und Übersetzungen aus Wiktionary extrahiert und als RDF ausgibt.
Die Projektseite befindet sich hier: http://wiktionary.dbpedia.org
Als Beispiel sei http://de.wiktionary.org/w/index.php?title=Haus&action=edit gegeben, welcher folgende Daten extrahiert: http://wiktionary.dbpedia.org/resource/Haus
Im folgenden werden drei mögliche Praktikumssaufgaben unterschiedl. Schwierigkeit vergeben:

Erstellen von Sprach-Configs für den Wiktionary Parser

Betreuer: Sebastian Hellmann, Jonas Brekle
Studenten: Alexander Lust
Schwierigkeit: Einfach (Kenntnisse in XML, Anwendung von Tools zur statistischen Auswertung)

Jedes Wiktionary unterscheidet sich teilweise von anderen Wiktionary Editionen und deshalb wird für jede Sprachvariante eine XML-basierte Konfiguration geschrieben. Ziel wäre die Erstellung weiterer solcher Configs (en und de existieren als Vorlage, zu erstellen wären die Configs für die anderen großen Wiktionaries), das Messen der Datenqualität mit vorhandenen Werkzeugen und das berichten von Fehlern bzw. Erweiterungsmöglichkeiten.
Links Statistik:

http://kenai.com/projects/statistiktool
http://kenai.com/projects/rdf-statistik-tools
Für die statistische Auswertung muss eine kurze Recherche gestartet werden.
http://code.google.com/p/aksw-commons/wiki/RDFStatistics

Wiktionary:
Siehe Startseite http://wiktionary.org/ für die Liste und jeweilige Größe. Bei Sprachen, die man selbst nicht spricht, wäre demnach die Recherche notwendig, was die Überschriften etc. z.B. im madagassischen oder chinesischen usw. bedeuten.

Apache Solr + GUI

Betreuer: Sebastian Hellmann, Jonas Brekle
Studenten: Quan Nguyen
Schwierigkeit: Einfach bis Mittel (die GUI soll intuitiv und einfach zu bedienen sein )

Anbindung der bereits extrahierten RDF Daten an Apache Solr und
konfigurieren eines facetierten Browsers.
Einrichten von Lucene und Solr auf einem Tomcat Server, mit Java abfragen der Daten mittels eines SPARQL Queries und laden nach Solr, Evaluierung+Auswahl und Einrichtung eines facierten Browsers (es gibt bereits verschiedenste Implementierungen).
Links:

Verbessern von Wiktionary durch Vorschläge

Betreuer: Sebastian Hellmann, Jonas Brekle
Studenten: Assen Tarlov
Schwierigkeit: Hoch ( Kenntnisse in Javascript erforderlich)

Programmieren eines Wiktionary ((http://en.wikipedia.org/wiki/Wikipedia:WikiProject_User_scripts/Scripts User-Scripts), das das Editieren von
Wiktionary Artikeln mit den Wiktionary RDF Daten unterstützt. Z.B.
Vorschläge für Übersetzungen oder Symonyme anzeigt, indem aus im RDF
vorhandenen Übersetzungen A->B gefolgert wird, dass auch B->A gelten
müsste. Das eigentliche Problem ist, das auf einer Seite Informationen
über verschiedene Worte (Verwendung als Verb vs. Substantiv) enthalten
sind und die Vorschläge entsprechend dieses Kontexts gesucht werden
müssen. Dazu muss die aktuelle Seite im Java Script geparst und
interpretiert werden (evtl. ist dafür eine Integration mit dem Parsoid /
Visual Editor sinnvoll). Dabei sollte ein möglichst leichtgewichtiger
Ansatz gewählt werden.

Links:

Linguistic Linked Open Data (LLOD) Cloud

Vor ca. 1 Monat ist das Buch “Linked Data in Linguistics” erschienen, welches den aktuellen Trend in der Domäne der Linguistik beschreibt Forschungs- und Sprachdaten zu vernetzen. Durch den gleichnamigen Workshop hat sich eine engagierte Community gegründet, welche ihre Daten gerne “triplifiziert” haben möchte, aber dringend Hilfe benötigt, dies umzusetzen.
Langfristiges Ziel ist die Erstellung einer Linguistic Linked Data Cloud, welche hier skizziert ist:
http://linguistics.okfn.org/resources/llod/ Achtung: bisher existieren ingesamt nur drei! der dargestellten Bubbles. Vor ca. zwei Wochen habe ich einen Call an die öffentliche Mailingliste geschrieben:
http://lists.okfn.org/pipermail/open-linguistics/2012-April/000245.html und daraus sind folgende möglichen Aufgaben entstanden.

Links:

http://en.wikipedia.org/wiki/Knowledge_extraction

Daten des MPI Leipzig (Hoher Impact-Faktor)

Betreuer: Sebastian Hellmann,

Martin Haspelmath
Studenten: Martin Brümmer, Sebastian Lippert
Schwierigkeit: Mittel ( Grundkenntnisse im Programmieren, Sprache egal )

In einem Treffen mit dem in der Linguistik sehr bekannten Prof. Dr. Haspelmath wurden folgende Datensets zum Triplifizieren ausgewählt:

WALS mehr als 2000 Sprachen, 140 Merkmale,
WOLD 41 Sprachen, ca. 1300 Bedeutungen
APICS 77 Sprachen, 120 Merkmale
Valency 31 Sprachen

Ansprechpartner von MPI Seite sind Alex Jahraus und Hagen Jung. Alle 4 Datensets sollen als RDF und Linked Data zur Verfügung stehen. Am Ende sollen die Daten Visualisiert werden, z.b. mit http://browser.linkedgeodata.org/ Das Projekt wird bei erfolgreichem Abschluss vom MPI übernommen.

Daten des Pan Lex Projektes

Betreuer: Sebastian Hellmann, Ansprechpartner von Pan Lex
Studenten: Patrick Westphal
Schwierigkeit: Mittel ( Grundkenntnisse im Programmieren, Sprache egal )

From their web site: «Every two weeks, somewhere in the world, a human language becomes extinct. Increasingly people perceive this loss of linguistic diversity as a threat to the diversity of ideas, values, and local knowledge on Earth. They dread a world in which only English, only Mandarin, or only Hindi has survived.

As a contribution to long-term linguistic diversity, the Pan Lex project works to enable the translation of any word from any language into any other language. To achieve this ambitious goal, we are consulting thousands of dictionaries and other knowledge sources to build an open-source database. It already documents half a billion translations, from which billions more can be derived.»

Bei der Triplifizierung ist zu prüfen, ob das bereits existierende Lemon model anwendbar ist.

Details gibt es hier:

Omega Wiki

Betreuer: Sebastian Hellmann
Studenten: Ghazall Aghaei
Schwierigkeit: Einfach ( Anwenden von Werkzeugen )

http://www.omegawiki.org/ : Welcome to Omega Wiki! The aim of our project is to create a dictionary of all words of all languages, including lexical, terminological and ontological information. Our data is available in a relational database, as a result it is possible to use the data for many purposes. Our community data is available both under the GFDL and the CC-by license. It is up to you to choose what license suits you best.
For more information, you can consult the help pages.

Die Aufgabe besteht darin folgende Tools anzuwenden:

http://triplify.org, http://aksw.org/projects/Sparqlify
Crawlen + SPARQL Endpunkt erstellen
http://aksw.org/projects/Limes
Verwendung von Lemon, siehe oben.

Ethnologue

Betreuer: Sebastian Hellmann
Studenten: Iman Gharib

Ethnologue ist eine der standard Wissensbasen im Bereich der Linguistik. Die Seite enthält eine der größten Kollektion an Sprachen und wird von fast jedem Linguisten im Bereich der Typologie verwendet
Beispiel: http://www.ethnologue.com/show_country.asp?name=DE
Ziel der Aufgabe ist es einen Screen scraper zu bauen, der als Wrapper RDF liefert analog zu http://www4.wiwiss.fu-berlin.de/flickrwrappr/
Er soll im Scraper Wiki veröffentlicht werden. Die Aufgabe eignet sich sehr gut, um eine Programiersprache (PHP, Python, Perl oder ähnliches) zu erlernen oder zu vertiefen.

Weitere (bitte selbst auswählen)

Conversion of XML dataset to RDF

Betreuer: Amrapali Zaveri, Jens Lehmann
Studenten: Thomas Schöne

The aim of this task is to convert XML data to RDF.

The following steps should be done:

Acquisition of the Google Patents and European Patent XML data
Formulation of a schema to convert XML data to RDF
Implement a methodology to use the schema to convert the XML data to RDF

Students need the following prerequisites to perform the task:

Programming skills
Background on working with XML data

BOA-Framework

Extraktion von Entitäten-Typen aus Fließtext

Betreuer: Daniel Gerber
Studenten: Thema noch zu vergeben (1–2 Studenten)

Ziel des Praktikums ist die Anwendung des BOA-Frameworks zur Extraktion von Entitäten-Typen aus Fließtext (englische Wikipedia). Dabei wird ausgehend von Hintergrundwissen, bspw. Leipzig is-a City oder Angela Merkel is-a Kanzler, in Texten nach näturlichsprachlichen Ausdrücken gesucht, welche diese Relation ausdrücken. Die besten solcher natürlichsprachlichen Ausdrücke, sog. “Pattern”, werden dann genutzt um unter Anderem dem Hntergrundwissen noch unbekannte Städte oder Personen hinzuzufügen.

Vorraussetzung:
* Java

Lernziele:
* Anwendung des BOA-Frameworks
* Übersicht über DBpedia Ontology
* Verknüpfung von semantischen und automatisch-sprachverarbeitenden Technologien

Generation von Hintergrundwissen für BOA-Framework

Betreuer: Daniel Gerber
Studenten: Thema noch zu vergeben (1–2 Studenten)

Ein Ziel des BOA-Frameworks ist die Wissenextraktion aus Fließtexten mit Hilfe von Hintergrundwissen. Diese Wissensextraktion soll vorallem auch sprachunabhängig funktionieren. Um dies zu bewerkstelligen wird in diesem Praktikum eine Komponente entwickelt die ausgehend von bestimmten Vorgaben (Sprache, Thema, ...) einen Textkorpus aus dem Netz crawled und entsprechend aufbereitet. Zusätzlich soll für die ausgewählten Sprachen das entsprechende Hintergrundwissen mit Hilfe von SPARQL extrahiert werden.

Vorrausstzung:
* Java Kenntnisse
* Fremdsprachenkenntnisse hilfreich aber nicht erforderlich

Lernziele:
* Anwendung des BOA-Frameworks
* Übersicht über DBpedia Ontology
* Einarbeitung in SPARQL
* Implementierung eines Web-Crawler Moduls

GUI für Active Learning von BOA-Pattern

Betreuer: Daniel Gerber
Studenten: Thema noch zu vergeben (1–2 Studenten)

LIMES Webservices

Betreuer: Axel Ngonga
Studenten: Klaus Lyko, Victor Christen

Link Discovery is one of the most central tasks to achieve the vision of Linked Data. The LIMES Framework provides time-efficient algorithms for achieving this goal. The aim of this task is to develop a webservice that will allow using the LIMES Web-Server from software without the need for a local installation.

The following steps need to be carried out:

Specification of the services to implement
Implementation of the webservice
Runtime evaluation with three link specifications
Documentation

Students need the following prerequisites to perform the task:

Programming skills (Java)

Learning Transformation Rules from Data

Betreuer: Axel Ngonga
Studenten: (1–2 Studenten)
Schwierigkeit: Mittel, Algorithmen existieren bereits und müssten implementiert werden

Link Discovery is one of the most central tasks to achieve the vision of Linked Data. One of the main component of link specifications are transformation rules, which allow to derive a canonical representation of property values to improve link discovery. The aim of this task is to implement and test one of the existing approaches in an iterative setting.

The following steps need to be carried out:

Specification of the approach to implement
Implementation and integration of the approach in the LIMES framework
Evaluation of the approach on real data

Students need the following prerequisites to perform the task:

Programming skills (Java)

Automatic Discovery of Linking Partners

Betreuer: Axel Ngonga
Studenten: Frank Stumpf

Only 3% of the RDF triples in the Linked Data Web are links between knowledge bases. This is partly due to the fact that publishers do not know which knowledge base to link to. The aim of this task is develop a simple application that will suggest mapping knowledge bases for linking.

The following steps need to be carried out:

Indexing of LOD Stats with SOLR
Implementation of a corresponding search
Implementation of metrics for knowledge base similarity
Implementation of a simple interface for the tool.

Students need the following prerequisites to perform the task:

Programming skills (Java)

Collaborative Authoring and Annotation for the Social Semantic Web

Betreuer: Ali Khalili, Thomas Riechert
Studenten: Johannes Götze

Recently practical approaches for managing and supporting the life-cycle of semantic content on the Web of Data made quite some progress. However, the currently least developed aspect of the semantic content life-cycle is the userfriendly manual and semi-automatic creation of rich semantic content. In this project we aim to extend the RDFaCE tool for combining WYSIWYG text authoring with the creation of rich semantic annotations.

The following steps need to be carried out:

Supporting new schemas by generating dynamic forms.
Improving the URI suggestor user interface using auto-suggest drop down list.
Creating a faceted browser.
Supporting relations between entities.
Semi-automatic entity/relation disambiguation.
Incorporating feedbacks to NLP APIs

Students need the following prerequisites to perform the task:

Programming skills (PHP and Java Script)
Semantic Content Authoring (RDFaCE paper: http://svn.aksw.org/papers/2012/COMPSAC2012_RDFaCE/public.pdf)
RDFa (http://www.w3.org/TR/rdfa-core/)
Microdata (http://www.w3.org/TR/microdata/)
Schema.org (http://schema.org/)

Combining Web ID and the CAcert certificate authority

Betreuer: Sebastian Tramp
Student: (1–2 Studenten)

Ziel dieses Themas ist die Erweiterung der CAcert Backend Software um eine Lösung zu Validierung von WebID Urls (ähnlich zur Validierung von Domains). Dies wird es CAcert Nutzern ermöglichen, Web ID-fähige Client Zertifikate zu erzeugen (also Zertifikate mit einer URL als subject alternate name). Dies kombiniert die Vorteile von Web ID und einer zentralen aber web-of-trust basierten certificate authority.

Das CAcert Backend ist in PHP geschrieben und zur Validierung der Web ID URLs müsste eine Semantic Web PHP API verwendet werden (Triple parsen und query nach mögliche eMail Adressen). Zusätzlich dazu, muss die Lösung in die Web GUI integriert werden.

Interlinking and Synchronization of Linked Data Resources

Betreuer: Sebastian Tramp
Student: Natanael Arndt

Ziel dieses Themas ist die Erweiterung des Linked Data Stores data.fm um zwei Protokolle, namentlich Semantic Pingback zur Link – Kommunikation und Pub Sub Hubbub zur Synchronisierung von Linked Data Ressourcen.

Zu dieser Seite gibt es keine Dateien. [Zeige Dateien/Upload]

Kein Kommentar. [Zeige Kommentare]

Information

Letzte Änderung: 2012-07-13 11:18:13 von Sebastian Hellmann