SIGINT 2012: Vorläufiger Fahrplan

Eine Vorabversions des Programms der SIGINT 2012 wurde inzwischen bekannt gegeben. Ich freue mich sehr, dass auch mein Vortrag zum Thema „Linked Open Data“ angenommen wurde. Aus der Vortragsbeschreibung:

Open Data ist auf dem Vormarsch. Doch es reicht nicht CSV-Daten in ein Zip-Archiv zu packen und zum Download anzubieten. Wenn wir die Stärken von frei verfügbaren Behördendaten voll ausschöpfen wollen, dann müssen wir ein „Web of Data“ schaffen, in dem Rohdaten miteinander verlinkt sind, so wie im WWW HTML-Seiten miteinander verlinkt sind. Der Vortrag stellt das Konzept „Linked Data“ vor, erklärt, wie wir zum „Web of Data“ beitragen können und erläutert das gesellschaftliche Potential von Linked Open Data.

Der Vortrag wird nach derzeitigem Stand am Tag 2 der Konferenz, Samstag,  19.05.2012 um 19 Uhr stattfinden.

Besonders gespannt bin ich auf dem Vortrag „The Semantic Web – Raising of the Dead?“ von Carina Haupt, welcher sich im gleichen thematischen Umfeld bewegt, aber auch näher auf Technologien und Konzepte wie RDF, Triple Stores, Reasoning and SPARQL eingehen wird, während ich den Bezug zur Open Data Bewegung herstelle.

Als Verfechter von dezentralen sozialen Netzwerken freue ich mich auch sehr auf die Vorstellung des Projekts „Social Swarm“, mit dem ich mich schon seit einiger Zeit mal näher beschäftigen wollte.

Darüber hinaus wird wird die Konferenz aber vermutlich wieder so interssant, dass man sich kaum entscheiden kann, welchen Beitrag man als nächstes besuchen soll. Ganz zu schweigen von den vielen tollen Menschen die man dort trifft.

Die SIGINT geht von Freitag, 18. Mai bis Sonntag, 20. Mai 2012. Tickets bekommt ihr hier. (Achtung: Vorverkauf nur noch bis 26.04, beeilt euch!) Wir sehen uns in Köln!

Neues Blog über Linked Data und verwandte Themen

Ab sofort blogge ich unter datenwissen.de über Linked Data und verwandte Themen. Ich habe mich dazu entschlossen, diesen Themenkomplex aus diesem Blog auszugliedern, da ich mich hier hauptsächlich mit politischen Themen befasse. Eher technisch angehauchte Artikel gehen leicht unter und wurden zum Teil als störend empfunden.

Die Grenze lässt sich allerdings nicht so leicht ziehen, wie dies auf den ersten Blick scheint. Linked Data, das Semantische Web und natürlich das Thema Open Data haben eine beachtenswerte politische Dimension. Deshalb wird es sicher auch zu Überschneidungen und einigen Referenzen zwischen den Blogs kommen.

Mit dem neuen Blog verfolge ich das Ziel, das Thema Linked Data in der deutschen Blogosphäre bekannter zu machen. Es gibt leider noch sehr wenige deutsche Infos zu dem Thema. Neben eher theoretischen Artikeln werde ich dort auch Projekte beschreiben, an denen ich arbeite.

Ich bin gespannt wie sich das Blog entwickelt und freue mich über Rückmeldungen. Alle alten Artikel zum Thema Linked Data habe ich bereits von hier nach datenwissen.de kopiert. Als Einstieg in die sehr interessante Thematik empfehle ich neben diesen vor allem meinen Beitrag „Warum wir Daten verlinken müssen“.

Du bist nicht deine Website

Auf die Grundprinzipien von Linked Data bin ich bereits eingegangen. Auch einen kurzen Ausflug ins „Web of Data“ haben wir schon gewagt. Nun möchte ich die unterschiedlichen Arten von Ressourcen näher vorstellen. Das Datenweb ist mehr als ein Web aus Dokumenten. Wir können alle möglichen Dinge über URIs identifizieren und Daten über sie abrufbar machen.

Die W3C Technical Architecture Group unterscheidet zwischen Informations- und Nicht-Informationsressourcen. Im WWW ist diese Unterscheidung von untergeordneter Bedeutung, da es quasi nur Informationsressourcen gibt. Darunter fallen nämlich alle Arten von Dokumenten und das WWW ist nunmal ein Web aus Dokumenten. Im Datenweb kommen abstrakte und konkrete „Dinge“ hinzu, die ebenfalls über eine URI identifiziert werden wollen. Dabei handelt es sich dann um Nicht-Informationsressourcen. Denn die Ressourcen sind in diesem Fall keine Informationen, sondern z.B. Personen, Orte, Bücher, Produkte etc.

Die Unterscheidung zwischen Informations und Nicht-Informationsressourcen ist dabei weniger trivial, als auf den ersten Blick scheint. Ein oft gemachter Fehler ist es, die Beschreibung einer Ressource mit der Ressource selbst gleich zu setzen.

Wir wissen dass gemäß der Linked Data Grundprinzipien beim Abruf der ein Ding identizifierenden URI „nützliche Informationen“ bereitgestellt werden müssen. Dazu liefert z.B. ein Webserver ein RDF-Dokument aus. Ich möchte das kurz am Beispiel meiner eigenen FOAF-Datei demonstrieren. Ich (ja tatsächlich ich, nicht die Datei!) werde durch folgende URI im Datenweb identifiziert:

http://data.kontroversen.de/foaf.rdf#me

Beim Abruf mit einem Browser (Egal ob Web- oder Datenbrowser) wird folgende Datei ausgeliefert:

http://data.kontroversen.de/foaf.rdf

Diese Datei ist ein RDF-Dokument, welches Informationen über mich (d.h. die Ressource http://data.kontroversen.de/foaf.rdf#me) enthält. Die Datei und ich sind jedoch zwei völlig unterschiedliche Dinge (Weshalb ich im übrigen auch eine andere URI als die Datei habe). Die Datei ist eine Informationressource identifiziert durch die URI http://data.kontroversen.de/foaf.rdf. Ich bin eine Nicht-Informationsressource identifziert durch http://data.kontroversen.de/foaf.rdf#me.

Einmal verstanden erscheint dies selbstverständlich, führt jedoch anfangs oft zu Verwirrungen und paradoxen RDF-Dokumenten. So hat zum Beispiel die New York Times (erfreulicherweise!) beachtliche Datenbestände als Linked Data verfügbar gemacht. Anfangs wurden dabei jedoch typische Fehler gemacht, die aus der Verwechslung von Informations- und Nicht-Informationsressourcen herrühren.

Die URI http://data.nytimes.com/N31738445835662083893 identifiziert den Schauspieler Paul Newman. Über diese Person finden sich in dem Datensatz leider kaum Informationen, nützlich ist hauptsächlich der Verweis auf die DBpedia. Das ist jedoch nicht wirklich schlimm. Problematisch war eine Zeit lang (mittlerweile wurde es zum Glück korrigiert) die Vermischung von Daten und Metadaten: Was zum Beispiel sagt das Prädikat „dc:creator“ in Bezug auf eine Person aus? Heitere Zeigenossen möchten dort vielleicht die Eltern der Person eintragen, oder Gott, wenn sie gläubig sind. Ganz sicher ist jedoch nicht „The New York Times Company“ der „Ersteller“ von Paul Newman.

Die New York Times hatte die Nicht-Informationsressource „Paul Newman“ mit der Informationsressource verwechselt die ihn beschreibt. Was sie eigentlich ausdrücken wollten ist, dass „The New York Times Company“ der Ersteller des RDF-Dokumentes ist. Das RDF-Dokument ist jedoch eine eigene Ressource und bekommt eine eigene URI.

Die New York Times wurde zwischenzeitlich auf den Fehler hingewiesen und hat ihn korrigiert. Die Informationsressource wird nun über http://data.nytimes.com/N31738445835662083893.rdf identifiziert und „dc:creator“ bezieht sich auf diese Ressource und nicht mehr auf Paul Newman selbst.

Ich hoffe ich konnte die Unterscheidung zwischen Informations- und Nicht-Informationsressource einigermaßen verständlich darlegen. Mir hat dabei der Merkspruch „You are not your Website“ sehr geholfen. Denn im „Web of Data“ gibt es nicht nur deine Website, sondern auch dich selbst. Und das sind natürlich zwei völlig unterschiedliche Dinge.