IT – Seite 2 – Kontroversen

Chancen und Techniken von Linked Data

: Image via Wikipedia

Meine Studienarbeit zum Thema „Chancen und Techniken von Linked Data“ ist mittlerweile fertig und steht unter CC-Lizenz zum Download (PDF) bereit.

In der Studienarbeit wird das Konzept „Linked Data“ beschrieben. Dabei handelt es sich um ein Thema im Umfeld des semantischen Webs, einer erweiterten Form des World Wide Web, mit der Informationen und deren Bedeutung für Maschinen verwertbar gemacht werden sollen. Kernidee von „Linked Data“ ist es, strukturierte Daten über URIs zugänglich zu machen und untereinander zu verlinken, um so ein „Web aus Daten“ aufzubauen und verwandte Informationen auffindbar zu machen. Die Studienarbeit ordnet „Linked Data“ in das thematische Umfeld des semantischen Webs ein und erörtert den Stand der Technik. Anwendungsgebiete und Chancen werden aufgezeigt. Die Studienarbeit legt darüber hinaus praktische Anwendungsmöglichkeiten für „Linked Data“ dar und bewertet die Zukunftsaussichten.

Eigentlich wollte ich parallel zur Studienarbeit über dieses Thema regelmäßig bloggen. Leider hat mir dazu die Zeit nicht in dem Maße gereicht, wie ich mir das vorgestellt hatte. Wer möchte kann sich natürlich jetzt die komplette Studienarbeit zu Gemüte ziehen, ich werde aber nach und nach wie versprochen noch den ein oder anderen Artikel zum Thema bloggen.

Freue mich trotzdem, wenn jemand auch die Studienarbeit selbst liest und mir dazu Feedback gibt. Hätte mich gerne noch viel intensiver mit dem Thema befasst, aber drei Monate Bearbeitungszeit sind nicht viel. Unabhängig von der Studienarbeit werde ich das Thema aber weiter verfolgen, weil es mich sehr interessiert und ich viel Potential in Linked Data sehe.

RDF – Die Sprache des Web of Data

Nach unserem kurzen Ausflug ins Web of Data, wollen wir nun die Sprache näher betrachten, die diese Daten beschreibt. Was HTML im „normalen“ Web ist, ist hier RDF. RDF beschreibt Ressourcen und steht deshalb – oh Wunder – für Resource Description Framework.

Wir erinnern uns: Im Datenweb gibt es nicht nur Dokumente, sondern alle möglichen Dinge über die wir Daten hinterlegen können, z.B. Städte, Personen, Medikamente, Bücher, Ereignisse, … Diese Dinge nennt man im Datenweb Ressourcen. Die Grammatik von RDF ist einfach: Eine Ressource beschreibt man in der Form Subjekt – Prädikat – Objekt. Dieses Dreigespann heißt RDF-Tripel. Subjekt ist die Ressource, die beschrieben wird, Prädikat ist die Aussage die wir über diese Ressource treffen und Objekt ist der Wert oder Gegenstand dieser Aussage.

Wir können zum Beispiel sagen „Angelo Veltens interessiert sich für Linked Data“ Ich bin in diesem Fall das Subjekt, also die Ressource die wir beschreiben, „interessiert sich“ ist Prädikat und „Linked Data“ das Objekt. Soweit ist es erstmal ein gewöhnlicher deutscher Satz. In RDF-XML sieht der gleiche Sachverhalt folgendermaßen aus:

<rdf:RDF
  xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
  xmlns:foaf="http://xmlns.com/foaf/0.1/">

  <foaf:Person rdf:about="http://data.kontroversen.de/foaf.rdf#me">
    <foaf:interest rdf:resource="http://dbpedia.org/resource/Linked_Data"/>
  </foaf:Person>
</rdf:RDF>

http://data.kontroversen.de/foaf.rdf#me ist die URI die mich identifiziert und das Subjekt dieser Aussage. Durch die Verwendung des Tags <foaf:Person> wird zusätzlich noch ausgedrückt, dass die beschriebene Ressource vom Typ foaf:Person ist. Das Tag <foaf:interest> ist ein Prädikat, welches Interesse an einem Themengebiet formal beschreibt. Das Attribut rdf:resource verweist auf das Objekt dieser Aussage. Ich habe hier einen Link in die Dbpedia genutzt um das Themengebiet Linked Data zu identifizieren.

Achtung: RDF ist nicht das selbe wie RDF-XML! XML ist lediglich eine Darstellungsform von RDF. Andere Darstellungsformen sind Notation 3 (N3) oder ein RDF-Graph. In Notation 3 sieht unser Beispiel folgendermaßen aus:

@prefix foaf: <http://xmlns.com/foaf/0.1/>
<http://data.kontroversen.de/foaf.rdf#me>
  foaf:interest
    <http://dbpedia.org/resource/Linked_Data>.

Und hier als RDF-Graph:

simple_rdf_graph

Die eigentliche Herausforderung beim Beschreiben von Ressourcen mittels RDF liegt nicht in der Grammatik, die wie ihr seht wirklich mehr als einfach ist, sondern bei der Wahl und ggf. Neudefinition von Vokabularen, auch Ontologien genannt. Auf einige dieser Ontologien, z.B. das in diesem Beispiel verwendeten FOAF, werde ich in kommenden Artikeln näher eingehen. Zur Definition von Ontologien haben sich zwei Sprachen etabliert: Die Web Ontology Language (kurz OWL) und RDF-Schema. Auch der Eigendefinition von Vokabularen werde ich noch einen Beitrag widmen. Allerdings sollte man damit sehr sparsam umgehen und nach Möglichkeit eine bestehende Ontologie wiederverwerten oder bei Bedarf ergänzen, damit wir ihm Datenweb nicht enden wie beim Turmbau zu Babel und niemand mehr den anderen versteht.

Weiterführende Links:

Data-Browsing – Ein kurzer Ausflug ins Web of Data

Wie versprochen, werden wir das Thema Linked Data nun etwas praktischer angehen. Wenn man mal selbst durch das Datenweb gesurft ist, versteht man viel eher worum es eigentlich geht. Wir brauchen:

Einen Datenbrowser
Einen Einstiegspunkt
Neugier

Es gibt gibt schon einige Datenbrowser, allerdings scheinen die mehr Proof-of-Concept zu sein, als nutzbare Tools. Ich persönlich komme aktuell immer noch am besten mit Tabulator zurecht, obwohl der nicht sonderlich intuitiv zu bedienen ist. Das schöne an Tabulator ist aber, dass es dafür ein Firefox-Addon gibt, das schnell installiert ist. Außerdem lädt Tabulator automatisch „sameAs-Links“ nach, d.h. Daten die unter einer anderen URI verfügbar sind, aber das gleiche Objekt beschreiben werden gleich mitgeladen. Ich werde unsere kleine Erkundungstour durch das Datenweb anhand von Tabulator beschreiben. Wer erstmal nichts installieren mag, kann aber auch einen der Online-Browser verwenden, z.B. den OpenLink Data Explorer, Disco oder Marbles.

Teilweise geht es sogar ganz ohne Datenbrowser, nämlich dann wenn die Datenquellen ihre Daten auch gleich in einer HTML-Variante bereitstellen. Das ist zum Beispiel bei dbpedia.org der Fall. DBpedia ist das Abbild der Wikipedia im Web of Data. Das Projekt liest systematisch Daten aus der Wikipedia aus und veröffentlicht sie als RDF. Unter der URI http://dbpedia.org/resource/Karlsruhe finden sich zum Beispiel Daten zur Stadt Karlsruhe. Ruft man diese URI mit einem normalen Web-Browser ab, werden die Daten als HTML-Dokument angezeigt. Das passiert sogar, wenn man die Tabulator-Erweiterung installiert hat, weil Firefox immer noch primär ein HTML-Browser ist. Wie man das ändern kann erkläre ich in einem späteren Artikel (Tipp für Neugierige: Spielt mal mit Modify Headers am Accept-Header herum). Für den Moment reicht es, explizit die URI http://dbpedia.org/data/Karlsruhe abzurufen, um an die Rohdaten zu kommen [1]. Wir erfahren so tolle Sachen wie die Einwohnerzahl, die Telefonvorwahl und das Bundesland.

Mit Linked Data hat das alles aber noch recht wenig zu tun. Aufgrund der Informationsfülle wird zwar sehr gerne in die DBpedia hinein verlinkt, aber nur sehr wenige Links führen wieder hinaus. Wir suchen uns deshalb einen anderen Startpunkt, am besten von jemandem der sich auskennt: Tim Berners-Lee. Ja, klickt ruhig auf den Link, er führt direkt zu Daten über die Person Tim Berners-Lee, mitsamt einer ganzen Menge Links zu weiterführenden Daten, irgendwo in den Weiten des Webs. Wir erfahren zum Beispiel, dass er der Organisation „World Wide Web Consortium“ angehört und wenn ihr auf den kleinen grauen Pfeil daneben klickt, klappen zusätzliche Infos zu dieser Organisation aus. Wir erfahren auch, dass Berners-Lee der Autor von „Weaving the Web“ ist. Wenn man Shift gedrückt hält, wenn man auf den Pfeil klickt, werden die Daten zu diesem Buch im kompletten Browser-Tab geladen, statt nur ausgeklappt.

Leider stoßen wir dann schon recht schnell an die Grenzen des Datenwebs. Zum Beispiel wird der Verlag des Buches (Harper Paperbacks) zwar genannt, aber nicht verlinkt. Wir können also keine weiteren Daten zum Verlag abrufen. Es liegt an uns allen, diese Grenzen zu sprengen, so wie wir schon das WWW groß gemacht haben und täglich vergrößern. Aber schaut euch einfach mal ein bisschen um, es gibt schon einiges zu entdecken. Unter http://data.kontroversen.de/foaf.rdf#me habe ich auch ein paar Daten über mich online gestellt und mit meinem Identi.ca- sowie Twitter-Account verknüpft. (Ja, dem Thema Datenschutz und informationelle Selbstbestimmung in Bezug zu Linked Data werde ich auch noch einen Beitrag widmen)

So, ich denke das genügt erstmal als kleines, anschauliches Praxisbeispiel bzw. als Startpunkt für eigene Experimente. Bei Fragen und Problemen meldet euch einfach in den Kommentaren.

[1] Genau genommen ist das nicht ganz richtig, denn http://dbpedia.org/data/Karlsruhe verweist auf ein RDF-Dokument mit Daten über die Stadt Karlsruhe, während http://dbpedia.org/resource/Karlsruhe die Stadt selbst identifiziert. Dieser kleine aber feine Unterschied äußert sich auch in der Art wie Tabulator die Daten darstellt.

Alles bekommt eine URI

Im vorherigen Beitrag habe ich einen kurzen Vorgeschmack auf das Thema Linked Data gegeben. Doch was genau hat es damit auf sich? Wie sieht ein „Web of Data“ aus? Lässt es sich mit den heutigen Techniken überhaupt realisieren, oder müssen wir das Internet neu erfinden? Die gute Nachricht lautet: Nein müssen wir nicht. Linked Data beruht im wesentlichen auf 4 einfachen Grundprinzipien, die Tim Berners-Lee 2006 in „Linked Data: Design Issues“ beschrieben hat:

Use URIs as names for things

Use HTTP URIs so that people can look up those names.

When someone looks up a URI, provide useful information, using the standards (RDF, SPARQL)

Include links to other URIs. so that they can discover more things.

Die erste Regel fordert, dass wir alles mögliche über URIs identifizieren können. Es geht nicht mehr nur um Dokumente, wie im WWW. Wir wollen Daten bereitstellen, über Personen, Orte, Gegenstände, Organisationen, Pflanzen, Tiere, Gebäude… Daten über alles Mögliche. All diese Dinge bekommen eine URI.

Weiterhin fordert Regel 2, dass als Protokoll HTTP genutzt wird. Das stellt sicher, dass die URI über das Domain Name System auflösbar ist. Das ist keinesfalls selbstverständlich, es gibt nämlich zahlreiche weitere Typen von URIs, zum Beispiel sind auch tel:+1-816-555-1212 und mailto:John.Doe@example.com gültige URIs. Es gibt sogar URIs für ISBN. Jetzt könnte man auf die Idee kommen, dass doch letztere eine wunderbare Möglichkeit wären um Bücher im „Web of Data“ eindeutig zu identifizieren. Nur dummerweise haben solche URIs die Eigenschaft, dass sie eben nicht auflösbar sind, das heißt ich kann damit nichts im Web abrufen.

Genau das erfordert aber die dritte Regel. Hinter unserer URI müssen sich nützliche, standardisierte Informationen verbergen. Zum Beispiel könnte ein Webserver unter dieser URI ein XML-Dokument ausliefern, welches RDF-Daten enthält. RDF ist ein Standard zur Beschreibung von Informationen, sodass diese leicht automatisiert verarbeitet und ausgewertet werden können. Ich werde auf RDF noch genauer in einem späteren Artikel eingehen.

Die vierte und letzte Regel verknüpft unsere Daten miteinander: Die Informationen die wir ausliefern stehen nicht für sich alleine, sondern enthalten selbst wieder URIs und verweisen so auf weiterführende Informationen. Man stelle sich zum Beispiel vor, dass unter einer URI Daten über ein Buch abrufbar sind. Wir erhalten dann zum Beispiel die Information, wieviele Seiten das Buch hat und wann es erschienen ist. Aber anstatt nur den Namen des Autors, enthalten die Daten eine URI, die den Autor selbst identifiziert! Wenn wir diesem Link dann folgen, erhalten wir Informationen über den Autor, zum Beispiel sein Geburtsjahr und Links zu weiteren Büchern die er veröffentlicht hat. Diesen Links können wir wiederum folgen und so das „Web of Data“ erkunden.

Das wars! Vier einfache Grundprinzipien, so einfach wie genial! Praktische Beispiele und nähere Details wie man selbst Linked Data im Web veröffentlichen kann folgen demnächst.

Linked Data

Vor einigen Monaten bin ich auf einen interessanten Vortrag von Tim Berners-Lee bei einer TED-Konferenz gestoßen, der mich sogleich faziniert hat. Er spricht über eine neue Form des Webs, ein Web aus miteinander verknüpften Daten – Linked Data.

Das Word Wide Web, wie wir es heute kennen, versteckt seine Daten. Webanwendungen bauen zwar meist auf Datenbanken auf, veröffentlichen die Daten jedoch vorzugsweise in einem menschenlesenbaren Format. Eine schick gestaltete HTML-Seite mag für Menschen wunderbar anzusehen sein, lässt sich maschinell jedoch nur schwer verarbeiten.

Um die Datenflut des Informationszeitalters bewältigen zu können, müssen wir die Daten strukturieren und miteinander in Beziehung setzen. Aus verknüpften Daten können sich neue, vorher unbekannte Informationszusammenhänge ergeben die zu neuen Erkenntnissen führen, was Wissenschaft und Forschung ebenso zugute käme wie der Wirtschaft und der Gesellschaft im Ganzen.

Ich sehe in Linked Data ein sehr großes Potential und habe mich daher entschieden mich im Rahmen einer Studienarbeit an der DHBW Karlsruhe näher mit dem Thema zu befassen. Ich werde im Verlauf der Arbeit noch öfter darüber bloggen, bis dahin lege ich euch den wirklich hervorragenden Vortrag von Berners-Lee ans Herz, vielleicht begeistert sich ja noch der ein oder andere für das Thema:

PS: Die Vorträge der TED-Konferenzen sind generell sehenswert, stehen unter einer Creative-Commons-Lizenz und sind auch als Feed z.B. über Miro verfügbar (sogar in HD).

Irrtum der Woche: Das Medium ist verantwortlich für die Inhalte

Kennt ihr eigentlich die Geschichte von König Kunibert? Kunibert war ein sehr dummer König. Als ein Bote von einer entscheidenen Schlacht zurückkehrte und berichtete, dass sein Heer vom Feind blutig niedergeschlagen wurde, da ließ der König den Boten hinrichten. Jedes Kind versteht, dass der Bote doch für die schlechte Nachricht gar nichts kann, sondern nur seinen Dienst verrichtet.

Bei vielen Politikern scheint jedoch das Hirn auszusetzen, wenn es um digitale Dienste geht: Die Bundesregierung postulierte diese Woche, dass das „Web 2.0“ hohe Bedeutung für islamistische Propaganda habe. Ob dies für sich genommen schon ein Irrtum ist, kann ich nicht beurteilen. Ich bin aber bisher auf noch keine islamistische Propaganda in Social Networks gestoßen.

Die Regierung impliziert jedoch mit dieser Aussage, dass die „Web 2.0“-Dienste selbst das Problem sind – nicht etwa die darüber kommunizierten Inhalte. Wie der Bote, erbringen die Dienste nur ihren Dienst (deswegen heißen die auch so 😉 ) Diese Dienste können rein gar nichts dafür, wenn sie auch für unwillkommene Inhalte verwendet werden. Es ist eine völlig krude Vorstellung, diese nun deswegen zu verteufeln.

Vertrauliche E-Mail-Kommunikation?

Die E-Mail ist im doppelten Sinne nicht vertraulich: Erstens ist es ungewiss ob der Kommunikationspartner tatsächlich derjenige ist der er vorgibt zu sein, zweitens sind E-Mails unverschlüsselt und können damit potentiell von Dritten mitgelesen werden.

Damit disqualifiziert sich die E-Mail grundsätzlich als rechtsverbindliches Kommunikationsmittel. Diesen Missstand will die Bundesregierung mit dem Projekt „Bürgerportale“ beseitigen. Der Dienst „DE-Mail“ soll E-Mail so „zuverlässig, sicher und vertraulich wie Papierpost“ machen.

Klingt doch richtig gut, oder? Leider bekomme ich seit der LKW-Maut und dem Desaster bei der Einführung der ALG II Software regelmäßig Bauchschmerzen, wenn der Bund ein größeres IT-Projekt angeht. Aber das ist nicht der einzige Grund für mich, die „DE-Mail“ genauer unter die Lupe zu nehmen.

Zunächt einmal drängt sich die Frage auf, warum denn nicht einfach PGP genutzt wird? Nicht nur mir, wie es scheint, denn das Informationsportal gibt bereits eine Antwort:

Die Technologien (z.B. bei Ende-zu-Ende-Verschlüsselung und/oder Signaturen) setzen vielfach voraus, dass der Nutzer selbst die entsprechenden Software-Komponenten installiert, zugehörige Zertifikate für seine Kommunikationspartner verwaltet und geeignet mit den privaten Schlüsseln umgeht. Hier haben die Erfahrungen der vergangenen Jahre gezeigt, dass eine flächendeckende Verbreitung solcher Lösungen nur sehr schwer zu erreichen ist. Bei De-Mail werden genau diese Aufgaben, für die der Nutzer bisher selbst verantwortlich war, von vertrauenswürdigen Anbietern durchgeführt.

PGP soll also deshalb nicht verwendet werden, weil der Nutzer mit der Installation der Software und der Verwaltung der Schlüssel überfordert sein könnte? Zugegeben: Verschlüsselung ist unter „Ottonormal-Benutzern“ nicht sonderlich weit verbreitet. Aber ist das Grund genug dem Nutzer die Verantwortung zu entziehen und stattdessen auf „vertrauenswürdige Anbieter“ zu setzen? Reden wir Klartext: Das bedeutet, dass der private(!) Schlüssel des Benutzers beim Anbieter liegen wird! Dieser kann also jederzeit auf die angeblich vertraulichen Dokumente zugreifen, genau wie anfragende Staatsorgane. Das bestätigt auch Dr. Heike Stach, Leiterin des Projekts Bürgerportale im Bundesinnenministerium, im Chat mit Politik-Digital (Hervorhebungen durch mich):

De-Mail unterliegt den gesetzlichen Rahmenbedingungen der elektronischen Kommunikation. Das heißt, das Mitlesen von Inhalten ist grundsätzlich nur nach entsprechender richterlicher Anordnung möglich, wie es auch bei Papierpost der Fall ist.

Zu gesetzlichen Rahmenbedingungen zählen Vorratsdatenspeicherung, Online-Durchsuchung und alles was sich Herr Schäuble in Zukunft sonst noch so ausdenkt. Der Schutz vor mitlesenden Staatsorganen ist genauso wenig gegeben wie bei herkömmlicher E-Mail.

Hinzu kommt das Missbrauchspotential durch den DE-Mail-Anbieter, der schließlich im Besitz des privaten Schlüssels ist. Über Schlüssel die in die Hände von Kriminellen gelangen und am Schwarzmarkt gehandelt werden möchte ich angesichts der Datenskandale der letzten Monate gar nicht erst nachdenken. Also: Wie werden neugierige Blicke von Mitarbeiter des DE-Mail-Anbieters verhindert? Heike Stach dazu:

Die Provider werden zertifiziert und müssen dabei nachweisen, dass der Zugriff auf die von ihnen verwendeten Schlüssel nur in berechtigten Fällen erfolgen kann.

Es werden also mal wieder Zertifikate verteilt. Das ist immer ein tolles Argument. Leider konnte ich bisher noch nicht in Erfahrung bringen, welche Anforderungen genau gestellt werden und wie diese dauerhaft sichergestellt werden. Das entscheidet letztendlich, wie vertrauenswürdig die Anbieter tatsächlich sind. Bemerkenswert finde ich auch hier wieder, den Zugriff „in berechtigten Fällen“.

Der Fairness halber muss ich aber noch betonen, dass Ende-zu-Ende Verschlüsselung natürlich weiterhin möglich ist. Im Informationsportal heißt es:

Reicht einem Nutzer diese dadurch erreichte Sicherheit nicht aus, so kann er die Nachrichten wie bisher verschlüsseln und/oder signieren. Welche Lösungen (z.B. S/MIME, OpenPGP, GnuPG) und welche Verschlüsselungs-Schlüssel er dafür benutzt, ist dem Nutzer freigestellt.

Allerdings ist kaum zu erwarten, dass Behörden zukünftig diese Verfahren unterstützen werden. Das ist schon heute kaum der Fall und wird sich mit Einführung der DE-Mail wohl kaum ändern. Als positive Außnahme sind mir bisher nur Datenschutzbehörden aufgefallen.

Ich finde es schade, dass hier schon wieder viel Geld in ein schon in den Ansätzen fragwürdiges Projekt gepumpt wird. Ich halte es für sinnvoller bestehende Maßnahmen wie PGP, GnuPG zu fördern und die Öffentlichkeit für die Themen Verschlüsseln und Signieren zu sensibilisieren, anstatt den Bürgern die Verantwortung in diesem Bereich abzunehmen. Ein demokratisches Informationszeitalter braucht mündige, selbstbewusste IT-Benutzer.

Ich möchte das Projekt aber nicht gleich totreden, sondern hoffe, dass es durch eine rechtzeitige öffentliche Debatte in vernünftige Bahnen gelenkt wird. Denn grundsätzlich ist eine vertrauliche, rechtsverbindliche Kommunikation zwischen Bürgern, Behörden und der Wirtschaft ein erstrebenswertes Ziel.