Semantic Web

Unter Semantic Web (auch Web 3.0 oder Web of Data) versteht man die Verknüpfung und Aufbereitung von Daten des World Wide Web auf eine Weise, dass Maschinen diese Daten besser als bisher plattform- und systemübergreifend verarbeiten, austauschen und auswerten können.(1) Die Grundlage einer solchen Interoperabilität zwischen Maschinen bilden gemeinsame Standards, die „Semantischen Technologien“.

Im Kontext digitaler wissenschaftlichen Editionen wird die Idee und Umsetzung des Semantic Webs u. a. in folgenden Verfahren repräsentiert: Die Verwendung von Linked Open Data (LOD) für die Identifikation und Referenzierung von Informationsobjekten bzw. Entitäten wie Personen- und Ortsnamen; die Systematisierung und Explikation editorischen Wissens durch Methoden der Wissensmodellierung bzw. -repräsentation; und die Vernetzung verschiedener editorischer Inhaltskomponenten wie Bild, Text und Annotation.

Explikation

Hintergrund und Idee des Semantic Webs

Bei einem Großteil der Inhalte im World Wide Web handelt es sich um (HTML-)Dokumente bzw. Webseiten mit natürlichsprachlichen Informationen, die mittels Hyperlinks mit anderen Informationen verbunden sind. In einem solchen web of documents können Mensch und Maschine Webinhalte zwar gleicherweise lesen, im Gegensatz zum Menschen kann der Computer die Inhalte aber nicht verstehen bzw. keine Zusammenhänge zwischen Inhalten verschiedener Dokumente erkennen. Um Informationen auch in einer für den Computer verständlichen Weise zu formulieren, bereitzustellen und verarbeitbar zu machen, schlug der Begründer des World Wide Web, Tim Berners-Lee, die Gestaltung des Semantic Webs bzw. des web of data vor.

„The first step is putting data on the Web in a form that machines can naturally understand, or converting it to that form. This creates what I call a Semantic Web – a web of data that can be processed directly or indirectly by machines.“(2)

Die Informationsanreicherung von Dokumenten im Semantic Web erfolgt durch Systeme der Wissensrepräsentation wie etwa Ontologien, die durch ihre formale Semantik, gemeinsame Vokabulare und einer an natürliche Sprache angelehnte Syntax nicht nur den Austausch von Daten zwischen Maschinen, sondern auch zwischen Mensch und Maschine vereinfachen.

„The Semantic Web is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in cooperation“(3)

Semantische Technologien

Pfeiler des Semantic Webs sind gemeinsame, offenen und flexibel erweiterbaren Standards zur Beschreibung von Ressourcen, die sogenannten „Semantischen Technologien“, die seit Anfang der 2000er stetig weiterentwickelt und standardisiert werden.

„The ultimate goal of the Web of data is to enable computers to do more useful work and to develop systems that can support trusted interactions over the network. The term “Semantic Web” refers to W3C’s vision of the Web of linked data. Semantic Web technologies enable people to create data stores on the Web, build vocabularies, and write rules for handling data. Linked data are empowered by technologies such as RDF, SPARQL, OWL, and SKOS.“(4)

Zu den zentralen semantischen Technologien zählen: Uniform Resource Identifiers (URI) als eindeutige Bezeichner zur Identifizierung und Referenzierung von Ressourcen bzw. Entitäten im Semantic Web; das Datenmodell Resource Description Framework (RDF), mit dem Aussagen über digitale Ressourcen als Triple bestehend aus Subjekt, Prädikat, Objekt getroffen werden können und das in verschiedenen Formaten (darunter RDF/XML, Turtle und JSON-LD) serialisiert werden kann; die RDF-Vokabulare Resource Description Framework Schema (RDFS) und die noch ausdrucksstärkere Web Ontology Language (OWL), um Klassen und Eigenschaften sowie ihre Beziehungen weiter zu präzisieren und zu formalisieren; RDFa (für „RDF in Attributes“) zur Einbettung von [Resource Description Framework (RDF)|RDF]]-Aussagen in Webseiten; und die Anfragesprache SPARQL (SPARQL Protocol And RDF Query Language), mit der RDF-Datensätze abgefragt werden können. Das Daten- bzw. Informationsnetz aus aufeinander verweisenden und miteinander verknüpften URIs in RDF bezeichnet man als Giant Global Graph oder Linked (Open) Data Cloud“

Disziplin- und anwendungsspezifische Ausprägungen des Semantic Web

In verschiedenen Bereichen von Informatik und Informationswissenschaft wird die Idee des Semantischen Webs unterschiedlich reflektiert und praktiziert: So werden im Bereich der Entwicklung von Datenbanken und Informationssystemen konzeptuelle, logische und physische Datenmodelle erstellt, um die Semantik von Informationen und Sachverhalten abzubilden. Ein Fokus des Bereichs liegt auf der Verbesserung von u. a. Indexierungs- und Abfrageverfahren, ein anderer auf der generellen Verbesserung von Workflows und Services zur Verarbeitung semantisch modellierter Daten. In den Bereichen der Wissensmodellierung und Wissensrepräsentation liegt der Schwerpunkt auf der Systematisierung von Wissensstrukturen, formaler Logik und Interferenzen (auch Schlussfolgerungen) zur Überprüfung von Wissensspezifikationen. Im Bereich des information retrieval werden Thesauri und Taxonomien für die Systematisierung von und zur Verbesserung der Suche nach Wissensquellen erstellt.(5)

Generell wird der Ausdruck Semantic Web oft in Zusammenhang mit Linked Data bzw. Linked Open Data (LOD) verwendet bzw. beide Bezeichnungen werden miteinander gleichgesetzt. Der Begriff semantisch bezog sich ursprünglich auf die Idee, dass Maschinen im „Web of Data“ in der Lage sein sollten, auf Basis bestehender Informationen durch automatisierte Schlussfolgerungen neue Informationen zu generieren. Diese Facette des Semantischen Webs konnte bisher erst in Ansätzen umgesetzt werden und gilt darüber hinaus als utopisch, da von Menschen generierte Daten immer fehlerhaft sind. Durch die Verwendung des Ausdrucks Linked Data wird die Ebene der Schlussfolgerungen und Wissensgenerierung im Semantic Web in den Hintergrund gerückt und stattdessen der (real bereits existierenden) Vernetzungscharakter betont.(6)

Semantic Web und digitale Edition

Methoden und Verfahren des Semantic Webs werden auf verschiedene Weisen im Rahmen digitaler Editionen verwendet:

Normdaten und Linked Open Data

Ein etabliertes Verfahren, dem die Grundsätze des Semantic Webs zugrunde liegen, ist die Verwendung von Normdatensätzen (engl. authority files), die als Linked Open Data im World Wide Web bereitgestellt werden. Normdateien stammen ursprünglich aus dem Kontext des Bibliothekswesens, werden jedoch zunehmend auch im Rahmen digitaler wissenschaftlicher Editionen verwendet.(7) Die im deutschsprachigen Raum entwickelte Gemeinsame Normdatei (GND)(8) verzeichnet u. a. Personen und Körperschaften nach RDA-Regeln und weist ihnen eine eindeutige URI zu. Jeder Datensatz ist mit weiteren Datenfeldern bzw. Attributen (ebenfalls referenzierbar durch URIs) zur Disambiguierung des jeweiligen Eintrags verknüpft, darunter etwa abweichende Namensformen, Lebens- und Sterbeort sowie Publikationen. In digitalen Editionen können durch die Verlinkung auf solche Normdatensätze Personen eindeutig identifiziert werden und zwar in einer sowohl für Menschen als auch für Maschinen expliziten Form. Durch die Bereitstellung entsprechender Web-APIs bzw. Web-Services, können durch die Verwendung von Linked (Open) Data außerdem sogenannten Mashups, das heißt Webanwendungen, die selbst aus einer Kombination anderer Webanwendungen bzw. Datensätze bestehen, erstellt werden.

Wissensmodellierung und -repräsentation

Zur Strukturierung und maschinenlesbaren Explikation editorischen Wissens wie etwa in Metadaten, Terminologien oder Indizes stellt das Semantic Web Methoden der Wissensmodellierung (engl. knowledge engeneering) bzw. der Wissensrepräsentation (engl. knowledge representation) bereit.(9) Für die Erstellung von Taxonomien und Thesauri eignet sich das auf RDF basierende Simple Knowledge Organization System (SKOS), das über Relationen wie broader, narrower und related terms verfügt und alternatives und multilinguales labeling der beschriebenen Konzepte ermöglicht. Komplexere Strukturen zur Abbildung von Wissen sind Ontologien, in denen die Eigenschaften von und die Beziehungen zwischen Konzepten sind frei wählbar sind, jedoch für ein Modell verbindlich definiert werden müssen. Das Semantic Web sieht dafür u. a. die RDF-Vokabulare RDFS und OWL vor. Ontologien, die im Kontext der digitalen Geisteswissenschaften verwendet und vereinzelt auch in digitalen Editionen integriert werden, sind das CIDOC Conceptual Reference Model (CIDOC-CRM) aus dem Museums- und Kulturerbebereich und die Functional Requirements for Bibliographic Records (FRBR) aus dem Bibliotheks- und Archivwesen.(10)

Weitere Konsequenzen bzw. Anwendungsszenarien semantischer Technologien

Ganz grundsätzlich und folglich auch in digitalen Editionen ermöglicht die Art der Erfassung von Daten als Tripel in RDF im Semantic Web eine Verfeinerung von Suchanfragen.(11)

Auch wenn in RDF erfasste Informationen in digitalen Editionen meist Metadaten bzw. Indizes oder Vokabulare darstellen, gibt es vereinzelt Ansätze, RDF anstelle von XML/TEI zur Textkodierung zu verwenden, um das XML-spezifische Problem überlappender Hierarchien zu umgehen.(12)

Schließlich können semantische Technologien zur Strukturierung und Vernetzung von Inhaltskomponenten einer digitalen Edition verwendet werden.(13) So sieht es etwa das RDF-basierte Shared Canvas-Datenmodell, das auf dem Prinzip eines Linked Data Canvas aufbaut, vor.(14) Ein canvas ist eine mit einer URI versehene abstrakte Leinwand, die ein digitales Objekt repräsentiert, das durch RDF-Aussagen mit verschiedenen Ressourcen verknüpft bzw. mit Annotationen angereichert ist. Die Entwicklung des SharedCanvas-Modells ist mittlerweile in der Initiative des International Image Interoperability Framework (IIIF) aufgegangen.(15)

siehe auch

Literatur

Allemang, Dean und James Hendler, Semantic Web for the Working Ontologist: Effective Modeling in RDFS and OWL, 2011, bes. S. 27-49.
Berners-Lee, Tim, James Hendler, und Ora Lassila, The Semantic Web: a New Form of Web Content that is Meaningful to Computers will Unleash a Revolution of New Possibilities, in: Scientific American, 284 (5), Mai 2001, S. 34–43.
Danowski, Patrick und Adrian Pohl, (Open) Linked Data in Bibliotheken, Berlin u. a.: De Gruyter/Saur, 2013. 241-242.
Hitzler, Pascal, Markus Krötzsch und Sebastian Rudolph, York Sure: Semantic Web. Grundlagen, Springer Verlag, 2008.
Kamzelak, Roland S., Editionen im semantic web. Chancen und Grenzen von Normdaten, FRBR und RDF", in: Richts, Kristina und Peter Stadler, Hgg., "Ei, dem alten Herrn zoll' ich Achtung gern'". Festschrift für Joachim Veit zum 60. Geburtstag, München: Allitera 2016, S. 423-436.
Kashyap, Vipul, Christoph Bussler und Matthew Moran, The Semantic Web - Semantics for Data and Services on the Web, Berlin u. a., Springer 2008.
Münch, Vera, SWIB 14: Bibliotheken bauen das vertrauenswürdige semantische Web. Bericht über die Fachkonferenz "Semantic Web in Libraries", Bonn, 1.-3. Dezember 2014, in: b.i.t. online 18.1 (2015), S. 55-61.

Webressourcen

W3C Semantic-Web-Initiative: http://www.w3.org/standards/semanticweb/
W3C RDF-Initiative: https://www.w3.org/RDF/

Referenzen

↑ (1) Vipul Kashyap, Christoph Bussler und Matthew Moran: The Semantic Web - Semantics for Data and Services on the Web, Berlin u. a.: Springer 2008. S. 3.

↑ (2) Tim Berners-Lee, Weaving the Web: Origins and Future of the World Wide Web, Texere Publishing 2000, S. 191.

↑ (3) Tim Berners-Lee, James Hendler undOra Lassila: The Semantic Web: a new form of Web content that is meaningful to computers will unleash a revolution of new possibilities. In: Scientific American, 284 (5), S. 34–43, May 2001 (dt.: Mein Computer versteht mich, in: Spektrum der Wissenschaft, August 2001, S. 42–49).

↑ (4) World Wide Web Consortium (W3C), Semantic Web: http://www.w3.org/standards/semanticweb [01.04.2017].

↑ (5) Siehe Anm. 2, hier S. 4ff.

↑ (6) Patrick Danowski und Adrian Pohl, (Open) Linked Data in Bibliotheken. Berlin u. a., De Gruyter/Saur, 2013. 241-242.

↑ (7) Peter Stadler, Normdateien in der Edition. Editio. 26(1), hg. von Rüdiger Nutt-Kofoth, Bodo Plachta und Winfried Woesler, Berlin, Boston: Walter de Gruyter 2012. S. 174-183.

↑ (8) GND: http://www.dnb.de/DE/Standardisierung/GND/gnd_node.html.

↑ (9) Vgl. u. a. Wolfgang Kienreich und Markus Strohmaier, Wissensmodellierung – Basis für die Anwendung semantischer Technologien, in: Semantic Web: Wege zur vernetzten Wissensgesellschaft, hg. von Tassilo Pellegrini und Andreas Blumauer. Berlin, Heidelberg 2006. S. 359-371, bes. S. 359-362; vgl. auch Wolfgang G. Stock und Mechtild Stock, Wissensrepräsentation, Oldenburg, München 2008; Mike Ullrich, Andreas Maier und Jürgen Angele, Taxonomie, Thesaurus, Topic Map, Ontologie – ein Vergleich (Ontoprise White Paper), Karlsruhe 2003, S. 4.

↑ (10) CIDOC- CRM: http://www.cidoc-crm.org/; FRBR Final Report: https://www.ifla.org/publications/functional-requirements-for-bibliographic-records Zur Integration von CIDOC in digitale Editionen vgl. u. a. Arianna Ciula und Jose Miguel Vieira, Implementing an RDF/OWL Ontology on Henry the III Fine Rolls. http://www.cidoc-crm.org/sites/default/files/vieira-ciula.pdf, Vortrag bei OWLED 2007, Innsbruck, 6.-7. Juni 2007.

↑ (11) Vgl. u. a. Hubertus Kohle: Digitale Bildwissenschaft, Glückstadt: Verlag Werner Hülsbusch 2013. S. 25f.

↑ (12) Vgl. u. a. Giovanni Tummarello, Christian Morbidoni und Elena Pierazzo, Toward textual encoding based on RDF, ELPUB 2005, Proceedings of the International Conference. 2005. S. 57 – 64.

↑ (13) Vgl. u. a. Georg Vogeler, Warum werden mittelalterliche und frühneuzeitliche Rechnungsbücher eigentlich nicht digital ediert? in: Grenzen und Möglichkeiten der Digital Humanities. hg. von Constanze Baum und Thomas Stäcker. 2015 (= Sonderband der Zeitschrift für digitale Geisteswissenschaften, 1). URL: http://www.zfdg.de/sb001_007. DOI: 10.17175/sb001_007 [01.04.2017].

↑ (14) http://iiif.io/model/shared-canvas/1.0/.

↑ (15) http://iiif.io/.

nrf