Strukturiertes Dokument

Ein strukturiertes Dokument ist eine Textdatei, in der eine Auszeichnungssprache verwendet wird, um das Dokument und seine Teile zu identifizieren und ihnen Bedeutungen zuzuweisen, die über die bloße Formatierung hinausgehen.[1][2] Anders als bei Textverarbeitungsprogrammen werden beispielsweise Überschriften nicht durch Formatierungen wie Fettschrift gekennzeichnet, sondern durch syntaktische Elemente. Ein strukturiertes Dokument enthält typischerweise eine hierarchische Gliederung in mehrere Teile, die als Komponenten oder Elemente des Dokuments bezeichnet werden.

Strukturierte Dokumente finden vor allem beim elektronischen Austausch von Daten Anwendung. Für elektronische Systeme sind strukturierte Dokumente einfach zu erfassen, da Auszeichnungssprachen i. d. R. formalisiert sind und mit einem Parser eingelesen werden können – im Gegensatz zu anderen Formen von Auszeichnungen.

Eigenschaften

In strukturierten Dokumenten liegt der Fokus nicht auf der visuellen Präsentation (u. a. die Formatierung), sondern auf der logischen Struktur, die einem bestimmten Zweck dient. Die explizite Kennzeichnung von Bereichen auf einer Webseite im Gegensatz zur Formatierung (z. B. Kennzeichnung als Kapitelüberschrift anstatt „Helvetica fett 24“) ist z. B. für Barrierefreiheitssysteme nützlich.[3] Beim Datenaustausch ermöglichen strukturierte Dokumente eine Integration mit durchsuchbaren Datenbanken und Online-Katalogen.[4]

Strukturierte Dokumente unterstützen Hierarchien wie Listen und Abschnitte, im Gegensatz zu reinen Formatierungssystemen, die häufig nur Listenelemente oder Abschnittsüberschriften hervorheben. Fortgeschrittene Systeme ermöglichen die Verwendung mehrerer unabhängiger oder überlappender Komponenten. Sie können auch explizite Regeln (Schemas) definieren, die Aufbau und erlaubte Komponenten über die Auszeichnungssprache hinaus für einen bestimmten Bereich definieren.[5]

Da Auszeichnungssprachen Plain text nutzen, ist eine Menschenlesbarkeit gegeben. Die Interpretation der Semantik ist allerdings nur mit Vorwissen möglich.

Geschichte

Lie und Saarela argumentieren, dass die Auszeichnungssprache SGML strukturierte Dokumente eingeführt hat,[6] aber frühere Systeme wie Scribe und Augment boten bereits ähnliche Funktionen. Der Nachfolger XML ist heute das am weitesten verbreitete Format für strukturierte Dokumente und gilt als „universal format for structured documents and data on the Web“.[7]

Eine der gebräuchlichsten Darstellungen ist HTML, definiert durch das W3C.[8] HTML enthält jedoch sowohl semantische Auszeichnungen (Absatz, Titel) als auch Auszeichnungen zur reinen Formatierung (Kursiv, Fett) und wird sowohl zur Strukturierung von Dokumenten als auch zur Formatierung verwendet.

Viele Branchen nutzen XML-basierte Schemata (z. B. in Form von XML Schema oder XML-DTD) wie JATS für wissenschaftliche Publikationen, TEI für literarische Texte und gesprochenes Wort[9], UBL und EDI für den Handel und XTCE für die Raumfahrt-Telemetrie.

Beispiele

Strukturierte Dokumente sind bei der elektronischen Datenverarbeitung an zahlreichen Stellen zu finden, insbesondere im Internet.

Die Konvertierung des Oxford English Dictionary in SGML ermöglichte es, verschiedene Verwendungen von Kursivschrift zu unterscheiden, was die Suche verbesserte.[10][11] Reiseagenturen profitieren von strukturierten Dokumenten, da diese eine einfache Integration mit Kalendern und Verwaltungssystemen ermöglichen.

MediaWiki

Die Software MediaWiki, die u. a. bei Wikipedia zum Einsatz kommt, nutzt eine Wikitext-Auszeichnungssprache und erzeugt anhand von ausgezeichneten Überschriften automatisch ein Inhaltsverzeichnis. Hierfür werden Gleichheitszeichen genutzt.[12] Außerdem werden Hyperlinks auf andere Artikel gesondert ausgezeichnet.

XML

Bei XML werden Strukturelemente mit spitzen Klammern ausgezeichnet. Es folgt ein Beispiel für ein strukturiertes XML-Dokument:[13]

<?xml version="1.0" encoding="UTF-8"?>
<fruehstueckskarte>
	<gericht>
		<name>Belgische Waffeln</name>
		<preis>5.95</preis>
		<beschreibung>Zwei unserer berühmten belgischen Waffeln mit echtem Ahornsirup</beschreibung>
		<kalorien>650</kalorien>
	</gericht>
	<gericht>
		<name>French Toast</name>
		<preis>4.50</preis>
		<beschreibung>Dicke Scheiben aus unserem hausgemachten Sauerteigbrot</beschreibung>
		<kalorien>600</kalorien>
	</gericht>
	<gericht>
		<name>Hausgemachtes Frühstück</name>
		<preis>6.95</preis>
		<beschreibung>Zwei Eier, Speck oder Würstchen, Toast und unsere beliebten Röstkartoffeln</beschreibung>
		<kalorien>950</kalorien>
	</gericht>
</fruehstueckskarte>

Die logische Struktur entspricht einer Speisekarte mit verschiedenen Gerichten, die einen Namen, einen Preis und zusätzliche Angaben haben. Das Schema eines solchen Dokuments könnte u. a. die Elemente fruehstueckskarte und gericht definieren und vorsehen, dass jedes Gericht mindestens einen Namen und einen Preis (als Dezimalzahl mit zwei Nachkommastellen) besitzen muss und eine zusätzliche Beschreibung optional ist.

Gegenüber einer klassischen Speisekarte ist das Dokument maschinell lesbar und kann von Anwendungen, die dieses Schema unterstützen, eingelesen werden, um Gerichte z. B. u filtern oder nach Preis zu sortieren. Auf der Anwendungsebene kann dann auch eine Darstellung erfolgen, z. B. kann der Name (im Gegensatz zu anderen Angaben) in Fettschrift präsentiert werden. Durch Einrückungen, die bei XML aber kein Muss sind, ist die Struktur auch schnell für Menschen erfassbar.

HTML

Die Syntax der Auszeichnungssprache HTML lehnt sich an XML an. HTML definiert allerdings konkrete Strukturelemente wie <body> (sichtbarer Teil des Dokuments), <h1> (Überschrift) und <p> (englisch Paragraph ‚Absatz‘), die über die reine Syntax hinausgehen:

<body>
<h1>Strukturiertes Dokument</h1>
<p>Ein <strong class="selflink">strukturiertes Dokument</strong> ist ein <a href="/wiki/Dokument_electronico" title="Dokument elektronico">elektronisches Dokument</a>, das Markup verwendet, um den Inhalt zu kennzeichnen.</p>  
</body>

Einige Text-Elemente, die nicht traditionell strukturell sind, geben Informationen über die Natur der Abschnitte des Dokuments an, anstatt deren Präsentation zu kennzeichnen.[14] Zum Beispiel zeigt <strong> Betonung an, die grafisch durch Fettschrift oder Färbung hervorgehoben werden kann. Eine streng semantische Auszeichnung schließt Tags wie <b> (englisch bold ‚fett‘) aus, die nur eine visuelle Funktion haben. Weitere strukturelle Elemente sind <abbr>, <cite>, <dfn>, <section>. Das Tag <a> schafft eine Verknüpfungsstruktur, die ebenso wichtig ist wie die Abschnitsgliederung und durch Transklusion ersetzt werden kann.

Die Verwendung von semantischem HTML verbessert die Zugänglichkeit für sehbehinderte Menschen.[3][15]

Einzelnachweise

  1. Einführung in die Funktionsweise von Markup für strukturierte Daten | Google Search Central | Documentation. Abgerufen am 26. März 2025.
  2. Accessibility 103: Structure What and Why. Abgerufen am 26. März 2025.
  3. a b HTML: A good basis for accessibility. In: MDN Web Docs. Mozilla Foundation, 12. April 2025, abgerufen am 13. April 2025 (amerikanisches Englisch).
  4. Proceedings of Extreme Markup Languages®. In: conferences.idealliance.org. Archiviert vom Original am 28. Juni 2018; abgerufen am 26. März 2025.
  5. Comparing Schema Languages. 27. Oktober 2016, abgerufen am 26. März 2025 (amerikanisches Englisch).
  6. Håkon Wium Lie, Janne Saarela: Multi-purpose publishing using HTML, XML, and CSS. In: w3.org. 16. April 2013, archiviert vom Original am 16. April 2013; abgerufen am 26. März 2025.
  7. XHTML2 Working Group Home Page. In: w3.org. W3C, 2. April 2013, abgerufen am 13. April 2025 (amerikanisches Englisch).
  8. HTML: HyperText Markup Language | MDN. 13. März 2025, abgerufen am 26. März 2025 (amerikanisches Englisch).
  9. Naomi Truan, Laurent Romary: Building, Encoding, and Annotating a Corpus of Parliamentary Debates in TEI XML: A Cross-Linguistic Account. In: Journal of the Text Encoding Initiative. Issue 14, 17. März 2021, ISSN 2162-5603, doi:10.4000/jtei.4164 (openedition.org [abgerufen am 26. März 2025]).
  10. Heather Fawcett: The "New Oxford English Dictionary" Project. In: Technical Communication: Journal of the Society for Technical Communication. Band 40, Nr. 3, 1993, ISSN 0049-3155, S. 379–82 (ed.gov [abgerufen am 26. März 2025]).
  11. Laura Elliot: How the Oxford English Dictionary Went Online. In: Ariadne. Nr. 24, 2000, ISSN 1361-3200 (ariadne.ac.uk [abgerufen am 26. März 2025]).
  12. Hilfe:Abschnitt. In: MediaWiki. Abgerufen am 13. April 2025.
  13. XML Tutorial. In: W3Schools. Abgerufen am 14. April 2025 (englisch, gekürzt, übersetzt).
  14. What Is Semantic Markup and Why You Should Use It. 22. Juli 2021, abgerufen am 26. März 2025 (englisch).
  15. Semantic HTML: Enhancing Accessibility and SEO. Abgerufen am 26. März 2025.