Die Grundlagen von XML

XML bringt Bewegung ins Publishing

Kein Akronym taucht in der Internetgemeinde derzeit häufiger auf als XML. Die eXtended Markup Language XML sollte aber in der Publishingwelt keinen vom Hocker reißen: sie ist eine vereinfachte Variante von SGML und wird nicht nur im Internet, sondern auch bei der Speicherung von Information eine wichtige Rolle spielen.

XML ist eine Untermenge von SGML

SGML, die "Standard Generalized Markup Language" kennt die Druckindustrie schon lange. Dennoch hat die SGML-definierenden Norm ISO 8879 von 1989 vor allem wegen ihrer Komplexität nie so recht durchgesetzt; allenfalls in der Technischen Dokumentation ist sie ein Thema. Die gestaltungsorientierte Beschreibungssprachen PostScript schien bislang praktikabler, als eine inhalts- oder strukturbeschreibende Sprache wie SGML.

In anderen Branchen, in denen vor allem technische Dokumentationstexte in vielen Sprachen erstellt, verwaltet und möglichst automatisch übersetzt werden müssen, sah und sieht man das ganz anders. Zumal inzwischen sogar gesetzliche Vorgaben etwa für die Luftfahrt oder das Militär die Produzenten technischer Güter zwingen, ihre Dokumentationen mit SGML aufzubereiten. Bei der 526 Seiten umfassenen SGML-Spezifikation zugegebenermaßen eine Tortur; das Derivat XML begnügt sich mit 26 Seiten.

Das Publishing wird medienübergreifend

Ebenso wie industrielle Produkte und die Produktionsprozesse immer komplexer werden und miteinander verzahnt sind, sind es auch die Dokumentationen, die sie beschreiben. Die Wiederverwendbarkeit von gemeinsamen Produktkomponenten wird immer wichtiger und ist deshalb verbunden mit der Notwendigkeit, auch die zugehörigen Dokumentkomponenten immer wieder verwenden zu können.

Gleichzeitig sind gebundene Papierversionen dieser Handbücher nicht mehr länger ausreichend. Papier wird ersetzt oder gar verdrängt von elektronischen Seitenpräsentation, Hilfedateien, Internet-Seiten oder Interaktiven Elektronischen Manualen (IEM).

XML  wendet wie SGML eine verifizierbare Struktur auf ein Dokument an und bricht die Informationen in Einheiten auf - bis auf Absatzebene und darunter. Das so strukturierte Dokument kann dem Nutzer sowohl als Papiermanual wie auch als elektronisches Buch zu Verfügung gestellt werden.

Der größte Vorteil von XML ist, daß durch die Dokument-Strukturierung ein feinkörniger Zugriff auf die Informationen in gleicher Weise möglich ist, wie der Feld- und Datensatz-Zugriff bei relationalen Datenbanken. Jedes Struktur-Element im Dokument - eigentlich innerhalb der Sammlung aller Dokumente - kann gemeinsam genutzt, wiederverwendet, wiedergefunden und verwaltet werden. Diese Elemente sind gewissermaßen der Schlüssel zu allen wichtigen Informationen, die in einem Dokument verborgen sind.

Auch das HTML des World Wide Web ist SGML

Das World Wide Web im Internet gäbe es nicht ohne HTML, die "HyperText Markup Language", die Tim Berners-Lee 1991 schuf und die eine kleine, starre Untermenge von SGML darstellt. Das WWW entwickelt sich dramatisch, kein Wunder also, daß gerade von hier der Wunsch nach einer gegenüber dem gegenwärtigen Standard HTML 4 deutlich erweiterten und leistungsfähigeren Metasprache kommt. Das wird zunächst einmal HTML 5 sein, das aber selbst eine Untermenge von XML ist.

Charakteristisch ist auch für XML die Klartextmarkierung mit sogenannten Tags, die durch textatypische Zeichen eingeleitet werden, in der Regel sind das die spitzen Klammern. <Tagname>Inhalt</Tagname> ist ein typisches XML-Element. XML kann also mit jedem einfachen ASCII-Editor erzeugt und gelesen werden und die meist mnemonischen Befehle sind auch schnell zu lernen. Sogenannte Parser können ganze Dokumente auf die Einhaltung der Strukturregeln prüfen.

In der Document Type Definition (DTD) steckt die Intelligenz des Textes

Für jede Klasse von Dokumenten, wie Briefe, Handbücher, Artikel, Kataloge oder auch Tageszeitungen, wird die Struktur durch eine eigene Grammatik definiert: die Document Type Definition (DTD). Die Fähigkeiten eines Web-Browsers beruhen so auf der Kenntnis der DTD von HTML.

Für jede vorgesehene Teilstruktur wird in der DTD ein Strukturelement definiert und mit einem Namen, dem "Tag", versehen. Neben den Strukturelementen selbst definiert die DTD auch deren Attribute und legt die Relationen (Beziehungen) zwischen den Dokumentenstrukturen fest. So wacht die DTD, besser gesagt der SGML-Parser (Regelprüfer), beispielsweise darüber, daß eine Überschrift nicht losgelöst vom zugehörigen Absatz am Ende einer Seite steht. Die maschinelle Überprüfbarkeit von einmal festgelegten Regeln ist eine der wichtigsten Vorteile von SGML-strukturierten Dokumenten.

Seine Vorzüge beweist XML aber nicht nur bei der Gestaltung und ausgabeneutralen Speicherung von Dokumenten, sondern auch beim Dokumenten-Management: zeit- und speicherzehrende Mehrfachablagen von immer wiederkehrenden Textelementen (typisch für technische Dokumentationen) lassen sich so vermeiden. Als entscheidende Erweiterung gegenüber HTML bietet XML eine objektorientierte Verwaltung für beliebige Datentiefen.

Die entscheidende Neuerung von XML gegenüber HTML besteht in der Möglichkeit, neue eigene Tags zu definieren, deren Bedeutung dann in der DTD beschrieben wird: vor allem solche Tags, die die Bedeutung des Inhalts beschreiben. Ein Eintrag in einer Kundendatei könnte etwa so aussehen:

  • <Kundennummer>70193</Kundennummer>
  • <Firma>Art & Science</Firma>
  • <Name> Dreyer</Name>
  • <Vorname>Roland</Vorname>
  • <Ort>Stuttgart</Ort>
  • <Strasse>Seyfferstr.</Strasse>
  • <Haunsnr.>107</Hausnr.> usw.
  • Die XML-Tags gehen also in Ihrer Aussagefähigkeit viel weiter als die HTML-Tags, aus denen sich nur Gestaltungsmerkmale ableiten ließen. Die Nähe zu einer datenbankartigen Struktur ist augenfällig. Für das Web bedeutet XML zunächst einmal eine dramatische Beschleunigung bei Suchanfragen, da der Server nur noch die benötigten Daten übertragen muß. Das vielzitierte Database-Publishing - mit XML wird es auf einmal ganz einfach.

    Literaturhinweise:

    O.Pott, G.Wielage: XML, Technik Konzepte Beispiele, M&T 1999 ISBN 3-8272-5485-X DM 69,95 mit CD-ROM.

    Goldfarb, Prescod: XML-Handbuch, Prentice Hall 1999, ISBN 3-8272-9575-0 DM 99,95 mit CD-ROM.

    Copyright: Roland Dreyer 1999

    PDF-Version