XML in der Zeitungsredaktion

Die Zukunft der Zeitungsredaktion:

XML wird die Muttersprache des Content Managements

Der Zeitungstechnik steht mal wieder ein Umbruch ins Haus: die Markup-Sprache XML wird hier mehr verändern als weiland der Fotosatz. In diesem Beitrag geht es um die technologischen Konsequenzen des CrossMedia-Publishing für die Redaktionstechnik. Im Zentrum steht die Integration von Workflow und Content Management und die Trennung von Darstellung und Inhalt.

Redaktionssysteme für das Content Management im Zeitungsverlag gab es schon vor dem WorldWideWeb. In vielen Verlagen arbeiten noch diese Dinosaurier aus den siebziger Jahren - mindestens bis zum 31.12.99. Mit CrossMedia- und Realtime-Publishing haben die Boliden der EDV-Frühzeit nicht viel im Sinn.

Viele Verleger sehen das inzwischen anders: der Ruf des Internet wird allerorten gehört. "Adapt, or Die!" beschied Intel-Gründer Andy Grove im April dieses Jahres amerikanischen Zeitungsverlegern bei einem ihrer Kongresse in San Francisco. Das Internet verändert die Lesekultur, was sich nicht nur in sinkenden Abonnentenzahlen widerspiegelt. In den USA gibt es bereits Zeitungen, die ganz auf die Papierausgabe verzichten und nur noch im Internet erscheinen.

Eine Webzeitung bietet vor allem zwei Vorteile: sie ist so aktuell wie eine Nachrichtensendung, sie ist möglicherweise multimedial und sie ist individuell an die Informationsbedürfnisse und die technischen Darstellungsmöglichkeiten des Besuchers anpassbar.

Mit diesen im Fachjargon als "smart" bezeichneten Inhalten bieten sich den Publishern unabweisbare Vorteile: Smart Content stärkt die Leserbindung und erlaubt dem Publisher, Community-Gruppen zu bilden, die auf Grund ihrer demographischen Struktur auch für Anzeigenkunden besonders attraktiv sind.

Das Internet verlangt neue Strategien des Publishing

Wer im Webbrowser nur eine Alternative zum Papier sieht und Zeitungsinhalte 1:1 übernimmt, vergibt viele Chancen, die die Onlinetechnik bietet. Eines der wichtigsten Stichworte des Online-Publishing heißt "Targeting": personalisierte Mehrwertdienste schaffen Wettbewerbsvorteile und binden Leser an das Online-Angebot. Dieses "1:1 Beziehungsmarketing" erlaubt auf der anderen Seite auch eine exakte Analyse des Nutzerverhaltens, die wiederum ein noch effektiveres Targeting ermöglicht.

Die kostenpflichtige Vermarktung von Online-Inhalten ist derzeit nur in Ausnahmefällen im B-to-B-Bereich (Handelsblatt, Wall Street Journal) akzeptiert. Bei hinreichend hoher Online-Besucherzahl ist aber ein Ertrag durch Bannerwerbung erzielbar. Die Preisbewertung dieser Online-Werbeform gilt dabei als geklärt: das IVW-Verfahren ist in Deutschland ein allgemein akzeptiertes Verfahren zur Messung der Online-Reichweite (Besucherfrequenz).

Es liegt nahe, das Konzept der Bannerwerbung zu einer eCommerce-Lösung zu erweitern, in dem etwa Anzeigenkunden Unterseiten oder einen Online-Shop auf der Site des Publishers anmieten.

Neben den gewerblichen Anzeigen bieten auch die Kleinanzeigen der Leser ein enormes Potential zur Leserbindung. Newsgroups, Auktionen, Chatforen etc. stellen  weitere Möglichkeiten zur Community-Organisation dar.

Medienneutralität bedeutet Trennung von Struktur und Inhalt

Das Internet verwandelt sich derzeit von einem Medium zur reinen Informationsbeschaffung in eine universelle Plattform für Geschäftsprozesse. Das Web ist Medium, Kommunikationsmittel und Technologie zugleich: wir sehen eine fortschreitende Konvergenz von Informationen, Transaktionen und Kommunikation zu webbasierten Prozessen. Forrester Research spricht in diesem Zusammenhang von Transactive Content.

Wer CM Systeme für das Internet entwickelt, muß daher diese große Perspektive vor Augen haben. Bisher fragten sich Verlage, ob ihr printorientiertes Redaktionssystem auch die Online-Schiene bedienen kann. Vielleicht ist die Frage interessanter, ob ein für das Web konzipiertes CM-System nicht auch die Printschiene abdecken kann.

Die PostScript-Antithese

Bestehende Redaktionssysteme nur zu erweitern, führt unter Umständen in eine Sackgasse, in der kein weiteres Wachstum mehr möglich ist. Ein Redaktionssystem sollte beispielsweise unabhängig von den zugrundeliegenden Datenbanken sein und auch mehrere Datenbasen gleichzeitig ansprechen können.

Im Hintergrund steht dabei ein neues Kommunikationsparadigma: Dokumente werden nicht mehr vorproduziert und dann verteilt, sondern vor Ort nach den Bedürfnissen des Empfängers aus verschiedenen Quellen frisch zusammengestellt. Das geht nur mit der konsequenten Trennung von Struktur und Inhalt - gewissermaßen die Antithese zu PostScript. 

Heutige Inter-, Intra- und Extranetlösungen haben allerdings ein Problem: der Inhalt wird nicht von denjenigen eingepflegt, die die Informationen haben, sondern von Dienstleistern, die mit dem Medium umgehen können (Webmaster, Agentur, Systemhaus). Dieser Weg ist sehr zeit- und kostenaufwendig und läßt kaum Aktualität zu. Hinzu kommt ein rechtlicher Aspekt: der Herausgeber verantwortet jeden Link, den sein Webmaster setzt.

XML und Java sind das Esperanto der DV-Welt

Zwei Technologien haben für die Entwicklung internetbasierter Lösungen eine herausragende Bedeutung gewonnen: die Programmiersprache Java und die Auszeichnungssprache XML. Java ermöglicht als objektorientierte Programmiersprache erstmals Anwendungen, die unabhängig vom Betriebssystem und der vorhandenen Hardware-Architektur arbeiten.

XML, die Extended Markup Language, gilt als die Lingua Franca des eCommerce und setzt den Anspruch von HTML, Dokumente plattformübergreifend darzustellen, auch bei Daten um. Daten werden durch die Metadaten in den XML-Tags interpretierbar und berechenbar. Zusammen mit Java bietet XML die Grundlage für einen kostengünstigen weltweiten Datenaustausch unabhängig von der IT-Infrastruktur der beteiligten Partner.

Einen ersten Ansatz in diese Richtung gab es schon in den achtziger Jahren mit dem proprietären EDI-Konzept. Der Electronic Data Interchange erforderte aber einen extrem hohen Implementierungsaufwand und spezielle Netze: spätestens mit dem Internet und TCP/IP war dieses Konzept zum Scheitern verurteilt.

NITF und ICE sind XML-Dialekte des Publishing

XML wird in seiner Bedeutung für das Web mit derjenigen von Windows für den PC verglichen. XML, geboren im Dezember 1997 als handliche Untermenge der extrem unhandlichen und komplexen Standard General Markup Language SGML, ist eigentlich keine Sprache, sondern ein System, mit dem man andere Sprachen erfinden kann.

XML ermöglicht frei definierbare Markup-Sätze. Diese "vertikalen Bibliotheken" sind anwendungs- oder branchenspezifische Tag-Sets, die von Unternehmenskonsortien anwendungsspezifisch definiert wurden. Bereits verfügbar sind unter anderem folgende Tag-Sets:

  • Information and Content Exchange (ICE) für das medienübergreifende Content Management bei Nachrichtenagenturen und Großverlagen
  • News Industry Text Format (NITF), ein ursprünglich in SGML entwickeltes Format des amerikanischen Zeitungsverlegerverbands NAA und des International Press Telecommunications Council IPTC
  • XMLNews-Story und XMLNews Meta, zwei von WebPhore "etwas eigenständig" entwickelte Formate mit gleicher Zielsetzung wie NITF und partieller Kompatibilität hierzu
  • Open Financial Exchange (OFX) für den Austausch von Finanzdaten
  • commerce XML (cXML) zum Austausch von Katalogdaten
  • Open Buying on the Internet (OBI) für eCommerce-Lösungen
  • Eine Übersicht über diese Dialekte von XML findet man u.a. bei www.ontology.org.
  • Metadaten sind Daten über Daten

    Die Stärke von XML ist die strikte Trennung zwischen der Benutzeroberfläche (der Darstellung) und den strukturierten Daten. Während HTML vorschreibt, wie Inhalte von einem Browser dargestellt werden, beschreibt XML zunächst nur die Inhalte durch Tags, gibt z.B. bei einer Zahl 25 an, daß es sich um eine Temperaturangabe handelt. Durch dies Metadaten können Daten auf Maschinenebene mit hoher Genauigkeit interpretiert und verarbeitet werden - automatisches Dokumentenmanagement ist damit machbar.

    Über Stylesheets wie die Extensible Style Language XSL und Cascading Stylesheets CSS wird dann erst die Darstellung definiert. Mit unterschiedlichen Stylesheets und Anwendungen können die gleichen XML-Daten beliebig dargestellt werden.

    XML als ideales Workflow-Format

    XML ist auch das ideale Mantelformat für die prozessinterne Kommunikation im Produktionsworkflow: XML-Metadaten liefern die Information für einen Workflowmantel zwischen Autor und Vorstufe. Büro-Software wie Microsofts Office 2000 unterstützt XML ebenso, wie der MS-Browser IE 5.0 oder die künftigen Publishingprogramme von Adobe. 

    XML gibt Text und Daten die Portabilität zwischen Print, CD-ROM und Online-Medien. XML ermöglicht zusammen mit Designmodellen, Vorlagen und Stylesheets eine neue Generation von Tools für die parallele Online- und Printausgabe. Ein entscheidender Vorteil ist dabei die durch XML gegebene Granularität: ändert sich nur eine Detailinformation, muß nur sie und nicht wie bisher das ganze Dokument neu übertragen werden.

    HTML, XML und PDF ergänzen sich

    XML-Content läßt sich über Cascading Style Sheets (CSS) oder mit der neuen Extended Style Language XSL auf HTML abbilden; die neuen Browser der fünften Generation unterstützen bereits XML. Für die Druckausgabe ist natürlich PDF das optimale Präsentationsformat: durch die Konvertierung in PDF geht dabei keine XML-Funktionalität verloren.

    Die neue PDF-Spezifikation 1.3 erlaubt nämlich die Einbettung logischer Strukturinformationen in einer an XML angelehnten Syntax. Damit können bei der Umwandlung von XML in PDF alle Strukturinformationen beibehalten werden, die für Such- und Archivanwendungen benötigt werden. Abobes InDesign bindet diese Strukturinformationen beim PDF-Export gleich mit ein.

    Die Java Applikation FOP von James Tauber ist die weltweit erste Anwendung, die einen "Formatting Object Tree" in Gestalt eines XML-Dokuments in PDF umwandelt; mehr dazu unter www.jtauber.com/fop/. Ein Diskussionsforum für Entwickler ist die XSL-List auf www.mulberrytech.com/xsl/xsl-list/.

    Adobes PGML verknüpft PostScript und PDF mit XML

    Im Frühjahr 1998 reichten Adobe, IBM, Netscape und Sun einen Vorschlag namens Precision Graphics Markup Language (PGML) beim Internet-Konsortium W3C ein, mit deren Hilfe Vektorgraphik in das XML-Konzept integriert werden kann. PGML ist eine skalierbare 2D-Grafiksprache, die auf dem Grafikmodell von PS und PDF aufbaut. Sie soll sicherstellen, daß Layout, Komposition, Farben und Schriften auf jedem Ausgabesystem im Rahmen der technischen Möglichkeiten gleich erscheinen.

    Stark vereinfacht könnte man von einem um Webfunktionen wie skriptgesteuerte Animationen, Transparenz und Anti-Aliasing erweiterten und XML-basierten PDF sprechen. Insbesondere ist Text in einer PGML-Grafik voll suchbar. Rasterbilder (Bitmaps) sind verlinkte Objekte in PGML. Für alle Objekte gibt es ein Maus- und Tastatur-Event Handling, mit dem z.B. Mouseover-Effekte möglich sind. Copyright- und Abrechnungsinformationen sind ebenfalls Teil des PGML-Standards.

    Ebenfalls von Adobe stammt das XML-basierte Vektorformat SVG (Scalable Vector Graphic), das etwas weiter entwickelt ist als das Microsoft-Format VML (Vektor Markup language). Für Multimediaanwendungen bietet sich SMIL an, die Synchronized Multimedia Markup Language, die u.a. eine vom Bandbreitenangebot abhängige Wiedergabe von Zeitsequenzen zuläßt.

    XML macht aus Informationen multifunktionale Daten

    XML-Daten lassen sich effektiver suchen: z.B. "Bücher von Goethe" ohne auch "Bücher über Goethe" angezeigt zu bekommen. Derzeit ist es praktisch unmöglich, gleichzeitig in verschiedenen, zueinander inkompatiblen Datenbanken zu suchen, weil die Beschreibung der Daten quasi in der Datenbank "eingebaut" ist und nicht mit ausgegeben wird.

    XML-Daten sind dagegen selbstbeschreibend. Sie können von anderen Programmen plattformneutral verarbeitet werden und auf anderen Medien (Browser, Print) benutzergerecht dargestellt werden. Aus einer nur von Menschen effektiv nutzbaren  Informationsquelle wird mit XML eine Datenquelle mit weit größerem Nutzungspotential.

    Objektorientierung siegt über Relationalität

    Die Daten aus den verschiedensten Quellen (Datenbanken) werden vom XML-Server (Middle Tier) mit Metatags versehen und können wie HTML-Code via HTTP ausgetauscht werden, da auch XML nur aus Textcode besteht. Das Internet wird mit XML zu einer gigantischen Datenbank. Anwendungen, die auf XML aufbauen, müssen skalierbare und objektorientierte Lösungen sein. Um die strukturierten XML-Daten speichern zu können, müssen eine einfache Navigation, Link-Management und Versionskontrolle auch bei sehr großen Datenmengen möglich sein.

    Hier können objektorientierte Datenbanken (z.B. Poet) ihre vollen Stärken zeigen. Denn bei relationalen Datenbanken bleibt die Semantik und die Verlinkung von Daten sozusagen in der Hardware stecken: was ausgegeben wird, sind "dumme" Daten. Vorhandene relationale Datenbasen lassen sich aber natürlich für XML-Anwendungen nutzen.

    Multi-Tier-Konzepte entlasten die Netze

    Ein weiteres Merkmal XML-basierter Webanwendungen ist das Multi-Tier-Konzept: der Browser (Client) richtet seine Anfrage zunächst an einen Content Server (Middleware), der wiederum auf einen Datenbankserver (Third Tier) zugreift und dessen Ausgaben für den Client aufbereitet.

    Die abgerufenen Inhalte werden sozusagen jedesmal frisch zubereitet und liegen nicht wie beim klassischen Client-Server-Konzept bereits fertig auf dem Server. Erst durch dieses "mehrrangige" Konzept wird sichergestellt, daß der Client stets die aktuellsten Informationen in genau der Form (z.B. Sprachversion) bekommt, die er braucht.

    Für den Publisher vereinfacht und verbilligt sich die Datenpflege, denn er kann Teile von Dokumenten beliebig oft wiederverwenden, muß sich aber nur an einer Stelle um deren Aktualisierung kümmern. Diese Datenpflege kann natürlich ebenfalls via Internet und meist sogar mit Standardbrowsern erfolgen. Investitionen in teure proprietäre Arbeitsplätze und Clients werden weitgehend überflüssig.

    NITF erlaubt eue Strukturen im Publishing

    Die Vernetzung im Publishing zeigt sich heute überwiegend auf der Seite der Informationseingabe: Viele Nachrichtenagenturen beliefern praktisch alle Zeitungen. Bisher waren Agenturtexte im veralteten ANPA-1312-Format mehr oder weniger nur Schnappschüsse der aktuellen Nachrichtenlage, die mit einigem Aufwand in die richtigen Kanäle geleitet werden müssen.

    Wenn einige Agenturen dagegen auf das internationale XML-basierte News Industries Text Format NITF (www.mediacenter.org) umgestellt haben - es sei denn, das wetteifernde XMLNews (www.xmlnews.org) macht das Rennen -, werden die Informationsströme der Agenturticker bald eine riesige enzyklopädische Datenbank bilden, in der ohne Mühe und effizient recherchiert werden kann. Für den Austausch von Anzeigendaten hat Zedak (www.zedak.com), die Agentur der NYT, ein XMl AD Markup vorgeschlagen. Auch die NAA arbeitet an einer XML-basierten Alternative zum alten Kleinanzeigen-Austauschformat CRESTvon 1986 - mehr dazu auf www.naa.org/technology/clsstdt/.

    Newspaper Value Networks sind die Basis von Kooperationen

    Auch im Printbereich muß ein Austausch von Content über die Grenzen inselartiger verlagsspezifischer Redaktionssysteme möglich sein. Die heutige Kleinstaaterei im Verlagswesen wird bald an ökonomische Grenzen stoßen: Newspaper Value Networks stehen auf der Tagesordnung.

    XML wird hierbei die Rolle übernehmen, die HTML ansatzweise im Internet einnimmt. Verlage, die auf Grund proprietärer Redaktionssysteme nicht an dieser "Syndication" teilhaben können, werden nicht mehr konkurrenzfähig sein.

    Auch der redaktionell aufbereitete Content wird künftig auf verschiedene Medien und Medienarten verteilt werden. Im Online-Bereich ist es bereits üblich, daß Verlage ihren Online-Content anderen Sites im Rahmen eines Internet Value Networks anbieten: ein Hersteller von Sportschuhen kann so etwa die aktuellsten Sportmeldungen auf seiner Site präsentieren; wahlweise nur die Headlines mit Link auf die Quellsite, die Abstracts dazu oder den Volltext.

    Für diesen automatisierten Austausch von Webinhalten zwischen einem Syndicator und einem Subscriber gibt es seit Oktober 1998 das XML-basierte ICE-Protokoll (Information and Content Exchange), nachzulesen auf www.w3.org/TR/Note-ice.

    Kein Patentrezept für den Umstieg

    Noch sind vollständig XML-basierte Content Management Systeme auf die Online-Schiene beschränkt, doch Ansätze, sie auch in der Printproduktion einzusetzen, gibt es bereits (z.B. www.texcel.com). Bis sich die Anbieter konventioneller Zeitungstechnik auf XML eingestellt haben, wird es wohl noch ein wenig dauern.

    Es gibt sicher kein Patentrezept für den Umstieg, aber es führt auf mittlere Sicht auch kein Weg daran vorbei. In vielen Fällen wird man die vorhandene Technik beibehalten und das CM-System fürs Internet mehr oder weniger unabhängig von der Printschiene aufsetzen, zumal RichMedia Content wie Audio und Video ohnehin eine neue Technik erfordert. Internet-CM-Systeme wie Expressroom von Worldweb zeigen aber schon den alternativen Weg: eine Extension für QuarkXPress bringt den Online-Inhalt nun auch auf die Printschiene.

    Ohne Programmierer wird das nicht gehen: Content Management Systeme, die "out of the box" funktionieren, sind ein Wunschtraum. Damit sind alle Anbieter klar im Vorteil, die in Deutschland Entwicklerkompetenz vorhalten. Hinzu kommt, daß die zahlreichen Zeitungssysteme aus den Siebziger Jahren den Jahrtausendwechsel vermutlich nicht problemlos überstehen werden. Die Zeit für grundlegend neue Konzepte ist also reif.

    Ein browserbasiertes Redaktionssystem wie etwa Imperia bietet noch einen ganz anderen Nutzen für die Arbeitsorganisation: die Bedienung erfolgt mit Standardbrowsern via Internetprotokoll. Sowohl die Erstellung als auch das Management der Inhalte kann von Telearbeitern zuhause vorgenommen werden. Alle Daten und die CM-Software liegen zentral auf einem Webserver. Neue Arbeitsstrukturen sind allerdings in Deutschland nicht ohne den Betriebsrat durchsetzbar.

    Leserservice

    Das Angebot an Contentmanagement- und Redaktionssystemen für Print und/oder Web ist so vielfältig, die verfügbaren Funktionalitäten sind so komplex und die Veränderungen von Woche zu Woche so umfangreich, daß der Versuch einer Marktübersicht in einer Zeitschrift schon im Ansatz zum Scheitern verurteilt ist. Da hier ja zudem nicht Pfennigbeträge investiert werden müssen, bleibt dem Interessenten keine Alternative zur mühsamen Selbsterforschung des Angebots in Kenntnis seiner eigenen Anforderungen und Möglichkeiten.

    Der Autor hat - ganz im Geiste des CrossMedia Publishing - daher auf seiner Homepage eine umfangreiche Liste von Webadressen der wichtigsten Anbieter in diesem Bereich zusammengestellt. Von dort kommt man mit einem Mausklick auf die Seite des Herstellers und kann sich mit teilweise recht umfangreichem Informationen eindecken. Wer sich für weitere Links zu Content Management oder XML interessiert, wird unter www.contentmanagement.de ebenfalls fündig. Außerdem findet man im Internet eine enorme Fülle an Infos zu XML (das meiste allerdings in Englisch).

    Roland Dreyer

    PDF-Version