Das Portable Document Format PDF im Publishing

Adobes ePaper ist die Fusion von Papier und Silizium:
PDF 1.3 wird zum Universalstandard für Publisher

"ePaper ist der Schlüssel zum papierlosen Büro" verkündete Charles Geschke am 25. Juni 1999 auf der PC Expo in New York. Was Geschke  "ePaper" nennt, ist für andere der "digitale Film": das Portable Document Format, das Adobe in Acrobat 4.0 in der Version PDF 1.3 präsentiert, ist auf dem besten Wege, EDV-Geschichte zu schreiben. Der Weltstandard für den plattform- und medienübergreifenden Austausch von Dokumenten läßt auch für den Publisher nur noch wenige Wünsche offen. Und selbst die können mit Zusatzprogrammen abgedeckt werden.

Mehr als 100 Millionen PDF-Reader sind weltweit installiert. Seit 1992 erobert Adobes Format die Welt der Information. Sein Siegeszug steht im engen Kontext mit der Verbreitung des Internet, denn wie das Web verspricht Acrobat,  bisher unverträgliche Rechnerplattformen zu verbinden. Mehr noch: PDF will die Brücke zwischen der elektronischen und der Printwelt schlagen, in dem es die optische Erscheinung bedruckten Papiers mit den Möglichkeiten der Elektronik verbindet.

PDF kann die exklusivsten  Schriften und komplizierte Layouts auf Rechnern zeigen und ausdrucken, auf denen diese Schriften oder Layout-Programme gar nicht installiert sind. Hochwertige Typographie und Farbbilder, vereint mit such- und editierbarem Text, angehefteten Text-, Ton- oder Videokommentaren und Hyperlinks zwischen einzelnen Seiten, anderen Dokumenten oder direkt ins Internet bis hin zur vollen Interaktivität bei Spielen sind mit PDF machbar.

In den USA gehört das PDF-Steuerformular aus dem Internet schon zum Alltag. Die eingegebenen Feldinhalte werden per eMail datenbankgerecht in den Zentralrechner des Finanzamts übertragen - oder das ganze Formular einfach ausgedruckt. Das Ausfüllen von Formularen wird durch den PFN-Standard wesentlich vereinfacht. PFN steht für Personal Field Names; dazu legt der Anwender einmalig eine spezielle PDF-Datei auf seiner Festplatte ab, in der alle persönlichen Daten in definierten Feldern abgespeichert werden. Formulare, die die entsprechenden Eingabefelder aufweisen, können dann quasi automatisch ausgefüllt werden.

Auch die tagesfrische ICE-Zeitung des SPIEGEL ist PDF, per Funk in den Zug übertragen. Es gibt eigentlich nichts, was man mit PDF nicht realisieren kann.

PDF ist objektorientiertes PostScript

PDF basiert auf der Seitenbeschreibungssprache PostScript, übernimmt deren Graphikmodell, vermeidet aber die umfangreichen PS-typischen Code-Konstrukte. Der Distiller, der aus PostScript PDF erzeugt, (jetzt integraler Part von Acrobat 4.0) ist ein reiner PS Interpreter, bislang Level 2, nun Level 3.

Der wesentlichste Unterschied zu PostScript ist die Objektstruktur von PDF: sich wiederholende Elemente sind nur einmal in PDF vorhanden. Die Filegrößen sind daher bei PDF durch die kompakte Syntax erheblich kleiner. PDF ist als "objektorientiertes PostScript" deshalb auch nicht an die Seitenstruktur gebunden: wenn man den Kopf einer Datei verliert, ist meist auch der Rest nicht mehr zu gebrauchen. Anders als PS faßt PDF den Text in Blöcken zusammen, die eine Textkorrektur und Suchfunktionen wesentlich einfacher machen.

Dramatisch ist die Verkleinerung der Dateigröße gegenüber PostScript. Eine vierfarbige Zeitungsseite hat als PS-File rund 4,5 MB, als PDF-File mit verlustfreier ZIP-Kompression der Bilder nur noch 900 KB (20 %), mit maximaler JPEG-Kompression sogar nur 315 KB (7 %).

Die Portabilität von PDF beruht auf seinem Zeichensatz, der mit 7-bit ASCII auskommt: ein File- oder eMail-Transfer auf ein anderes OS kann ihm nichts anhaben. PDF komprimiert im Unterschied zu HTML auch Text und unterstützt mehrere Kompressionsverfahren: JPEG, LZW, CCITT Gruppe 3 und 4 sowie die Lauflängencodierung. Seine Auflösungsunabhängigkeit verdankt PDF der Verwendung von Vektorgrafik und Bezierkurven bei der Fontdarstellung. Deshalb bleibt Text in einem PDF-Dokument auch bei der maximalen 1600-fachen Vergrößerung des Readers noch zackenfrei.

Fonts, die auf dem Leserechner nicht vorhanden sind, werden auf Grund der fontmetrischen Daten "simuliert". Optional können die Originalfonts aber auch in PDF eingebettet werden, wenn der damit einhergehende  Volumenzuwachs keine Rolle spielt. Die Voraussetzungen für einen PDF-basierten Workflow sind damit vorhanden.

Wird PostScript durch PDF 1.3 zum Dinosaurier?

Publishern braucht man nichts über die Probleme von PostScript zu erzählen. Die historisch gewachsene und in immer mehr Dialekten anzutreffende Seitenbeschreibungssprache ist extrem unhandlich und nervig, vor allem wegen der immer wieder mal fehlenden Schriften. Das 1993 ebenfalls von Adobe geschaffene PDF war hier schon lange eine unentbehrliche Hilfe als Codeprüfer: wenn der Distiller die PS-Datei schluckte und der PDF-Ausdruck fehlerfrei war, konnte man einigermaßen sicher an's Belichten gehen. Doch PDF-Dokumente waren bis zur Version 1.2 (Acrobat 3.0) auf das Format 114 x 114 cm beschränkt und konnten auf Belichtern mit PS Level 1 und 2 nicht ausgegeben werden.  Nur PS Level 3 RIPs waren dazu in der Lage, es sei denn, man setzte Zusatzprogramme wie PDF Handshake von Helios ein.

Im März 1998 trafen sich in der Schweiz auf Initiative von Olaf Drümmer zwölf Publishing-Experten und hielten in einem Positionspapier "PDF in der Druckvorstufe" [1] die Probleme von PDF 1.2 und die sich daraus ergebenden Forderungen an Adobe fest. Entsprechend hoch waren die Erwartungen der Publishingszene an die neue PDF-Version 1.3 des seit März 1999 verfügbaren Acrobat 4.0. Es ist nur noch ein Programm, das die Funktionen von Distiller und Exchange vereint; den Reader gibt es weiterhin als Freeware.

Die Liste der Kritikpunkte dieses in Fachkreisen recht bekannten White Papers kann bei PDF 1.3 praktisch vollständig abgehakt werden. Darüber hinaus wurden eine Reihe weiter Funktionen implementiert, die für den Publishing-Bereich wichtig sind. (Siehe Kasten 1)

PDF als echtes Multimedia-Format

Acrobat 4.0 bietet bei der PDF-Ausgabe mehrere Auflösungsvarianten an, darunter auch eine auf die Bildschirmdarstellung mit 72 dpi optimierte PDF-Version. Das macht PDF zum idealen Format fürs Internet, denn im Unterschied zu HTML hat der Designer die volle Kontrolle über die Darstellung einer PDF-Seite. Der Acrobat Reader ist als PlugIn so in den Browser integriert, daß der Anwender kaum den Unterschied zwischen einer HTML- und einer PDF-Seite bemerkt. Es sei denn, er will die Seite ausdrucken: bei PDF greift das System auf die bereits im Speicher liegenden Daten zu und muß sie nicht noch einmal wie bei HTML vom Server laden.

Mit dem EMBED-Tag kann man ein PDF-Dokument wie ein Bild in eine HTML-Seite einbetten: ein Klick auf das PDF-Bild öffnet die Datei mit dem Browser-PlugIn. Das Herunterladen einer weboptimierten PDF-Datei erfolgt seitenweise, zuerst die Links, dann Text- und Strichgrafik. Bei Text mit eingebettetem Font wird zunächst ein Ersatzfont verwendet, damit nicht auf die Fontdaten gewartet werden muß. Dann werden die Pixeldaten, dann die Fontdaten und schließlich die Thumbnails (falls vorhanden) geladen. Der Anwender bemerkt also so gut wie keine Ladeverzögerung.

Alle Macht dem PDF-Autor

Allein der Autor einer PDF-Datei entscheidet darüber, ob die Acrobat-Werkzeugleiste im Browserfenster angezeigt wird. Ebenso kann er festlegen, ob Grafik und/oder Text aus seinem PDF-Dokument selektiv herauskopiert oder geändert werden kann oder ob nicht gar erst ein Passwort den Inhalt sichtbar macht. Beim Ausdruck wird in jedem Fall die Acrobat-Druckfunktion aktiviert, auch wenn diese nicht in der Acrobat-Werkzeugleiste, sondern im Browser-Menü aufgerufen wird; im letzten Fall wird aber nur die gerade angezeigte Seite gedruckt.

Damit ist PDF 1.3 zum idealen medienübergreifenden Publishingformat geworden: mit weitgehenden Konsequenzen für die Publishing-Welt. Wurden Webinhalte bisher überwiegend von HTML-Programmierern gestaltet, kann die grafische Zunft mit ihrem hohem Qualitäts- und Erfahrungshintergrund bei der Gestaltung von Drucksachen auch bei den neuen Medien wieder Tritt fassen: die Standardapplikationen wie PageMaker, QuarkXPress und das kommende Adobe InDesign sind mit ihrem PDF-Output internettauglich. Selbst Officeprogramme wie Word, Excel und Powerpoint können mit dem neuen MakroTool PDF-Maker in Acrobat 4.0 PDF erzeugen, ohne den bisherigen Umweg über PostScript.

Der Traum der Database Publisher

Als geradezu atemberaubend schildern Webdesigner die Möglichkeiten, die sich mit PDF in Zusammenhang mit der Web- und Datenbanksprache XML oder PHP ergeben werden; PHP ist eine serverseitig interpretierte, in HTML eingebettete Skriptsprache.  Zum Beispiel kann man mit PHP den selben Quelltext - ohne Acrobat - wahlweise in HTML oder PDF generieren; dafür gibt es bereits ein fertiges PHP-Modul. PDF läßt sich, Programmierkenntnisse vorausgesetzt, auch aus konventionellen Datenbanken automatisch erzeugen. Von Thomas Merz [6] gibt es eine C++ Bibliothek, die für die Generierung von PDF aus Datenbanken sehr hilfreich ist. Hier spielen auch die PDFmarks eine Rolle, mit deren Hilfe in einen PS-Code PDF-spezifische Daten integriert werden können, die dann vom Distiller verarbeitet werden. Schöner kann Database Publishing nicht mehr werden

Beim Dokumentenmanagement wird das Duo PDF-XML künftig eine herausragende Rolle spielen: das Intranet oder Internet wird damit zu einer gigantischen und einfach handhabbaren Datenbank.

Das Thema "PDF im Web" ist sehr umfangreich: zur Einarbeitung werden die Bücher von Thomas Merz [2] [3] und die Site des Adobe-Experten Peter Körner [5] empfohlen.

Offline-Surfen mit Acrobat 4.0

Zu den für den Massenmarkt interessantesten Features gehört der integrierte Web-Spider in Acrobat 4.0. Man gibt nur eine URL ein und Acrobat holt sich eine einzelne Seite oder auch die gesamte Site mit einstellbarer Hierarchietiefe über die Internetverbindung und speichert sie als PDF ab. Da alle Hyperlinks und Funktionen der HTML-Originale erhalten bleiben, bieten diese PDF-Dokumente die absolut gleichen Browsing-, Formular-  und Antwortmöglichkeiten, wie ihre HTML-Quellen! Bei umfangreichen Sites kann und sollte man bei der Angabe der Ebenen behutsam sein: fehlende Links können später jederzeit nachträglich an das vorhandene PDF-Dokument angebaut werden. Selbst eine automatische Aktualisierung des PDF-Dokuments ist möglich: Acrobat holt sich nur die geänderten Seiten aus dem Netz und tauscht sie gegen die veralteten aus.

Wird anstelle einer einzelnen URL ein PDF-Skript mit einer Liste von "Favorite Sources" angegeben, erzeugt Acrobat vollautomatisch ein Superdokument, das alle angegebenen Websites in ein einziges PDF einbindet und auf Wunsch täglich aktualisiert. Die Tageszeitung, overnight zum Billigtarif als ePaper mit Hyperlinks frisch aus dem Netz geladen, ist mit PDF Wirklichkeit geworden!

Werkzeuge für besseres PDF

Die speziellen Anforderungen der digitalen Druckvorstufe an die Erstellung von PDF-Dokumenten können nur durch professionelle Werkzeuge erfüllt werden, die den Normalanwender überfordern würden. Diese Werkzeuge (Kasten 2) waren in Form sog. PlugIns schon bisher verfügbar und sind im Regelfall auch als an Acrobat 4 angepaßte Versionen verfügbar. Unsere Aufstellung ist sicher nicht vollständig: wer den Links in [4] [5] folgt, findet sicher noch weitere.

Fazit: Für den Publisher 2000 müssen zwei Kürzel zur Selbstverständlichkeit werden. Das eine ist XML, die Extended Markup Language, über die wir bereits in DD 6/99 (g13) berichteten. Das andere Akronym ist PDF: Adobes ePaper bildet die goldene Brücke zwischen der Druckmaschine und der Welt der elektronischen Kommunikation.

Roland Dreyer

########<KASTEN 1>######

Das ist neu in PDF 1.3 (Acrobat 4.0)

  • Portable Job Ticket: Im Portable Job Ticket Format (PJTF) von Adobe können den Aufträgen jetzt produktionsrelevante Informationen in einer "digitalen Auftragstasche" beigegeben werden. Die Informationen aus den PJTFs können aus der PostScript-Datei in die PDF-Datei übernommen werden.
  • Trapping: Überfüllungsinformationen aus Layout-Programmen lassen sich in einer eigenen Ebene in PDF 1.3 abspeichern. Mit dem Portable Job Ticket Format lassen sich Anweisungen für die spätere Verwendung der Überfüllung in der PDF-Datei ablegen. PDF-Dateien sind dadurch produktionsneutral, denn die Trapping-Informationen können geändert oder ganz verworfen werden. Bisher konnte die Informationen für Über- und Unterfüllung nur an den bereits separierten, nicht aber an den Composite-PS-Code übergeben werden, wie er für den Workflow benötigt wird.
  • Erkennung von Sonderfarben:  Sonderfarben in Verläufen konnten aus Composite PS bisher nicht korrekt separiert werden. Distiller 4.0 erkennt nun auch ohne Prolog.ps die Sonderfarben aus der PostScript- oder EPS-Datei und gibt letztere in der korrekten Seitengröße wieder. Prolog und Epilog machten bisher Schwierigkeiten, weil sie bestimmte Header-Information der EPS-Files verdeckten.
  • Neue Farbräume (DeviceN und ICCBased): In PostScript 3 und PDF 1.3. können sogenannte n-Komponenten-Farbräume erzeugt werden, die mit den Standardfarbräumen (RGB, CMYK oder Graustufen) nicht realisierbar sind. Dazu gehören auch Duplex-Bilder, die z.B. Photoshop 5.0 bereits im DeviceN-Farbraum speichert. Wenn Layout-Anwendungen wie QuarkXPress und Druckertreiber den DeviceN-Farbraum unterstützen, löst sich auch das Problem bei eingefärbten Graustufen-TIFFs oder Farbverläufen mit Sonderfarben. ICC-basierende Farbräume bieten durch den Einsatz von ICC-Profilen im Ein-und Ausgabebereich die farbverbindliche Reproduktion auf verschiedenen Ausgabegeräten und Monitoren.
  • Link zu Illustrator und Photoshop: Bilder und Grafiken können an Photoshop oder Illustrator zur Bearbeitung übergeben und danach wieder in PDF reimportiert werden.
  • Vorgabe von Parametern: Den lokalen Distiller-Verarbeitungseinstellungen kann nun der Vorrang gegenüber den im PS-Code übergebenen Werten eingeräumt werden.
  • Beschnitt-Informationen: PDF 1.3 kann nun praktisch alle Bearbeitungsdaten übernehmen, die in der PostScript-Datei angegeben wurden. Bisher gab es keine Codierung für die Beschnittzugabe (page bleed).
  • Seitengrößen:  PDF 1.3 erlaubt Seitengrößen von 1 mm bis 508 cm und damit den Einsatz von PDF bei Kleinanzeigen und Großformatplots; bisher gab es eine Formatbeschränkung auf Kantenlängen zwischen 2,54 cm und 114 cm.
  • Genauigkeit: PDF 1.3 arbeitet auf 1/100 Punkt oder 1/100 Zoll genau; bisher waren Größenänderungen nur in ganzen Punktschritten möglich.
  • Auflösungsreduktion von Bilddaten: Acrobat 4.0 bietet jetzt auch die vom  Photoshop bekannte bikubische Interpolation, mit der die Bildauflösung noch (visuell) verlustfreier zurückgenommen werden kann. Der Faktor, bei dem eine Verringerung der Bildauflösung erfolgt, läßt sich nun zwischen 1 und 10 frei einstellen; bisher war er fix auf 2 eingestellt, so daß ein 400 dpi-Bild bei der Vorgabe 250 dpi noch nicht reduziert wurde.
  • Fonteinbettung: Die 14 PS-Grundschriften können nun optional  in die PDF-Datei eingebettet und ihre Verwendung bindend vorgeschrieben werden. Bisher wurden RIP-Fonts gegenüber eingebetteten Fonts bevorzugt, obwohl diese auf verschiedenen RIPs unter gleichem Namen oft in unterschiedlichen Varianten existierten.
  • OPI 2.0 Kompatiblität: PDF 1.3 erlaubt die Einbettung von OPI 2.0 Kommentaren aus der druckenden Applikation (wie PageMaker 6.x) oder aus den Grobbilddaten bestimmter OPI-Systeme.
  • Mehrere Bildauflösungen: PDF 1.3 kann verschiedene Auflösungsvarianten eines Bildes enthalten. Dadurch ergibt sich ein schneller Bildaufbau am Monitor, während die gleiche Datei auch für den Proof eingesetzt werden kann. Ideal ist dafür das ImagePac Format der Photo CD.
  • Datei-Einbettung: PDF 1.3 kann beliebige digitale Daten einbetten und unverändert exportieren. So lassen sich die Zeichensätze und das Originaldokument einbinden, damit man bei einer Änderung alle Komponenten zur Hand hat.
  • Zuordnung farbseparierter Seiten: Die einzelnen Farbauszüge einer bereits farbseparierten PostScript-Datei tragen jetzt eine Kennung ihrer Auszugsfarbe und lassen sich somit irrtumsfrei den jeweiligen Dokumentseiten zuordnen. Bisher wurde jeder Farbauszug für sich ausgeschossen - mit entsprechender Fehlerquote bei der Farbzuordnung.
  • Smooth Shading: PostScript 3 bietet durch das Smooth Shading mit bis zu 4096 Tonwertstufen pro Kanal absolut stufenfreie Verläufe und Überblendungen; in PDF 1.2 gab es nur 256 Tonwertstufen.
  • PostScript 3 Kompatibilität: Durch die neue Funktion Idiom Recognition in PS3 können charakteristische PostScript-Sequenzen einfach ersetzt werden, um etwa  aus einem stufigen Verlauf einen glatten PS3-Verlauf zu machen.
  • Thumbnail-Generierung: Thumbnails können jetzt bereits beim Destillen erzeugt werden.
  • Image Tagging: Bildern kann man nun schon bei der Konvertierung in das PDF-Datenformat ein ICC-Eingabeprofil zuweisen.
  • DSC-Kommentare:  Die DSC-Kommentare einer PostScript-Datei - sie enthalten Strukturinformationen wie etwa die Maße einer EPS-Datei -  werden nun in die PDF-Datei übernommen.
  • Dokumentenvergleich: Unterschiede in zwei Dokumenten werden beim Vergleich deutlich visualisiert.
  • Monitorwiedergabe der PostScript-Füllmuster: PostScript Patterns werden nun auch am Bildschirm dargestellt (bisher nur als Graufläche).
  • Komplexe Objektpfade: Dokumente mit sehr komplexen Maskierungspfaden werden nun problemlos dargestellt.
  • Digitale Signaturen und verschiedene Anmerkungen (Text, Frei-Hand Skizzen, Sound, Stempel etc.) erleichtern die rechtsverbindliche Abstimmung mit Kunden und Partnern.
  • PDF-Erzeugung aus Standardanwendungen: Standardapplikationen wie PageMaker 6.5  und  Office-Programme können PDF direkt ausgeben.
  • WebCapture erfasst komplette WWW-Sites und wandelt sie in PDF-Dokumente.
  • PaperCapture setzt gescannte Dokumente originalgetreu in PDF um; Text wird dabei mit einem Integrierten OCR-Modul gelesen, somit suchbar und editierfähig.
  • ########</KASTEN 1>######
  • ########<Kasten 2>#######

    Verfügbare Acrobat 3 PlugIns:

  • Agfa Apogee Bleed Viewer: macht abmaskierte Kontrollzeichen sichtbar
  • Ari's Link Checker: PlugIn zur Link-Prüfung
  • Ari's PDF-Splitter: Aufteilen von PDF-Dokumenten
  • uCallas pdfToolbox: PlugIn-Sammlung für  PreFlight, EPS-Export u.a.
  • Callas pdfOutput Pro: PDF-Farbseparation
  • ComputerStream PDF Imposer: PDF-Montage
  • EnFocus PitStop: Editieren von PDF 1.2 und 1.3 
  • Enfocus CheckUp: PDF-PreFlight-Tool
  • EnFocus EyeDropper: Screendensitometer
  • Lantana Crackerjack: PDF-Farbseparation
  • Lantana Crackerjack Pilot: Druck-Automation 
  • Lantana OPI-Doctor: OPI-Bearbeitung, Bildextraktion
  • Merz PDFlib: C++ Bibliothek
  • PPC DistillerTools: div. Utilities
  • Quite Imposing: Ausschießen von PDF-Seiten
  • Quite A Box Of Tricks: Toolset für RGB-CMYK Wandlung, Bildauflösungs-Änderung u.a.
  • Erläuterungen und weitere Tools in [4] [5] [7]. Diese Sites sind ideale Sprungbretter für die weitere Recherche.

    ########</KASTEN 2>######

    ########<Kasten 3>#######

    Quellen:

    [1] PDF-Whitepaper von Olaf Drümmer, findet man u.a. auf [4]

    [2] Thomas Merz: Mit Acrobat ins World Wide Web. Thomas Merz Verlag 1998, ISBN 3-9804943-1-4

    [3] Thomas Merz: Die PostScript- und Acrobat-Fibel. Thomas Merz Verlag 1996, ISBN 3-9804943-0-6

    [4] www.prepress.ch (Stephan Jaeggi)

    [5] www.peterko.de/acrobat/

    [6] www.ifconnection.de/~tm/

    [7] www.adobe.com

    #######</Kasten 3>#######

    Bildlegenden zum PDF-Beitrag

    Hinweis: Die TIFFs acrbanner, pdfbanner, acrbox und acroman sind Bildelemente von Adobe: nach Belieben zu verwenden.

    Bild 1 (pdf-1):
    Mit Web-Capture lassen sich ganze Websites herunterladen und bequem offline lesen. Alle Links bleiben dabei aktiv und die Seitentitel sind als Lesezeichen verfügbar.

    Bild 2 (pdf-3):
    Das Seitenformat beim Web-Capture kann frei definiert werden.

    Bild 3 (pdf-4):
    Ein einfaches Code-Beispiel, das die Objektstruktur von PDF veranschaulicht. Man findet es im Vortrag von James King auf [5].

    Bild 4+5 (pdf-5 + pdf-6):
    Durch die Vegrößerung bis auf 1200 % in Acrobat 4.0 ist PDF das optimale Format für Servicedokumentationen und elektronische Schaltbilder.

    Copyright: Roland Dreyer 1999