PDF-Tags verstehen: Alle Strukturelemente im Überblick
PDF-Tags sind das unsichtbare Skelett barrierefreier Dokumente – und gleichzeitig eines der am wenigsten verstandenen Themen. Diese Übersicht erklärt, was Tags sind, welche Begriffe du dafür brauchst und welche Tags wann eingesetzt werden. Plus: Was sich mit PDF 2.0 ändert.
Was sind PDF-Tags?
PDF-Tags sind unsichtbare Auszeichnungen, die einem PDF eine semantische Struktur geben. Auf dem Bildschirm sieht man sie nicht – aber Screenreader, Vorlesesoftware und andere assistive Technologien brauchen sie, um den Inhalt zu verstehen.
Wer schon einmal mit HTML zu tun hatte, kennt das Prinzip: Im HTML sagt <h1>
dem Browser, dass etwas eine Überschrift ist. In
einem PDF sagt <H1>
der Vorlesesoftware genau dasselbe.
Beide arbeiten mit semantischen Tags. Nur der Container drumherum ist
anders.
Ohne Tags ist ein PDF aus Sicht eines Screenreaders nur eine ungeordnete Ansammlung visueller Elemente. Die Software weiß nicht, was eine Überschrift ist, was zur Tabelle gehört, was ein Bild ist und in welcher Reihenfolge gelesen werden soll. Erst Tags machen ein PDF zugänglich.
Grundbegriffe, die du kennen solltest
Bevor wir in die einzelnen Tags einsteigen, lohnt es sich, drei Begriffspaare zu klären. Sie wiederholen sich später bei fast jedem Tag – und ohne dieses Vokabular bleibt vieles unverständlich.
Block-Element vs. Inline-Element
Der wichtigste Unterschied. Ein Block-Element ist ein eigenständiger Inhaltsblock, der eine ganze Zeile (oder mehrere) einnimmt. Ein Inline-Element sitzt mitten in einem Textfluss und hebt einzelne Wörter oder Wortgruppen hervor.
Eigenständiger Inhaltsblock
Steht für sich allein. Vorher und nachher gibt es einen Zeilenumbruch. Beispiele: Überschriften, Absätze, Listen, Tabellen.
<P>Ein Absatz Text.</P>
Element im Textfluss
Sitzt mitten im Text, ohne Zeilenumbruch. Beispiele: Links, Hervorhebungen, Verweise. Wird immer innerhalb eines Block-Elements verwendet.
Container vs. Content
Manche Tags enthalten nur andere Tags – sie sind Container für andere Elemente. Andere Tags enthalten direkt Inhalt wie Text oder Bilder.
Beispiel: Das <Document>
-Tag ist ein reiner Container.
Es umfasst das gesamte Dokument, enthält selbst aber keinen Text. Das <P>
-Tag dagegen enthält direkt den Absatztext.
Strukturelement vs. Auszeichnungselement
Strukturelemente geben dem Dokument seine Gliederung (Überschriften, Absätze, Abschnitte). Auszeichnungselemente heben einzelne Stellen besonders hervor (Links, Zitate, Hervorhebungen). Strukturelemente sind meist Block, Auszeichnungselemente meist Inline.
Alle wichtigen Tags im Überblick
Die folgende Übersicht zeigt die Standard-Tags der PDF-Spezifikation (ISO 32000-1, PDF 1.7), gruppiert nach Funktion. Die Gruppen sind so angelegt, dass du beim Erstellen oder Prüfen eines PDFs gezielt nachschauen kannst.
Diese Tags bilden das grobe Gerüst eines PDFs. Sie sind Container und enthalten selbst keinen direkten Text – sie umschließen andere Tags.
Wurzelelement des Dokuments
Jedes getaggte PDF beginnt mit einem <Document>
-Tag.
Es umfasst den gesamten Inhalt und ist das einzige Tag auf
oberster Ebene.
Verwendung:
immer als äußerstes Element. In PDF 2.0
kann es auch durch <DocumentFragment>
ergänzt werden.
- < Document >
- < H1 > Dokumenttitel
- < P > Einleitender Text…
Hauptteil eines Dokuments
Gliedert ein Dokument in größere, eigenständige Teile – etwa die Vorbemerkungen, den Hauptteil und den Anhang eines Buchs.
Verwendung: bei langen Dokumenten mit klarer Hauptgliederung. In Geschäftsberichten, Büchern, Studien.
Abschnitt mit Überschrift
Ein logisch zusammengehöriger Abschnitt, üblicherweise mit einer
Überschrift am Anfang. Vergleichbar mit <section>
in HTML.
Verwendung:
für Kapitel, Unterkapitel,
thematische Abschnitte. Kann andere <Sect>
verschachtelt enthalten.
Allgemeine Gruppierung
Ein generischer Container ohne eigene semantische Bedeutung. Nützlich, wenn keiner der spezifischeren Container passt.
Verwendung:
als Ausweichlösung, wenn <Sect>
oder <Part>
zu spezifisch wären.
Sparsam einsetzen.
Artikel
Kennzeichnet einen eigenständigen, in sich geschlossenen Artikel – etwa in einer Zeitschrift oder Zeitung.
Verwendung:
selten gebraucht außerhalb von
Magazin-Layouts. Bei einem normalen Bericht reicht <Sect>
.
Die wichtigsten Block-Elemente. Sie enthalten direkt den Text und machen den Großteil eines getaggten PDFs aus.
Absatz
Der häufigste Tag in einem PDF. Umfasst einen Absatz Fließtext.
Enthält direkten Text und kann Inline-Tags wie <Link>
oder <Span>
einschließen.
Verwendung: für jeden Absatz Fließtext. Nicht für Überschriften, Listen oder Tabellenzellen verwenden.
Überschriften (sechs Ebenen)
Überschriften in absteigender Wichtigkeit: <H1>
ist die Hauptüberschrift, <H6>
die unterste Ebene.
Wie in HTML.
Verwendung:
keine Ebene überspringen
(kein <H1>
direkt zu <H3>
). Pro Dokument
normalerweise ein einziges <H1>
.
- < Sect >
- < H1 > Hauptthema
- < P > Einleitung…
- < Sect >
- < H2 > Unterthema
- < P > Text…
Überschrift ohne Stufe
Eine generische Überschrift ohne feste Ebene. Die Hierarchie
ergibt sich aus der Verschachtelung der umgebenden <Sect>
-Elemente.
Verwendung:
in der Praxis selten – die meisten
Werkzeuge produzieren <H1>
bis <H6>
.
Längeres Zitat als eigener Block
Ein längeres Zitat, das eine eigene Absatz-Position einnimmt – oft eingerückt oder grafisch hervorgehoben.
Verwendung:
für Zitate von mindestens einem Absatz
Länge. Kürzere Zitate inline mit <Quote>
.
Beschriftung
Beschriftet ein anderes Element – meist eine Tabelle oder Abbildung. Steht direkt davor oder dahinter.
Verwendung: für Tabellenüberschriften („Tabelle 1: ...") und Bildunterschriften.
Stichwortverzeichnis
Markiert ein Stichwortverzeichnis oder Inhaltsverzeichnis als solches. Hilft Screenreadern bei der Navigation.
Verwendung: bei längeren Dokumenten mit Index oder Inhaltsverzeichnis am Ende.
Inhaltsverzeichnis
<TOC>
umschließt das gesamte Inhaltsverzeichnis, <TOCI>
jeden einzelnen Eintrag.
Verwendung: bei strukturierten Inhaltsverzeichnissen. Wichtig für die Sprung-Navigation.
Listen brauchen eine festgelegte Hierarchie aus vier Tag-Typen. Wer
nur eines vergisst (typischerweise <LBody>
), produziert
unsaubere Listen.
Liste
Der äußere Container einer Liste – egal ob nummeriert oder mit
Aufzählungspunkten. Enthält ausschließlich <LI>
-Elemente.
Verwendung:
immer als oberster Listen-Container.
Niemals Text direkt in <L>
.
Listenelement
Ein einzelner Listeneintrag. Enthält wiederum einen <Lbl>
(das Bullet oder die Nummer) und einen <LBody>
(den Text).
Verwendung:
immer innerhalb von <L>
.
Label
Der Aufzählungspunkt oder die Nummer eines Listenelements. Enthält das Bullet (•), die Zahl (1., 2., 3.) oder einen Buchstaben (a, b, c).
Verwendung:
innerhalb von <LI>
als erstes Kind-Element.
Optional – manche Listen haben keine sichtbaren Bullets.
Listenelement-Inhalt
Der eigentliche Text-Inhalt eines Listenelements. Enthält den Text oder weitere Block-Elemente wie verschachtelte Listen.
Verwendung:
immer innerhalb von <LI>
,
nach <Lbl>
.
- < L >
- < LI >
- < Lbl > •
- < LBody > Erster Punkt
- < LI >
- < Lbl > •
- < LBody > Zweiter Punkt
Tabellen-Tags sind eine der häufigsten Fehlerquellen in PDFs.
Besonders wichtig: <TH>
für Spalten- und Zeilenköpfe,
damit Screenreader die Zellen zuordnen können.
Tabelle
Der äußere Container einer Tabelle. Enthält direkt <TR>
-Zeilen oder optionale Strukturgruppen wie <THead>
, <TBody>
, <TFoot>
.
Verwendung: nur für tatsächliche Datentabellen – nicht für Layout-Tabellen (die sind eine Barrierefreiheits-Sünde).
Tabellenzeile
Eine einzelne Tabellenzeile, die Zellen ( <TH>
oder <TD>
) enthält.
Verwendung:
immer als direktes Kind-Element von <Table>
, <THead>
, <TBody>
oder <TFoot>
.
Kopfzelle
Eine Tabellenzelle, die als Spalten- oder Zeilenkopf dient.
Über das Attribut Scope
wird festgelegt, ob es sich
um Spalte oder Zeile handelt.
Verwendung:
für jede Kopfzelle. Ohne <TH>
kann ein Screenreader nicht ansagen „Spalte Umsatz, Zeile 2024:
1,2 Millionen Euro". Ohne TH ist die Zelle nur „1,2 Millionen Euro".
Datenzelle
Eine normale Tabellenzelle mit Inhaltsdaten – also alles, was keine Kopfzelle ist.
Verwendung: für alle Datenzellen einer Tabelle.
- < Table >
- < Caption > Umsätze 2024
- < THead >
- < TR >
- < TH Scope="col" > Quartal
- < TH Scope="col" > Umsatz
- < TBody >
- < TR >
- < TD > Q1
- < TD > 1,2 Mio. €
Tabellen-Bereiche
Optionale Gruppierung der Tabellenzeilen in Kopf-, Körper- und
Fußbereich. <THead>
enthält die Spaltenkopf-Zeile(n), <TBody>
die Datenzeilen, <TFoot>
eine Summenzeile oder Fußnoten.
Verwendung: optional – aber empfohlen, da Screenreader so klarer navigieren können.
Inline-Elemente sitzen mitten im Textfluss eines Block-Elements und heben einzelne Stellen hervor. Sie ersetzen keinen Block – sie ergänzen ihn semantisch.
Generischer Inline-Container
Ein generisches Inline-Element ohne eigene Bedeutung. Wird
hauptsächlich verwendet, um Inline-Attribute zu setzen – etwa
eine andere Sprache ( Lang="en"
) für ein einzelnes Wort.
Verwendung: für fremdsprachige Wörter, Marken, Fachbegriffe mit anderer Aussprache.
Hyperlink
Ein klickbarer Link zu einer anderen Stelle im Dokument, einer externen URL oder einer Datei.
Verwendung: für jeden Link. Wichtig: der Link-Text soll selbst aussagekräftig sein („zur Anmeldung"), nicht „klicken Sie hier".
Kurzes Inline-Zitat
Ein kurzes Zitat innerhalb eines Absatzes. Für längere Zitate
wird <BlockQuote>
verwendet.
Verwendung: für direkt zitierte Wörter oder Sätze innerhalb des Fließtexts.
Fuß- oder Endnote
Eine Fuß- oder Endnote. Wird als Inline-Element im Text platziert, auch wenn die eigentliche Note am Seitenende oder Ende des Dokuments erscheint.
Verwendung:
für jede Fußnote oder Endnote.
In PDF 2.0 ergänzt durch das spezifischere <FENote>
.
Verweis auf andere Inhalte
Verweis auf eine andere Stelle im Dokument (z.B. „siehe Kapitel 3") oder auf externe Inhalte.
Verwendung: für interne Querverweise.
Programmcode
Inline-Programmcode oder technische Bezeichner. Wird typischerweise in Monospace dargestellt.
Verwendung: für Code-Schnipsel im Fließtext, technische Befehle, Dateinamen.
Diese Tags sind für besondere Inhalte gedacht – Bilder, Formeln, Formulare und Anmerkungen.
Bild oder Grafik
Eine grafische Darstellung – Foto, Illustration, Diagramm, Logo.
Braucht immer einen Alternativtext über das Alt
-Attribut.
Verwendung:
für jede inhaltlich relevante Grafik.
Dekorative Grafiken werden als <Artifact>
markiert
(siehe nächste Gruppe).
- < Figure Alt="Balkendiagramm der Quartalsumsätze" >
- [Grafik-Inhalt]
Mathematische Formel
Eine mathematische Formel. Da Formeln visuell oft komplex sind, ist ein Alt-Text mit der formulierten Form wichtig.
Verwendung:
für jede Formel mit Alt
-Attribut, das die Formel in Worten beschreibt.
Beispiel: „a hoch zwei plus b hoch zwei gleich c hoch zwei".
Formular-Feld
Markiert ein interaktives Formularfeld im PDF – ein Eingabefeld, eine Checkbox, ein Dropdown, einen Button.
Verwendung: für jedes interaktive Element in PDF-Formularen. Braucht eine sinnvolle Beschriftung (Tooltip im Acrobat: Field Name).
Annotation
Eine Anmerkung im PDF – etwa ein Kommentar, eine Hervorhebung oder eine eingebettete Notiz.
Verwendung:
für inhaltsrelevante Anmerkungen.
Rein dekorative oder layoutbezogene Anmerkungen werden als <Artifact>
markiert.
Ein einziges, aber sehr wichtiges Tag. Es markiert alles, was nicht zum eigentlichen Inhalt gehört.
Artefakt – wird vom Screenreader übersprungen
Markiert Elemente, die zur visuellen Gestaltung gehören, aber keinen inhaltlichen Wert haben: Seitenzahlen, Kopf- und Fußzeilen, dekorative Grafiken, Trennlinien, Wasserzeichen.
Verwendung:
für alle visuellen Elemente, die
ein Screenreader nicht vorlesen soll. Ohne <Artifact>
würde z.B. die Seitenzahl bei jedem Seitenwechsel vorgelesen.
- < Artifact Type="Pagination" > Seite 3 von 12
- < Artifact Type="Layout" > [Dekorative Linie]
- < Artifact Type="Page" > [Wasserzeichen]
Häufige Fehler bei der Tag-Vergabe
In Audits begegnen einem die immer gleichen Probleme. Drei davon sind besonders häufig:
Fehler 1: Überschriften-Hierarchie überspringen
<H1>
direkt gefolgt von <H3>
– das <H2>
wurde übersprungen. - < H1 > Titel
- < H3 > Unterabschnitt
- < H1 > Titel
- < H2 > Kapitel
- < H3 > Unterabschnitt
Fehler 2: <P>
für alles verwenden
<P>
ausgezeichnet – Struktur geht verloren. - < P > Überschrift
- < P > • Erster Punkt
- < P > • Zweiter Punkt
- < H2 > Überschrift
- < L >
- < LI >
- < Lbl > •
- < LBody > Punkt 1
Fehler 3: Tabellen ohne <TH>
<TD>
ausgezeichnet, keine Kopfzellen –
Screenreader können Zellen nicht zuordnen. - < TR >
- < TD > Quartal
- < TD > Umsatz
<TH>
mit Scope-Attribut. - < TR >
- < TH Scope="col" > Quartal
- < TH Scope="col" > Umsatz
Was sich mit PDF 2.0 ändert
Die bisher beschriebenen Tags sind alle Teil von PDF 1.7 (ISO 32000-1) und werden in PDF 2.0 (ISO 32000-2) weiterhin unterstützt. PDF 2.0 ergänzt diese Liste aber um einige neue Strukturelemente, die semantisch präziser sind.
Zusätzliche Tags für mehr semantische Tiefe
PDF 2.0 führt mehrere neue Strukturelemente ein. Sie ersetzen nicht die bisherigen Tags, sondern erweitern den Wortschatz für Fälle, in denen PDF 1.7 nur ungenaue Annäherungen erlaubte.
- <Title>
Eigenständiger Tag für den Haupttitel eines Dokuments –
klarer als das bisherige
<H1>. - <Aside>
Für Seitenleisten, Callouts, ergänzende Inhalte –
entspricht
<aside>in HTML5. - <Sub> Inline-Element für Unterthemen oder zusammengehörige Sub-Elemente.
- <Em> Echte semantische Hervorhebung – nicht nur visuell kursiv.
- <Strong> Echte starke Hervorhebung – nicht nur visuell fett.
- <FENote>
Spezifischer Tag für Fuß- und Endnoten – präziser als
das alte
<Note>. - <Hn>
Überschriften jenseits von
<H6>– etwa<H7>bei sehr verschachtelten Dokumenten. - <DocumentFragment> Für Dokumentteile, die nicht für sich allein stehen – etwa bei zusammengesetzten Dokumenten.
- <Artifact> (erweitert)
Neue Sub-Typen wie
PageNum,LineNum,Batesfür präzisere Auszeichnung.
Wichtig: PDF 2.0-Tags funktionieren auch in PDF 1.7-Dateien nicht – Software, die nur PDF 1.7 versteht, ignoriert sie. Eine Umstellung auf PDF 2.0 ist deshalb noch nicht zwingend, sondern eine Frage der Werkzeuge und der Ziel-Software, die das PDF lesen wird.
PDF-Tagging für dein Team trainieren?
Wir schulen dein Team praktisch im PDF-Tagging mit InDesign, Word und Acrobat – inklusive Tag-Vergabe, Korrektur und automatischer Prüfung mit PAC. Auch als Inhouse-Workshop.
Beratung anfragen