Barrierefreies Internet · Multimedia

Barrierefreie Videos und Untertitel

Ein Video spricht zwei Sinne gleichzeitig an – Sehen und Hören. Wer einen davon nicht oder nur eingeschränkt nutzen kann, braucht eine zweite Spur derselben Information. Dieser Artikel zeigt, welche Spuren das sind, was Pflicht ist und wie gute Untertitel entstehen.

  • 8 Minuten Lesezeit
  • Stand: Mai 2026

Warum Videos zwei Sinne gleichzeitig bedienen

Audiovisuelle Medien tragen Information auf zwei Kanälen: Was man sieht und was man hört. Solange beide Kanäle funktionieren, fällt das nicht auf. Problematisch wird es, sobald eine Person einen der beiden nicht nutzen kann.

Gehörlose und schwerhörige Menschen brauchen eine sichtbare Fassung der Tonspur – also Untertitel. Blinde und stark sehbehinderte Menschen brauchen eine hörbare Fassung der wichtigen Bildinhalte – also eine Audiodeskription. Und es gibt viele Situationen, in denen auch Menschen ohne Behinderung von diesen Spuren profitieren: ein Video im Großraumbüro ohne Kopfhörer, eine laute Bahn, eine schlechte Tonqualität, Deutsch als Zweitsprache. Barrierefreie Videos sind selten nur für eine kleine Gruppe gemacht.

Untertitel sind nicht gleich Untertitel

Im Deutschen wird oft alles „Untertitel“ genannt. Fachlich lohnt sich eine Unterscheidung, weil sie zwei verschiedene Bedürfnisse abdeckt.

Übersetzungs-Untertitel geben nur den gesprochenen Dialog wieder – das, was man aus Kinofilmen in Originalfassung kennt. Sie setzen voraus, dass man den Ton grundsätzlich hört, aber die Sprache nicht versteht.

Untertitel für Gehörlose und Schwerhörige(englisch oft captions oder SDH , kurz für Subtitles for the Deaf and Hard of hearing ) gehen weiter. Sie geben nicht nur den Dialog wieder, sondern auch, wer gerade spricht, und sie beschreiben bedeutungstragende Geräusche: [Tür schlägt zu] , [nachdenkliche Musik] . Nur diese Variante macht ein Video für gehörlose Menschen wirklich verständlich – und nur sie erfüllt die WCAG.

Eine zweite Unterscheidung betrifft die Technik: Geschlossene Untertitel(closed) lassen sich von den Zuschauenden ein- und ausschalten und in der Darstellung anpassen. Offene Untertitel(open) sind fest ins Bild eingebrannt. Geschlossene Untertitel sind in der Regel die bessere Wahl, weil sie den Nutzer:innen die Kontrolle lassen – etwa über Schriftgröße. Fest eingebrannte Untertitel haben ihren Platz dort, wo eine Plattform keine separate Untertitelspur unterstützt, etwa in manchen Social-Media-Feeds.

Closed Captions und Open Captions im Vergleich Zwei Video-Player nebeneinander. Links: Closed Captions. Die Untertitel liegen in einer halbtransparenten Box über dem Video. In der Bedienleiste ist ein CC-Button mit Karmin-Rahmen aktiv, den Nutzer:innen ein- und ausschalten können. Rechts: Open Captions. Der gleiche Untertitel-Text ist direkt ins Bild eingebrannt, ohne eigene Box. In der Bedienleiste fehlt der CC-Button — die Untertitel können nicht abgeschaltet werden. CLOSED · ein-/ausschaltbar [ruhige Musik] Hallo zusammen. 00:45 / 03:12 CC Nutzer:in steuert die Anzeige Schriftgröße und Position lassen sich anpassen. OPEN · fest ins Bild eingebrannt [ruhige Musik] Hallo zusammen. 00:45 / 03:12 Untertitel sind Teil des Bildes Kein Schalter zum Ausschalten, keine Anpassung möglich. Beispiel-Untertitel: „[ruhige Musik] Hallo zusammen."
Bei Closed Captions liegt der Untertitel als eigene Schicht über dem Video — Nutzer:innen können ihn an- und ausschalten, die Schriftgröße anpassen oder die Position verschieben. Bei Open Captions ist der Text fest ins Bild eingebrannt und lässt sich nicht mehr verändern oder abschalten.

Was die WCAG fordert: die Kriterien 1.2.1 bis 1.2.5

Die Web Content Accessibility Guidelines bündeln audiovisuelle Anforderungen in Richtlinie 1.2 „Zeitbasierte Medien“. Die folgende Übersicht zeigt die für die Praxis wichtigsten Erfolgskriterien und ihre Konformitätsstufe.

WCAG-2.2-Erfolgskriterien zu zeitbasierten Medien (Auswahl)
Kriterium Was es fordert Stufe
1.2.1 Reine Audio- und Videoinhalte Für reine Tonaufnahmen eine Textalternative, für reine Stummvideos eine Text- oder Tonalternative. A
1.2.2 Untertitel (aufgezeichnet) Untertitel für alle aufgezeichneten Videos mit Ton. A
1.2.3 Audiodeskription oder Medienalternative Audiodeskription oder eine vollwertige Textalternative für aufgezeichnete Videos. A
1.2.4 Untertitel (live) Untertitel auch für Live-Inhalte mit Ton. AA
1.2.5 Audiodeskription (aufgezeichnet) Eine vollwertige Audiodeskription für aufgezeichnete Videos. AA

Für die Praxis ist die Stufe entscheidend: Gesetzliche Anforderungen in Deutschland orientieren sich an Stufe AA. Untertitel für aufgezeichnete Videos (1.2.2) sind dabei schon auf Stufe A Pflicht – sie sind also kein Extra, sondern Grundausstattung.

Audiodeskription: Bilder hörbar machen

Eine Audiodeskription beschreibt die wesentlichen visuellen Vorgänge eines Videos in den natürlichen Sprechpausen: eine eingeblendete Telefonnummer, eine Geste, ein Szenenwechsel, der Gesichtsausdruck einer Person. So entsteht für blinde Menschen aus der reinen Tonspur eine vollständige Geschichte.

Audiodeskription ist aufwendiger als Untertitel, weil sie eine zusätzliche Sprachaufnahme erfordert. Die WCAG bietet deshalb auf Stufe A einen pragmatischen Ausweg: Statt einer Audiodeskription (1.2.3) genügt dort alternativ eine vollwertige Medienalternative in Textform – ein Dokument, das sowohl die Dialoge als auch die Bildhandlung vollständig beschreibt. Auf Stufe AA (1.2.5) wird die echte Audiodeskription dann verbindlich.

Ein praktischer Hinweis schon bei der Produktion: Wer Videos von Anfang an mit etwas „Luft“ in der Tonspur plant und visuelle Information nicht nur zeigt, sondern auch benennt („Du erreichst uns unter der folgenden Nummer …“), reduziert den späteren Aufwand für die Audiodeskription erheblich.

Das Transkript als robuste Grundausstattung

Ein Transkript ist die vollständige Textfassung eines Videos – Dialoge, Sprecher:innen und relevante Bildhandlung in einem durchgehenden Dokument. Es ist nicht zeitsynchron, dafür aber besonders robust:

  • Es lässt sich mit dem Screenreader im eigenen Tempo lesen.
  • Taubblinde Menschen können es über die Braillezeile erfassen – für sie ist das Transkript oft der einzige Zugang.
  • Es ist durchsuchbar und von Suchmaschinen indexierbar, was nebenbei der Sichtbarkeit hilft.

Ein gut gemachtes Transkript kann die Medienalternative aus Kriterium 1.2.3 abdecken. Es ersetzt aber keine Untertitel: Wer den Dialog synchron zum Bild mitlesen will, braucht die Untertitelspur. Beides hat seine Berechtigung.

Gesetzliche Lage: BITV und BFSG

Die WCAG ist ein technischer Standard – verbindlich wird sie über Gesetze. Für audiovisuelle Inhalte sind in Deutschland zwei Regelwerke wichtig:

Die BITV 2.0(Barrierefreie-Informationstechnik-Verordnung) gilt für öffentliche Stellen des Bundes. Sie verweist auf den europäischen Standard EN 301 549 und damit auf die WCAG. Für öffentliche Websites sind Untertitel und Audiodeskription dort seit Langem etabliert.

Das BFSG(Barrierefreiheitsstärkungsgesetz) gilt seit dem 28. Juni 2025 und nimmt erstmals breit auch private Wirtschaftsakteure in die Pflicht – abhängig von Produkt, Dienstleistung und Unternehmensgröße. Wo Videos Teil einer betroffenen Dienstleistung sind, gelten die entsprechenden Anforderungen an Untertitel und Audiodeskription auch dort. Ob ein konkretes Angebot unter das BFSG fällt, ist eine Einzelfallfrage – die genaue Einordnung gehört in eine rechtliche Prüfung und nicht in eine pauschale Faustregel.

Wie gute Untertitel entstehen

Untertitel zu haben ist das eine – gute Untertitel zu haben das andere. Die folgenden Punkte fassen die etablierte Praxis zusammen:

  • Synchron zum Ton. Untertitel sollen erscheinen, wenn das Wort fällt – ein deutlicher Versatz erschwert das Mitlesen.
  • Lesbar getaktet. Lieber zwei Zeilen, die lang genug stehen bleiben, als drei, die zu schnell wechseln. Als Orientierung gilt eine Lesegeschwindigkeit, die auch ungeübte Leser:innen bewältigen.
  • Sprecher:innen kennzeichnen, wenn nicht klar ist, wer spricht – etwa bei mehreren Personen oder Stimmen aus dem Off.
  • Bedeutungstragende Geräusche beschreiben, aber nicht jedes Hintergrundgeräusch. Relevant ist, was für das Verständnis zählt.
  • Korrekt geschrieben. Rechtschreibung und Zeichensetzung zählen – Untertitel werden auch über die Braillezeile gelesen.
  • Gut platziert. Untertitel sollten wichtige Bildinhalte nicht verdecken und vor ihrem Hintergrund ausreichend Kontrast haben.

Der wirksamste Hebel ist, Barrierefreiheit nicht ans Ende der Videoproduktion zu schieben, sondern von Anfang an mitzudenken. Ein Skript, das ohnehin existiert, ist die halbe Miete für Untertitel und Transkript – und ein Video, das visuelle Information auch ausspricht, braucht später deutlich weniger Audiodeskription.