Sous-titres synchronisés

Les sous-titres synchronisés sont une version textuelle des paroles et des sons d'une vidéo, affichée en temps réel dans le lecteur. Ils ne se limitent pas au dialogue : ils identifient qui parle et décrivent les bruits significatifs comme la musique ou un claquement de porte. Les WCAG les exigent dès le niveau A pour les vidéos pré-enregistrées (critère 1.2.2).

Votre vidéo a des sous-titres. Mais décrivent-ils le claquement de porte, la musique angoissante, le soupir du personnage ? Si la réponse est non, une personne sourde passe à côté d'une partie du message.

#Captions ou subtitles : la confusion française

En anglais, deux mots distincts existent. Les subtitles traduisent le dialogue pour un public qui entend. Les captions transcrivent tout l'audio (paroles, identification des locuteurs, sons significatifs) pour un public qui n'entend pas.

Le français n'a qu'un seul mot pour les deux. Cette ambiguïté se retrouve jusque dans les projets web : beaucoup d'équipes livrent des subtitles en pensant avoir fourni des captions.

En HTML, la balise <track> fait la distinction via l'attribut kind :

<!-- Sous-titres d'accessibilité (captions) -->
<track kind="captions" src="st-fr.vtt" srclang="fr" label="Français (SME)" default>
 
<!-- Sous-titres de traduction (subtitles) -->
<track kind="subtitles" src="st-en.vtt" srclang="en" label="English">

kind="captions" signale au navigateur et aux technologies d'assistance que la piste contient l'ensemble de l'information audio. Le critère 1.2.2 des WCAG exige des captions, pas de simples subtitles.

#Le piège du sous-titrage automatique

Beaucoup d'équipes activent le sous-titrage automatique de leur plateforme vidéo et passent au point suivant. Deux problèmes.

Le sous-titrage automatique ne distingue pas les locuteurs. Dans un échange à deux voix, impossible de savoir qui parle. Il ignore aussi les sons non verbaux. Le format WebVTT permet pourtant de les décrire :

WEBVTT
 
00:00:12.000 --> 00:00:15.500
[Musique tendue]
 
00:00:16.000 --> 00:00:18.200
<v Marie>On ne peut pas continuer comme ça.
 
00:00:19.000 --> 00:00:20.500
<v Paul>Je sais.

La balise <v> identifie le locuteur. Les crochets décrivent les sons. Sans ces indications, vos sous-titres sont des sous-titres de traduction déguisés.

Deuxième problème : la précision. Selon les tests de NoteLM.ai, les sous-titres automatiques de YouTube atteignent 85 à 95 % de précision dans les meilleures conditions. Noms propres et vocabulaire technique sont les premiers à souffrir, surtout avec des accents régionaux. Une relecture humaine reste indispensable.

#En résumé

Une personne sur huit présente une limitation auditive fonctionnelle, selon les données gouvernementales américaines citées par WebAIM. Les sous-titres synchronisés vont au-delà du texte des dialogues : ils identifient les locuteurs et décrivent les sons significatifs. En HTML, utilisez kind="captions" (pas kind="subtitles"), fournissez un fichier WebVTT relu par un humain, et vérifiez que chaque son utile à la compréhension y figure.

Retour au glossaire

Partagez cet article

Pour aller plus loin

Audiodescription synchronisée

L'audiodescription synchronisée est une narration vocale insérée dans les pauses d'une vidéo pour décrire les éléments visuels que la bande son ne transmet pas. Elle permet aux personnes aveugles ou malvoyantes de suivre l'action, les changements de scène et le texte affiché à l'écran. Les WCAG l'exigent au niveau AA pour tout contenu vidéo préenregistré.

Média temporel

Un média temporel est un contenu dont la compréhension dépend du temps qui s'écoule : fichier audio, vidéo, ou les deux combinés. En accessibilité, chaque type de média temporel exige des alternatives spécifiques : transcription, sous-titres, audiodescription. Les WCAG y consacrent neuf critères de succès (règle 1.2).

Transcription textuelle

La transcription textuelle est la version écrite d'un média audio ou vidéo, consultable indépendamment du lecteur. Elle reprend les paroles, identifie les locuteurs, décrit les sons significatifs et, pour les vidéos, les informations visuelles nécessaires à la compréhension. Les WCAG l'exigent dès le niveau A pour tout contenu audio seul pré-enregistré (critère 1.2.1).