Sous-titres synchronisés
Les sous-titres synchronisés sont une version textuelle des paroles et des sons d'une vidéo, affichée en temps réel dans le lecteur. Ils ne se limitent pas au dialogue : ils identifient qui parle et décrivent les bruits significatifs comme la musique ou un claquement de porte. Les WCAG les exigent dès le niveau A pour les vidéos pré-enregistrées (critère 1.2.2).
Votre vidéo a des sous-titres. Mais décrivent-ils le claquement de porte, la musique angoissante, le soupir du personnage ? Si la réponse est non, une personne sourde passe à côté d'une partie du message.
#Captions ou subtitles : la confusion française
En anglais, deux mots distincts existent. Les subtitles traduisent le dialogue pour un public qui entend. Les captions transcrivent tout l'audio (paroles, identification des locuteurs, sons significatifs) pour un public qui n'entend pas.
Le français n'a qu'un seul mot pour les deux. Cette ambiguïté se retrouve jusque dans les projets web : beaucoup d'équipes livrent des subtitles en pensant avoir fourni des captions.
En HTML, la balise <track> fait la distinction via l'attribut kind :
<!-- Sous-titres d'accessibilité (captions) -->
<track kind="captions" src="st-fr.vtt" srclang="fr" label="Français (SME)" default>
<!-- Sous-titres de traduction (subtitles) -->
<track kind="subtitles" src="st-en.vtt" srclang="en" label="English">kind="captions" signale au navigateur et aux technologies d'assistance que la piste contient l'ensemble de l'information audio. Le critère 1.2.2 des WCAG exige des captions, pas de simples subtitles.
#Le piège du sous-titrage automatique
Beaucoup d'équipes activent le sous-titrage automatique de leur plateforme vidéo et passent au point suivant. Deux problèmes.
Le sous-titrage automatique ne distingue pas les locuteurs. Dans un échange à deux voix, impossible de savoir qui parle. Il ignore aussi les sons non verbaux. Le format WebVTT permet pourtant de les décrire :
WEBVTT
00:00:12.000 --> 00:00:15.500
[Musique tendue]
00:00:16.000 --> 00:00:18.200
<v Marie>On ne peut pas continuer comme ça.
00:00:19.000 --> 00:00:20.500
<v Paul>Je sais.La balise <v> identifie le locuteur. Les crochets décrivent les sons. Sans ces indications, vos sous-titres sont des sous-titres de traduction déguisés.
Deuxième problème : la précision. Selon les tests de NoteLM.ai, les sous-titres automatiques de YouTube atteignent 85 à 95 % de précision dans les meilleures conditions. Noms propres et vocabulaire technique sont les premiers à souffrir, surtout avec des accents régionaux. Une relecture humaine reste indispensable.
#En résumé
Une personne sur huit présente une limitation auditive fonctionnelle, selon les données gouvernementales américaines citées par WebAIM. Les sous-titres synchronisés vont au-delà du texte des dialogues : ils identifient les locuteurs et décrivent les sons significatifs. En HTML, utilisez kind="captions" (pas kind="subtitles"), fournissez un fichier WebVTT relu par un humain, et vérifiez que chaque son utile à la compréhension y figure.