Pour chaque média temporel synchronisé pré-enregistré ayant des sous-titres synchronisés, ces sous-titres sont-ils pertinents ?
Une personne sourde regarde une vidéo de formation produite par votre équipe. Les sous-titres sont là, générés automatiquement par la plateforme. Mais les noms propres sont tronqués, une phrase technique est absente, et le silence entre deux répliques est mal découpé. Elle repart sans l’information. C’est précisément ce que le critère 4.4 sanctionne.
La présence de sous-titres ne suffit pas : ce critère évalue leur qualité. Les sous-titres doivent retranscrire l’intégralité des informations sonores importantes : les dialogues évidemment, mais aussi les indications sonores porteuses de sens (une alarme, des rires qui signalent l’ironie, une voix off qui énonce un chiffre clé). Un sous-titre générique comme « [musique] » affiché pendant qu’un intervenant annonce les conclusions d’un rapport est une non-conformité.
La synchronisation est l’autre dimension du critère. Des sous-titres qui arrivent avec deux secondes de décalage cassent la compréhension aussi sûrement que des sous-titres incomplets. Le texte doit apparaître et disparaître en phase avec l’audio. Décalage persistant ? Test échoué.
Un test pour confirmer que les sous-titres restituent fidèlement le contenu
Pertinence et synchronisation des sous-titres vidéo
- Identifiez dans la page toutes les vidéos synchronisées (son + image) qui possèdent une piste de sous-titres.
- Pour chaque vidéo, activez les sous-titres et visionnez le contenu, son coupé.
- Vérifiez que les dialogues sont retranscrits intégralement, sans omission ni déformation significative.
- Vérifiez que les informations sonores non verbales porteuses de sens sont indiquées : alarmes, rires, changement de locuteur, bruits importants.
- Vérifiez que le texte apparaît et disparaît en phase avec l’audio, sans décalage systématique.
Test validé si les conditions 3, 4 et 5 sont réunies pour chaque vidéo. Test échoué dès qu’un sous-titre est absent, inexact ou régulièrement décalé.
Exemples
❌ Non conforme : Piste de sous-titres automatiques avec omissions et erreurs
<video controls>
<source src="conference-accessibilite.mp4" type="video/mp4">
<!-- Piste générée automatiquement par la plateforme, non relue -->
<track
kind="captions"
src="auto-captions.vtt"
srclang="fr"
label="Français (auto)"
default>
</video>
<!--
Contenu de auto-captions.vtt :
WEBVTT
00:00:03.000 --> 00:00:06.500
euh le critère quatre point trois exige
00:00:06.500 --> 00:00:10.000
que les sous titre soient pré-sents
00:00:12.800 --> 00:00:16.000
[inaudible]
-->Les sous-titres automatiques contiennent des hésitations parasites (« euh »), des erreurs de transcription (« pré-sents » coupé au mauvais endroit), et masquent une information importante derrière « [inaudible] ». Pour une personne sourde, c’est aussi problématique qu’une piste absente. Le RGAA considère que des sous-titres automatiques non relus et corrigés ne satisfont pas le critère de pertinence.
✅ Conforme : Piste de sous-titres humains, complète et synchronisée
<video controls>
<source src="conference-accessibilite.mp4" type="video/mp4">
<track
kind="captions"
src="captions-fr.vtt"
srclang="fr"
label="Français"
default>
</video>
<!--
Contenu de captions-fr.vtt :
WEBVTT
00:00:03.000 --> 00:00:06.500
Le critère 4.3 du RGAA exige
00:00:06.500 --> 00:00:10.000
que les sous-titres soient présents pour toute vidéo synchronisée.
00:00:10.200 --> 00:00:12.700
[Sonnerie d'alarme dans la salle]
00:00:12.800 --> 00:00:16.000
Je reprends : la pertinence des sous-titres, c'est le critère 4.4.
-->Les sous-titres retranscrivent fidèlement les propos, indiquent l’événement sonore important (« [Sonnerie d’alarme dans la salle] »), et sont synchronisés à la demi-seconde près. Une personne sourde reçoit exactement les mêmes informations qu’une personne entendante.
Astuces et pièges
⚠️ Les sous-titres automatiques ne valident jamais le critère 4.4
YouTube, Vimeo et la plupart des plateformes génèrent des sous-titres par IA. Ces pistes contiennent systématiquement des erreurs : omissions, confusions de mots, absence de ponctuation, décalages. C’est l’erreur la plus fréquente constatée en audit multimédia. Pour qu’une piste automatique soit recevable, elle doit avoir été exportée, relue intégralement et corrigée avant d’être reimportée. Le travail humain est non négociable.
⚠️ Oublier les informations sonores non verbales
Les sous-titres ne concernent pas uniquement les dialogues. Une alarme qui signale un danger, des applaudissements qui marquent la fin d’une intervention, un bruit de chute hors champ mentionné ensuite à l’écran : si ces éléments transmettent une information, ils doivent être retranscrits. La convention habituelle est une description entre crochets : [Applaudissements], [Alarme incendie], [Rires dans la salle].
💡 Auditer par échantillonnage sur les vidéos longues
Pour une vidéo de 45 minutes, visionner l’intégralité n’est pas toujours réaliste. Prélevez au moins trois extraits représentatifs : début, milieu, fin. Privilégiez les passages avec des termes techniques, des chiffres, des noms propres ou des changements de locuteur. Ce sont les zones où les erreurs de pertinence se concentrent.
⚠️ Plusieurs locuteurs dans la même vidéo
Quand deux intervenants ou plus s’expriment, les sous-titres doivent permettre d’identifier qui parle. Le RGAA n’impose pas de format précis, mais l’usage courant est d’indiquer le nom ou le rôle avant la réplique : « Animatrice : Quelle est votre position ? ». Sans cette identification, une personne sourde peut perdre le fil d’un débat à plusieurs voix.
⚠️ Ce critère ne s’applique qu’aux vidéos déjà sous-titrées
Le critère 4.4 ne vérifie la pertinence des sous-titres que pour les vidéos qui en possèdent déjà. Si une vidéo n’a pas de sous-titres, c’est le critère 4.3 qui s’applique (existence des sous-titres). Les deux critères sont distincts et doivent être évalués séparément : 4.3 vérifie qu’ils existent, 4.4 vérifie qu’ils sont corrects.
Questions fréquentes
Comment les sous-titres automatiques de YouTube ou Vimeo sont-ils évalués selon le RGAA 4.4 ?
Non. Les sous-titres automatiques ne satisfont pas le critère 4.4 en l’état. La seule façon de les utiliser est de les exporter au format VTT ou SRT, de les corriger intégralement (transcription, ponctuation, synchronisation), puis de les réimporter comme piste manuelle. Sans cette étape de relecture humaine, ils ne peuvent pas être considérés comme pertinents.
Quelle est la différence entre le critère RGAA 4.3 et le critère 4.4 ?
Le critère 4.3 vérifie que des sous-titres synchronisés existent pour les vidéos qui en nécessitent. Le critère 4.4 vérifie que ces sous-titres sont complets et correctement synchronisés. Une vidéo peut passer le 4.3 (les sous-titres sont présents) et échouer le 4.4 (ils sont inexacts ou décalés). Les deux critères s’évaluent séparément.
Comment auditer concrètement la pertinence des sous-titres selon le critère RGAA 4.4 ?
Activez les sous-titres, coupez le son, et regardez la vidéo. Si vous comprenez l’intégralité du contenu grâce aux sous-titres seuls, ils sont pertinents. Si vous ressentez des manques, des confusions ou perdez le fil à certains moments, ils ne le sont pas. Ce test de compréhension sans audio est le critère opérationnel le plus simple et le plus fiable.
Quand les musiques de fond et ambiances sonores doivent-elles figurer dans les sous-titres RGAA ?
Seulement si elles transmettent une information. Une musique d’ambiance purement décorative n’a pas besoin d’être indiquée. En revanche, si une musique change pour signaler un passage émotionnel structurant, ou si un bruit extérieur est mentionné dans le discours, il faut le retranscrire. La règle : sous-titrez ce qu’une personne entendante perçoit et qui modifie sa compréhension du contenu.
Quel niveau de décalage de synchronisation entraîne un échec au critère RGAA 4.4 ?
Un décalage ponctuel de moins d’une seconde est généralement tolérable. C’est un décalage systématique ou récurrent qui constitue un échec : si le texte arrive régulièrement en retard ou en avance, la lecture devient difficile pour une personne sourde qui cherche à faire le lien entre les gestes du locuteur et les mots affichés. Testez sur au moins trois extraits représentatifs avant de conclure.