Audiodescription synchronisée

L'audiodescription synchronisée est une narration vocale insérée dans les pauses d'une vidéo pour décrire les éléments visuels que la bande son ne transmet pas. Elle permet aux personnes aveugles ou malvoyantes de suivre l'action, les changements de scène et le texte affiché à l'écran. Les WCAG l'exigent au niveau AA pour tout contenu vidéo préenregistré.

Une vidéo montre un personnage qui ouvre une enveloppe, lit la lettre en silence et sourit. Sans audiodescription, une personne aveugle n'entend que le froissement du papier. Elle ne sait pas ce qui provoque le sourire, ni même qu'il y a un sourire.

#Ce que les WCAG exigent

Le critère 1.2.5 des WCAG (niveau AA) impose une audiodescription pour toute vidéo préenregistrée dans un média synchronisé. La description est insérée dans les pauses entre les dialogues : actions, expressions, texte à l'écran, changements de décor.

Si la piste audio couvre déjà toute l'information visuelle, aucune audiodescription supplémentaire n'est nécessaire. C'est le cas d'une interview où le présentateur annonce le nom et la fonction de chaque intervenant au lieu de les afficher uniquement en bandeau.

Pour les vidéos sans pauses suffisantes, le critère 1.2.7 (niveau AAA) prévoit l'audiodescription étendue : le lecteur met la vidéo en pause automatiquement le temps que la description soit prononcée, puis reprend la lecture.

Le RGAA reprend ces exigences dans sa thématique 4 (Multimédia).

#Le piège technique que personne n'anticipe

HTML prévoit un élément <track kind="descriptions"> pour associer un fichier de descriptions à une vidéo. En théorie, les navigateurs pourraient synthétiser la voix à partir du texte.

<video controls>
  <source src="demo.mp4" type="video/mp4" />
  <track kind="descriptions" src="ad.vtt" srclang="fr" label="Audiodescription" />
</video>

En pratique, aucun navigateur majeur ne supporte cette fonctionnalité de manière fiable. La solution la plus courante reste de produire une version alternative de la vidéo avec l'audiodescription mixée directement dans la bande son, ou d'utiliser JavaScript pour piloter un fichier audio séparé synchronisé avec la lecture.

#Anticiper dès le scénario

Ajouter une audiodescription après le montage est coûteux. Les dialogues se chevauchent, les pauses sont trop courtes, les descriptions ne rentrent pas. L'approche la moins chère : prévoir dès l'écriture du scénario des silences suffisants entre les répliques, et intégrer les informations visuelles directement dans le script quand c'est possible. Le W3C appelle cette technique la « description intégrée ».

En France, près de 2 millions de personnes déficientes visuelles sont concernées par l'audiodescription selon la CFPSAA.

#En résumé

L'audiodescription synchronisée décrit le visuel d'une vidéo dans les pauses du dialogue. Les WCAG l'exigent au niveau AA. Prévoyez-la dès le scénario plutôt qu'en post-production : vous gagnerez du temps et vos vidéos seront accessibles sans version alternative.

Retour au glossaire

Partagez cet article

Pour aller plus loin

Média temporel

Un média temporel est un contenu dont la compréhension dépend du temps qui s'écoule : fichier audio, vidéo, ou les deux combinés. En accessibilité, chaque type de média temporel exige des alternatives spécifiques : transcription, sous-titres, audiodescription. Les WCAG y consacrent neuf critères de succès (règle 1.2).

Sous-titres synchronisés

Les sous-titres synchronisés sont une version textuelle des paroles et des sons d'une vidéo, affichée en temps réel dans le lecteur. Ils ne se limitent pas au dialogue : ils identifient qui parle et décrivent les bruits significatifs comme la musique ou un claquement de porte. Les WCAG les exigent dès le niveau A pour les vidéos pré-enregistrées (critère 1.2.2).

Transcription textuelle

La transcription textuelle est la version écrite d'un média audio ou vidéo, consultable indépendamment du lecteur. Elle reprend les paroles, identifie les locuteurs, décrit les sons significatifs et, pour les vidéos, les informations visuelles nécessaires à la compréhension. Les WCAG l'exigent dès le niveau A pour tout contenu audio seul pré-enregistré (critère 1.2.1).