Média temporel

Un média temporel est un contenu dont la compréhension dépend du temps qui s'écoule : fichier audio, vidéo, ou les deux combinés. En accessibilité, chaque type de média temporel exige des alternatives spécifiques : transcription, sous-titres, audiodescription. Les WCAG y consacrent neuf critères de succès (règle 1.2).

Un podcast sans transcription, une vidéo de formation sans sous-titres, un webinaire en direct sans légendes temps réel. Trois situations banales, un même problème.

#Qu'est-ce qu'un média temporel exactement ?

Le terme regroupe tout contenu qui se déroule dans le temps. La règle 1.2 des WCAG distingue quatre catégories :

Audio seul : podcast, message vocal, fichier MP3.
Vidéo seule : animation muette, tutoriel sans bande-son.
Audio-vidéo : vidéo avec une piste sonore (le cas le plus courant).
Média interactif : audio ou vidéo combinés avec de l'interaction utilisateur.

Chaque catégorie a ses propres obligations. Un fichier audio seul n'a pas besoin de sous-titres, mais il exige une transcription textuelle. Une vidéo muette n'a pas besoin d'audiodescription, mais elle exige une alternative décrivant ce qui se passe à l'écran.

Les WCAG ajoutent une deuxième distinction : pré-enregistré ou en direct. Les neuf critères de succès (1.2.1 à 1.2.9) précisent chacun s'ils s'appliquent au contenu live, au contenu enregistré, ou aux deux.

#Le piège que la plupart des équipes ignorent

Beaucoup d'équipes pensent « média temporel = vidéo ». Elles ajoutent des sous-titres et considèrent le sujet réglé.

Sauf qu'un podcast est un média temporel. Un enregistrement d'appel aussi. Le critère 1.2.1 exige une transcription textuelle pour tout contenu audio seul pré-enregistré. C'est du niveau A, le minimum. Sans transcription, une personne sourde n'a aucun accès au contenu.

L'erreur inverse existe aussi : fournir uniquement des sous-titres quand l'information passe par l'image. Un tutoriel qui montre des manipulations à l'écran sans les décrire oralement ? Les sous-titres ne servent à rien pour une personne aveugle. Il faut une audiodescription ou, au minimum, une transcription qui décrit les actions visuelles.

#Rendre un média temporel accessible en HTML

La balise <track> permet d'associer des fichiers WebVTT à un élément <video> ou <audio> :

<video controls>
  <source src="formation.mp4" type="video/mp4">
  <track kind="captions" src="sous-titres.vtt" srclang="fr" label="Français" default>
  <track kind="descriptions" src="audiodesc.vtt" srclang="fr" label="Audiodescription">
</video>

L'attribut kind fait la différence : captions pour les sous-titres (dialogue et sons significatifs), descriptions pour l'audiodescription.

Le RGAA consacre sa thématique 4 aux médias. Les critères couvrent les sous-titres, la transcription textuelle, l'audiodescription synchronisée et l'absence de déclenchement automatique du son.

#En résumé

Un média temporel, c'est tout contenu qui se déroule dans le temps : audio, vidéo, ou les deux. Chaque type exige ses propres alternatives. Les sous-titres seuls ne suffisent pas : pensez transcription pour l'audio, audiodescription pour le visuel.

Retour au glossaire

Partagez cet article

Pour aller plus loin

Audiodescription synchronisée

L'audiodescription synchronisée est une narration vocale insérée dans les pauses d'une vidéo pour décrire les éléments visuels que la bande son ne transmet pas. Elle permet aux personnes aveugles ou malvoyantes de suivre l'action, les changements de scène et le texte affiché à l'écran. Les WCAG l'exigent au niveau AA pour tout contenu vidéo préenregistré.

Sous-titres synchronisés

Les sous-titres synchronisés sont une version textuelle des paroles et des sons d'une vidéo, affichée en temps réel dans le lecteur. Ils ne se limitent pas au dialogue : ils identifient qui parle et décrivent les bruits significatifs comme la musique ou un claquement de porte. Les WCAG les exigent dès le niveau A pour les vidéos pré-enregistrées (critère 1.2.2).

Transcription textuelle

La transcription textuelle est la version écrite d'un média audio ou vidéo, consultable indépendamment du lecteur. Elle reprend les paroles, identifie les locuteurs, décrit les sons significatifs et, pour les vidéos, les informations visuelles nécessaires à la compréhension. Les WCAG l'exigent dès le niveau A pour tout contenu audio seul pré-enregistré (critère 1.2.1).