Transcription textuelle

La transcription textuelle est la version écrite d'un média audio ou vidéo, consultable indépendamment du lecteur. Elle reprend les paroles, identifie les locuteurs, décrit les sons significatifs et, pour les vidéos, les informations visuelles nécessaires à la compréhension. Les WCAG l'exigent dès le niveau A pour tout contenu audio seul pré-enregistré (critère 1.2.1).

Votre podcast a des milliers d'écoutes. Mais une personne sourde ne peut pas l'écouter, et un moteur de recherche ne peut pas l'indexer. Sans transcription textuelle, votre contenu audio n'existe pas pour eux.

#Transcription et sous-titres : deux choses différentes

La confusion est fréquente. Les sous-titres s'affichent dans le lecteur vidéo, en synchronisation avec le flux. La transcription textuelle est un document autonome : une page HTML, un bloc de texte sous le lecteur, un fichier téléchargeable. On peut la lire sans lancer la vidéo.

Cette distinction a une conséquence directe. Les sous-titres exigent de regarder la vidéo. Une personne sourde-aveugle, qui utilise un afficheur braille, ne peut pas accéder à des sous-titres. Elle a besoin d'une transcription textuelle. C'est pour cette raison que la WAI distingue deux niveaux :

Transcription basique : paroles, identification des locuteurs, sons non verbaux significatifs.
Transcription descriptive : tout ce qui précède, plus la description des informations visuelles (gestes, graphiques affichés, changements de scène).

Pour un fichier audio seul (podcast, message vocal), la transcription basique suffit. Pour une vidéo, la transcription descriptive couvre l'ensemble des situations de handicap.

#Ce que les WCAG exigent concrètement

Le critère 1.2.1 (niveau A) impose une transcription pour tout contenu audio seul pré-enregistré. Pas d'exception. C'est le minimum.

Le critère 1.2.3 (niveau A) offre un choix pour les vidéos avec audio : soit une audiodescription, soit une transcription textuelle complète. Beaucoup d'équipes ignorent cette seconde option, qui est pourtant plus simple à produire.

Au niveau AAA, le critère 1.2.8 exige une transcription pour tous les médias synchronisés pré-enregistrés, sans alternative.

#Comment structurer une bonne transcription

Les directives du gouvernement du Canada donnent un format clair :

<details>
  <summary>Transcription textuelle</summary>
  <p>[Musique d'introduction]</p>
  <p><strong>Marie</strong> : Aujourd'hui, on parle de navigation clavier.</p>
  <p>[Marie partage son écran et ouvre un formulaire de contact]</p>
  <p><strong>Paul</strong> : Le premier champ reçoit le focus automatiquement.</p>
</details>

Crochets pour les sons et actions visuelles. Noms des locuteurs en gras. La transcription placée juste sous le lecteur, ou reliée par un lien visible.

L'erreur la plus courante : fournir une transcription qui ne contient que les mots prononcés. Si votre vidéo montre un graphique pendant que le présentateur dit « comme vous pouvez le voir ici », une personne qui lit la transcription ne voit rien du tout. Décrivez ce qui apparaît à l'écran.

#En résumé

La transcription textuelle est un document autonome, consultable sans lancer le média. Pour un podcast, elle reprend les paroles et les sons. Pour une vidéo, elle y ajoute la description des informations visuelles. Les WCAG l'exigent dès le niveau A, et elle reste souvent la solution la plus simple pour rendre un média accessible.

Retour au glossaire

Partagez cet article

Pour aller plus loin

Sous-titres synchronisés

Les sous-titres synchronisés sont une version textuelle des paroles et des sons d'une vidéo, affichée en temps réel dans le lecteur. Ils ne se limitent pas au dialogue : ils identifient qui parle et décrivent les bruits significatifs comme la musique ou un claquement de porte. Les WCAG les exigent dès le niveau A pour les vidéos pré-enregistrées (critère 1.2.2).

Audiodescription synchronisée

L'audiodescription synchronisée est une narration vocale insérée dans les pauses d'une vidéo pour décrire les éléments visuels que la bande son ne transmet pas. Elle permet aux personnes aveugles ou malvoyantes de suivre l'action, les changements de scène et le texte affiché à l'écran. Les WCAG l'exigent au niveau AA pour tout contenu vidéo préenregistré.

Média temporel

Un média temporel est un contenu dont la compréhension dépend du temps qui s'écoule : fichier audio, vidéo, ou les deux combinés. En accessibilité, chaque type de média temporel exige des alternatives spécifiques : transcription, sous-titres, audiodescription. Les WCAG y consacrent neuf critères de succès (règle 1.2).