Transcription textuelle
La transcription textuelle est la version écrite d'un média audio ou vidéo, consultable indépendamment du lecteur. Elle reprend les paroles, identifie les locuteurs, décrit les sons significatifs et, pour les vidéos, les informations visuelles nécessaires à la compréhension. Les WCAG l'exigent dès le niveau A pour tout contenu audio seul pré-enregistré (critère 1.2.1).
Votre podcast a des milliers d'écoutes. Mais une personne sourde ne peut pas l'écouter, et un moteur de recherche ne peut pas l'indexer. Sans transcription textuelle, votre contenu audio n'existe pas pour eux.
#Transcription et sous-titres : deux choses différentes
La confusion est fréquente. Les sous-titres s'affichent dans le lecteur vidéo, en synchronisation avec le flux. La transcription textuelle est un document autonome : une page HTML, un bloc de texte sous le lecteur, un fichier téléchargeable. On peut la lire sans lancer la vidéo.
Cette distinction a une conséquence directe. Les sous-titres exigent de regarder la vidéo. Une personne sourde-aveugle, qui utilise un afficheur braille, ne peut pas accéder à des sous-titres. Elle a besoin d'une transcription textuelle. C'est pour cette raison que la WAI distingue deux niveaux :
- Transcription basique : paroles, identification des locuteurs, sons non verbaux significatifs.
- Transcription descriptive : tout ce qui précède, plus la description des informations visuelles (gestes, graphiques affichés, changements de scène).
Pour un fichier audio seul (podcast, message vocal), la transcription basique suffit. Pour une vidéo, la transcription descriptive couvre l'ensemble des situations de handicap.
#Ce que les WCAG exigent concrètement
Le critère 1.2.1 (niveau A) impose une transcription pour tout contenu audio seul pré-enregistré. Pas d'exception. C'est le minimum.
Le critère 1.2.3 (niveau A) offre un choix pour les vidéos avec audio : soit une audiodescription, soit une transcription textuelle complète. Beaucoup d'équipes ignorent cette seconde option, qui est pourtant plus simple à produire.
Au niveau AAA, le critère 1.2.8 exige une transcription pour tous les médias synchronisés pré-enregistrés, sans alternative.
#Comment structurer une bonne transcription
Les directives du gouvernement du Canada donnent un format clair :
<details>
<summary>Transcription textuelle</summary>
<p>[Musique d'introduction]</p>
<p><strong>Marie</strong> : Aujourd'hui, on parle de navigation clavier.</p>
<p>[Marie partage son écran et ouvre un formulaire de contact]</p>
<p><strong>Paul</strong> : Le premier champ reçoit le focus automatiquement.</p>
</details>Crochets pour les sons et actions visuelles. Noms des locuteurs en gras. La transcription placée juste sous le lecteur, ou reliée par un lien visible.
L'erreur la plus courante : fournir une transcription qui ne contient que les mots prononcés. Si votre vidéo montre un graphique pendant que le présentateur dit « comme vous pouvez le voir ici », une personne qui lit la transcription ne voit rien du tout. Décrivez ce qui apparaît à l'écran.
#En résumé
La transcription textuelle est un document autonome, consultable sans lancer le média. Pour un podcast, elle reprend les paroles et les sons. Pour une vidéo, elle y ajoute la description des informations visuelles. Les WCAG l'exigent dès le niveau A, et elle reste souvent la solution la plus simple pour rendre un média accessible.