La voix au cinéma, une constante mutation

La voix au cinéma, une constante mutation

Depuis les débuts du cinéma parlant, la voix occupe une place singulière, qui évolue selon les époques, les pays, les réalisateurs, les techniques, l’usage du doublage ou des sous-titres, ou le public visé. Entretien avec Michel Chion.

Temps de lecture : 14 min
Michel Chion est compositeur de musiques concrètes; réalisateur d'œuvres audiovisuelles et de films, auteur d'ouvrages, dont La Voix au cinéma, chercheur indépendant sur le son et la perception, Il a appartenu au Groupe de recherches musicales (GRM) et enseigné à l'Université Paris III.


Comment en êtes-vous arrivé à vous intéresser à la voix au cinéma ?
 
Michel Chion : Dès les années 1970, j'ai donné dans mes musiques concrètes, comme mon Requiem de 1973, une grande importance aux voix, non des voix abstraites mais ce que j'appelle des personnages vocaux, sexués, qu'ils soient joués par moi-même, des chanteurs/chanteuses, des comédiens(ne)s, etc. À la fin des années 1970, ayant démissionné du GRM (Groupe de recherches musicales de l’Ina), je cherchais du travail. Cinéphile, j'avais déjà écrit sur le cinéma. Pierre Schaeffer, à qui on avait proposé de donner des cours sur le son au cinéma pour l’IDHEC (L'Institut des hautes études cinématographiques, qui sera remplacé par la Femis) a décliné, mais leur a dit que cela pouvait m’intéresser, ce qui fut de sa part une belle transmission. Cette nouvelle activité m’a permis de continuer à composer, en restant indépendant. J’ai donc commencé à donner des cours et, par chance, les vidéocassettes venaient d’apparaître, ce qui m'a permis d’étudier et de faire étudier le son des films.
 
J’ai pris alors conscience de la place de la voix et eu envie de tirer parti de cette expérience, en écrivant plusieurs livres dont le premier fut La Voix au cinéma, Paris (Éditions de l’Étoile / Cahiers du cinéma, coll. « Essais », 1982). J’y étudie entre autres Le Testament du docteur Mabuse de Fritz Lang, sorte de film-programme de la voix au cinéma au début du parlant, avec un génie du mal qui parle, caché, derrière un rideau, et Psychose d’Hitchcock, où le héros dialogue avec sa mère invisible. J'y étudie aussi d’autres films, dans lesquels, au contraire, le corps et la voix sont à la fois exposés ensemble et dissociés : dans le Parsifal de Hans-Jürgen 
Syberberg, sur l'opéra de Wagner, le réalisateur ose utiliser le playback dans un cadre où il est assumé, exhibé que ce ne sont pas les mêmes qui chantent et qui jouent. Au cours du deuxième acte, le jeune garçon qui prête son aspect physique à la voix du ténor est remplacé « à vue » par une jeune fille. Ce qui fonctionne, dans le cadre de ce film-là.
 
La Voix au cinéma a eu un certain écho. Un livre formidable de Denis Vasse, psychanalyste lacanien, L’Ombilic et la Voix (Seuil, 1974) m’avait beaucoup inspiré pour l'écrire.
 

Dans cet essai écrit en 1982, vous jetiez les bases d’une théorie du « cinéma parlant ». Pouvez-vous préciser votre démarche ?
Michel Chion : Pour des raisons évidentes, on s'est longtemps, dans les études cinématographiques, occupé plus de l’image que du son. Et le son, c’est aussi celui de la voix humaine qui centre l’attention, même si on ne comprend pas la langue parlée. Notre attention d’êtres humains est toujours attirée par la présence vocale de quelqu’un car cela peut s’adresser à nous, nous concerner, c’est humain.
 Notre attention d’êtres humains est toujours attirée par la présence vocale de quelqu’un car cela peut s’adresser à nous, nous concerner. 
Le rapport entre la voix et le corps nous interpelle aussi, puisque, selon moi, au début de la vie, il faut un certain temps pour intégrer que le corps et la voix appartiennent à une même personne. La voix de quelqu’un peut changer énormément, selon ses différents états, tandis que le corps garde une certaine constance. Les enfants sont impressionnés quand ils entendent leurs parents avec une « autre voix », s’ils sont furieux, hurlent, chuchotent, se disputent avec quelqu’un d‘autre, et forcément dans ce qu’on appelle la « scène primitive », c’est-à-dire l’audition plus ou moins claire des adultes en relation sexuelle. Voilà pourquoi j’ai mis la voix au centre. Il y avait déjà eu quelques articles importants à l’époque sur ce sujet, notamment de Pascal Bonitzer, mais pas de livre.
 

Quels sont les effets  principaux de l’évolution des techniques de captation sur la restitution de la voix au cinéma ?
 
Michel Chion : Dans les premiers temps, le cinéma sonore était évidemment tourné en studio, les micros étant peu sensibles et les caméras bruyantes, et l’acteur devait articuler et projeter sa voix. Les réalisateurs, au début du parlant, entre 1928 et 1932, cherchaient aussi, dans l'autre sens, des effets de naturel, avec des personnages qui parlent tous ensemble, etc. Il existait tout de même une contrainte très matérielle : on ne devait pas voir les micros dans le champ, alors on mettait le micro à distance parce que c’est un tabou visuel, censé, s’il est vu, casser la règle du jeu de la narration. Dans les studios, on mettait plusieurs micros au plafond, et un homme — qu’on appelait aux États-Unis le sound mixer — ouvrait et fermait les micros selon les déplacements des personnages, en sacrifiant ce qu’on appelle la perspective sonore, parce que si la personne s’éloigne d’un micro et que le son de sa voix se perd, c’est plus conforme à la réalité physique mais le spectateur comprend difficilement les propos… Ensuite, les micros sont devenus plus sensibles. Les tournages se sont faits plus souvent en extérieur et s’est posé le problème des bruits ambiants ; dans la majorité des pays du monde, la réponse fut de postsynchroniser les films : pour 90 % des films tournés dans le monde, on continue de faire le son des dialogues après.
 
 Aujourd’hui, on peut enregistrer un son peu projeté, peu clair, peu intelligible alors qu’au début du parlant il n’en était pas question.  
À partir des années 1970, de façon très progressive, sont apparus les micros sans fil, qui au début tombaient facilement en panne, souffraient de la température mais facilitaient la mobilité de l’acteur. Le preneur de son n’était pas obligé de courir avec sa bonnette invisible au-dessus du champ. Je me suis aperçu qu’il y a des traditions nationales différentes. Dans le monde, on continue de beaucoup postsynchroniser. En France, on enseigne dans les écoles de cinéma le son direct comme l’idéal absolu. En Italie, pendant très longtemps, on a longtemps postsynchronisé, maintenant ils ont davantage recours au son direct grâce à ces micros. Aujourd’hui, on peut enregistrer un son peu projeté, peu clair, peu intelligible alors qu’au début du parlant il n’en était pas question et on ne prenait pas certains acteurs incapables d’articuler. Évidemment, les effets de la technique se croisent avec d’autres effets et la technique n’occupe pas tout le champ. Existent d‘autres aspects, le son de la langue, le style du film, etc.
 

Est-ce que l’effet principal recherché, c’est toujours la compréhension ?
 
Michel Chion : Certains auteurs n’y tiennent pas. Ainsi, Jacques Doillon réalise des œuvres où souvent, on perd la moitié des phrases. Mais ça ne dérange pas ceux qui aiment ses films... Patrice Chéreau procédait aussi ainsi. Le problème, c’est que si des universaires américains étudient les films de Chéreau, Doillon, ils comprennent le sens des dialogues par les sous-titres et ne se rendent pas compte de l'effet de « clair-obscur verbal », comme je l'appelle. Il m’est arrivé de montrer en Allemagne un film de Rainer Werner Fassbinder de 1977, et les participants me disaient ne pas bien comprendre les dialogues, parce qu’en même temps dans la scène, on entend une radio allumée, qui retransmet du sport ou des informations. Ces effets-là disparaissent avec le doublage et le sous-titrage, parce qu’on ne peut pas demander à un sous-titrage de reproduire une élocution un peu confuse, ou deux voix simultanées, la règle est d’être lisible. A contrario, chez Robert Bresson, on comprend tout ; chez Jacques Tati, on ne comprend pas tout mais on sait que ce n’est pas important, les mots étant volontairement avalés ou mis à distance, les phrases étant comme des bulles qui se forment. Cela dépend donc des effets recherchés.
 

Les techniques de captation ont donc aussi permis de produire des effets différents selon le souhait des réalisateurs ?
 
Michel Chion : Oui. Le réalisateur peut, par exemple, souhaiter refaire les voix après-coup. Dans le cas de Bresson, tout était postsynchronisé, il ne gardait pas un seul son du tournage. Mais si on tient au son direct, ce qui est le propre d’autres réalisateurs, les effets sont différents selon que l’on tourne en studio, où c’est en principe insonorisé, ou dans le vacarme urbain. Le public, dans certains cas, n’est pas conscient de perdre une partie des mots, parce que dans certaines situations, ce n’est pas crucial. Un cinéaste que je trouve très inventif, le Danois Lars von Trier, ose des coupes de son inusitées, telles que couper une phrase en plein milieu, ce que même Jean-Luc Godard a rarement fait. Ce que ce dernier a fait plus souvent, c'est recouvrir le dialogue des personnages par la rumeur d'un café, c’est-à-dire faire lutter les sons les uns contre les autres.

Lorsque ces films sont doublés ou sous-titrés, l'effet est perdu. Par exemple, au début de Je vous salue Marie de Godard, il y a un dialogue entre Juliette Binoche et son ami, dans un café, dont la rumeur couvre leurs paroles. En regardant la version sous-titrée en anglais, les rédacteurs ayant probablement utilisé un texte que leur a donné Godard, pour la première fois je comprenais chaque mot.
 

Peut-on imaginer un doublage qui essaie de resituer ce qu’il y a dans le film originel ?
 
Michel Chion : En ce qui concerne les films de Doillon, aux États-Unis, ils passent dans des circuits qu’on appellerait d’art et d’essai, ce sont des films « european arty », on va donc les voir sous-titrés. C’est très rare que des films populaires français soient doublés (pour Amélie Poulain de Jean-Pierre Jeunet qui a eu un grand succès aux États-Unis, je pense qu’on l’a doublé, mais c’est rare). Les films ayant eu un succès populaire dans le pays d’origine étaient auparavant retournés et transposés aux États-Unis.
 

En vous écoutant, on se rend compte des déperditions d’un pays à l’autre...
 
Michel Chion : Évidemment, la question de la langue reste incontournable. Le sous-titrage oblige à condenser le sens, et à renoncer à 30 % du texte ; et ce n’est pas facile de sous-titrer, c’est une opération très délicate de traduire les jeux de mots, les injures, etc.
 
 La question de la langue reste incontournable. Le sous-titrage oblige à condenser le sens, et à renoncer à 30 % du texte.  
Se pose aussi la question des milieux sociaux. Une partie d’un film de Xavier Dolan, Mommy, est sous-titrée pour les Français parce que les personnages, montréalais, parlent en joual, une langue populaire qui combine des mots anglais francisés, etc. Je ne peux pas dire si les Québécois comprennent tout. Autre exemple, le film français de Bruno DumontL'Humanité qui se déroule dans le Pas-de-Calais, et qui est parlé avec un accent qui m'est familier : dans la salle où je l'ai vu à Paris à sa sortie, beaucoup de spectateurs disaient ne rien comprendre, et pourtant, ce n’est pas si loin de la capitale ! S’ils faisaient un effort, ils comprendraient...
 
Dans d’autres pays, notamment en Grande-Bretagne, l’accent des personnages est un marqueur à la fois régional et social respecté par les acteurs. En Italie, il existe un véritable intérêt pour préserver les dialectes et leur présence dans les films est réelle, ça fait partie de l’identité italienne, de son histoire. Au début du cinéma français, il y avait deux accents, qui ont été folklorisés assez vite, l’accent parigot, celui d’Arletty, et l’accent de Marseille, parce qu’on tournait les films à grand succès de Marcel Pagnol, et pour les spectateurs, c’était un accent coloré et vivant. L’accent parigot a presque disparu et la prise en compte des accents reste peu marquée dans le cinéma français, sauf dans les comédies. J'en parle Le Complexe de Cyrano. La langue parlée dans les films français.
 

À partir de quand les voix ont-elles été « normées », y a-t-il une époque particulière ?
 
Michel Chion : Évidemment, ce n'est pas la décision d'une instance qui s'appellerait  ». À la naissance du parlant, des acteurs connus ont donné un ton, comme Jean Gabin qui a souvent joué des ouvriers au début. Il y avait des emplois comme celui d’Arletty dans des rôles populaires. Pierre Fresnay jouait les aristos, des gens un peu pincés, avec sa diction sèche et parfaite. Ensuite, arrivent de nouveaux styles d’acteurs, les gens se sont peut-être fatigués d’un style ancien… Récemment, j’ai été invité dans un conservatoire pour parler du son et de la musique dans le film de Georges Franju, Les Yeux sans visage, un élève était étonné par l'ampleur de la voix de Pierre Brasseur, pensant qu'elle était le résultat d'un procédé technique. Je lui ai répondu que Pierre Brasseur parlait ainsi, il avait un grand registre vocal, créé aussi par la pratique du théâtre.
 
Les nouvelles époques voient l’arrivée de nouveaux styles de jeu. Par exemple, dans les années 1970, on pouvait devenir un acteur populaire sans avoir une voix remarquable, et imposer une présence sans avoir une voix timbrée, comme Gérard Depardieu qui a une voix frêle et pas « virile ». Quand il est doublé en allemand, on lui donne une voix grave, parce que les gens considèrent que quelqu’un de massif doit avoir une voix ample, ce qui n'est pas toujours le cas dans la réalité.
 
 C’est le paradoxe d’un cinéma français où l’on ne respecte pas la variété des accents parlés en France même  
Ce que je dis dans Le Complexe de Cyrano. La langue parlée dans les films français, c’est que, par contre, dans le cinéma français, on aime bien les accents des pays étrangers, c’est le cinéma dans lequel on a le plus engagé de comédiens étrangers en leur demandant de garder leur voix et leur accent pour parler français. Les Italiens ont beaucoup invité les acteurs français à jouer chez eux, Anouk Aimée, Michel Piccoli, Philippe Noiret, Alain Delon ont beaucoup tourné dans les films italiens mais ont été doublés par des acteurs italiens. Mais quand Marcello Mastroianni jouait en France, il gardait sa voix et son accent. Jane Birkin n’a jamais perdu son accent parce qu’on trouvait ça charmant. Dans les années 1960, il y avait des acteurs anglais, américains, comme Eddie Constantine qui jouait Lemmy Caution, italiens, comme Aldo Maccione, allemands comme Curd Jürgens…
 
C’est le paradoxe d’un cinéma français où l’on ne respecte pas la variété des accents parlés en France même. Claude Berri a fait un effort dans Jean de Florette, avec Daniel Auteuil qui est formidable dans le rôle d’Ugolin, on croit à son accent provençal, mais quand Claude Berri tourne Germinal dans le Nord, il laisse tomber la question de l'accent, craignant peut-être que le public ne ricane... Dans Bienvenue chez les Ch’tis, tourné dans le Nord-Pas-de-Calais, la manière d’utiliser l’accent folklorise la question. Dany Boon a gonflé l'importance d'un dialecte qui est parlé par très peu de gens, alors qu’il aurait pu uniquement se servir de l’accent.
 

Qu’entraîne l’utilisation, dans le récit cinématographique,  de dispositifs comme le téléphone portable, l’ordinateur ?
 
Michel Chion : De même que cela change nos vies, cela change les intrigues de films : Daniel Craig/James Bond est sous oreillettes, sa chef lui donne des ordres depuis Londres, tandis qu’il conduit un char d’assaut ou roule en camion sur un train en marche. Au quotidien, on voit comment les gens étalent leur vie dans la rue en parlant dans un mobile, et cela donne de nouvelles possibilités dramaturgiques dont se sert le cinéma. Dans des films plus anciens, le téléphone était déjà associé à des situations comiques ou dramatiques. 
 
 Les gens s’habituent à une sorte de transfert parlé/écrit. 
Dans L’Écrit au cinéma (Armand Colin, 2014), je me suis intéressé au SMS. Par exemple, dans le film d’Olivier Assayas, Personal Shopper, l'héroine reçoit des SMS mystérieux, peut-être du fantôme de son frère. Les situations actuelles créent parfois des transferts de l’écrit sur la voix, de la voix sur l’écrit. Ainsi, vous pouvez taper un texte sur Google Translate et le faire réciter dans différentes langues. Ce sont des voix de synthèse, féminines ou masculines. Vous avez aussi des systèmes comme Siri, la voix des Iphones d’Apple. Les gens s’habituent à une sorte de transfert parlé/écrit. Le Minitel m’a fasciné : avant Internet, on pouvait converser par écrit à distance, il existait des sites de discussion. C’était comme un jeu de masques, dans lequel quelqu’un peut faire croire qu’il est une femme ou vice versa, où on ne met pas en jeu l’image de son corps...
 

Quelles sont les caractéristiques des voix des dessins animés ? Pourquoi la vedettarisation de ces voix ?
 
Michel Chion : D'abord, les frontières entre dessin animé et cinéma de prise de vue tendent à se dissoudre, puisque nombre de films d’action  utilisent des images de synthèse : dans Les Gardiens de la galaxie, on peut voir un raton-laveur de moins d'un mètre de haut qui parle, c’est une image de synthèse, mais qui a la voix d’un acteur américain populaire, Brad Cooper. Est-ce du dessin animé ? En tout cas, de plus en plus souvent un personnage animé est « joué vocalement » par une vedette, et non comme autrefois par un acteur de doublage peu connu.
 
Aujourd’hui coexistent des dessins animés qui gardent les traditions du film d’animation, par exemple les films de Hayao Miyazaki, et des films où l'image des acteurs est numériquement transformée, de sorte que le public peut se dire que l’acteur n’a plus rien à faire... Le fait de prendre des acteurs populaires, comme Brad Cooper pour le raton-laveur, projette une image sympathique et humaine. Le public a envie qu’il y ait du vivant, de l’humain derrière la technologie. Ce qui est très important, c’est le bonus des DVD, où l’on voit par exemple Eddie Murphy en train de s’amuser à faire la voix d’un âne dans Shrek. On a besoin de rêver sur ce qui s’est passé pendant la fabrication du film, cela génère ce que j’appelle une « rêverie sur le réel profilmique », où l’on ne se représente pas le film comme un travail anonyme et impersonnel de techniciens devant leurs ordinateurs.
 
 Aujourd'hui, les voix synthétiques, qui autrefois fascinaient, n’intéressent plus. 
Aujourd'hui, les voix synthétiques, qui autrefois fascinaient, n’intéressent plus. Sur Google, vous pouvez taper n’importe quel texte, une voix d'homme ou de femme va vous le prononcer. On n’a pas de frisson métaphysique en entendant cette voix, en se disant « C’est la voix de personne », c’est comme un dessin.
 

Ce croisement voix synthétique / voix humaine est très intéressant. Ce que vous disiez à propos du dessin animé recoupe ce paradoxe consistant à faire interpréter une voix de synthèse par une actrice bien réelle, comme dans le film Her de Spike Jonze?
 
Michel Chion : Oui, une artiste bien réelle et au physique connu de tous, Scarlett Johansson, qui prête sa voix à un système d’exploitation ! Et puis ça fait un nom de star sur l’affiche. Quand Kubrick a réalisé 2001, l’odyssée de l’espace, il a pris un acteur canadien inconnu sur lequel on ne pouvait mettre de visage, Douglas Rain, parce que l’idée de la voix de l’ordinateur était neuve au cinéma. Des acteurs comme Jennifer Lawrence qui s'est fait connaître par la saga Hunger Games, ou Daniel Radcliffe (Harry Potter) ont un capital de popularité, de sympathie qui leur permet de prêter leur voix à un film en images de synthèse.
 

Vous avez observé depuis 20 ans la multiplication des films multilingues, mais où le sous-titrage systématiquement employé ne reflète rien de ce multilinguisme, faisant oublier au spectateur quelle langue il entend...
 
Michel Chion : Puisque les gens voyagent plus, ils communiquent avec des gens d’autres pays, ce serait intéressant qu’ils aient une idée un peu concrète de ce qu’est la réalité d’une langue : chaque langue a son propre génie, sa propre poésie.
 
Alors, je trouve dommage que dans certains films que l'on fait aujourd’hui en plusieurs langues par souci, dit-on, de respect historique, comme Quentin Tarantino, dans Inglorious Basterds, on ne symbolise pas par les sous-titres quand les personnages basculent d’une langue à l’autre. Et pour la première fois ou presque, j’ai vu ce souci là dans un film coréen, qui se passe lors de l’occupation de la Corée par le Japon : la version originale sous-titrée en français du film de Park Chan-wook, Mademoiselle, distingue par une différence de couleurs dans les sous-titres les répliques où les personnages parlent coréen et celles où ils parlent japonais — cela rappelle que les Japonais interdisaient de parler coréen. J’étais content de voir cette symbolisation de la différence des langues, nous rappelant que nous ne sommes pas des apôtres qui, grâce au Saint Esprit, comprennent toutes les langues à la fois ou sont compris par tout le monde.
C’est une bonne idée et ce serait bien qu’elle se répande, parce que les gens comprendraient que la réalité est riche, que nous ne sommes pas dans un monde idéal et abstrait.
 

Les évolutions de la voix au cinéma et dans les autres médias, des rapports entre l’image du corps et le son de la voix engendrent-t-elles de nouveaux imaginaires ?
 
Michel Chion : On connaît de plus en plus l’image des personnes qui parlent à la radio, il y a donc une porosité croissante entre la radio et la télévision. Dans mon enfance, il n’y avait pas de télévision, on écoutait la radio, on ne connaissait pas le visage des gens qui parlaient. Quand j’ai commencé à faire de la radio, en 1971, j’ai croisé des gens dont je reconnaissais la voix mais que je n’aurais pas imaginé sous l’aspect que je découvrais. Aujourd’hui, on fait de moins en moins cette expérience, parce que les vedettes de la radio ont leur photo dans les journaux ou sur le web. Beaucoup de gens veulent savoir, je comprends, c’est un effet de génération. Cet imaginaire acousmatique — comme dirait Pierre Schaeffer, c’est-à-dire ne pas voir la cause — n’a plus de raison d’exister, parce que la voix et le corps se donnent presque à connaître en même temps. Il est certainement remplacé par d’autres imaginaires. Lesquels? Je ne sais pas encore, nous verrons.
 

 
À lire également dans le dossier De la radio aux robots parlants, métamorphoses de la voix
 
À la radio, la voix donne à écouter et à voir, par Anne-Caroline Fievet et Nozha Smati
Jeux vidéo : à bonne voix bonne immersion, interview de Vincent Percevault par Xavier Eutrope

--
Crédit photo : Ina. Nicole Bouron-Flacinet

Ne passez pas à côté de nos analyses

Pour ne rien rater de l’analyse des médias par nos experts,
abonnez-vous gratuitement aux alertes La Revue des médias.

Retrouvez-nous sur vos réseaux sociaux favoris

Autres épisodes de la série