Illustration représentant une personne qui parle devant d'autres. De sa bouche sort une bulle contenant des monstres de fictions, représentant les voix possibles du comédien.

© Crédits photo : La Revue des médias. Illustration : Yann Bastard.

Spectacle vivant : des voix imaginaires aux monstres vocaux

Voix augmentée, démultipliée, synthétique... La rencontre entre les technologies vocales et le spectacle vivant était inévitable. Fruit de nombreuses recherches, des outils intégrés au cœur du processus de création interagissent avec la voix humaine et enrichissent la dramaturgie.

Temps de lecture : 9 min

Le théâtre a toujours été le lieu de l’innovation technique, notamment dans le domaine du son. De l’architecture des amphithéâtres grecs, en passant par les machines à effet sonore du XIXe siècle jusqu’au théâtre radiophonique, de nombreux auteurs et metteurs en scène ont systématiquement exploité les nouvelles connaissances de leur époque. En témoigne, aujourd’hui, le large spectre de créateurs utilisant les techniques modernes de captation, de traitement et de diffusion du son. La rencontre entre les technologies vocales et le spectacle vivant était donc inévitable, voire prédestinée.

 
Fruit d’une trentaine d’années de recherches sur le chant et la parole, les nouvelles technologies vocales de l’Ircam (Institut de recherche et coordination acoustique/musique) s’adressent à la communauté exigeante des créateurs artistiques. Différents outils, allant de la reconnaissance vocale à la synthèse de la parole, en passant par la transformation de l’identité, apportent de nouveaux éléments de réponse aux éternelles questions dramaturgiques, comme le montrent plusieurs cas concrets d’utilisation de ces techniques dans la création de spectacles contemporains. L’importance d’intégrer ces outils au sein même du processus de création, amène à penser que la machine, pour un moment encore, aura un peu besoin de l’humain…

La création vocale sous le feu des projecteurs

De nombreuses technologies sonores issues de projets de recherche et développées à l’Ircam servent à la création pour le spectacle vivant, comme la spatialisation sonore ou la captation du geste, par exemple. Dans cet article, nous nous concentrons plutôt sur les outils relatifs à la voix, source sonore primordiale au théâtre.
La voix constitue l’objet sonore le plus complexe qui soit, tant au niveau de sa variabilité acoustique que dans son rapport au sens, à l’intimité et à l’individualité du locuteur. De plus, nous sommes tous des experts de la voix, puisque c’est le type de source sonore que nous entendons le plus au quotidien. Ce constat oblige quiconque veut traiter la voix par la machine à le faire de manière très subtile et nuancée, ainsi qu’à minimiser tout artefact (voix de vocodeur, discontinuité rythmique, mauvaise intonation…) immédiatement perçu par un auditeur lambda.
 
 Les techniques de reconnaissance vocale et de synthèse à partir du texte réalisent aujourd’hui une interface plus ou moins naturelle entre l’homme et la machine (Siri, Alexa, Erica...). 
Depuis les années 1950, l’informatique a permis l’accélération du traitement automatique de la parole et du langage. De nombreux laboratoires ont effectué des recherches pour analyser, reconnaître, transformer ou synthétiser le signal vocal. De nombreuses applications ont découlé de ces recherches permettant, pour la plupart, la translation entre le son et le sens. Ainsi, les techniques de reconnaissance vocale et de synthèse à partir du texte réalisent aujourd’hui une interface plus ou moins naturelle entre l’homme et la machine (Siri, Alexa, Erica...). 

La voix musicale

Avant que de donner une voix à la machine, il convient au préalable de lui conférer de bonnes oreilles. La reconnaissance vocale est de plus en plus utilisée dans des installations artistiques. Dans La Machine à verbe, Norbert Godon et moi-même l’utilisons pour immiscer le spectateur au cœur d’un processus génératif qui affiche un diaporama dont la prochaine image est déclenchée par la description de la précédente. La voix porte autant d’information relative au signifié (réductible au texte) qu’au signifiant (le son de la voix, sa musique). D’un point de vue musical, de nombreux efforts ont été consacrés ses dernières années à l’analyse de la prosodie, c’est-à-dire de la manière de parler, « la musique de la parole ». Le chercheur décrit la prosodie selon cinq dimensions(1)  : l’intonation, le débit de parole, l’intensité, le degré d’articulation et la qualité vocale ou l’effort vocal. En 1988, Steve Reich compose Different Trains en transcrivant des enregistrements vocaux en partitions pour quatuor à corde, à la main. Trente ans après, une transcription instantanée de la prosodie en notation musicale est désormais possible(2) , qui permet de souligner la musicalité de la voix, comme c’est le cas dans La Voix de Foucault de David Christoffel, par exemple. On peut même transcrire aujourd’hui le timbre de la voix pour mieux l’orchestrer, comme le fait Jonathan Harvey dans Speakings.
 
 La reconnaissance vocale est de plus en plus utilisée dans des installations artistiques. 
Dans le cadre d’une conversation, la prosodie gère aussi le tour de parole. Une question, marquée par un ton montant, implique une réponse affirmative, signifiée par un ton descendant. Dans Nous les vagues[+] NoteNous les vagues est un texte de Mariette Navaro qui a étémis en scène par Matthieu Roy en 2012 (création In Vivo; mise en son de Baptiste Poulain et de Grégory Beller). mise en scène par Matthieu Roy, deux comédiens représentent des leaders politiques et parlent à une foule survoltée, dont la présence se manifeste par une bande sonore. Une interaction sonore entre l’homme et la machine, représentée métaphoriquement par un mouvement de vagues, se produit alors entre cette foule et ces orateurs. Lorsque ces derniers crient, la foule se tait alors qu’elle devient assourdissante lorsque les orateurs prennent leurs respirations. Rapidement, le combat entre la harangue et la foule conduit paradoxalement le spectateur à rechercher le sens dans la mêlée et à mieux entendre le texte.

La voix augmentée

Les applications « temps réel » développées à l’Ircam ne s’arrêtent pas à l’analyse ou au suivi de la voix, mais permettent bel et bien de transformer, de démultiplier ou de déshumaniser l’identité vocale. Grâce au microphone, on capte la voix au plus près, puis on l‘analyse, on la traite et on la rediffuse avant même que le son acoustique de la voix ne se soit propagé jusqu’aux oreilles du spectateur. Grâce à la rapidité des ordinateurs qui offrent un délai de traitement inférieur à notre seuil de perception de la discontinuité sonore (de l’ordre de 20 millisecondes), on peut alors produire des sonorités qui complètent, augmentent ou masquent même la voix directe du comédien.
 
Avec plus ou moins de réalisme, on peut altérer plusieurs caractéristiques de l’identité du locuteur : son genre, son âge, son état de santé ou sa taille. Dans Un mage en été (3) , mise en scène par Ludovic Lagarde, la voix du comédien, Laurent Poitreneaux, est constamment modulée par la machine, permettant à celui-ci de se draper de différents personnages dont nous n’avons pas ou peu de traces sonores, Proust, Adorno, Nietzsche, la voix de la mère de l’auteur, Olivier Cadiot(4) . La création d’une identité vocale imaginaire devient une succession d’inventions, de réglages et d’ajustements, réalisée par le trio comédien – machine — metteur en son. On ne percevra la voix d’une femme que si un comédien homme, dont la voix est féminisée, joue lui-même un personnage féminin, ou encore, si la trame narrative suscite un tel travestissement. À l’instar du maquillage, la technologie permettra, dans ce cas, d’aider le comédien à se travestir en produisant un léger différentiel dans la perception de sa voix. Cela demande donc au comédien et au créateur sonore un certain type d’écoute, voire une nouvelle proximité.
 
Lorsque l’on possède suffisamment d’enregistrements, on peut recréer des voix à partir de l’archive, Cocteau, Marylin Monroe, Louis de Funès... On dit qu’il y a conversion de voix lorsqu’un comédien sur scène s’exprime spécifiquement avec la voix de quelqu’un d’autre, comme dans Le sec et l’humide de Guy Cassiers.
 
 Cette nouvelle relation étrangement intime entre la machine et le comédien, propose à celui-ci une réexploration de son instrument vocal.  
D’autres dimensions vocales plus délicates se situent au plus profond de notre intimité : nos émotions. Par des modifications de la prosodie, on peut modifier l’émotion ou l’intention perçue dans la voix et jouer sur les codes de l’expressivité, comme dans Babil-on V2 de Greg Beller.
Cette nouvelle relation étrangement intime entre la machine et le comédien, propose à celui-ci une réexploration de son instrument vocal, de nouvelles contraintes de jeu, et la jouissance de l’augmentation. En pratique, une « bonne voix augmentée » n’est possible que si le comédien, le metteur en son et le metteur en scène travaillent en équipe afin d’inscrire la voix résultante dans une dramaturgie sonore qui fait sens.

La voix démultipliée

Si l’on peut modifier l’identité vocale, alors pourquoi ne pas la démultiplier ? Le chœur a toujours joué une fonction dramaturgique primordiale au théâtre, voire originelle. Initialement conçu pour la génération d’un chœur virtuel à partir d’une voix chantée solo, le body choir permet la démultiplication en temps réel d’une voix parlée en une foule. Le comédien incarne simultanément le coryphée et ses choreutes, provoquant de complexes faisceaux dramaturgiques relatifs aux rapports entre l’individu et le groupe.
 
À l’inverse de la démultiplication de la voix, la machine permet de fusionner deux voix. Dans Nous les vagues, on assiste à la préparation d’un attentat par un couple de terroristes. Les deux comédiens disent le même texte simultanément et la fusion est opérée grâce à une synthèse croisée en temps réel. Le public perçoit alors une voix hybride, androgyne et non identifiable, forme allégorique de l’anonymat du terrorisme. Ce procédé a eu comme conséquence indirecte de forcer les comédiens à la parfaite synchronie, exercice d’acteur possédant ses propres exigences.
 
 Dans les chemins tortueux de la création, les technologies vocales ont le pouvoir stimulant d’altérer la réalité en créant des personnages plus ou moins humains, plus ou moins étranges, bref des monstres vocaux.  
 On peut créer des monstres vocaux par l’hybridation d’une voix et d’une autre source sonore, pour faire parler un lion ou une lampe d’architecte, comme c’est le cas dans Chantier 14-18 de François Verret, par exemple. Dans les chemins tortueux de la création, les technologies vocales ont le pouvoir stimulant d’altérer la réalité en créant des personnages plus ou moins humains, plus ou moins étranges, bref des monstres vocaux.

La voix synthétique

À l’instar du monstre du docteur Frankenstein, la voix de synthèse effraie, car elle est l’agrégat de plusieurs petits bouts de voix humaines désincarnées. En matière de synthétiseur vocal à partir du texte, la spécificité des recherches de l’Ircam par rapport à celles conduites par d’autres laboratoires repose sur les qualités sonores et musicales de la voix produite. Là où la plupart ont concentré leurs efforts sur la compression des voix pour des échanges téléphoniques ou la lecture rapide de pages Internet, les équipes de l’Ircam ont cherché à produire des voix d’une qualité irréprochable, permettant leur utilisation dans un contexte artistique. À tel point que dans La Damnation de Faust, mise en scène par Alvis Hermanis, l’orchestre de l’opéra Bastille s’arrête pendant deux minutes (interruption la plus longue de son histoire) pour faire place à une voix de synthèse, nue, dont le pouvoir dramaturgique devient alors immense.
 
Si le contrôle musical de la voix de synthèse est suffisamment fin, celle-ci peut tenir un rôle principal dans un spectacle musical, comme Luna Park (5) de Georges Aperghis, par exemple(6) . La synthèse vocale y remplit une fonction de voix off, allégorie d’une voix toute puissante de la machine (clin d’œil à « Big Brother »).
 
 L’utilisation de la voix de synthèse remplit des fonctions didascaliques, poétiques ou narratives, tout en jouant un rôle particulier de substitution du caractère humain. 
L’utilisation de la voix de synthèse remplit des fonctions didascaliques, poétiques ou narratives, tout en jouant un rôle particulier de substitution du caractère humain, alors qu’elle utilise paradoxalement ce qui, peut-être, en fait sa quintessence, la voix. Dans A piece of Work, d’Annie Dorsen, il n’y a plus de corps en scène, seules des voix de synthèse donnent à entendre une dramaturgie algorithmique générée en temps réel par un programme d’intelligence artificielle revisitant Hamlet de Shakespeare.

La voix humaine

Si l’intelligence dite « artificielle » est capable aujourd’hui de prononcer un message intelligible, elle reste ignorante des aspects pragmatiques de la parole, et il est encore difficile pour elle de produire une intention juste, une expression appropriée, voire une invention vocale, dans une situation donnée. La machine qui donne à entendre des textes imprononçables, dans des langues imaginaires et à des rythmes effrénés, est bien incapable de concurrencer le comédien qui possède, lui, la juste intonation, le juste souffle.
 
Dans le Projet Synekine, de nouvelles interfaces de jeu performatif, mêlent naturellement voix réelle et voix artificielle, grâce au geste, placé comme élément central de l’harmonie entre les deux mondes. Le geste, fidèle compagnon de la voix, par sa capacité à paraphraser, à compléter ou à contredire l’expression de celle-ci, devient l’instrument de contrôle privilégié de ces prothèses vocales synthétiques(7) . Plongé dans une réalité virtuelle sonore, l’utilisateur fabrique à vue un monstre, dont l’expressivité reste nécessairement humaine, puisque le pouvoir de sa propre augmentation reste entre ses mains.

Voix multiples et multiples voies

Que ce soit pour réaliser un masque ou un déguisement sonore, une voix off particulièrement robotique ou encore un effet de chœur à partir d’un seul comédien, la machine apporte aujourd’hui de nouvelles solutions créatives à des questions ancestrales qui habitent le théâtre. Ces nouvelles possibilités offertes par la technologie ne dépossèdent aucunement les comédiens et leur proposent, au contraire, de nouvelles contraintes à explorer, de nouveaux exercices d’acteur. Cela renouvelle aussi le travail des créateurs sonores ou metteurs en son qui se retrouvent à l’interface entre les comédiens et le metteur en scène, en tant qu’explorateurs de nouvelles dimensions de la dramaturgie sonore. Le metteur en scène bénéficie de nouvelles cordes à son arc pour élaborer sa langue.
 
Entre les capacités croissantes de la machine, le contexte toujours renouvelé de la mise en scène, les nouvelles écritures et l’évolution des techniques de jeu du comédien, le potentiel créatif est virtuellement infini. Enfin, pour boucler la boucle, les désirs et les questions posés par ces créateurs sont autant de défis pour les chercheurs de l’Ircam, mis à l’épreuve du plateau, mais toujours heureux de voir leurs monstres prendre vie sur scène.

 
À lire également dans le dossier De la radio aux robots parlants, métamorphoses de la voix
 
À la radio, la voix donne à écouter et à voir, par Anne-Caroline Fievet et Nozha Smati
La voix au cinéma, une constante mutation, interview de Michel Chion par Isabelle Didier et Philippe Raynaud
Jeux vidéo : à bonne voix bonne immersion, interview de Vincent Percevault par Xavier Eutrope
    (1)

    Grégory BELLER, « Analyse et modèle génératif de l’expressivité: application à la parole et à l’interprétation musicale », thèse de doctorat, Paris, Université Paris 6 – Ircam, 2009. 

    (2)

    Grégory BELLER, « Transformation of Expressivity in Speech », dans Sylvie HANCIL (dir.), The Role of Prosody in the Expression of Emotions in English and in French, Berne, Peter Lang, pages 259- 284, 2009.

    (3)

    Un mage en été est un texte d’Olivier Cadiot qui a été mis en scène par Ludovic Lagarde au Festival d’Avignon en 2012 (mise en son de David Bichindaritz et de Grégory Beller).

    (4)

    Grégory BELLER,« Arcane d’Un mage en été », Théâtre/Public, n°201, p. 100-102, 2011.

    (5)

    Luna Park a été créé en 2011 au Festival ManiFeste dans une mise en scène de Georges Aperghis (musique de Georges Aperghis; mise en son de Grégory Beller). 

    (6)

    Grégory Beller, Diemo Schwarz, Thomas Hueber et Xavier Rodet, « A hybrid concatenative synthesis system on the intersection of music and speech », conférence donnée dans le cadre des Journées d’informatique musicale, 2-4 Juin, Paris Maison des sciences de l’homme, 2005.

    (7)

    Grégory BELLER, « The Synekine Project», MOCO 2014, Ircam, Paris, June 2014.

Ne passez pas à côté de nos analyses

Pour ne rien rater de l’analyse des médias par nos experts,
abonnez-vous gratuitement aux alertes La Revue des médias.

Retrouvez-nous sur vos réseaux sociaux favoris

Autres épisodes de la série

IA, robots qui parlent et humains sous influence

IA, robots qui parlent et humains sous influence

La voix humaine, reconstituée numériquement, permet de manipuler des affects particulièrement puissants. Les humains devront apprendre à mettre à bonne distance ces voix mutantes conçues pour influencer à des fins commerciales. Gare à l’illusion sur la relation homme/robot !

Interfaces vocales : attention, dangers !

Interfaces vocales : attention, dangers !

Les assistants vocaux se multiplient, tels Siri ou Google Now. Demain, ils occuperont une place considérable dans l’économie réelle et émotionnelle. La voix, comme appendice des outils, jouera un rôle prépondérant dans la fusion homme-machine qui se profile.