Une course contre la montre: les chercheurs qui tentent de détecter les « deepfakes », ces vidéos manipulées pour remplacer un visage ou changer les propos d’une personnalité, font face à des techniques de falsification toujours plus perfectionnées, et plus accessibles au grand public.
Alerte sur les forums du site web Reddit en 2017: des images truquées d’actrices de cinéma dans des scènes de films pornographiques sont partagées par un utilisateur. Seuls les visages ont été remplacés. Si la technique autrefois artisanale inquiète, c’est parce qu’elle utilise cette fois des outils issus de l’intelligence artificielle pour manipuler une vidéo de façon convaincante.
Depuis, des créations parfois humoristiques se sont répandues sur internet, représentant par exemple le créateur de Facebook Mark Zuckerberg semblant prononcer « Qui contrôle les données contrôle le futur ». Mais pour les chercheurs, le ton n’est plus à la blague.
« Les manipulations peuvent toucher l’audio ou la vidéo. On est en train d’arriver à l’audio plus la vidéo. Je me demande ce qui va se passer pour les prochaines grandes élections », dit à l’AFP Vincent Nozick, maître de conférence à l’institut Gaspard Monge de l’Université Paris-Est Marne-la-Vallée.
« Pour créer un +deepfake+, la seule compétence requise est un peu d’expérience. Le premier sera a priori raté car il faut choisir le bon modèle informatique (…) mais quelqu’un qui en a fait trois mois, c’est bon il est prêt », ajoute le chercheur.
Imiter la voix d’un PDG
En Inde, une journaliste et un parlementaire ont été visés par des vidéos obscènes trafiquées.
En Belgique, le parti socialiste flamand a représenté le président américain Donald Trump incitant la Belgique à se retirer de l’Accord de Paris sur le climat. Le message avertissant de la supercherie n’a pas été compris par nombre d’internautes.
Fin août, le Wall Street Journal relayait l’usage de l’intelligence artificielle par des escrocs pour imiter la voix d’un PDG et obtenir le transfert de plus de 220.000 euros.
Enfin, l’application chinoise Zao sortie cet été permet d’insérer son visage à la place d’un acteur dans un extrait de film à partir de quelques photos seulement. Ce développement marque l’arrivée de cette technologie dans les mains du grand public.
Pour détecter les manipulations, plusieurs pistes sont à l’étude. La première, qui ne s’applique qu’aux personnalités déjà largement filmées et photographiées, consiste à retrouver les images originales antérieures à la manipulation, voire à comparer la vidéo suspecte avec la « signature gestuelle » habituelle de la personne visée.
Une seconde se concentre sur les défauts générés par le trucage (une incohérence dans le clignement des yeux, la disposition des cheveux ou l’enchaînement des images) mais les technologies s’adaptent et les « gomment » progressivement.
La troisième piste consiste à entraîner des modèles d’intelligence artificielle à détecter seuls les vidéos trafiquées. Les taux de réussite sont très bons, mais dépendent des exemples disponibles. « Un détecteur de +deepfake+ qui marchait bien il y a un an ne marchera pas forcément sur ceux de cette année », explique Vincent Nozick.
Bases de contenus contrefaits
« La machine peut percevoir des choses que nous ne voyons pas à l’œil nu, mais il faut qu’on ait des bases de données pour évaluer à quel point on peut être efficace. C’est ce qui manque actuellement », appuie Ewa Kijak, maître de conférence à l’Université de Rennes 1 – laboratoire Irisa.
Les géants Facebook et Google, dont les plates-formes sont régulièrement critiquées pour leur rôle dans la désinformation, ont annoncé vouloir apporter leur aide en mettant à disposition des bases de contenus contrefaits.
Mais la bataille ne fait que commencer: de nouveaux « deepfakes » utilisent la technologie des « réseaux génératifs adverses » (GANs) pour évaluer leur détectabilité avant même d’être publiés. En clair, ils s’auto-testent.
Plus bluffant, ou plus inquiétant: une équipe d’universitaires allemands travaille depuis 2016 à un logiciel de « marionettisation ».
Il ne s’agit plus de coller son visage sur celui d’une star dans un blockbuster hollywoodien, mais d' »animer » le visage d’une personnalité avec des mimiques et des paroles inventées, ce qui pourrait par exemple permettre de produire une fausse conférence de presse d’un chef d’Etat, le tout en direct.
Face à de telles technologies, la « mise à disposition d’outils de détection ne suffira pas », explique Ewa Kijak qui appelle à « une prise de conscience » :
« Jusqu’à présent on pouvait avoir un peu plus confiance dans les vidéos (que dans d’autres contenus). Maintenant je pense que c’est terminé. »
Source: AFP