AInsights : aperçus des dirigeants sur les derniers développements en matière d’IA générative

Surtout quand on a tout vu, il y a toujours quelque chose de nouveau qui vous surprendra tellement que vous en perdrez presque la magie de la surprise. Nous vivons une époque incroyable, n’est-ce pas ? Sam Altman, co-fondateur et PDG d’OpenAI, a récemment déclaré : « C’est l’année la plus intéressante de l’histoire de l’humanité, à l’exception de toutes les années à venir. »

Eh bien, je viens de lire un article de recherche publié par Microsoft Asie Cela m’a époustouflé. 🤯 Et comme vous pouvez l’imaginer, il en faut beaucoup pour m’épater !

L’article présente essentiellement le cadre dit VASA pour générer des visages parlants réalistes dotés de « capacités affectives visuelles » (VAS).

La première version, VASA-1, est une technologie à commande audio permettant de générer des visages parlants en temps réel. Il peut créer des visages animés réalistes qui correspondent avec précision à la voix et aux mouvements du visage de l’orateur. Avec une seule image de portrait, un son vocal, des signaux de contrôle tels que la direction principale des yeux et la distance de la tête, ainsi que des compensations d’émotion, une image du monde réel est créée. Une vidéo de tête parlante hyper-réaliste intemporelle… le tout avec des gestes incroyablement convaincants.

Si vous ne connaissez pas la personne, et même dans ce cas, il serait difficile pour un œil non averti de dire qu’elle regarde une vidéo produite par une machine (ou, dans certains cas, un deepfake). 😳

AInsights

Certes, Microsoft Research explore les limites de ce qui est possible avec les meilleures intentions du monde. Dans cet article, concentrons-nous sur cette technologie sous cet angle. De ce point de vue, les principaux avantages et cas d’utilisation de VASA-1 comprennent :

Visages animés extrêmement réalistes et naturels : VASA-1 peut créer des visages parlants impossibles à distinguer des personnes réelles, permettant ainsi des expériences virtuelles plus immersives et engageantes.

Performances en temps réel : Le système peut générer des visages animés en temps réel, permettant une intégration transparente dans des applications interactives, des jeux et des vidéoconférences.

Large applicabilité : VASA-1 présente des cas d’utilisation potentiels dans des domaines tels que les assistants virtuels, les jeux vidéo, l’éducation en ligne et la téléprésence, où des personnages animés réalistes peuvent améliorer l’expérience utilisateur.

Les cas d’utilisation potentiellement intéressants pourraient être :

Avatars virtuels et assistants numériques : VASA-1 peut être utilisé pour créer des avatars virtuels et des assistants numériques capables d’avoir des conversations naturelles et semblables à celles des humains. Ces avatars pourraient être utilisés dans les applications de vidéoconférence, de service client, d’éducation et de divertissement pour offrir une expérience plus immersive et engageante.

Synchronisation et synchronisation labiale : La capacité de synchroniser avec précision les mouvements du visage avec l’audio peut être utilisée pour doubler du contenu en langue étrangère ou créer des animations de synchronisation labiale. Cela pourrait rationaliser le processus de localisation et permettre des expériences multilingues plus fluides.

Téléprésence et collaboration à distance : Il peut améliorer la communication et la collaboration à distance en permettant aux participants de maintenir un contact visuel et de percevoir les signaux non verbaux comme s’ils étaient physiquement présents.

Création de supports synthétiques : VASA-1 pourrait créer des médias synthétiques très réalistes, tels que des présentateurs de nouvelles virtuels ou des personnages numériques dans des films et des jeux. Cela pourrait ouvrir de nouvelles possibilités créatives et rationaliser les flux de production de contenu.

Accessibilité et inclusion : VASA-1 pourrait améliorer l’accessibilité pour les personnes malentendantes ou malentendantes et leur offrir des expériences de communication plus naturelles et plus engageantes.

Microsoft Research Asie : Sicheng Xu*, Guojun Chen*, Yu-Xiao Guo*, Jiaolong Yang*‡, Chong Li, Zhenyu Zang, Yizhong Zhang, .com

Veuillez vous abonner à AInsights, Ici.

Si vous souhaitez rejoindre ma liste de diffusion principale pour les actualités et les événements, veuillez suivre : un quantum de solos.

La poste AInsights : le modèle VASA-1 de Microsoft utilise l’IA pour créer des jumeaux numériques hyperréalistes à l’aide d’un exemple d’image et de voix est apparu en premier Brian Solis.