La plupart de ceux qui ont utilisé des écouteurs antibruit savent qu’il peut être important d’entendre le bon son au bon moment. Quelqu’un voudra peut-être retirer les klaxons de sa voiture lorsqu’il travaille à l’intérieur, mais pas lorsqu’il marche dans des rues très fréquentées. Pourtant, les gens ne peuvent pas choisir quels sons leurs écouteurs annulent.

Aujourd’hui, une équipe dirigée par des chercheurs de l’Université de Washington a développé des algorithmes d’apprentissage profond qui permettent aux utilisateurs de choisir en temps réel quels sons sont filtrés via leurs écouteurs. L’équipe appelle le système « écoute sémantique ». Les écouteurs diffusent l’audio enregistré sur un smartphone connecté, bloquant ainsi tout bruit ambiant. Que ce soit via des commandes vocales ou une application pour smartphone, les porteurs d’écouteurs peuvent choisir les sons qu’ils souhaitent inclure parmi 20 classes, tels que les sirènes, les cris de bébé, la parole, les aspirateurs et les chants d’oiseaux. Seules les tonalités sélectionnées sont jouées via le casque.

L’équipe a présenté ses résultats le 1er novembre à l’UIST ’23 à San Francisco. À l’avenir, les chercheurs prévoient de publier une version commerciale du système.

« Comprendre à quoi ressemble le son d’un oiseau et l’extraire de tous les autres sons d’un environnement nécessite des informations en temps réel que les écouteurs antibruit actuels ne peuvent pas fournir », a déclaré l’auteur principal Shyam Gollakota, professeur UW à la Paul G. Allen School of Computer Science. et ingénierie. « Le défi est que les sons entendus par les porteurs d’écouteurs doivent être synchronisés avec leurs sens visuels. Vous ne pouvez pas entendre la voix d’une personne deux secondes après qu’elle vous a parlé. Cela signifie que les algorithmes neuronaux doivent traiter les sons en moins d’un centième de seconde. » « 

En raison de cette contrainte de temps, le système d’audition sémantique doit traiter les sons sur un appareil tel qu’un smartphone connecté, plutôt que sur des serveurs cloud plus robustes. De plus, étant donné que les sons provenant de différentes directions arrivent dans les oreilles des gens à des moments différents, le système doit maintenir ces retards et autres signaux spatiaux afin que les gens puissent toujours donner un sens aux sons de leur environnement.

Le système a été testé dans des environnements tels que des bureaux, des rues et des parcs et a pu extraire les sirènes, les chants d’oiseaux, les alarmes et autres sons de cible tout en supprimant tous les autres sons du monde réel. Lorsque 22 participants ont évalué la sortie audio du système pour le son cible, ils ont signalé qu’en moyenne, la qualité s’était améliorée par rapport à l’enregistrement original.

Dans certains cas, le système a eu du mal à distinguer les sons partageant de nombreuses caractéristiques, comme la musique vocale et la parole humaine. Les chercheurs notent que former les modèles sur davantage de données réelles pourrait améliorer ces résultats.

Parmi les autres co-auteurs de l’article figuraient Bandhav Veluri et Malek Itani, tous deux étudiants diplômés de l’UW à l’Allen School ; Justin Chan, qui a réalisé cette recherche en tant qu’étudiant diplômé à l’Allen School et qui est maintenant à l’Université Carnegie Mellon ; et Takuya Yoshioka, directeur de recherche chez AssemblyAI.



Source