[ad_1]
Dans une étude récente publiée dans Communication en sciences humaines et sociales, Un groupe de chercheurs a développé un modèle innovant de détection de la dépression qui exploite les fonctionnalités audiovisuelles des vlogs YouTube et permet une détection précoce des symptômes dépressifs chez les utilisateurs des médias sociaux afin de permettre une intervention et un soutien rapides.
Étude: Détecter la dépression dans les transcriptions vidéo à l’aide de fonctionnalités audiovisuelles. Crédit photo : Ground Picture/Shutterstock.com
arrière-plan
Selon l’Organisation mondiale de la santé (OMS), la dépression est un problème sociétal grave lié aux idées suicidaires, touchant plus de 264 millions de personnes dans le monde. La détection précoce est un défi. Toutefois, les médias sociaux représentent une source de données importante pour les indicateurs.
Malgré la richesse des preuves audiovisuelles, la recherche a largement négligé les enseignements que le contenu vidéo peut apporter. Des recherches plus approfondies sont essentielles car les méthodes actuelles de détection précoce de la dépression sont inadéquates.
Avec la quantité croissante de contenu vidéo sur les réseaux sociaux, il existe une opportunité cruciale d’exploiter les données audiovisuelles pour une identification plus efficace et une intervention rapide des personnes présentant des comportements dépressifs.
À propos de l’étude
Dans l’étude, les chercheurs ont utilisé l’API YouTube Data pour récupérer des blogs vidéo ou des vlogs publiés entre janvier 2010 et janvier 2021. Ils ont compilé une liste de mots-clés avec l’aide de professionnels de la santé mentale pour filtrer le contenu lié à la dépression et aux vlogs quotidiens. Ils ont ensuite téléchargé 12 000 vidéos en anglais à l’aide de YouTube-dl, un outil en ligne de commande permettant de télécharger des vidéos.
L’équipe de recherche a recruté cinq annotateurs qui ont utilisé des lignes directrices détaillées pour classer les vidéos selon qu’elles montraient ou non des signes de dépression, obtenant ainsi un accord significatif comme l’indique le Kappa de Cohen. Ils ont traité les données en extrayant des caractéristiques audio à l’aide d’OpenSmile et des repères visuels à l’aide de la bibliothèque FER Python, en se concentrant sur les segments avec une seule personne dans l’image.
Ils ont ensuite construit un modèle de détection de la dépression à l’aide de l’algorithme XGBoost, populaire en raison de son efficacité prouvée. Lors de leurs premières expériences, le modèle a surpassé les autres classificateurs d’apprentissage automatique tels que Random Forest et Logistic Regression.
Il a été formé pour classer chaque vlog dans l’une des deux catégories suivantes : signes de dépression ou non, en utilisant des caractéristiques audio et visuelles dérivées des vlogs. Le modèle a été affiné avec une fonction objective qui équilibre la précision des prédictions et la complexité du modèle pour éviter le surajustement.
analyse
La présente étude aborde la distinction entre les vlogs dépressifs et non dépressifs sur la base de caractéristiques audio et visuelles, avec une analyse statistique utilisant un test t soutenant cette enquête quantitative.
Les chercheurs ont déjà découvert que les personnes souffrant de dépression présentent souvent une intensité sonore et une fréquence fondamentale (F0) plus faibles dans leur discours. Cette observation est confirmée par l’analyse actuelle, où les vlogs sur la dépression avaient un volume et des valeurs F0 significativement plus faibles.
De plus, l’étude révèle un rapport harmoniques/bruit (HNR) réduit dans les vlogs sur la dépression, ce qui suggère un signal vocal plus fort chez les personnes souffrant de dépression.
L’examen des caractéristiques vocales s’étend également à la gigue, qui est liée à l’anxiété et à un risque accru de dépression majeure, significativement plus élevé dans les vlogs sur la dépression.
L’étude souligne également que le deuxième formant (F2), une fréquence liée à la tension musculaire des voies vocales, est plus faible dans les vlogs sur la dépression, confirmant ainsi les découvertes précédentes sur sa particularité dans les états dépressifs. De plus, les vlogs sur la dépression ont enregistré un indice de Hammarberg plus élevé, indiquant de plus grandes différences d’intensité entre les différentes bandes de fréquences.
Dans le domaine spectral, l’analyse révèle que le flux spectral est plus faible dans les vlogs sur la dépression, ce qui indique une forme spectrale plus cohérente dans le discours des individus déprimés. Cette stabilité peut refléter une variabilité réduite dans l’expression vocale des émotions dans la dépression.
Les traits visuels ne sont pas négligés, privant les expressions faciales de bonheur, de tristesse et de peur. Conformément aux études précédentes sur la réactivité émotionnelle, les niveaux de bonheur étaient plus faibles dans les vlogs sur la dépression, tandis que la tristesse et l’anxiété étaient plus élevées, ce qui correspond au profil émotionnel typique de la dépression. En revanche, il n’y a pas de différences significatives dans l’expression de neutralité, de surprise ou de dégoût.
Pour la méthodologie expérimentale, les chercheurs ont utilisé une répartition stratifiée des tests de train, des fonctions normalisées et ont veillé à ce que les chaînes YouTube ne se chevauchent pas entre les ensembles. Ils ont utilisé la recherche par grille avec validation croisée pour régler les hyperparamètres du modèle optimisé pour la classification binaire.
Dans une analyse comparative des performances, le modèle proposé a été comparé à la régression logistique et aux classificateurs forestiers aléatoires. Le modèle basé sur XGBoost a surpassé ses homologues et a démontré des mesures supérieures d’exactitude, de précision, de rappel et de score F1.
L’étude examine l’influence des modalités et montre que les fonctionnalités audio surpassent les fonctionnalités visuelles dans la détection de la dépression. Néanmoins, la combinaison d’indices auditifs et visuels augmente considérablement les performances du modèle, suggérant un système de reconnaissance plus robuste lorsque les deux modalités sont utilisées.
L’analyse de genre montre également que les modèles adaptés aux vlogueuses féminines sont plus performants que ceux destinés aux vlogueurs masculins, ce qui suggère que le sexe peut influencer la manière dont la dépression se manifeste dans le discours et les expressions faciales. Ce résultat met en évidence le potentiel des modèles sexospécifiques pour améliorer la précision de la détection de la dépression.
Enfin, la recherche identifie des caractéristiques essentielles à la détection de la dépression. Les variations du volume sonore et des expressions de bonheur se sont révélées être d’importants prédicteurs, ce qui suggère que les variations d’intensité vocale et d’expressions faciales de bonheur sont primordiales pour identifier la dépression grâce aux vlogs.
[ad_2]
Source