Applications langue – J’ai testé pour vous : Apprendre une langue en 30 jours

Applications pour apprendre une langue :

Facebook AI Research (FAIR) a publié un document de recherche présentant l’unité cachée BERT (HuBERT), leur dernière approche pour l’apprentissage des représentations vocales auto-supervisées. Selon FAIR, les techniques auto-supervisées de reconnaissance vocale sont actuellement limitées en raison de trois facteurs : Premièrement, la présence de plusieurs unités sonores dans chaque énoncé d’entrée ; d’autre part, l’absence de lexiques des unités sonores d’entrée lors de la phase de pré-entraînement ; et enfin, l’observation que les unités sonores ont des longueurs variables sans segmentation explicite. Pour résoudre ce problème, HuBERT utilise un algorithme de clustering k-means hors ligne et apprend la structure de son entrée (orale) en prédisant le bon cluster pour les segments audio masqués. FAIR affirme que la simplicité et la stabilité de HuBERT le rendent facilement déployable pour des cas d’utilisation en PNL et en recherche vocale. HuBERT s’inspire de la méthode DeepCluster de FAIR pour l’apprentissage visuel auto-supervisé. DeepCluster est une méthode de clustering introduite en 2018 qui apprend les paramètres d’un réseau de neurones et leur affectation de cluster, après quoi il regroupe ces fonctionnalités à l’aide d’un algorithme de clustering standard, appelé k-means. HuBERT bénéficie en outre des représentations d’encodeur bidirectionnel à partir de transformateurs (BERT) de Google en tirant parti de sa méthode de perte de prédiction masquée sur les séquences pour mettre en valeur la nature séquentielle de la parole. Un modèle BERT utilise des caractéristiques vocales continues masquées pour prédire des affectations de clusters prédéterminées. Cette perte prédictive est appliquée uniquement sur les régions masquées, ce qui permet au modèle d’apprendre des représentations de haut niveau des entrées non masquées pour déduire correctement les cibles des zones masquées. Comment fonctionne HuBERT ? Le modèle HuBERT apprend à la fois des modèles acoustiques et linguistiques à partir de ces entrées continues. Pour cela, le modèle code d’abord les entrées audio non masquées en représentations latentes continues significatives. Ces représentations correspondent au problème de modélisation acoustique classique. Le modèle utilise ensuite l’apprentissage de la représentation via la prédiction masquée. L’approche HuBERT prédisant les affectations de clusters cachés des trames masquées (MSK) y2, y3, y4 / Source : Facebook AI Research Le modèle cherche à réduire l’erreur de prédiction en capturant les relations temporelles à longue distance entre les représentations qu’il a apprises. Ici, la cohérence du mappage des k-moyennes des entrées audio aux cibles discrètes est tout aussi importante que leur exactitude car elle permet au modèle de se concentrer sur la modélisation de la structure séquentielle des données d’entrée. Par exemple, si un énoncé de clustering précoce ne peut pas distinguer les sons /k/ et /g/, cela conduirait à un seul superamas contenant ces deux sons. La perte de prédiction apprendra alors des représentations qui modélisent le fonctionnement d’autres sons de consonnes et de voyelles avec ce superamas tout en formant des mots. Grâce à cette représentation nouvellement apprise, l’itération de clustering créera de meilleurs clusters. La mise en œuvre de HuBERT FAIR a préformé HuBERT sur le LibriSpeech standard 960 heures et le Libri-Light 60 000 heures et a constaté que le modèle correspondait ou s’améliorait avec les performances de reconnaissance vocale de pointe de Facebook AI wav2vec 2.0 sur des sous-ensembles de réglage fin de 10 minutes, 1 heure, 10 heures, 100 heures et 960 heures. Les expériences ont été menées en utilisant deux modèles de HuBERT : HuBERT L-LV60k et HuBERT XL-LV60k. Source : Facebook AI Research Facebook AI Research a également testé les performances de HuBERT en matière de génération de langage, ce qui, selon lui, est essentiel pour la modélisation directe du langage des signaux vocaux sans recourir à des ressources lexicales telles que des étiquettes supervisées. Source : Facebook AI Research Voir aussi Utilisation de la modélisation d’apprentissage parlé génératif (GSLM)—qui implique l’apprentissage des caractéristiques acoustiques et linguistiques d’une langue sans texte ni étiquettes—Facebook a commencé à utiliser des représentations vocales apprises pour synthétiser la parole à partir de modèles tels que le codage prédictif contrastif (CPC ), Wav2Vec2.0 et HuBERT. HuBERT, dans les évaluations automatiques et humaines, a généré des échantillons qui pourraient rivaliser en qualité avec LogMel (LM) supervisé basé sur les caractères. Enfin, FAIR a également testé HuBERT à l’aide du test MUltiple Stimuli with Hidden Reference and Anchor (MUSHRA), qui effectue un test d’écoute de codec pour évaluer la qualité de sortie des algorithmes de compression audio avec perte. Ici, HuBERT est arrivé juste derrière l’audio non compressé. Source : Facebook AI Research De nombreuses plates-formes de reconnaissance vocale basées sur l’IA ont travaillé à la compréhension et à la reconnaissance de la parole simplement en écoutant et en interagissant et sans étiquettes. Par exemple, Facebook AI Research a récemment lancé une IA qui comprend la parole sans texte étiqueté. Le géant de la technologie a également rendu publique sa plus grande base de données linguistiques pour faciliter le développement d’outils de reconnaissance vocale, en se concentrant explicitement sur des langues telles que le swahili, où les données étiquetées sont rares. Avec HuBERT, affirme Facebook, la communauté des chercheurs en IA peut développer des systèmes de traitement du langage naturel (NLP) qu’ils pourraient former par le biais de l’audio au lieu d’échantillons de texte. Cela permettra aux assistants vocaux IA de capturer l’expressivité du langage oral et de parler avec les nuances et les styles d’une personne réelle parlant la langue. Une telle technologie permettra aux personnes qui parlent des langues ou des dialectes rares ou des langues avec une littérature plus limitée que les autres de bénéficier d’applications de reconnaissance vocale et de traduction plus inclusives. Rejoignez notre groupe Telegram. Faites partie d’une communauté en ligne engageante. Rejoignez ici. Abonnez-vous à notre newsletter Recevez les dernières mises à jour et offres pertinentes en partageant votre e-mail. Mita Chaturvedi Je suis une étudiante en économie qui aime boire du café et écrire sur la technologie et la finance. J’aime jouer du ukulélé et regarder de vieux films quand je suis libre.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *