Applications pour apprendre une langue – test & avis : Apprendre une langue en 10 jours

Applications pour apprendre une langue :

Dans cette rubrique mensuelle récurrente, nous filtrons les articles de recherche récents publiés sur le serveur de préimpression arXiv.org pour des sujets fascinants liés à l’IA, à l’apprentissage automatique et à l’apprentissage en profondeur – dans des disciplines telles que les statistiques, les mathématiques et l’informatique – et vous fournissons un « meilleur » utile. de » liste pour le mois dernier. Des chercheurs du monde entier contribuent à ce référentiel en prélude au processus d’examen par les pairs pour la publication dans des revues traditionnelles. arXiv contient un véritable trésor de méthodes d’apprentissage statistique que vous pourrez utiliser un jour pour résoudre des problèmes de science des données. Les articles répertoriés ci-dessous représentent une petite fraction de tous les articles apparaissant sur le serveur de préimpression. Ils sont répertoriés sans ordre particulier avec un lien vers chaque article ainsi qu’un bref aperçu. Les liens vers les dépôts GitHub sont fournis lorsqu’ils sont disponibles. Les articles particulièrement pertinents sont marqués d’une icône « pouce levé ». Considérez qu’il s’agit de documents de recherche universitaire, généralement destinés aux étudiants diplômés, aux post-doctorants et aux professionnels chevronnés. Ils contiennent généralement un degré élevé de mathématiques, alors soyez prêt. Prendre plaisir! MLP-Mixer : une architecture entièrement MLP pour la vision Les réseaux de neurones convolutifs (CNN) sont le modèle de référence pour la vision par ordinateur. Récemment, les réseaux basés sur l’attention, tels que le Vision Transformer, sont également devenus populaires. Cet article montre que si les circonvolutions et l’attention sont toutes deux suffisantes pour de bonnes performances, aucune d’entre elles n’est nécessaire. MLP-Mixer est présenté, une architecture basée exclusivement sur des perceptrons multicouches (MLP). MLP-Mixer contient deux types de couches : une avec des MLP appliqués indépendamment aux patchs d’image (c’est-à-dire « mélanger » les caractéristiques par emplacement), et une avec des MLP appliqués sur les patchs (c’est-à-dire « mélanger » les informations spatiales). Lorsqu’il est formé sur de grands ensembles de données ou avec des schémas de régularisation modernes, MLP-Mixer atteint des scores compétitifs sur les références de classification d’images, avec un coût de pré-formation et d’inférence comparable aux modèles de pointe. Les modèles de diffusion battent les GAN sur la synthèse d’images Cet article montre que les modèles de diffusion peuvent atteindre une qualité d’échantillon d’image supérieure aux modèles génératifs de pointe actuels. Ceci est réalisé avec une synthèse d’image inconditionnelle en trouvant une meilleure architecture grâce à une série d’ablations. Pour la synthèse d’images conditionnelle, nous améliorons encore la qualité de l’échantillon avec des conseils sur le classificateur : une méthode simple et efficace en calcul pour échanger la diversité contre la fidélité en utilisant les gradients d’un classificateur. Le FID obtenu est de 2,97 sur ImageNet 128128, de 4,59 sur ImageNet 256256 et de 7,72 sur ImageNet 512512, et BigGAN-deep est égalé même avec seulement 25 passes avant par échantillon, tout en maintenant une meilleure couverture de la distribution. Enfin, il a été constaté que le guidage par classificateur se combine bien avec les modèles de diffusion de suréchantillonnage, améliorant encore le FID à 3,94 sur ImageNet 256256 et 3,85 sur ImageNet 512512. Le code associé à cet article peut être trouvé ICI. Faites attention aux MLP Les transformateurs sont devenus l’une des innovations architecturales les plus importantes en apprentissage en profondeur et ont permis de nombreuses percées au cours des dernières années. Cet article propose une architecture de réseau simple, gMLP, basée sur les MLP avec déclenchement, et montre qu’elle peut fonctionner aussi bien que Transformers dans des applications de langage et de vision clés. Les comparaisons montrent que l’auto-attention n’est pas critique pour les transformateurs de vision, car le gMLP peut atteindre la même précision. Pour BERT, le modèle proposé atteint la parité avec Transformers sur la perplexité de pré-entraînement et est meilleur sur certaines tâches NLP en aval. Sur les tâches de réglage fin où gMLP fonctionne moins bien, rendre le modèle gMLP considérablement plus grand peut combler l’écart avec Transformers. En général, les expériences montrent que gMLP peut évoluer aussi bien que Transformers sur des données et des calculs accrus. Mesurer la compétence de défi de codage avec les APPS Alors que la programmation est l’une des compétences les plus largement applicables dans la société moderne, les modèles d’apprentissage automatique modernes ne peuvent toujours pas coder des solutions aux problèmes de base. Malgré son importance, il y a eu étonnamment peu de travaux sur l’évaluation de la génération de code, et il peut être difficile d’évaluer avec précision les performances de génération de code de manière rigoureuse. Pour relever ce défi, cet article présente APPS, une référence pour la génération de code. Contrairement aux travaux antérieurs dans des contextes plus restreints, ce benchmark mesure la capacité des modèles à prendre une spécification arbitraire en langage naturel et à générer un code Python satisfaisant. Semblable à la façon dont les entreprises évaluent les développeurs de logiciels candidats, la solution proposée évalue ensuite les modèles en vérifiant leur code généré sur des cas de test. Le benchmark comprend 10 000 problèmes, qui vont de simples solutions en une seule ligne à des défis algorithmiques substantiels. Les grands modèles de langage sont affinés à la fois sur GitHub et sur un ensemble d’entraînement spécial, et il a été constaté que la prévalence des erreurs de syntaxe diminue de façon exponentielle à mesure que les modèles s’améliorent. Les modèles récents tels que GPT-Neo peuvent réussir environ 20% des cas de test des problèmes d’introduction, il a donc été constaté que les modèles d’apprentissage automatique commencent maintenant à apprendre à coder. Le code associé à cet article est disponible ICI. L’effet de régularisation de Sobolev de la descente de gradient stochastique La structure multiplicative des paramètres et des données d’entrée dans la première couche des réseaux de neurones est explorée dans cet article pour établir une connexion entre le paysage de la fonction de perte par rapport aux paramètres et le paysage de la fonction modèle avec respect des données d’entrée. Par cette connexion, on montre que les minima plats régularisent le gradient de la fonction modèle, ce qui explique les bonnes performances de généralisation des minima plats. Ensuite, l’article va au-delà de la planéité et considère les moments d’ordre élevé du bruit de gradient, et montre que la descente de gradient stochastique (SGD) a tendance à imposer des contraintes sur ces moments par une analyse de stabilité linéaire du SGD autour des minima globaux. Avec la structure multiplicative, il est reconnu que l’effet de régularisation Sobolev de SGD, c’est-à-dire que SGD régularise les semi-normes de Sobolev de la fonction du modèle par rapport aux données d’entrée. Enfin, des limites pour l’erreur de généralisation et la robustesse contradictoire sont fournies pour les solutions trouvées par SGD sous des hypothèses de distribution des données. Mise à l’échelle du clustering aggloméré hiérarchique à des ensembles de données de la taille d’un milliard de dollars Le clustering aggloméré hiérarchique (HAC) est l’une des méthodes de clustering les plus anciennes mais toujours les plus utilisées. Cependant, HAC est notoirement difficile à adapter à de grands ensembles de données car la complexité sous-jacente est au moins quadratique dans le nombre de points de données et de nombreux algorithmes pour résoudre HAC sont intrinsèquement séquentiels. Cet article propose le Reciprocal Agglomerative Clustering (RAC), un algorithme distribué pour HAC, qui utilise une nouvelle stratégie pour fusionner efficacement des clusters en parallèle. L’article prouve théoriquement que RAC récupère la solution exacte de HAC. De plus, sous l’hypothèse de la capacité de cluster et de l’équilibre, des accélérations prouvables dans le temps d’exécution total sont montrées en raison du parallélisme. Il est également montré que ces accélérations sont réalisables pour certains modèles de données probabilistes. Dans des expériences approfondies, il a été montré que ce parallélisme est réalisé sur des ensembles de données du monde réel et que l’algorithme RAC proposé peut récupérer la hiérarchie HAC sur des milliards de points de données connectés par des milliers de milliards d’arêtes en moins d’une heure. Modèles linguistiques pré-entraînés pour la génération de texte : La génération d’un texte d’enquête est devenue l’une des tâches les plus importantes mais les plus difficiles du traitement du langage naturel (TAL). La résurgence de l’apprentissage en profondeur a considérablement fait progresser ce domaine grâce aux modèles de génération neuronale, en particulier le paradigme des modèles de langage pré-entraînés (PLM). Cet article présente un aperçu des principales avancées réalisées dans le domaine des PLM pour la génération de texte. En guise de préliminaires, l’article présente la définition générale de la tâche et décrit brièvement les architectures courantes des PLM pour la génération de texte. En tant que contenu principal, l’article explique comment adapter les PLM existants pour modéliser différentes données d’entrée et satisfaire des propriétés spéciales dans le texte généré. Cause et effet : explication conceptuelle des réseaux de neurones Dans de nombreux scénarios, les décisions humaines sont expliquées sur la base de certains concepts de haut niveau. Cet article fait un pas dans l’interprétabilité des réseaux de neurones en examinant leur représentation interne ou les activations des neurones par rapport aux concepts. Un concept est caractérisé par un ensemble d’échantillons qui ont des caractéristiques spécifiques en commun. Un cadre est proposé pour vérifier l’existence d’une relation causale entre un concept (ou sa négation) et des classes de tâches. Alors que les méthodes précédentes se concentrent sur l’importance d’un concept pour une classe de tâches, l’article va plus loin et introduit quatre mesures pour déterminer quantitativement l’ordre de causalité. A travers des expériences, l’efficacité de la méthode proposée est démontrée pour expliquer la relation entre un concept et le comportement prédictif d’un réseau de neurones. Inscrivez-vous à la newsletter gratuite insideBIGDATA. Rejoignez-nous sur Twitter : @InsideBigData1 – https://twitter.com/InsideBigData1

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *