Xiaomi ouvre le modèle de compréhension du son MiDashengLM-7B

Xiaomi a récemment fait un pas significatif dans le domaine de l’intelligence artificielle en annonçant l’ouverture complète de son modèle de compréhension du son, MiDashengLM-7B. Ce modèle, qui a été dévoilé le 4 août, marque une avancée majeure dans la technologie de compréhension audio, établissant de nouveaux records de performance sur 22 ensembles de données d’évaluation publics. MiDashengLM-7B se distingue par sa capacité à comprendre non seulement la parole, mais aussi les sons environnementaux et la musique, offrant ainsi une approche unifiée de l’interprétation audio.

Le modèle MiDashengLM-7B est basé sur l’encodeur audio Xiaomi Dasheng et utilise le Qwen2.5-Omni-7B Thinker comme décodeur auto-régressif. Cette combinaison permet une compréhension holistique des sons grâce à une stratégie de formation innovante qui utilise des descriptions audio générales. Contrairement à d’autres modèles qui ne divulguent pas les détails de leurs données de formation, Xiaomi a rendu publics les détails de 77 sources de données utilisées pour entraîner MiDashengLM, offrant ainsi une transparence rare dans le domaine.

L’efficacité du MiDashengLM-7B est également remarquable. Le modèle présente une latence de premier jeton (TTFT) pour l’inférence sur un seul échantillon qui est seulement un quart de celle des modèles leaders du secteur. De plus, son efficacité de traitement des données sous la même mémoire GPU est plus de 20 fois supérieure à celle des modèles avancés de l’industrie. Xiaomi travaille déjà à améliorer davantage l’efficacité computationnelle de MiDashengLM, avec l’objectif de permettre un déploiement hors ligne sur des appareils terminaux.

En tant que composant clé de la stratégie « personne-voiture-maison » de Xiaomi, MiDashengLM est conçu pour améliorer la compréhension des scénarios utilisateurs grâce à sa capacité à analyser et interpréter les sons de manière transversale. Ce modèle promet non seulement d’améliorer les interactions utilisateur avec les appareils Xiaomi, mais aussi d’ouvrir de nouvelles possibilités pour l’intégration de l’IA dans la vie quotidienne.

Démo Web :  https://xiaomi-research.github.io/dasheng-lm

Démo interactive : https://huggingface.co/spaces/mispeech/MiDashengLM

Ce contenu est réservé aux membres du site. Si vous êtes un utilisateur existant, veuillez vous connecter. Les nouveaux utilisateurs peuvent s'inscrire ci-dessous.

Connexion pour les utilisateurs enregistrés

   

Articles similaires

Translate »