Samsung présente TRUEBench, un test de performance qui évalue la productivité de l’IA en situation réelle
Avec des scénarios de productivité multilingues, ce benchmark comble les lacunes des tests d’IA actuels

Samsung Electronics a dévoilé aujourd’hui TRUEBench (Trustworthy Real-world Usage Evaluation Benchmark), un test de performance développé par Samsung Research pour évaluer la productivité concrète de l’IA.
TRUEBench propose un ensemble complet de mesures afin d’évaluer les performances des grands modèles de langage (LLM) au cœur des applications de productivité professionnelles. Afin de garantir une évaluation réaliste, celui-ci intègre différents scénarios de dialogue et un environnement multilingue.
Inspiré par la manière dont l’IA est utilisée en interne par Samsung pour booster la productivité, TRUEBench évalue les tâches les plus courantes en entreprise selon 10 catégories et 46 sous-catégories qui incluent notamment la génération de contenu, l’analyse de données, la synthèse et la traduction. Il assure une notation fiable grâce à une évaluation automatique, selon des critères créés et affinés par l’humain et l’IA.
« Samsung Research apporte un avantage concurrentiel grâce à une expérience concrète et profonde de l’IA, » a déclaré Paul (Kyungwhoon) Cheun, directeur technique de la division DX chez Samsung Electronics et directeur de Samsung Research. « TRUEBench permettra d’établir des normes pour évaluer la productivité tout en solidifiant le leadership technologique de Samsung. »
Plus les entreprises adoptent l’IA pour s’occuper de certaines tâches, plus la demande pour mesurer la productivité des LLM s’accroît. Cependant, les test actuels sont limités : ils évaluent principalement les performances globales, se limitent généralement à l’anglais et ne prennent en charge que des structures questions-réponses à tour unique. Tout cela réduit leur capacité à refléter les environnements de travail réels.
Afin d’y remédier, TRUEBench comprend un total de 2 485 séries de tests réparties en 10 catégories et 12 langues,[1] et prend en charge des scénarios multilingues. Les tests examinent ce que les modèles d’IA peuvent réellement résoudre, Samsung Research ayant appliqué des séries de tests allant de 8 caractères à plus de 20 000 caractères pour refléter des tâches allant de demandes simples à la synthèse de documents volumineux.
Pour tester les performances des modèles d’IA et évaluer la pertinence des réponses, il est essentiel d’établir des critères clairs. En situation réelle, les intentions des utilisateurs ne sont pas nécessairement énoncées de manière explicite. TRUEBench est conçu pour fournir une évaluation réaliste de l’exactitude des réponses, mais également des conditions qui répondent aux besoins implicites des utilisateurs.
Samsung Research a vérifié les critères d’évaluation en faisant collaborer l’humain et l’IA : des évaluateurs créent tout d’abord les critères, puis l’IA les examine pour relever des erreurs, des contradictions ou des contraintes inutiles. Les évaluateurs affinent ensuite les critères et répètent ce processus pour en améliorer la précision. Puis, sur la base de ces critères vérifiés, une évaluation automatique des modèles d’IA permet de minimiser les biais subjectifs et de garantir la cohérence. Toutes les conditions de chaque test doivent être remplies afin que le modèle soit validé, ce qui permet une notation plus détaillée et précise des tâches.
Les échantillons de données et les classements TRUEBench sont accessibles librement sur la plateforme Hugging Face, qui permet de comparer jusqu’à 5 modèles d’IA et d’obtenir en un coup d’œil une comparaison complète de leurs performances. Les données sur la durée moyenne des réponses sont également publiées afin de pouvoir comparer simultanément les performances et l’efficacité. Des informations détaillées sont disponibles sur la page TRUEBench Hugging Face.
[1] Chinois, anglais, français, allemand, italien, japonais, coréen, polonais, portugais, russe, espagnol et vietnamien.
Presse > Communiqués
Corporate > Technologie
Pour toute question relative au service client, merci de suivre ce lien samsung.com/fr/info/contact-us
Pour toute demande presse, merci de contacter rpfrance@samsung.com.