Samsung présente TRUEBench, un test de performance qui évalue la productivité de l’IA en situation réelle

26-09-2025
Share open/close
URL copiée.

Avec des scénarios de productivité multilingues, ce benchmark comble les lacunes des tests d’IA actuels

 

 

Samsung Electronics a dévoilé aujourd’hui TRUEBench (Trustworthy Real-world Usage Evaluation Benchmark), un test de performance développé par Samsung Research pour évaluer la productivité concrète de l’IA.

 

TRUEBench propose un ensemble complet de mesures afin d’évaluer les performances des grands modèles de langage (LLM) au cœur des applications de productivité professionnelles. Afin de garantir une évaluation réaliste, celui-ci intègre différents scénarios de dialogue et un environnement multilingue.

 

Inspiré par la manière dont l’IA est utilisée en interne par Samsung pour booster la productivité, TRUEBench évalue les tâches les plus courantes en entreprise selon 10 catégories et 46 sous-catégories qui incluent notamment la génération de contenu, l’analyse de données, la synthèse et la traduction. Il assure une notation fiable grâce à une évaluation automatique, selon des critères créés et affinés par l’humain et l’IA.

 

« Samsung Research apporte un avantage concurrentiel grâce à une expérience concrète et profonde de l’IA, » a déclaré Paul (Kyungwhoon) Cheun, directeur technique de la division DX chez Samsung Electronics et directeur de Samsung Research. « TRUEBench permettra d’établir des normes pour évaluer la productivité tout en solidifiant le leadership technologique de Samsung. »

 

Plus les entreprises adoptent l’IA pour s’occuper de certaines tâches, plus la demande pour mesurer la productivité des LLM s’accroît. Cependant, les test actuels sont limités : ils évaluent principalement les performances globales, se limitent généralement à l’anglais et ne prennent en charge que des structures questions-réponses à tour unique. Tout cela réduit leur capacité à refléter les environnements de travail réels.

 

Afin d’y remédier, TRUEBench comprend un total de 2 485 séries de tests réparties en 10 catégories et 12 langues,[1] et prend en charge des scénarios multilingues. Les tests examinent ce que les modèles d’IA peuvent réellement résoudre, Samsung Research ayant appliqué des séries de tests allant de 8 caractères à plus de 20 000 caractères pour refléter des tâches allant de demandes simples à la synthèse de documents volumineux.

 

Pour tester les performances des modèles d’IA et évaluer la pertinence des réponses, il est essentiel d’établir des critères clairs. En situation réelle, les intentions des utilisateurs ne sont pas nécessairement énoncées de manière explicite. TRUEBench est conçu pour fournir une évaluation réaliste de l’exactitude des réponses, mais également des conditions qui répondent aux besoins implicites des utilisateurs.

 

Samsung Research a vérifié les critères d’évaluation en faisant collaborer l’humain et l’IA : des évaluateurs créent tout d’abord les critères, puis l’IA les examine pour relever des erreurs, des contradictions ou des contraintes inutiles. Les évaluateurs affinent ensuite les critères et répètent ce processus pour en améliorer la précision. Puis, sur la base de ces critères vérifiés, une évaluation automatique des modèles d’IA permet de minimiser les biais subjectifs et de garantir la cohérence. Toutes les conditions de chaque test doivent être remplies afin que le modèle soit validé, ce qui permet une notation plus détaillée et précise des tâches.

 

Les échantillons de données et les classements TRUEBench sont accessibles librement sur la plateforme Hugging Face, qui permet de comparer jusqu’à 5 modèles d’IA et d’obtenir en un coup d’œil une comparaison complète de leurs performances. Les données sur la durée moyenne des réponses sont également publiées afin de pouvoir comparer simultanément les performances et l’efficacité. Des informations détaillées sont disponibles sur la page TRUEBench Hugging Face.

 

[1] Chinois, anglais, français, allemand, italien, japonais, coréen, polonais, portugais, russe, espagnol et vietnamien.

Presse > Communiqués

Corporate > Technologie

Pour toute question relative au service client, merci de suivre ce lien samsung.com/fr/info/contact-us
Pour toute demande presse, merci de contacter rpfrance@samsung.com.

Découvrez les dernières actualités Samsung

En savoir plus
TOP

Paramétrez les cookies

Les cookies sont des petits fichiers textes déposés sur votre ordinateur/tablette/smartphone. Nous avons besoin de votre accord pour déposer les cookies ci-dessous et nous vous expliquons en quoi ils sont utiles. Le(s) partenaire(s) (éditeur(s) tiers) qui déposent des cookies sur votre appareil est/sont indiqué(s) ci-dessous. Vous pouvez modifier vos préférences à tout moment en cliquant sur le lien « Outil de Gestion des Cookies» présent dans la Politique Cookies du site. Votre choix sera conservé 6 mois. Les cookies techniques ne sont pas paramétrables car strictement nécessaires au fonctionnement du site ou à la fourniture du service que vous avez demandé. Pour en savoir plus, voir également notre Politique Cookies.

Cookies techniques ou strictement nécessaires au service

Ces cookies sont strictement nécessaires à la fourniture du service que vous avez expressément demandé ou ont pour finalité exclusive de permettre, ou faciliter la communication par voie électronique. Ces cookies sont automatiquement activés et ne peuvent pas être désactivés car ils sont indispensables pour vous permettre de naviguer sur notre site.

Cookie Domaine Objectif Date d’expiration
AWSALBCORS news.samsung.com Cookie de l'équilibreur de charge de l'application AWS. Cookie d'équilibrage de charge: utilisé pour associer la session à l'instance. Même valeur que AWSALB.
https://aws.amazon.com/fr/elasticloadbalancing/?elb-whats-new.sort-by=item.additionalFields.postDateTime&elb-whats-new.sort-order=desc
7 jours
AWSALB news.samsung.com L'équilibreur de charge de l'application AWS reçoit d'abord une demande d'un client, il achemine la demande vers une cible, génère un cookie nommé AWSALB qui encode les informations sur la cible sélectionnée, chiffre le cookie et inclut le cookie dans la réponse au client.
https://aws.amazon.com/fr/elasticloadbalancing/?elb-whats-new.sort-by=item.additionalFields.postDateTime&elb-whats-new.sort-order=desc
7 jours
PHPSESSID news.samsung.com Identifiant de session. Le cookie PHPSESSID est natif au language de script PHP et permet aux sites Web de stocker des données d'état sérialisées. Sur le site Web de l'Action, il est utilisé pour établir une session utilisateur et pour transmettre des données d'état via un cookie temporaire, qui est communément appelé cookie de session. Comme le cookie PHPSESSID n'a pas d'expiration programmée, il disparaît lorsque le client est fermé. session
COOKIECONSENT news.samsung.com Utilisé pour stocker le statut de consentement de l'utilisateur au cookie 6 mois

Cookies d'analyse d'audience(optionels)

Les cookies de mesure d’audience permettent de comprendre la façon dont vous accédez au site ainsi que votre parcours de navigation (ex: pages vues, temps passé sur une page, contenu cliqué). Ils permettent d’analyser la performance et la conception de notre site et à détecter des éventuelles erreurs. Grâce à ces indicateurs de performances nous améliorons constamment le site ainsi que les produits, contenus ou offres qui y sont proposés.

Cookie Domaine Objectif Date d’expiration
_ga .samsung.com Utilisé pour distinguer les visiteurs du site Google Analytics : https://tools.google.com/dlpage/gaoptout 1 an
_ga_2C55BMVY73 .samsung.com Utilisé pour conserver l'état de la session : https://tools.google.com/dlpage/gaoptout 1 an