Materiały dla mediów > Informacje prasowe

O firmie > Technologia

Samsung wprowadza TRUEBench: porównywarkę rzeczywistej produktywności sztucznej inteligencji

26-09-2025
UDOSTĘPNIJ

https://bit.ly/4npqKIR

Autorska porównywarka opracowana przez dział Samsung Research obsługuje wielojęzyczne scenariusze produktywności, wypełniając luki w istniejących testach sztucznej inteligencji

 

Samsung prezentuje porównywarkę TRUEBench (Trustworthy Real-world Usage Evaluation Benchmark) opracowaną przez dział Samsung Research w celu prowadzenia ocen produktywności sztucznej inteligencji.

 

Porównywarka zawiera kompleksowy zestaw wskaźników do analizy sprawności dużych modeli językowych (LLM) w rzeczywistych zastosowaniach służących poprawie produktywności w miejscu pracy. Uwzględnia ona różne scenariusze dialogowe i warunki wielojęzyczne, by wydać rzetelną ocenę.

 

Opierając się na wykorzystaniu sztucznej inteligencji w samej firmie Samsung w celu zwiększania wydajności, TRUEBench ocenia typowe zadania realizowane w firmach, takie jak generowanie treści, analiza danych, streszczanie i tłumaczenie tekstów, w podziale na 10 kategorii i 46 podkategorii. Porównywarka prezentuje wiarygodną punktację dzięki automatycznej ocenie opartej na sztucznej inteligencji z kryteriami opracowanymi i doskonalonymi wspólnie przez AI i zespół specjalistów.

 

 “Samsung Research wnosi do przedsięwzięcia przewagę konkurencyjną wynikającą z głębokiej wiedzy specjalistycznej i praktycznego doświadczenia w sztucznej inteligencji” – powiedział Paul (Kyungwhoon) Cheun, Dyrektor ds. Technologii w dziale Digital Experience spółki Samsung Electronics i Dyrektor Samsung Research. – “Oczekujemy, że TRUEBench ustanowi standardy oceny produktywności sztucznej inteligencji i umocni pozycję Samsung jako lidera technologicznego”.

 

Wraz z rosnącą popularnością wykorzystania AI w przedsiębiorstwach wzrosło zapotrzebowanie na narzędzia do pomiaru produktywności dużych modeli językowych. Istniejące porównywarki mierzą jednak głównie ogólną wydajność, są w większości skoncentrowane na języku angielskim i ograniczają się do odpowiedzi na pojedyncze pytania, nie uwzględniając wcześniejszego kontekstu. Ogranicza to ich zdolność do uwzględniania rzeczywistych warunków środowisk pracy.

 

By zaradzić tym ograniczeniom, do porównywarki TRUEBench zaimplementowano łącznie 2485 zestawów testowych w 10 kategoriach i 12 językach[1], z uwzględnieniem scenariuszy wielojęzycznych. Zestawy testowe sprawdzają, jakie rozwiązania modele AI mogą faktycznie zaproponować, a dział Samsung Research zastosował zestawy testowe o długości od 8 do ponad 20 tysięcy znaków, odzwierciedlające zadania od prostych zapytań po streszczenia długich dokumentów.

 

Przy ewaluacji wydajności modeli AI ważne jest posiadanie jasnych kryteriów oceny poprawności odpowiedzi. W rzeczywistych sytuacjach nie wszystkie intencje użytkowników mogą być wyraźnie opisane w instrukcjach. Porównywarka TRUEBench została zaprojektowana tak, by umożliwić realistyczną ocenę, biorąc pod uwagę nie tylko precyzję odpowiedzi, ale także szczegółowe warunki, za którymi kryją się potrzeby użytkowników. Dział Samsung Research zweryfikował elementy oceny w trybie interakcji między ludźmi a sztuczną inteligencją. Początkowe kryteria opracowywane są przez zespół specjalistów, a następnie sztuczna inteligencja weryfikuje je pod kątem błędów, sprzeczności i nadmiernych ograniczeń. Potem kryteria są ponownie udoskonalane, a cykl ten powtarza się, prowadząc do coraz bardziej precyzyjnych standardów oceny. Na podstawie sprawdzonych kryteriów przeprowadzana jest automatyczna ocena modeli AI, co minimalizuje subiektywne uprzedzenia i zapewnia spójność. Dodatkowo model musi spełnić wszystkie warunki, by pomyślnie zaliczył test. Umożliwia to bardziej szczegółową i precyzyjną ocenę realizacji wszystkich zadań.

 

Próbki danych i tabele wyników z porównywarki są dostępne na globalnej platformie open source o nazwie „Hugging Face”, która pozwala użytkownikom kompleksowo porównać sprawność do pięciu modeli i zobaczyć wyniki na łatwych do zinterpretowania wykresach. Ponadto publikowane są dane o średniej długości odpowiedzi, co umożliwia jednoczesne porównanie zarówno efektywności, jak i sprawności procesu przetwarzania informacji. Szczegółowe wyjaśnienia można znaleźć na stronie TRUEBench Hugging Face: https://huggingface.co/spaces/SamsungResearch/TRUEBench.

 

[1] Języki angielski, chiński, francuski, hiszpański, japoński, koreański, niemiecki, polski, portugalski, rosyjski, wietnamski i włoski.

 

https://bit.ly/4npqKIR

W tematach związanych ze wsparciem dla produktów zapraszamy na stronę samsung.com/pl/support.
Kontakt dla mediów: samsungmedia.pl/contacts.

Mapa strony

Góra

Zarządzaj plikami cookies

Używamy plików cookies, aby poprawić komfort korzystania z naszej witryny.
Zarządzaj ustawieniami naszych plików cookies poniżej.

Niezbędne pliki cookies

Te pliki cookies są niezbędne, ponieważ umożliwiają poruszanie się po witrynie. Tej kategorii nie można wyłączyć.

Plik cookies Domena Cel
AWSALBCORS news.samsung.com Plik cookies Load Balancer aplikacji AWS. Plik cookies umożliwiający wykorzystanie techniki Load Balancing: służy do mapowania sesji do instancji serwera. Wartość taka sama jak AWSALB.
AWSALB news.samsung.com Load Balancer aplikacji AWS otrzymuje najpierw żądanie od klienta, kieruje je do wymaganego miejsca docelowego, generuje plik cookies o nazwie AWSALB, który koduje informacje o wybranym miejscu docelowym, szyfruje plik cookies i włącza go do odpowiedzi do klienta.
PHPSESSID news.samsung.com Plik cookies PHPSESSID jest natywny dla aplikacji PHP i umożliwia stronom internetowym przechowywanie danych stanu po serializacji. Na stronie internetowej Action (Działanie) używa się go w celu ustanowienia sesji użytkownika i przekazania danych przy pomocy tymczasowego pliku cookies, który zwykle określa się jako sesyjny plik cookies. Ponieważ plik cookies PHPSESSID nie ma określonego czasu wygaśnięcia, znika po zamknięciu klienta.
COOKIECONSENT news.samsung.com Służy do przechowywania statusu zgody na pliki cookies udzielonej przez użytkownika.

Analityczne lub wydajnościowe pliki cookies (opcjonalnie)

Te pliki cookies zbierają informacje o tym, jak korzystasz z naszej witryny, na przykład które strony odwiedzasz najczęściej. Wszystkie informacje gromadzone przez te pliki służą do ulepszania działania witryny.

Plik cookies Domena Cel Czas wygaśnięcia
_ga .samsung.com Używany do rozróżniania gości odwiedzających stronę. Rejestruje on unikalną identyfikację do celów zbierania danych statystycznych dotyczących sposobu korzystania ze strony internetowej przez gościa. 1 rok
_ga_5C57W9Q9JC .samsung.com Używane do utrzymania stanu sesji 1 rok