Samsung apresenta ferramenta de avaliação de desempenho para inteligência artificial

Samsung lança TRUEBench, plataforma avançada para medir a performance real da inteligência artificial.
Samsung apresenta ferramenta de avaliação de desempenho para inteligência artificial
(Imagem/Reprodução: Sammobile)
Resumo da notícia
    • A Samsung desenvolveu o TRUEBench, uma ferramenta proprietária para avaliar o desempenho de inteligência artificial.
    • Você poderá acompanhar testes mais realistas e multilíngues que simulam o uso prático da IA no dia a dia.
    • Modelos de IA terão suas capacidades avaliadas em variadas tarefas corporativas, incluindo tradução, análise e geração de conteúdo.
    • A plataforma permite comparar até cinco modelos simultaneamente com dados abertos no Hugging Face.
CONTINUA DEPOIS DA PUBLICIDADE

A Samsung, pioneira em funcionalidades de inteligência artificial para smartphones, acaba de lançar uma ferramenta própria para avaliar o desempenho de IAs. Chamada TRUEBench, a plataforma busca preencher lacunas nos testes existentes, oferecendo uma análise mais completa e realista da produtividade da IA. Esta novidade promete mudar a forma como medimos a eficiência da inteligência artificial.

TRUEBench: A Nova Ferramenta de Avaliação de IA da Samsung

Hoje, a Samsung anunciou o desenvolvimento do Trustworthy Real-world Usage Evaluation Benchmark (TRUEBench). Criada pela Samsung Research, esta ferramenta proprietária surgiu porque a empresa notou falhas nas avaliações de IA já existentes. Muitas ferramentas focavam apenas no inglês e tinham estruturas de perguntas e respostas simples, limitando a compreensão do uso real da IA.

O TRUEBench incorpora testes com diversos cenários de diálogo e condições multilíngues. Isso significa que ele consegue simular interações mais complexas e naturais, indo além das limitações das ferramentas anteriores que não consideravam a diversidade do uso global da inteligência artificial. A ideia é medir o desempenho em situações que realmente acontecem no dia a dia.

CONTINUA DEPOIS DA PUBLICIDADE

Com base no uso interno da Samsung de IA para produtividade, o Benchmark de performance AI avalia o desempenho da inteligência artificial em dez das tarefas corporativas mais comuns. Essas tarefas incluem:

  • Geração de conteúdo
  • Análise de dados
  • Resumo de textos
  • Tradução
  • Outras atividades essenciais para o ambiente de trabalho.

A ferramenta possui um impressionante conjunto de 2.485 testes, distribuídos em 10 categorias e 46 subcategorias, abrangendo 12 idiomas diferentes. Isso permite que o benchmark avalie o que os modelos de IA podem realmente solucionar, desde tarefas curtas com 8 caracteres até resumos de documentos longos com mais de 20.000 caracteres.

O TRUEBench se destaca por um sistema de pontuação confiável, resultado de um sistema de avaliação automática, movido por IA, desenhado e aprimorado em conjunto por inteligência artificial e especialistas humanos. Os dados de amostra e os rankings de desempenho estão abertos no Hugging Face, uma plataforma de código aberto. Lá, as pessoas podem testar até cinco modelos de IA e comparar seu desempenho e eficiência.

Paul (Kyungwhoon) Cheun, CTO da Divisão DX da Samsung Electronics e Chefe da Samsung Research, comentou que a Samsung Research tem uma grande experiência em IA e uma vantagem competitiva no uso real dessa tecnologia. Ele espera que o TRUEBench estabeleça padrões de avaliação para a produtividade e reforce a liderança tecnológica da Samsung no setor.

A introdução do TRUEBench pela Samsung demonstra um movimento para aprimorar a forma como a performance da IA é medida. Ao focar em cenários do mundo real e em diversas linguagens, a ferramenta pode ajudar a desenvolver sistemas de inteligência artificial mais adaptados e úteis para as necessidades globais e empresariais, consolidando a expertise da Samsung neste campo.

Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.
Via SamMobile

André atua como jornalista de tecnologia desde 2009 quando fundou o Tekimobile. Também trabalhou na implantação do portal Tudocelular.com no Brasil e já escreveu para outros portais como AndroidPIT e Techtudo. É formado em eletrônica e automação, trabalhando com tecnologia há 26 anos.