▲
- A Samsung desenvolveu o TRUEBench, uma ferramenta proprietária para avaliar o desempenho de inteligência artificial.
- Você poderá acompanhar testes mais realistas e multilíngues que simulam o uso prático da IA no dia a dia.
- Modelos de IA terão suas capacidades avaliadas em variadas tarefas corporativas, incluindo tradução, análise e geração de conteúdo.
- A plataforma permite comparar até cinco modelos simultaneamente com dados abertos no Hugging Face.
A Samsung, pioneira em funcionalidades de inteligência artificial para smartphones, acaba de lançar uma ferramenta própria para avaliar o desempenho de IAs. Chamada TRUEBench, a plataforma busca preencher lacunas nos testes existentes, oferecendo uma análise mais completa e realista da produtividade da IA. Esta novidade promete mudar a forma como medimos a eficiência da inteligência artificial.
TRUEBench: A Nova Ferramenta de Avaliação de IA da Samsung
Hoje, a Samsung anunciou o desenvolvimento do Trustworthy Real-world Usage Evaluation Benchmark (TRUEBench). Criada pela Samsung Research, esta ferramenta proprietária surgiu porque a empresa notou falhas nas avaliações de IA já existentes. Muitas ferramentas focavam apenas no inglês e tinham estruturas de perguntas e respostas simples, limitando a compreensão do uso real da IA.
O TRUEBench incorpora testes com diversos cenários de diálogo e condições multilíngues. Isso significa que ele consegue simular interações mais complexas e naturais, indo além das limitações das ferramentas anteriores que não consideravam a diversidade do uso global da inteligência artificial. A ideia é medir o desempenho em situações que realmente acontecem no dia a dia.
Com base no uso interno da Samsung de IA para produtividade, o Benchmark de performance AI avalia o desempenho da inteligência artificial em dez das tarefas corporativas mais comuns. Essas tarefas incluem:
- Geração de conteúdo
- Análise de dados
- Resumo de textos
- Tradução
- Outras atividades essenciais para o ambiente de trabalho.
A ferramenta possui um impressionante conjunto de 2.485 testes, distribuídos em 10 categorias e 46 subcategorias, abrangendo 12 idiomas diferentes. Isso permite que o benchmark avalie o que os modelos de IA podem realmente solucionar, desde tarefas curtas com 8 caracteres até resumos de documentos longos com mais de 20.000 caracteres.
O TRUEBench se destaca por um sistema de pontuação confiável, resultado de um sistema de avaliação automática, movido por IA, desenhado e aprimorado em conjunto por inteligência artificial e especialistas humanos. Os dados de amostra e os rankings de desempenho estão abertos no Hugging Face, uma plataforma de código aberto. Lá, as pessoas podem testar até cinco modelos de IA e comparar seu desempenho e eficiência.
Paul (Kyungwhoon) Cheun, CTO da Divisão DX da Samsung Electronics e Chefe da Samsung Research, comentou que a Samsung Research tem uma grande experiência em IA e uma vantagem competitiva no uso real dessa tecnologia. Ele espera que o TRUEBench estabeleça padrões de avaliação para a produtividade e reforce a liderança tecnológica da Samsung no setor.
A introdução do TRUEBench pela Samsung demonstra um movimento para aprimorar a forma como a performance da IA é medida. Ao focar em cenários do mundo real e em diversas linguagens, a ferramenta pode ajudar a desenvolver sistemas de inteligência artificial mais adaptados e úteis para as necessidades globais e empresariais, consolidando a expertise da Samsung neste campo.
Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.
Via SamMobile