O CEO da Scale AI, Alexandr Wang, afirma que o mercado de inteligência artificial esgotou os dados públicos disponíveis e precisa de novas fontes para treinar modelos de IA. Essa é uma das principais discussões no setor tecnológico atualmente.
Dados para IA: Novas Fontes e Desafios
No Cisco AI Summit, Wang, cuja empresa fornece conjuntos de dados para treinamento de IA, lembrou que Ilya Sutskever, cofundador da SSI e ex-cientista-chefe da OpenAI, previu o fim dos dados públicos para o final de 2024.
Por isso, a Scale AI está explorando novas estratégias. A principal delas é usar dados primários de empresas e governos, além de conjuntos de dados mais avançados e inacessíveis ao público.
Um exemplo citado por Wang é o uso de anotações de cientistas em biotecnologia. “Pegamos dados brutos de experimentos em laboratório para treinar um modelo que identifique insights e descobertas que um cientista experiente conseguiria identificar”, explicou. Ele destaca que esses dados mais avançados dificilmente são encontrados publicamente na internet.
Dados sintéticos, que imitam dados reais, também são considerados, mas não como solução definitiva. Wang acredita que dados reais, validados por humanos, são imprescindíveis, e os sintéticos podem servir como complemento.
Leia também:
A Utilização de Dados para IA nas Empresas
Wang alerta que a medição do progresso da IA é limitada, pois as referências atuais são de cinco anos atrás. Ele argumenta que o mercado é muito diferente do que era há dois anos, devido à alta competitividade.
Como exemplo, ele cita a rápida ascensão de modelos de IA como os do Google, Anthropic e Grok, mostrando que o avanço na IA depende muito de como as empresas executam e pesquisam os modelos mais adequados para suas necessidades.
Para Wang, as empresas precisam considerar a alta competitividade do setor e a necessidade de usar múltiplos modelos de IA. A vantagem competitiva virá da capacidade de integrar esses modelos com seus próprios dados e problemas específicos.
Wang destaca que o uso de modelos públicos nem sempre funciona porque eles não levam em conta a especificidade dos dados de cada empresa. A solução, segundo ele, é um ciclo contínuo: uso de dados próprios, treinamento de modelos e aplicação em produção. Recursos de IA Galaxy S25: tudo sobre as atualizações e novidades da série são um bom exemplo.
A Scale AI começou trabalhando com dados para carros autônomos, mas expandiu seus serviços para IA generativa, especialmente para grandes modelos de linguagem (LLM), como a OpenAI, desde 2019. Atualmente, a empresa colabora com grandes empresas na organização de seus conjuntos de dados.
Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.
Via Mobile Time