Mistral lança nova API de reconhecimento óptico de caracteres

A Mistral apresentou sua nova API de OCR, destacando-se pela eficiência no reconhecimento de texto.
Atualizado há 2 dias
OCR da Mistral

Outros destaques

Manufatura de robôs com Blockchain
Gemini AI para Android Auto
Apple Intelligence Siri
Widget do Meta AI
Widget para Meta AI

A startup francesa de inteligência artificial, Mistral, lançou a OCR da Mistral, uma nova API (Interface de Programação de Aplicações) de reconhecimento óptico de caracteres (OCR). A ferramenta foi projetada para oferecer recursos avançados de compreensão de documentos. A API extrai conteúdo de PDFs e imagens não estruturados, incluindo notas manuscritas, textos digitados, imagens, tabelas e equações, apresentando-os em um formato estruturado com alta precisão. A solução visa facilitar a transformação de documentos em formatos utilizáveis para inteligência artificial.

CONTINUA DEPOIS DA PUBLICIDADE

Mistral Lança Nova API de Reconhecimento Óptico de Caracteres (OCR)

A Mistral está trilhando seu próprio caminho no desenvolvimento de modelos de inteligência artificial. A nova API OCR da Mistral foi criada para fornecer recursos avançados de análise de documentos. A API é capaz de extrair diversos tipos de conteúdo, como notas manuscritas, textos digitados, imagens e até mesmo fórmulas matemáticas, de PDFs e imagens não estruturadas. A grande vantagem é que ela organiza tudo em um formato estruturado e de fácil acesso.

Dados estruturados são informações organizadas de maneira predefinida, geralmente em linhas e colunas, facilitando a busca e análise. Exemplos comuns incluem nomes, endereços e transações financeiras armazenadas em bancos de dados ou planilhas. Por outro lado, dados não estruturados não têm um formato específico, como e-mails, posts em redes sociais, vídeos e áudios. Para extrair informações relevantes desses dados, são necessárias ferramentas e técnicas especializadas, como processamento de linguagem natural (PNL) e aprendizado de máquina (ML).

A API oferece suporte a múltiplos idiomas, processamento rápido e integração com modelos de linguagem grandes (LLMs), o que permite que as empresas preparem sua documentação para o uso de IA. Segundo a Mistral, 90% das informações empresariais não são estruturadas. Por isso, a API pode ser uma grande ajuda para empresas que desejam digitalizar e catalogar seus dados para aplicações de IA ou para criar bases de conhecimento internas e externas.

Com a OCR da Mistral, a empresa busca otimizar a forma como as organizações processam e analisam documentos complexos. Ao contrário das soluções tradicionais de OCR, que se concentram principalmente na extração de texto, a OCR da Mistral foi projetada para interpretar diversos elementos tipográficos e caracteres, incluindo tabelas, expressões matemáticas e imagens, mantendo os resultados estruturados.

Leia também:

CONTINUA DEPOIS DA PUBLICIDADE

O Novo Padrão Ouro em OCR

De acordo com o diretor científico da Mistral, Guillaume Lample, essa tecnologia representa um avanço significativo para a adoção da IA em empresas, especialmente para aquelas que buscam simplificar o acesso à sua documentação interna. A API já está integrada ao Le Chat, utilizado por milhões de usuários para processamento de documentos. Agora, desenvolvedores e empresas podem acessar o modelo através da la Plateforme, o conjunto de ferramentas para desenvolvedores da Mistral.

Espera-se que a API também esteja disponível através de parceiros de nuvem e inferência, além de oferecer implantação local para organizações com requisitos de alta segurança. Para empresas que buscam soluções de conectividade global, a AT&T e Eseye lançaram um eSIM que pode ser interessante, enquanto a Microsoft explicita vantagens do backup de arquivos do M365 no OneDrive. O objetivo é garantir que a tecnologia esteja acessível a todos os tipos de usuários, independentemente de suas necessidades específicas de infraestrutura e segurança.

A tecnologia OCR tem desempenhado um papel importante na automação da extração de dados e digitalização de documentos há décadas. A primeira máquina OCR comercial foi desenvolvida na década de 1950 por David Shepard e seus colegas Harvey e William Lawless Jr., que fundaram a Intelligent Machines Research Co. (IMR) para levar a tecnologia ao mercado. O sistema ganhou força quando a Reader’s Digest se tornou seu primeiro grande cliente, seguida por bancos, empresas de telecomunicações como a AT&T e grandes empresas de petróleo.

Em 1959, a IBM licenciou as patentes da IMR e introduziu sua própria máquina OCR, formalizando o termo como padrão da indústria. Desde então, a tecnologia OCR continuou a evoluir, incorporando IA e ML para melhorar a precisão, expandir o suporte a idiomas e lidar com formatos de documentos cada vez mais complexos. Atualmente, pode ser encontrada em softwares empresariais como o leitor de PDF Adobe Acrobat. A OCR da Mistral representa o próximo passo nessa evolução, utilizando a IA para aprimorar a compreensão de documentos além do simples reconhecimento de texto.

A Mistral destaca a vantagem competitiva de sua OCR da Mistral em relação às ferramentas existentes, citando testes de referência nos quais superou as principais alternativas, incluindo Google Document AI, Azure OCR e GPT-4o da OpenAI. O modelo alcançou as maiores pontuações de precisão em reconhecimento de matemática, documentos digitalizados e processamento de texto multilíngue. Além disso, a OCR da Mistral foi projetada para operar mais rapidamente do que os modelos concorrentes, sendo capaz de processar até 2.000 páginas por minuto em um único nó.

CONTINUA DEPOIS DA PUBLICIDADE

Recursos e Casos de Uso

Essa vantagem de velocidade a torna adequada para o processamento de documentos de alto volume em setores como pesquisa, atendimento ao cliente e preservação histórica. Sophia Yang, chefe de relações com desenvolvedores da Mistral, tem demonstrado ativamente os recursos de OCR em sua conta no X (antigo Twitter). Ela destacou seus benchmarks de desempenho de alto nível, suporte multilíngue e capacidade de extrair com precisão equações matemáticas de PDFs.

Em uma publicação recente, ela compartilhou um exemplo da OCR da Mistral reconhecendo e formatando com sucesso expressões matemáticas complexas, reforçando sua eficácia para aplicações científicas e acadêmicas. Para quem precisa de soluções para aumentar a produtividade, o Codeium apresenta o novo Windsurf Wave 4 como inovação em IDEs, e a Microsoft explicita vantagens do backup de arquivos do M365 no OneDrive.

A OCR da Mistral introduz vários recursos que a tornam uma ferramenta versátil para empresas e instituições que lidam com grandes repositórios de documentos:

A documentação para desenvolvedores da Mistral AI também destaca recursos de compreensão de documentos que vão além do OCR. Após extrair texto e estrutura, a OCR da Mistral se integra com LLMs, permitindo que os usuários interajam com o conteúdo do documento usando consultas em linguagem natural. Esse recurso permite:

O Que os Líderes Empresariais Devem Saber Sobre a OCR da Mistral

Para CEOs, CIOs, CTOs, gerentes de TI e líderes de equipe, a OCR da Mistral apresenta oportunidades significativas para aumentar a eficiência, segurança e escalabilidade em fluxos de trabalho baseados em documentos.

A OCR da Mistral tem um preço de US$ 1 por 1.000 páginas, com inferência em lote oferecendo 2.000 páginas por US$ 1. A API já está disponível na la Plateforme, e a Mistral planeja expandir para parceiros de nuvem e inferência em um futuro próximo. O modelo também pode ser testado gratuitamente no Le Chat, o chatbot conversacional da Mistral baseado em seus LLMs, permitindo que os usuários testem seus recursos antes de integrá-lo em seus fluxos de trabalho. A Mistral AI espera fazer melhorias contínuas no modelo com base no feedback dos usuários nas próximas semanas.

Em um teste rápido com uma anotação manuscrita, a ferramenta forneceu uma transcrição estruturada em menos de um segundo.

Com a OCR da Mistral, a Mistral AI continua a expandir seu conjunto de ferramentas orientadas por IA, visando empresas que exigem soluções de processamento de documentos de alto desempenho. Ao integrar OCR com compreensão de documentos baseada em IA, a Mistral permite que as empresas extraiam, analisem e interajam com seus documentos de maneiras mais inteligentes. Líderes empresariais, desenvolvedores e equipes de TI podem explorar a OCR da Mistral por meio da la Plateforme ou solicitar a implantação local para casos de uso especializados.

Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.

Via VentureBeat

André atua como jornalista de tecnologia desde 2009 quando fundou o Tekimobile. Também trabalhou na implantação do portal Tudocelular.com no Brasil e já escreveu para outros portais como AndroidPIT e Techtudo. É formado em eletrônica e automação, trabalhando com tecnologia há 26 anos.