Mistral lança nova API de reconhecimento óptico de caracteres

A Mistral apresentou sua nova API de OCR, destacando-se pela eficiência no reconhecimento de texto.
Atualizado há 1 mês
OCR da Mistral
OCR da Mistral
CONTINUA DEPOIS DA PUBLICIDADE

A startup francesa de inteligência artificial, Mistral, lançou a OCR da Mistral, uma nova API (Interface de Programação de Aplicações) de reconhecimento óptico de caracteres (OCR). A ferramenta foi projetada para oferecer recursos avançados de compreensão de documentos. A API extrai conteúdo de PDFs e imagens não estruturados, incluindo notas manuscritas, textos digitados, imagens, tabelas e equações, apresentando-os em um formato estruturado com alta precisão. A solução visa facilitar a transformação de documentos em formatos utilizáveis para inteligência artificial.

Mistral Lança Nova API de Reconhecimento Óptico de Caracteres (OCR)

A Mistral está trilhando seu próprio caminho no desenvolvimento de modelos de inteligência artificial. A nova API OCR da Mistral foi criada para fornecer recursos avançados de análise de documentos. A API é capaz de extrair diversos tipos de conteúdo, como notas manuscritas, textos digitados, imagens e até mesmo fórmulas matemáticas, de PDFs e imagens não estruturadas. A grande vantagem é que ela organiza tudo em um formato estruturado e de fácil acesso.

Dados estruturados são informações organizadas de maneira predefinida, geralmente em linhas e colunas, facilitando a busca e análise. Exemplos comuns incluem nomes, endereços e transações financeiras armazenadas em bancos de dados ou planilhas. Por outro lado, dados não estruturados não têm um formato específico, como e-mails, posts em redes sociais, vídeos e áudios. Para extrair informações relevantes desses dados, são necessárias ferramentas e técnicas especializadas, como processamento de linguagem natural (PNL) e aprendizado de máquina (ML).

A API oferece suporte a múltiplos idiomas, processamento rápido e integração com modelos de linguagem grandes (LLMs), o que permite que as empresas preparem sua documentação para o uso de IA. Segundo a Mistral, 90% das informações empresariais não são estruturadas. Por isso, a API pode ser uma grande ajuda para empresas que desejam digitalizar e catalogar seus dados para aplicações de IA ou para criar bases de conhecimento internas e externas.

Com a OCR da Mistral, a empresa busca otimizar a forma como as organizações processam e analisam documentos complexos. Ao contrário das soluções tradicionais de OCR, que se concentram principalmente na extração de texto, a OCR da Mistral foi projetada para interpretar diversos elementos tipográficos e caracteres, incluindo tabelas, expressões matemáticas e imagens, mantendo os resultados estruturados.

CONTINUA DEPOIS DA PUBLICIDADE

Leia também:

O Novo Padrão Ouro em OCR

De acordo com o diretor científico da Mistral, Guillaume Lample, essa tecnologia representa um avanço significativo para a adoção da IA em empresas, especialmente para aquelas que buscam simplificar o acesso à sua documentação interna. A API já está integrada ao Le Chat, utilizado por milhões de usuários para processamento de documentos. Agora, desenvolvedores e empresas podem acessar o modelo através da la Plateforme, o conjunto de ferramentas para desenvolvedores da Mistral.

Espera-se que a API também esteja disponível através de parceiros de nuvem e inferência, além de oferecer implantação local para organizações com requisitos de alta segurança. Para empresas que buscam soluções de conectividade global, a AT&T e Eseye lançaram um eSIM que pode ser interessante, enquanto a Microsoft explicita vantagens do backup de arquivos do M365 no OneDrive. O objetivo é garantir que a tecnologia esteja acessível a todos os tipos de usuários, independentemente de suas necessidades específicas de infraestrutura e segurança.

A tecnologia OCR tem desempenhado um papel importante na automação da extração de dados e digitalização de documentos há décadas. A primeira máquina OCR comercial foi desenvolvida na década de 1950 por David Shepard e seus colegas Harvey e William Lawless Jr., que fundaram a Intelligent Machines Research Co. (IMR) para levar a tecnologia ao mercado. O sistema ganhou força quando a Reader’s Digest se tornou seu primeiro grande cliente, seguida por bancos, empresas de telecomunicações como a AT&T e grandes empresas de petróleo.

Em 1959, a IBM licenciou as patentes da IMR e introduziu sua própria máquina OCR, formalizando o termo como padrão da indústria. Desde então, a tecnologia OCR continuou a evoluir, incorporando IA e ML para melhorar a precisão, expandir o suporte a idiomas e lidar com formatos de documentos cada vez mais complexos. Atualmente, pode ser encontrada em softwares empresariais como o leitor de PDF Adobe Acrobat. A OCR da Mistral representa o próximo passo nessa evolução, utilizando a IA para aprimorar a compreensão de documentos além do simples reconhecimento de texto.

A Mistral destaca a vantagem competitiva de sua OCR da Mistral em relação às ferramentas existentes, citando testes de referência nos quais superou as principais alternativas, incluindo Google Document AI, Azure OCR e GPT-4o da OpenAI. O modelo alcançou as maiores pontuações de precisão em reconhecimento de matemática, documentos digitalizados e processamento de texto multilíngue. Além disso, a OCR da Mistral foi projetada para operar mais rapidamente do que os modelos concorrentes, sendo capaz de processar até 2.000 páginas por minuto em um único nó.

Recursos e Casos de Uso

CONTINUA DEPOIS DA PUBLICIDADE

Essa vantagem de velocidade a torna adequada para o processamento de documentos de alto volume em setores como pesquisa, atendimento ao cliente e preservação histórica. Sophia Yang, chefe de relações com desenvolvedores da Mistral, tem demonstrado ativamente os recursos de OCR em sua conta no X (antigo Twitter). Ela destacou seus benchmarks de desempenho de alto nível, suporte multilíngue e capacidade de extrair com precisão equações matemáticas de PDFs.

Em uma publicação recente, ela compartilhou um exemplo da OCR da Mistral reconhecendo e formatando com sucesso expressões matemáticas complexas, reforçando sua eficácia para aplicações científicas e acadêmicas. Para quem precisa de soluções para aumentar a produtividade, o Codeium apresenta o novo Windsurf Wave 4 como inovação em IDEs, e a Microsoft explicita vantagens do backup de arquivos do M365 no OneDrive.

A OCR da Mistral introduz vários recursos que a tornam uma ferramenta versátil para empresas e instituições que lidam com grandes repositórios de documentos:

  • Processamento multilíngue e multimodal: O modelo oferece suporte a uma ampla gama de idiomas, scripts e layouts de documentos, tornando-o útil para organizações globais. Yang enfatizou essa capacidade, chamando-a de um divisor de águas para o processamento de documentos multilíngues.
  • Saída estruturada e preservação da hierarquia do documento: Ao contrário dos modelos básicos de OCR, a OCR da Mistral retém elementos de formatação, como cabeçalhos, parágrafos, listas e tabelas, garantindo que o texto extraído seja mais útil para aplicações posteriores.
  • Documento como prompt e saídas estruturadas: Os usuários podem extrair conteúdo específico e formatá-lo em saídas estruturadas, como JSON ou Markdown, permitindo a integração com outros fluxos de trabalho orientados por IA.
  • Opção de auto-hospedagem: Organizações com rigorosos requisitos de segurança e conformidade de dados podem implantar a OCR da Mistral dentro de sua própria infraestrutura.

A documentação para desenvolvedores da Mistral AI também destaca recursos de compreensão de documentos que vão além do OCR. Após extrair texto e estrutura, a OCR da Mistral se integra com LLMs, permitindo que os usuários interajam com o conteúdo do documento usando consultas em linguagem natural. Esse recurso permite:

  • Responder a perguntas sobre o conteúdo específico do documento;
  • Extração e sumarização automatizadas de informações;
  • Análise comparativa entre vários documentos;
  • Respostas contextuais que consideram o documento completo.

O Que os Líderes Empresariais Devem Saber Sobre a OCR da Mistral

Para CEOs, CIOs, CTOs, gerentes de TI e líderes de equipe, a OCR da Mistral apresenta oportunidades significativas para aumentar a eficiência, segurança e escalabilidade em fluxos de trabalho baseados em documentos.

  • Maior eficiência e economia de custos: Ao automatizar o processamento de documentos e reduzir a entrada manual de dados, a OCR da Mistral diminui as despesas administrativas e simplifica as operações. As organizações podem processar grandes volumes de documentos de forma mais rápida e com maior precisão, reduzindo a necessidade de intervenção humana. Isso é particularmente valioso para setores como finanças, saúde, jurídico e conformidade, onde a extensa papelada é um gargalo.
  • Tomada de decisão aprimorada com insights orientados por IA: Os recursos de compreensão de documentos da OCR da Mistral permitem que os tomadores de decisão extraiam insights acionáveis de relatórios, contratos, documentos financeiros e artigos de pesquisa. Os líderes de TI podem integrar a API em plataformas de inteligência de negócios, permitindo a análise de documentos assistida por IA que oferece suporte a uma tomada de decisão mais rápida e orientada por dados.
  • Melhor segurança e conformidade de dados: Com uma opção de implantação local, a OCR da Mistral atende às necessidades de segurança e conformidade de empresas que lidam com dados confidenciais ou classificados. CIOs e responsáveis pela conformidade podem garantir que as informações proprietárias permaneçam dentro da infraestrutura interna enquanto aproveitam a IA para o processamento de documentos.
  • Integração perfeita com os fluxos de trabalho corporativos: CTOs e gerentes de TI podem integrar a OCR da Mistral com os sistemas corporativos existentes, incluindo plataformas de gerenciamento de conteúdo, softwares de CRM, soluções de tecnologia jurídica e assistentes orientados por IA. O suporte da API para saídas estruturadas (JSON, Markdown) facilita a automação de fluxos de trabalho baseados em documentos, melhorando a produtividade geral.
  • Vantagem competitiva por meio da inovação orientada por IA: Para organizações que buscam se manter à frente na transformação digital, a OCR da Mistral oferece uma solução escalável alimentada por IA para tornar vastos repositórios de documentos mais acessíveis. Ao aproveitar a IA para a extração de informações, as empresas podem aprimorar as experiências do cliente, otimizar as bases de conhecimento internas e reduzir as ineficiências operacionais.

A OCR da Mistral tem um preço de US$ 1 por 1.000 páginas, com inferência em lote oferecendo 2.000 páginas por US$ 1. A API já está disponível na la Plateforme, e a Mistral planeja expandir para parceiros de nuvem e inferência em um futuro próximo. O modelo também pode ser testado gratuitamente no Le Chat, o chatbot conversacional da Mistral baseado em seus LLMs, permitindo que os usuários testem seus recursos antes de integrá-lo em seus fluxos de trabalho. A Mistral AI espera fazer melhorias contínuas no modelo com base no feedback dos usuários nas próximas semanas.

Em um teste rápido com uma anotação manuscrita, a ferramenta forneceu uma transcrição estruturada em menos de um segundo.

Com a OCR da Mistral, a Mistral AI continua a expandir seu conjunto de ferramentas orientadas por IA, visando empresas que exigem soluções de processamento de documentos de alto desempenho. Ao integrar OCR com compreensão de documentos baseada em IA, a Mistral permite que as empresas extraiam, analisem e interajam com seus documentos de maneiras mais inteligentes. Líderes empresariais, desenvolvedores e equipes de TI podem explorar a OCR da Mistral por meio da la Plateforme ou solicitar a implantação local para casos de uso especializados.

Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.

Via VentureBeat

André atua como jornalista de tecnologia desde 2009 quando fundou o Tekimobile. Também trabalhou na implantação do portal Tudocelular.com no Brasil e já escreveu para outros portais como AndroidPIT e Techtudo. É formado em eletrônica e automação, trabalhando com tecnologia há 26 anos.