A startup francesa de inteligência artificial, Mistral, lançou a OCR da Mistral, uma nova API (Interface de Programação de Aplicações) de reconhecimento óptico de caracteres (OCR). A ferramenta foi projetada para oferecer recursos avançados de compreensão de documentos. A API extrai conteúdo de PDFs e imagens não estruturados, incluindo notas manuscritas, textos digitados, imagens, tabelas e equações, apresentando-os em um formato estruturado com alta precisão. A solução visa facilitar a transformação de documentos em formatos utilizáveis para inteligência artificial.
Mistral Lança Nova API de Reconhecimento Óptico de Caracteres (OCR)
A Mistral está trilhando seu próprio caminho no desenvolvimento de modelos de inteligência artificial. A nova API OCR da Mistral foi criada para fornecer recursos avançados de análise de documentos. A API é capaz de extrair diversos tipos de conteúdo, como notas manuscritas, textos digitados, imagens e até mesmo fórmulas matemáticas, de PDFs e imagens não estruturadas. A grande vantagem é que ela organiza tudo em um formato estruturado e de fácil acesso.
Dados estruturados são informações organizadas de maneira predefinida, geralmente em linhas e colunas, facilitando a busca e análise. Exemplos comuns incluem nomes, endereços e transações financeiras armazenadas em bancos de dados ou planilhas. Por outro lado, dados não estruturados não têm um formato específico, como e-mails, posts em redes sociais, vídeos e áudios. Para extrair informações relevantes desses dados, são necessárias ferramentas e técnicas especializadas, como processamento de linguagem natural (PNL) e aprendizado de máquina (ML).
A API oferece suporte a múltiplos idiomas, processamento rápido e integração com modelos de linguagem grandes (LLMs), o que permite que as empresas preparem sua documentação para o uso de IA. Segundo a Mistral, 90% das informações empresariais não são estruturadas. Por isso, a API pode ser uma grande ajuda para empresas que desejam digitalizar e catalogar seus dados para aplicações de IA ou para criar bases de conhecimento internas e externas.
Com a OCR da Mistral, a empresa busca otimizar a forma como as organizações processam e analisam documentos complexos. Ao contrário das soluções tradicionais de OCR, que se concentram principalmente na extração de texto, a OCR da Mistral foi projetada para interpretar diversos elementos tipográficos e caracteres, incluindo tabelas, expressões matemáticas e imagens, mantendo os resultados estruturados.
Leia também:
O Novo Padrão Ouro em OCR
De acordo com o diretor científico da Mistral, Guillaume Lample, essa tecnologia representa um avanço significativo para a adoção da IA em empresas, especialmente para aquelas que buscam simplificar o acesso à sua documentação interna. A API já está integrada ao Le Chat, utilizado por milhões de usuários para processamento de documentos. Agora, desenvolvedores e empresas podem acessar o modelo através da la Plateforme, o conjunto de ferramentas para desenvolvedores da Mistral.
Espera-se que a API também esteja disponível através de parceiros de nuvem e inferência, além de oferecer implantação local para organizações com requisitos de alta segurança. Para empresas que buscam soluções de conectividade global, a AT&T e Eseye lançaram um eSIM que pode ser interessante, enquanto a Microsoft explicita vantagens do backup de arquivos do M365 no OneDrive. O objetivo é garantir que a tecnologia esteja acessível a todos os tipos de usuários, independentemente de suas necessidades específicas de infraestrutura e segurança.
A tecnologia OCR tem desempenhado um papel importante na automação da extração de dados e digitalização de documentos há décadas. A primeira máquina OCR comercial foi desenvolvida na década de 1950 por David Shepard e seus colegas Harvey e William Lawless Jr., que fundaram a Intelligent Machines Research Co. (IMR) para levar a tecnologia ao mercado. O sistema ganhou força quando a Reader’s Digest se tornou seu primeiro grande cliente, seguida por bancos, empresas de telecomunicações como a AT&T e grandes empresas de petróleo.
Em 1959, a IBM licenciou as patentes da IMR e introduziu sua própria máquina OCR, formalizando o termo como padrão da indústria. Desde então, a tecnologia OCR continuou a evoluir, incorporando IA e ML para melhorar a precisão, expandir o suporte a idiomas e lidar com formatos de documentos cada vez mais complexos. Atualmente, pode ser encontrada em softwares empresariais como o leitor de PDF Adobe Acrobat. A OCR da Mistral representa o próximo passo nessa evolução, utilizando a IA para aprimorar a compreensão de documentos além do simples reconhecimento de texto.
A Mistral destaca a vantagem competitiva de sua OCR da Mistral em relação às ferramentas existentes, citando testes de referência nos quais superou as principais alternativas, incluindo Google Document AI, Azure OCR e GPT-4o da OpenAI. O modelo alcançou as maiores pontuações de precisão em reconhecimento de matemática, documentos digitalizados e processamento de texto multilíngue. Além disso, a OCR da Mistral foi projetada para operar mais rapidamente do que os modelos concorrentes, sendo capaz de processar até 2.000 páginas por minuto em um único nó.
Recursos e Casos de Uso
Essa vantagem de velocidade a torna adequada para o processamento de documentos de alto volume em setores como pesquisa, atendimento ao cliente e preservação histórica. Sophia Yang, chefe de relações com desenvolvedores da Mistral, tem demonstrado ativamente os recursos de OCR em sua conta no X (antigo Twitter). Ela destacou seus benchmarks de desempenho de alto nível, suporte multilíngue e capacidade de extrair com precisão equações matemáticas de PDFs.
Em uma publicação recente, ela compartilhou um exemplo da OCR da Mistral reconhecendo e formatando com sucesso expressões matemáticas complexas, reforçando sua eficácia para aplicações científicas e acadêmicas. Para quem precisa de soluções para aumentar a produtividade, o Codeium apresenta o novo Windsurf Wave 4 como inovação em IDEs, e a Microsoft explicita vantagens do backup de arquivos do M365 no OneDrive.
A OCR da Mistral introduz vários recursos que a tornam uma ferramenta versátil para empresas e instituições que lidam com grandes repositórios de documentos:
- Processamento multilíngue e multimodal: O modelo oferece suporte a uma ampla gama de idiomas, scripts e layouts de documentos, tornando-o útil para organizações globais. Yang enfatizou essa capacidade, chamando-a de um divisor de águas para o processamento de documentos multilíngues.
- Saída estruturada e preservação da hierarquia do documento: Ao contrário dos modelos básicos de OCR, a OCR da Mistral retém elementos de formatação, como cabeçalhos, parágrafos, listas e tabelas, garantindo que o texto extraído seja mais útil para aplicações posteriores.
- Documento como prompt e saídas estruturadas: Os usuários podem extrair conteúdo específico e formatá-lo em saídas estruturadas, como JSON ou Markdown, permitindo a integração com outros fluxos de trabalho orientados por IA.
- Opção de auto-hospedagem: Organizações com rigorosos requisitos de segurança e conformidade de dados podem implantar a OCR da Mistral dentro de sua própria infraestrutura.
A documentação para desenvolvedores da Mistral AI também destaca recursos de compreensão de documentos que vão além do OCR. Após extrair texto e estrutura, a OCR da Mistral se integra com LLMs, permitindo que os usuários interajam com o conteúdo do documento usando consultas em linguagem natural. Esse recurso permite:
- Responder a perguntas sobre o conteúdo específico do documento;
- Extração e sumarização automatizadas de informações;
- Análise comparativa entre vários documentos;
- Respostas contextuais que consideram o documento completo.
O Que os Líderes Empresariais Devem Saber Sobre a OCR da Mistral
Para CEOs, CIOs, CTOs, gerentes de TI e líderes de equipe, a OCR da Mistral apresenta oportunidades significativas para aumentar a eficiência, segurança e escalabilidade em fluxos de trabalho baseados em documentos.
- Maior eficiência e economia de custos: Ao automatizar o processamento de documentos e reduzir a entrada manual de dados, a OCR da Mistral diminui as despesas administrativas e simplifica as operações. As organizações podem processar grandes volumes de documentos de forma mais rápida e com maior precisão, reduzindo a necessidade de intervenção humana. Isso é particularmente valioso para setores como finanças, saúde, jurídico e conformidade, onde a extensa papelada é um gargalo.
- Tomada de decisão aprimorada com insights orientados por IA: Os recursos de compreensão de documentos da OCR da Mistral permitem que os tomadores de decisão extraiam insights acionáveis de relatórios, contratos, documentos financeiros e artigos de pesquisa. Os líderes de TI podem integrar a API em plataformas de inteligência de negócios, permitindo a análise de documentos assistida por IA que oferece suporte a uma tomada de decisão mais rápida e orientada por dados.
- Melhor segurança e conformidade de dados: Com uma opção de implantação local, a OCR da Mistral atende às necessidades de segurança e conformidade de empresas que lidam com dados confidenciais ou classificados. CIOs e responsáveis pela conformidade podem garantir que as informações proprietárias permaneçam dentro da infraestrutura interna enquanto aproveitam a IA para o processamento de documentos.
- Integração perfeita com os fluxos de trabalho corporativos: CTOs e gerentes de TI podem integrar a OCR da Mistral com os sistemas corporativos existentes, incluindo plataformas de gerenciamento de conteúdo, softwares de CRM, soluções de tecnologia jurídica e assistentes orientados por IA. O suporte da API para saídas estruturadas (JSON, Markdown) facilita a automação de fluxos de trabalho baseados em documentos, melhorando a produtividade geral.
- Vantagem competitiva por meio da inovação orientada por IA: Para organizações que buscam se manter à frente na transformação digital, a OCR da Mistral oferece uma solução escalável alimentada por IA para tornar vastos repositórios de documentos mais acessíveis. Ao aproveitar a IA para a extração de informações, as empresas podem aprimorar as experiências do cliente, otimizar as bases de conhecimento internas e reduzir as ineficiências operacionais.
A OCR da Mistral tem um preço de US$ 1 por 1.000 páginas, com inferência em lote oferecendo 2.000 páginas por US$ 1. A API já está disponível na la Plateforme, e a Mistral planeja expandir para parceiros de nuvem e inferência em um futuro próximo. O modelo também pode ser testado gratuitamente no Le Chat, o chatbot conversacional da Mistral baseado em seus LLMs, permitindo que os usuários testem seus recursos antes de integrá-lo em seus fluxos de trabalho. A Mistral AI espera fazer melhorias contínuas no modelo com base no feedback dos usuários nas próximas semanas.
Em um teste rápido com uma anotação manuscrita, a ferramenta forneceu uma transcrição estruturada em menos de um segundo.
Com a OCR da Mistral, a Mistral AI continua a expandir seu conjunto de ferramentas orientadas por IA, visando empresas que exigem soluções de processamento de documentos de alto desempenho. Ao integrar OCR com compreensão de documentos baseada em IA, a Mistral permite que as empresas extraiam, analisem e interajam com seus documentos de maneiras mais inteligentes. Líderes empresariais, desenvolvedores e equipes de TI podem explorar a OCR da Mistral por meio da la Plateforme ou solicitar a implantação local para casos de uso especializados.
Este conteúdo foi auxiliado por Inteligência Artificial, mas escrito e revisado por um humano.
Via VentureBeat