O Google Translate – ou Google Tradutor – é a ferramenta gratuita mais conhecida do mundo para tradução automática. É possível pela enorme quantidade de dados do Google. Para um estranho para a indústria de tradução como eu, o Google Translate parecia representar um grande avanço na qualidade da tradução quando foi introduzido pela primeira vez. No entanto, desde então, suas melhorias de qualidade parecem mais incrementais, quando são visíveis a todos. Como o Google Translate se saiu tão bem? E como pode evitar o patamar em qualidade, e melhorar ainda?
Um dos lados brilhantes de ser jornalista é que quando você tem perguntas como esta, você pode simplesmente ligar para as pessoas que mais conhecem e perguntar a elas. A equipe de imprensa do Google respondeu ao meu e-mail e tirou diversas dúvidas a respeito do Translate.
Primeiro, onde o Google conseguiu todos os seus dados? Ele rasteja e salva texto de cerca de um trilhão de páginas da Web. Mas como ele sabe o que é o texto traduzido pelo homem para executar seus algoritmos de aprendizagem estatística? Eu pensei que talvez os humanos cull e codificar os textos para ser alimentado no motor.
É uma pessoa que traduz para o Google Translate?
Mas o Google explicou que o motor de busca simplesmente procura páginas que parecem ser traduções umas das outras. Talvez eles tenham domínios idênticos, apenas um termina em /pt e outro termina em /br. Talvez tenham nomes próprios ou números idênticos na mesma posição. O software não pesa um emparelhamento como mais ou menos provável de ser uma tradução — é uma decisão binária ou binária, dentro ou fora.
Como foi tão bom? O salto inicial de qualidade veio de pura massa. Um artigo de 2009 de três pesquisadores do Google respondeu à “inveja da física” que os alunos de fenômenos humanos sentem. Um artigo clássico de 1960 tinha sido intitulado “A Eficácia Irracional da Matemática nas Ciências Naturais”, exaltando o poder das fórmulas como f=ma. A linguística não tem essa fórmula. Mas os pesquisadores do Google retrucou chamando seu artigo de 2009 de “A Eficácia Irracional dos Dados”.
A abordagem do Google é que uma abordagem simples sobre uma enorme quantidade de dados é melhor do que uma abordagem inteligente sobre dados limitados. Com tantos dados, os erros, espera-se, se anularão no enorme agregado.
Além de todos esses dados confusos não marcados e não marcados, o Google recebe alguns dados especiais de tradutores profissionais: o Escritório Europeu de Patentes compartilha dados com o Google, por exemplo, embora Hughes diga que esses dados de EPO (apesar de sua alta qualidade) atualmente não têm nenhum peso especial no Google Translate voltado para o público. Ele observa, sensatamente, que muitas pessoas usam o Google Translate para fins de slangia ou língua falada, para os quais dar muito peso ao tipo de linguagem em um pedido de patente seria menos do que o ideal.
Mas até o Google tem limites sobre o que enormes quantidades de dados podem fazer. Existem milhares de potenciais pares de idiomas nas várias dezenas de idiomas que o Google Translate oferece. Mas para a grande maioria desses pares (finlandês-Zulu, digamos), há pouco ou nenhum texto de treinamento disponível, mesmo em um trilhão de páginas web. Assim, o usuário que espera traduzir finlandês para Zulu no Google Tradutor estará passando por um idioma de “ponte”, quase certamente inglês.
Isso, é claro, amplia as possibilidades de erro. Asya Pereltsvaig, que ensina linguística em Stanford, pegou o Google Translate traduzindo uma rima de berçário russo com “dois gansos felizes” em francês e ficando deux oies gay — dois gansos homossexuais. O culpado foi, é claro, o duplo significado de “gay” em inglês, a língua de ponte entre russo e francês.
Isso leva a outro problema. Pereltsvaig traduziu essa frase com o Google Translate, por mais mal que seja. A tradução dud agora vive na web, onde será rastreada pelo Google — e pode ser devolvida ao Google Translate. E se o serviço for, para dizer grosseiramente, consumindo seu próprio lixo?
Hughes reconhece o problema francamente. O Google tentou eletronicamente “marcar” suas traduções para que o rastreador os reconheça e tente evitar erros de alimentação de volta ao sistema como entrada. E, em seguida, há páginas da Web que simplesmente têm o mesmo texto em – de forma suspeita – todos os idiomas que o Google Translate oferece. O sistema pode adivinhar que estes foram traduzidos pelo Google e evitar alimentá-los de volta ao sistema.
Mais dados ajudariam uma organização que já tem tanto? Dez trilhões de páginas seriam visivelmente melhores que um trilhão? Hughes é novamente franco: para os pares de idiomas mais comuns, “chegamos ao limite onde mais dados são úteis”.
Seus esforços têm que se voltaram para tornar o Google Translate mais inteligente, jogando com melhorias baseadas em regras para ver se eles melhoram a qualidade. Em outras palavras, se o primeiro grande salto do Google Translate veio de enormes dados e poder computacional, para grandes idiomas, pelo menos, seu próximo salto adiante dependerá mais de engenharia de software inteligente. Por exemplo, a análise automática pode melhorar a ordem das palavras nas traduções.
E ele menciona as redes neurais como um caminho particularmente excitante para a pesquisa — isso, afinal, tem sido particularmente útil no reconhecimento de fala do Google.
Mas há outro caminho: a grande empresa de software está pedindo aos bons e velhos usuários humanos que se insusam em seus conhecimentos. Se você é um usuário frequente do Google Translate, provavelmente terá notado o “Help Improve Google Translate” na parte inferior da página. Esses esforços orientados pelo usuário embalam um soco particularmente pesado para aqueles idiomas para os quais os dados são escassos, e os usuários são voluntários afiados.
Um titã de dados como o Google é inteligente o suficiente para saber os limites dos dados. Hughes espera que alguns avanços radicais (não discutidos) ainda possam levar a um salto repentino na qualidade do Google Translate. Mas mesmo ausentes, espera-se que ciclos de coleta de dados e inovação incremental aumentem gradualmente a agulha da qualidade. E a sabedoria das multidões — os usuários do Google — poderia aumentar ainda mais.