A ideia veio como um relâmpago, ao ler a notícia noThe Guardian, que anunciava a descoberta de um fragmento de um vaso romano, perto de Córdoba, na atual Espanha. Um fragmento de argila, parte de uma grande ânfora para azeite de oliva, um recipiente típico de há 2.000 anos.
No fragmento foram descobertas algumas linhas em letra latina. De início, não chamaram a atenção dos arqueólogos. Mas, quando estes começaram a analisar o texto descoberto, principalmente pela quantidade de caracteres, deram-se conta de ser um trecho tirado de um poema de Virgílio. Em alguns casos, a ortografia variava da norma. Talvez se tratasse de um exercício juvenil, se lembrarmos que a poesia de Virgílio era usada amiúde, naqueles tempos remotos, para treinar os adolescentes no aprendizado da arte da escrita.
O que chamou a minha atenção ao ler a notícia no Guardian foi a seguinte frase, num inglês excelente:
The lines were incised into the pot when it was still freshly thrown, almost certainly when it was lying upside down in the workshop to dry out.”
Ou seja:
As linhas foram gravadas no vaso quando estava ainda recém-torneado, quase com certeza quando estava colocada ao avesso na oficina para secar-se”.
Em inglês, tornear na roda de oleiro, ou seja, modelar um vaso ou uma jarra de argila rodando a matéria-prima na roda de oleiro e usando as mãos diz-se “to throw”, e como indica a frase acima citada, o vaso “was still freshly thrown”.
À mente me veio uma ideia engraçada, e até meio maluca: poderiam os programas/aplicativos/sistemas de tradução automática traduzir a frase em questão? Ou pelo menos saber esse significado, a acepção específica do verbo “to throw”, um verbo tão comum e normal que os programas devem conter nas suas bases de dados? A resposta negativa chegou num ápice. Nem o Google Translate nem o DeepL – uma ferramenta potente baseada na aprendizagem de máquina e as melhores tecnologias na área da Inteligência Artificial – nenhuma conseguiu lidar com aquela maneira normal e bonita de expressar em Inglês o processo tão antigo de preparação de um vaso de uma massa de argila que é colocada para ser girada na roda de oleiro.
Os falantes do Inglês não precisam de mais detalhes de contexto como lhes foi oferecido na frase citada para saberem que o texto se refere ao significado específico do verbo “to throw”. A partir do momento em que se fala de um vaso de argila, é natural que apareça esse verbo.
Tentei seguir por outras línguas, usá-las como intermediárias e pedir a tradução da frase de outra língua ao Inglês, para ver se conseguia algum resultado. Mas nada.
A obsessão apoderou-se de mim. É a obsessão que todo amante de dicionários conhece bem. Como é que um fã de dicionários julga um novo dicionário que apanha da prateleira na livraria? O fã tem sempre um punhado de palavras que se acostuma a buscar, no que é, de fato, um pequeno teste do novo dicionário, a sua maneira de formar para si uma ideia do trabalho feito na edição, da sua atualização, da informação histórica, linguística e social lá incluída etc. Geralmente, três ou quatro palavras bastam para chegar a uma impressão inicial razoável.
Na área da tradução automática, e em tudo aquilo que tem a ver com sistemas baseados na Inteligência Artificial, que supomos que têm a tarefa de nos fornecer uma compreensão de pedaços de textos em diversas línguas, é difícil sabermos de onde é que nós temos que começar a verificar. Porque tais sistemas não costumam ser criados sistematicamente a partir de um catálogo de itens essenciais que devem ser “percebidos”. Mas com grandes quantidades de textos que foram usados como “alimento”, tal como se faz com os gansos: à força, rapidamente, e sem critérios, nem de estética nem de saúde.
A pequena frase em inglês e o fragmento do poema de Virgílio de há 2000 anos causaram que, por toda da minha leitura de inglês, nas semanas seguintes, se apoderasse de mim, realmente, uma obsessão. Quase cada frase que me aparecia incluía uma expressão, um verbo composto, uma frase que as máquinas “inteligentes” não podiam resolver.
Tentei ampliar a frase sobre o fragmento do vaso romano, tentei dar mais contexto, mas o fracasso foi total. A situação tornou-se pior ao ler um volume de relatos de Evelyn Waugh, um dos exponentes mais típicos e brilhantes da sociedade, da mentalidade e da linguagem de Inglaterra, na primeira metade do século XX. Uma frase inglesa (ou seja, no Inglês dos ingleses) como “She went up to read History” deixou as inteligências artificiais com o nariz jorrando sangue. Para quem não sabe, o significado da frase, na língua de Camões, é “Foi a Oxford para estudar História”, porque a Oxford “sobe-se” para lá estudar, e “baixa-se” ao final do curso, ou para as férias de Natal ou do verão inglês. E estudar em Oxford é sempre “ler”, numa expressão de humildade que as pessoas podem considerar falsa, mas pode também ser relacionada com uma tradição antiga, eclesiástica até, na qual a essência do estudo era sempre a leitura, especialmente em voz alta. Não é, aliás, algo que devamos desprezar nestes tempos atuais de pouco estudo verdadeiro, e ainda menos cultura.
Algo similar aconteceu com os verbos compostos, ou seja, os que são chamados de phrasal verbs, nomeadamente verbos que contêm uma preposição. E ainda pior é o que acontece quando um phrasal verb serve de base para formar uma expressão mais longa. Por exemplo, to fall out with someone significa ter uma discussão com alguém, chegando até à separação. Um inglês pode dizer, pois, que teve um falling out com um amigo. O verbo base – to fall – cria imensas riquezas léxicas, como o verbo to fall off the wagon que indica que uma pessoa alcoólatra que deixou de beber, regressa à bebida, ainda se for só um episódio isolado, um acidente. Por outro lado, o verbo to fall in pode indicar que uma pessoa encontra-se envolvida em má companhia, que participa de um grupo pouco recomendável.
Mas não temos que nos concentrar apenas em expressões difíceis de traduzir ou que requerem alguma informação pontual ou muito específica. O problema não se limita ao que esses sistemas “sabem”, a aquilo que “têm”. O que temos que criticar é a má alimentação que os sistemas recebem sistematicamente ao serem “treinados”. Principalmente, os sistemas são alimentados de quantidades enormes de textos tirados da Internet, como se a Internet fosse o compêndio mundial absoluto de toda a informação, a criação humana e a expressão da Humanidade. Cabe firmar uma posição sobre isso, que pode parecer radical a alguns: a Internet não é isso. Simplesmente, é muito fácil tomar imensos textos on-line e incorporá-los mecanicamente.
Quando o ponto de partida é o Inglês “típico” encontrado na internet, nos obrigamos a perguntar “Qual inglês? O Inglês de quem? O que representa essa língua?” É o primeiro passo na crítica essencial dos sistemas. Qualquer pessoa que tem usado o ChatGPT em mais de uma língua tem sentido imediatamente que o Inglês é a estação de partida desse trem sem trilhos nem rumo. Os sistemas partem desse Inglês sem dono e dele é que vão para as outras línguas. Além disso, é óbvio que, em muitas outras línguas, até em algumas que têm muitos falantes e grandes tradições textuais, não foi incluída matéria-prima em quantidades suficientes ou representativas. Ainda pior: o que foi alimentado aos sistemas não foi escolhido por razões que têm a ver com considerações intra-linguísticas específicas.
A língua portuguesa oferece um caso emblemático. Ao falarmos em “Português”, qual é a língua que representa o universo luso-falante? Podemos realmente pensar que o Português da Internet é a realidade toda da língua? É sério misturar sem critério nenhum os textos orais em Português Brasileiro com um ensaio literário tirado de um jornal de Timor-Leste? Ou então, Camões com comentários que analisam os resultados de um concurso de beleza em Petrópolis – só por serem textos “em Português”? O caso do Árabe é igual, ou ainda pior, pela diversidade incrível de dialetos, todos tão distantes da norma literária e culta que podem ser considerados línguas diferentes. Não menos complicado é o caso do Espanhol, onde é impensável misturar a variante de Madri com a de Bogotá. Na verdade, isso mesmo foi feito no caso de um livro de contos de Gabriel García Márquez, do início da sua carreira e antes da fama mundial, La Hojarasca. Quando o autor recebeu a encomenda com os exemplares da edição castelhana, quase desmaiou. Não conseguia reconhecer o texto nem se relacionar com os personagens, que tinham sido traduzidos e trasladados à língua de Castela, longe da sua Colômbia original. Na era do texto como matéria que é engolida por sistemas chamados de “inteligentes”, quem sabe bem mais do que uma língua fica profundamente enjoado.
O uso do Inglês da internet como a base de tudo fixa o padrão de expressão no nível da série média de Hollywood, ao que é, de fato, uma versão limitada do inglês feita para não alienar as massas no mundo e para ser compreensível às multidões de consumidores globais. Diferenças de dialeto, de geração e de registro são passadas a ferro por produtores, para garantir o lucro de empresas multinacionais. E essa é a plataforma da qual somos conduzidos às outras línguas.
Isto tudo é parte do processo geral de estupidificação do público. Os sistemas de tradução automática, a Inteligência Artificial nos aplicativos que têm elementos linguísticos, contribuem para deixar muitos de nós numa zona de informação defeituosa e parcial, numa “funcionalidade” linguística similar ao mundo dos manuaizinhos de conversa para turistas ou dos contatos entre profissionais que não têm a capacidade de sair da pequena bolha da sua profissão.
Um dos resultados é o aprofundamento da consolidação de um processo colonial: essa miserável língua chamada “Inglês” constitui a fonte e a meta, assim como a língua intermédia. As outras línguas todas são parasitas coladas às suas costas, ou são relegadas às margens, só por razões comerciais. No melhor dos casos, o culto da “inovação” e de “disruption” supõe que, “em algum momento”, as disparidades serão resolvidas e os sistemas serão alimentados de muitos materiais em outras línguas. De fato, até serão complementados materiais que poderão representar adequadamente o “conteúdo do Inglês”. Obviamente, isso será feito sem respeito nenhum aos direitos de autor, o que impediria, por exemplo, “engolir” as obras dos melhores autores ingleses de século XX (e dos medíocres e ruins, também, o que, aliás, representam também a sua cultura como parte do coletivo de criação artística).
Este é que é o material constitutivo dos sistemas mais “inteligentes”. Trata-se de uma ilusão dupla e tripla. Primeira: os sistemas aprofundam a ilusão de que temos diante de nós “o melhor”, que Google Translate ou DeepL, ou outras ferramentas, têm conseguido a meta ou, pelo menos, se aproximado dela. Segundo: a quantidade determinará o resultado desejado e, daqui a pouco, as falhas e os erros serão corrigidos, e aquilo que falta será adicionado aos sistemas para nos aproximarmos de maneira suficiente (?) da meta. Terceira: que as outras línguas são representadas junto ao Inglês de maneira igualitária e justa, de acordo com as exigências da era do Politicamente Correto, da Diversidade e da Igualdade Cultural.
No entanto, o que se está consolidando rapidamente é uma autocracia do Inglês Internético. O público é iludido a pensar que a tradução é só algo mecânico, que uma inteligência artificial pode lidar com a língua e que só precisa dos meios suficientes para conseguir isso. Mas a língua reflete o Homem, a Humanidade e a cultura na sua totalidade, um reflexo que se faz de incontáveis maneiras. Assim, as pessoas são condenadas à mediocridade gris, a comer algo sem sabor, deficiente de significado. Assuntos humanos não devem ser feitos sem que o ser humano participe integralmente de todas as fases, e ainda mais da fase do controle de resultado e de qualidade. Disto sabiam muito bem os oleiros que viviam na Córdoba romana de há 2000 anos.
Talvez precisemos voltar a gravar poesia em argila molhada antes de o vaso ser colocado no forno, nos afastarmos, pelo menos por algum tempo, das ilusões prepotentes e comercializadas que tentam nos dominar e se apoderar da nossa visão do mundo. Afastarmo-nos, sim, e nutrir a beleza da língua em mãos úmidas a roçar um vaso quentinho. Daqui a 2000 anos haverá quem leia e se emocione. Talvez até num computador.