Pesquisadores do Instituto de Ciências Matemáticas de São Carlos da Universidade de São Paulo (USP) desenvolveram um algoritmo que, segundo os experimentos, consegue detectar uma notícia falsa com 96% de precisão.
A ferramenta, que funcionará no web page www.fakenewsbr.com, será calibrada e passará por novos testes ao longo dos próximos meses, especialmente durante a pandemia de covid e as eleições marcadas para outubro de 2022.
Americanas perdeu mais R$ 1,5 bilhão em valor de mercado no 3º dia com websites fora do ar
Americanas, Submarino e Shoptime fora do ar: o que se sabe sobre a indisponibilidade das lojas on-line
O estatístico Francisco Louzada, um dos coordenadores do projeto, diz que a proposta é trazer uma análise objetiva, feita por meio de inteligência synthetic, à avaliação subjetiva que os seres humanos fazem quando avaliam a veracidade de um texto jornalístico.
“Nós aliamos diversos modelos matemáticos que são capazes de identificar se uma notícia corresponde à realidade dos fatos ou não”, explica o pesquisador, que também é diretor de transferência tecnológica do Centro de Ciências Matemáticas Aplicadas à Indústria (Cepi-Cemeai), que reúne diversas instituições e conta com apoio da Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP).
“Nós colocamos os modelos para analisar mais de 100 mil notícias publicadas nos últimos cinco anos. Depois, confrontamos a plataforma com uma base de textos com informações falsas ou verdadeiras”, continua.
“Na base analisada, o índice de precisão está em torno de 96%”, informa Louzada.
Finalizados os primeiros testes, a plataforma precisará passar por constantes atualizações e melhorias, até porque as notícias falsas se adaptam e mudam com o passar do pace, antevê o especialista.
Em busca de respostas para problemas reais
Louzada explica que a ideia de criar o algoritmo que identifica as notícias falsas surgiu no Programa de Mestrado Profissional em Matemática, Estatística e Computação Aplicadas à Indústria da USP de São Carlos.
“Temos alunos que estão trabalhando no mercado e trazem problemas reais, que podem ser solucionados durante o mestrado”, detalha.
“Após uma reunião sobre quais problemas iríamos atacar, escolhemos fazer uma investigação sobre as pretend information e, a partir daí, gerar um produto que pudesse ajudar as pessoas”, diz o especialista.
Como mencionado mais acima, a plataforma reúne uma série de modelos matemáticos que, por meio da inteligência synthetic e do aprendizado de máquinas (device finding out, em inglês) determinam a probabilidade de uma notícia ser falsa ou verdadeira.
“Os modelos analisaram mais de 100 mil textos para encontrar padrões de vocabulários, construção de frases e sintaxe que são comumente utilizadas em pretend information”, informa Louzada.
Depois de “aprender” a estrutura típica das notícias falsas, o algoritmo passou por uma nova fase: a análise direta de um banco de dados de textos classificados de acordo com a veracidade (ou não) das informações.
E foi justamente nessa segunda etapa de testes que os pesquisadores observaram que a plataforma conseguiu identificar as pretend information com 96% de precisão.
Louzada pondera que essa taxa de 96% corresponde apenas à base de dados avaliada nesse estudo experimental, e é possível que o número varie num cenário mais amplo e fora do ambiente controlado de pesquisa.
Um trabalho que nunca termina
O grupo da USP de São Carlos também tem em mente que, para continuar funcionando, o algoritmo precisa passar por diversas atualizações com o passar do pace.
“O processo de modelagem matemática é crescente e necessita de incrementos a todo momento”, aponta Louzada, que classifica essa constante batalha como “uma corrida de gato e rato”.
“Precisamos expor a plataforma a novos vocabulários e construções de frases, até porque as pretend information se adaptam de acordo com as novas barreiras que são impostas”, conta.
O estatístico informa que a equipe que cuida do algoritmo está aumentando e eles planejam transferir os dados para um servidor de web mais seguro, que consiga resistir aos ataques hackers.
“E precisamos ter um cuidado redobrado, pois nada garante que o modelo seja usado pelos próprios criadores de notícias falsas, para ver se os conteúdos que eles criaram passam no nosso crivo ou não”, complementa.
Como unir o melhor dos dois mundos
Louzada também acredita que plataformas informatizadas que distinguem o que é verdadeiro ou falso não vêm para substituir as agências de checagem, que contam com profissionais capazes de investigar as origens de cada notícia.
“Imagino que o futuro terá uma estrutura de interação entre homens e máquinas”, aposta.
“Assim, conseguimos unir o melhor dos dois mundos: a objetividade da inteligência synthetic com a subjetividade e a ponderação do ser humano”, diz.
O estatístico também aponta outra limitação da plataforma: por ora, só é possível inserir o texto completo publicado num web page, e não há a possibilidade de analisar postagens de redes sociais ou grupos de mensagens, como o WhatsApp ou o Telegram.
Um longo caminho pela frente
O cientista da computação Fabrício Benevenuto, da Universidade Federal de Minas Gerais (UFMG), que não esteve envolvido diretamente com o trabalho da USP de São Carlos, entende que essa área de pesquisas ainda está numa fase bem inicial.
“Ecu diria que ainda estamos numa etapa exploratória, até porque o conjunto de dados que distinguem notícias falsas e verdadeiras ainda é muito limitado”, avalia.
O pesquisador, que também coordena o projeto Eleições Sem Faux, uma das iniciativas de enfrentamento da desinformação criadas pelo Tribunal Awesome Eleitoral (TSE), conta que ainda é muito difícil saber se um algoritmo testado para um assunto — as eleições, por exemplo — também vai funcionar para outro tópico completamente diferente.
“Me parece que ainda há um longo caminho para que essas soluções estejam disponíveis e sejam implementadas na prática”, acredita.
Benevenuto defende que existem outros caminhos que podem ser explorados, que vão muito além de analisar a veracidade de cada notícia individualmente.
“Você pode levar em conta a localização geográfica daquele domínio ou quanto pace um determinado web page está registrado e existe na web”, exemplifica.
“Também é necessário distinguir o que é uma notícia de fato do que é apenas um texto de opinião ou um meme”, continua o cientista da computação.
“Muitas vezes, a desinformação não está num texto, mas numa imagem alterada digitalmente ou numa corrente difundida por WhatsApp ou Telegram”, completa.
Apesar de todas as limitações, Louzada entende que a plataforma pode servir como uma “ferramenta a mais” para a população ficar bem informada e separar o joio do trigo.
“Os modelos estatísticos trazem uma probabilidade de aquela notícia ser verdadeira ou falsa, o que pode ser ponderado com o trabalho feito pelas agências de verificação de fatos, que vão atrás da origem daquelas informações e buscam a opinião de especialistas no tema”, diz.