Na atual era de fake news tem sido cada vez mais desafiador distinguir notícias falsas ou falsificadas das reais. Uma plataforma web criada por pesquisadores ligados ao Centro de Ciências Matemáticas Aplicadas à Indústria (CeMEAI) pode facilitar essa tarefa. Por meio de uma combinação de modelos estatísticos e técnicas de aprendizado de máquina, a plataforma é capaz de predizer a probabilidade de um texto ser fake. Resultados preliminares indicaram que o sistema foi capaz de detectar notícias falsas com 96% de precisão.
“A ideia da plataforma é oferecer à sociedade uma ferramenta adicional para identificar de forma não somente subjetiva se uma notícia é ou não falsa”, diz Francisco Louzada Neto, diretor de transferência tecnológica do CeMEAI e coordenador do projeto.
Sediado no Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo (ICMC-USP), em São Carlos, o CeMEAI é um dos Centros de Pesquisa, Inovação e Difusão (CEPIDs) financiados pela FAPESP.
Ao receber um texto, que deve conter a notícia completa, o sistema aplica métodos estatísticos para avaliar características de escrita, como palavras usadas ou classes gramaticais mais frequentes.
Essas características são utilizadas por um classificador baseado em um modelo de aprendizado de máquina que é capaz de distinguir padrões de linguagem, vocabulário e semântica de notícias falsas e de verdadeiras e, dessa forma, inferir automaticamente se um texto submetido à plataforma é ou não uma fake news.
“As fake news apresentam padrões na redação do texto, uso e frequência de palavras que podem ser identificáveis pelo classificador”, afirma Louzada.
Para treinar os modelos foi usado um banco de dados construído por pesquisadores da USP, composto por uma grande quantidade de notícias verdadeiras e falsas escritas em português. Além disso, os modelos foram expostos ao vocabulário usado em mais de 100 mil notícias publicadas nos últimos cinco anos.
A base de notícias serviu de entrada para os modelos estatísticos computacionais empregados na plataforma buscarem automaticamente padrões na redação do texto, como o uso e a frequência das palavras. “Precisamos sempre atualizar e dar mais subsídios para os modelos usados pela plataforma, de modo a melhorar a acurácia e aumentar a capacidade de predição de fake news”, avalia Louzada.
Os pesquisadores pretendem usar as fake news que circularão nas eleições brasileiras deste ano e as relacionadas à pandemia de Covid-19 para calibrar os modelos.
“O combate às fake news é uma corrida de gato e rato porque, ao mesmo tempo que tem surgido plataformas como a que desenvolvemos para detectá-las, os métodos para produzir essas notícias falsas também têm sido aprimorados”, avalia Louzada.
Uma das preocupações é que o sistema também possa ser usado por criadores de fake news para avaliar o potencial de uma notícia falsa passar por verdadeira antes de ser difundida. “Esse é um risco com o qual teremos que lidar”, conclui.
(Com informações da Agência Fapesp)