Um dos assuntos em alta nestas eleições é como as fakes news, assim chamadas as notícias falsas veiculadas principalmente pelo WhatsApp, estão influenciando o imaginário público. Nem sempre de fácil checagem, vez ou outra até o usuário mais treinado pode passar algo mentiroso para frente. Para ajudar a identificar o que é verdadeiro ou não na rede, duas grandes universidades brasileiras se uniram para produzir uma ferramenta baseada em machine learning, capaz de dizer se uma notícia é falsa.
A ferramenta foi criada pelo Instituto de Ciências Matemáticas e de Computação (ICMC) da Universidade de São Paulo (USP) em parceria com a Universidade Federal de São Carlos (Ufscar).
“A ideia é que a ferramenta seja um apoio para o usuário. Ainda estamos no início desse projeto e, no estado atual, o sistema identifica, com 90% de precisão, notícias que são totalmente verdadeiras ou totalmente falsas”, explica o professor Thiago Pardo do ICMC e coordenador do projeto. “No entanto, as pessoas que propagam fake news costumam embasar suas mentiras em fatos verdadeiros. Nossa plataforma ainda não tem a capacidade de separar as informações com esse nível de refinamento, mas estamos trabalhando para isso”, completa.
O usuário pode acessar a ferramenta de duas formas: pelo seu navegador, ou pelo próprio WhatsApp.
Navegador
O primeiro modo é mais simples:
Acesse o link para o checador;
Insira o texto que você quer checar e clique em “enviar”;
O resultado aparece logo abaixo.
A checagem pelo WhatsApp é feita por um bot (robô digital) que analisa as informações. Para ter acesso a ele:
Entre, pelo smartphone, no link para o checador do WhatsApp (diferente do de navegador);
Nesta tela, clique em “enviar”;
Caso você queira fazer uma nova consulta, basta reiniciar o bot enviando apenas a palavra "Fake" antes de encaminhar um novo link ou texto.
Como é feita a checagem?
A verificação de notícia verdadeira ou falsa não passa pela checagem humana, exatamente para não gerar um viés. Para isso, o grupo usou técnicas de machine learning para “ensinar” o bot a diferenciar os dois tipos de informação.
Em um primeiro momento, o grupo construiu um banco de dados com a mesma quantidade de notícias falsas e verdadeiras, 3,6 mil de cada, totalizando 7,2 mil exemplares entre entre janeiro de 2016 e janeiro de 2018. “Esses textos foram coletados manualmente e analisados para garantir que apenas os que fossem totalmente falsos ou totalmente verdadeiros compusessem o conjunto”, informa o ICMC. Tal banco de dados está disponível para consulta no site do Instituto.
As notícias são primordialmente sobre política (58% do total), mas envolvem outras áreas como celebridades e TV, ciência e tecnologia e até religião.
Em seguida, o sistema foi treinado para checar os parâmetros de gramática e outras nuances de escrita para diferenciar as notícias falsas das verdadeiras. "A gente sabe que, quando uma pessoa está mentindo, inconscientemente, isso afeta a produção do texto. Mudam as palavras que ela usa e as estruturas do texto. Além disso, a pessoa costuma ser mais assertiva e emotiva. Então, uma das formas de detectar textos enganosos é medir essas características”, explica o professor.
Com isso, o grupo passou a avaliar variações como tamanho do texto, riqueza do vocabulário, número de cada classe gramatical (verbo, adjetivo, advérbio) e erros ortográficos. A conclusão a que o grupo chegou é de que, em grande parte, o maior diferencial entre verdadeiro ou falso são as palavras escritas erradas. “Das 3,6 mil notícias falsas que coletamos, 36% possuíam algum erro ortográfico, enquanto apenas 3% das verdadeiras apresentavam esse problema”, explica o doutorando Roney Lira, do ICMC.
Com estes dados em mãos, foi possível, então, treinar de fato o sistema para chegar a um nível de acerto de 90%.
Agora, o grupo busca avançar no tipo de análise, passando a entender imagens, vídeos e áudios que possam ser fictícios, mas divulgados como se fossem reais. O projeto é financiado pelo Programa Institucional de Bolsas de Iniciação Científica (PIBIC) do CNPq e por outras duas agências de fomento brasileiras (CAPES e FAPESP).
A pesquisa completa está disponível em formato acadêmico no site também do ICMC.