Pesquisadores do Instituto de Ciências Matemáticas de São Carlos da Universidade de São Paulo (USP) desenvolveram um algoritmo que, segundo os experimentos, consegue detectar uma notícia falsa com 96% de precisão.
A ferramenta, que funcionará no site www.fakenewsbr.com, será calibrada e passará por novos testes ao longo dos próximos meses, especialmente durante a pandemia de covid e as eleições marcadas para outubro de 2022.
O estatístico Francisco Louzada, um dos coordenadores do projeto, diz que a proposta é trazer uma análise objetiva, feita por meio de inteligência artificial, à avaliação subjetiva que os seres humanos fazem quando avaliam a veracidade de um texto jornalístico.
“Nós colocamos os modelos para analisar mais de 100 mil notícias publicadas nos últimos cinco anos. Depois, confrontamos a plataforma com uma base de textos com informações falsas ou verdadeiras”, continua.
“Na base analisada, o índice de precisão está em torno de 96%”, informa Louzada.
Finalizados os primeiros testes, a plataforma precisará passar por constantes atualizações e melhorias, até porque as notícias falsas se adaptam e mudam com o passar do tempo, antevê o especialista.
Em busca de respostas para problemas reais
Louzada explica que a ideia de criar o algoritmo que identifica as notícias falsas surgiu no Programa de Mestrado Profissional em Matemática, Estatística e Computação Aplicadas à Indústria da USP de São Carlos.
“Temos alunos que estão trabalhando no mercado e trazem problemas reais, que podem ser solucionados durante o mestrado”, detalha.
“Após uma reunião sobre quais problemas iríamos atacar, escolhemos fazer uma investigação sobre as fake news e, a partir daí, gerar um produto que pudesse ajudar as pessoas”, diz o especialista.
Como mencionado mais acima, a plataforma reúne uma série de modelos matemáticos que, por meio da inteligência artificial e do aprendizado de máquinas (machine learning, em inglês) determinam a probabilidade de uma notícia ser falsa ou verdadeira.
“Os modelos analisaram mais de 100 mil textos para encontrar padrões de vocabulários, construção de frases e sintaxe que são comumente utilizadas em fake news”, informa Louzada.
Depois de “aprender” a estrutura típica das notícias falsas, o algoritmo passou por uma nova fase: a análise direta de um banco de dados de textos classificados de acordo com a veracidade (ou não) das informações.
E foi justamente nessa segunda etapa de testes que os pesquisadores observaram que a plataforma conseguiu identificar as fake news com 96% de precisão.
Louzada pondera que essa taxa de 96% corresponde apenas à base de dados avaliada nesse estudo experimental, e é possível que o número varie num cenário mais amplo e fora do ambiente controlado de pesquisa.
Um trabalho que nunca termina
O grupo da USP de São Carlos também tem em mente que, para continuar funcionando, o algoritmo precisa passar por diversas atualizações com o passar do tempo.
“O processo de modelagem matemática é crescente e necessita de incrementos a todo momento”, aponta Louzada, que classifica essa constante batalha como “uma corrida de gato e rato”.
“Precisamos expor a plataforma a novos vocabulários e construções de frases, até porque as fake news se adaptam de acordo com as novas barreiras que são impostas”, conta.
O estatístico informa que a equipe que cuida do algoritmo está aumentando e eles planejam transferir os dados para um servidor de internet mais seguro, que consiga resistir aos ataques hackers.
“E precisamos ter um cuidado redobrado, pois nada garante que o modelo seja usado pelos próprios criadores de notícias falsas, para ver se os conteúdos que eles criaram passam no nosso crivo ou não”, complementa.
Como unir o melhor dos dois mundos
Louzada também acredita que plataformas informatizadas que distinguem o que é verdadeiro ou falso não vêm para substituir as agências de checagem, que contam com profissionais capazes de investigar as origens de cada notícia.
“Imagino que o futuro terá uma estrutura de interação entre homens e máquinas”, aposta.
“Assim, conseguimos unir o melhor dos dois mundos: a objetividade da inteligência artificial com a subjetividade e a ponderação do ser humano”, diz.
“Eu diria que ainda estamos numa etapa exploratória, até porque o conjunto de dados que distinguem notícias falsas e verdadeiras ainda é muito limitado”, avalia.
O pesquisador, que também coordena o projeto Eleições Sem Fake, uma das iniciativas de enfrentamento da desinformação criadas pelo Tribunal Superior Eleitoral (TSE), conta que ainda é muito difícil saber se um algoritmo testado para um assunto — as eleições, por exemplo — também vai funcionar para outro tópico completamente diferente.
“Me parece que ainda há um longo caminho para que essas soluções estejam disponíveis e sejam implementadas na prática”, acredita.
Benevenuto defende que existem outros caminhos que podem ser explorados, que vão muito além de analisar a veracidade de cada notícia individualmente.
“Você pode levar em conta a localização geográfica daquele domínio ou quanto tempo um determinado site está registrado e existe na internet”, exemplifica.
“Também é necessário distinguir o que é uma notícia de fato do que é apenas um texto de opinião ou um meme”, continua o cientista da computação.
“Muitas vezes, a desinformação não está num texto, mas numa imagem alterada digitalmente ou numa corrente difundida por WhatsApp ou Telegram”, completa.
Apesar de todas as limitações, Louzada entende que a plataforma pode servir como uma “ferramenta a mais” para a população ficar bem informada e separar o joio do trigo.
“Os modelos estatísticos trazem uma probabilidade de aquela notícia ser verdadeira ou falsa, o que pode ser ponderado com o trabalho feito pelas agências de verificação de fatos, que vão atrás da origem daquelas informações e buscam a opinião de especialistas no tema”, diz.
“Imagino que encontraremos o caminho mais adequado para combater as fake news no meio desses dois esforços que se complementam”, reforça.