Pesquisadores da Universidade de São Paulo (USP) estão usando inteligência artificial e uma das maiores plataformas do mundo, o Twitter, para tentar criar modelos de previsão de ansiedade e depressão que, no futuro, podem apresentar sinais desses transtornos antes do quadro clínico diagnóstico.
A construção do banco de dados, denominado SetembroBR foi um primeiro passo e está descrito em um artigo Publicados na revista científica Recursos linguísticos e avaliação. O nome é uma homenagem ao movimento Setembro Amarelo – campanha anual de prevenção ao suicídio – e também porque a coleta de dados começou em setembro.
Na segunda etapa do trabalho, ainda em desenvolvimento, os cientistas conseguiram alguns resultados preliminares. Dentre eles, o que indica que é possível detectar se uma pessoa tem maior risco de desenvolver depressão com base apenas na rede social de amigos e seguidores, ou seja, sem levar em consideração as postagens feitas pelo indivíduo.
O banco de dados criado pelo grupo inclui informações relacionadas ao texto (em português) e à rede de conexões de 3.900 usuários do Twitter que, após a pesquisa, relataram diagnóstico ou tratamento de transtorno mental. O corpus (ou a coleta de informações sobre um determinado tema) inclui todos os tweets públicos escritos por esses usuários individualmente – sem retuítes –, totalizando cerca de 47 milhões desses pequenos textos.
“Inicialmente fizemos uma coleta no Linhas do tempo no trabalho artesanal, analisando textos de cerca de 19 mil usuários do Twitter, o que corresponde quase à população de uma pequena cidade. E então usamos dois conjuntos – uma parte de usuários realmente diagnosticados com transtornos mentais e uma parte aleatória, que serviu como controle. Queríamos diferenciar as pessoas com depressão da população em geral”, explica. Ivandre Paraboni professora da Escola de Artes, Ciências e Humanidades (EACH-USP) e autora correspondente do artigo.
Além dos usuários, a pesquisa coletou textos da rede de amigos e seguidores. Isso porque é comum que uma pessoa com algum tipo de transtorno mental siga determinadas contas, como fóruns de discussão ou uma celebridade que já admitiu publicamente estar deprimida. “Essas pessoas se sentem atraídas porque têm interesses em comum”, acrescenta Paraboni, pesquisador associado do Centro de Inteligência Artificial (C4AI), um Centro de Pesquisa em Engenharia (CPE) constituído pela FAPESP e IBM Brasil na USP.
A Fundação também apoia o estudo através do projeto “ Análise da linguagem em redes sociais para detecção precoce de transtornos de saúde mental ”, liderado por Paraboni.
Os transtornos de saúde mental, incluindo depressão e ansiedade, têm sido apontados pela Organização Mundial da Saúde (OMS) como uma preocupação crescente no mundo. Estimativas da agência calculam que cerca de 3,8% da população – ou 280 milhões de pessoas – são acometidas pela depressão, segundo dados a partir de 2021.
Com a pandemia da COVID-19, período em que os textos do Twitter foram coletados pelos pesquisadores, houve um aumento de 25% nas prevalência global de ansiedade e depressão.
No Brasil, um estudo recente do Ministério da Saúde envolvendo 784 mil participantes revelou que 11,3% dos brasileiros já foram diagnosticados com depressão, sendo a maioria mulheres.
Pesquisas anteriores mostraram que os transtornos mentais muitas vezes se refletem na linguagem utilizada por indivíduos que sofrem dessas condições, o que levou a um número considerável de trabalhos envolvendo o Processamento de Linguagem Natural (PNL, na sigla em inglês), com foco em depressão, ansiedade e transtorno bipolar, entre outros. No entanto, a maioria deles foi escrita em inglês, nem sempre refletindo o perfil brasileiro.
modelos
Para realizar o estudo, o grupo da USP submeteu o corpus textual para procedimentos de pré-processamento e limpeza de dados para remover hashtags, URLs, emoticons e caracteres não padronizados, mantendo o script original.
Métodos de aprendizado profundo foram usados aprendizado profundo) para criar quatro classificadores de texto e incorporações de palavras individualizadas ou dependentes do contexto usando modelos baseados em transformadores do tipo BERT (um algoritmo de aprendizado profundo). Esses modelos correspondem a uma rede neural que aprende contexto e significado monitorando relacionamentos em dados sequenciais, como palavras em uma frase.
Como entrada, foi utilizada uma amostra de 200 tweets selecionados aleatoriamente de cada usuário. Os parâmetros são definidos executando cinco vezes a validação cruzada dos dados de treinamento e calculando os resultados médios.
A pesquisa descobriu que os modelos de transformadores do tipo BERT tiveram melhor desempenho na previsão de transtornos de depressão e ansiedade. A diferença entre ela e a segunda melhor alternativa, LogReg, foi estatisticamente significativa.
Como os modelos analisam sequências de palavras ou frases inteiras, observou-se que indivíduos com depressão, por exemplo, tendem a falar sobre assuntos relacionados a si mesmos, usando expressões e verbos na primeira pessoa, e temas como morte, crise e psicólogo.
“Os indícios de depressão que aparecem no consultório não são necessariamente os mesmos da rede social. Por exemplo: percebemos, de forma muito forte, o uso na rede de pronomes na primeira pessoa, como “eu” e “mim”, que em psicologia é um clássico indicador de depressão. Mas também encontramos alta incidência entre usuários depressivos do uso do símbolo do coraçãozinho, o emoji do afeto, que talvez ainda não esteja caracterizado na psicologia”, diz Paraboni.
A professora ressalta que os textos foram coletados de forma totalmente anônima. “Não divulgamos nenhum tweet ou nome de usuário. Cuidamos para que nem os alunos envolvidos no projeto tenham acesso aos dados dos usuários para proteger a identidade das pessoas”, afirma.
Agora, além de ampliar o banco de dados, os pesquisadores trabalham para refinar a técnica computacional utilizada e aprimorar os modelos iniciais, visando, no futuro, uma ferramenta que possa ser aplicada na prática. Poderia ajudar tanto em uma possível triagem inicial de pessoas com indícios de transtornos quanto ajudar pais, familiares e amigos de jovens em risco de depressão e ansiedade.
O Brasil é o terceiro país que mais consome redes sociais no mundo, segundo pesquisa divulgada no início de março pela Comscore, atrás de Índia e Indonésia e à frente de Estados Unidos, México e Argentina.
São 131,5 milhões de usuários conectados no país por 46 horas mensais, em média, o que representa quase dois dias inteiros. As redes mais acessadas pelos brasileiros são YouTube, Facebook, Instagram, TikTok, Kwai e Twitter, que mudou recentemente suas regras, além de cobrar alguns tipos de Serviços.
O artigo SeptemberBR: um corpus de mídia social para previsão de depressão e transtorno de ansiedade pode ser lido em: https://link.springer.com/article/10.1007/s10579-022-09633-0#Ack1.