Notícia

O Serrano online

USP desenvolve sistemas que simplificam textos na web

Publicado em 12 outubro 2009

Duas ferramentas computacionais criadas no Instituto de Ciências Matemáticas e Computação (ICMC) da Universidade de São Paulo (USP) poderão facilitar o acesso à informação de pessoas com alfabetização deficiente ou com problemas de cognição. São produtos do projeto PorSimples, que objetiva o desenvolvimento de tecnologias para a simplificação automática de textos.

"Trata-se de um projeto de cunho social", define a coordenadora da iniciativa, professora Sandra Maria Aluísio. A motivação para a criação, segundo ela, veio justamente disso. A chamada de Propostas de Pesquisa do Instituto Microsoft Research-Fapesp de Pesquisas em TI, em 2007, na qual o projeto foi selecionado, tinha como foco soluções para o alto índice de analfabetos funcionais - indivíduos que identificam letras e palavras, mas têm dificuldade para utilizá-las e compreender textos.

"Ainda há muito conteúdo textual inacessível a um grande público no Brasil", afirma a pesquisadora. Dados do IBGE de 2008 apontam 10% de analfabetos e 21% de analfabetos funcionais. Há ainda pessoas com problemas de leitura devido a fatores físicos, como derrame cerebral, dislexia e Alzheimer, entre outros. O ponto de partida do projeto foi a experiência do grupo de professores da USP na criação de recursos para processamento de textos, como o revisor gramatical do Word, e em estudos sobre acessibilidade na Web, especificamente para criação e avaliação de tecnologias assistivas para cegos e idosos.

O trabalho é desenvolvido por 15 alunos (pesquisadores de iniciação científica, de mestrado, doutorado e pós-doutorado), a maioria com atuação em Processamento de Línguas Naturais (PLN) no Núcleo Interinstitucional de Linguística Computacional (Nilc) da unidade. Conta também com a contribuição de estudiosos de várias áreas - de psicolinguística, de letras e de estatística, por exemplo.

Segundo a coordenadora, características como sentenças longas, com vários níveis de subordinação, cláusulas embutidas (relativas) e na voz passiva são algumas das que geram dificuldade de entendimento de texto a pessoas com disfunções ou alfabetização ineficiente. Esses itens subsidiaram a elaboração dos dois sistemas, destinados a públicos diferentes. Um deles é chamado Facilita e visa a simplificar a linguagem dos textos prontos para leitura. O outro é um editor, o Simplifica, destinado a produtores de conteúdo, também com a função de tornar a linguagem escrita mais fácil de ser entendida.

O PorSimples reúne vários métodos de adaptações textuais, como a sumarização automática (que resume o conteúdo), a simplificação, que requer a troca de termos menos usuais pelos mais frequentes, a divisão de orações longas e complexas em várias menores e o uso da sintaxe na sua forma mais direta. Já a elaboração adiciona informação a um texto para tornar um conceito e/ou uma ideia implícita mais claros. Foram escolhidos parâmetros para as três formas de adaptação textual. Uma sumarização, por exemplo, pode reduzir em 30% ou 50% o texto original. As simplificações também funcionam em dois níveis: forte e natural, de acordo com a dificuldade do público-alvo.

O primeiro para os que são capazes de localizar informações explícitas em textos curtos. E o segundo para os que conseguem lidar com textos um pouco maiores e realizar pequenas inferências. Já os processos de parametrização das elaborações estão em desenvolvimento. "Os alunos de mestrado e pós-doutorado, responsáveis por esta parte, iniciaram seu trabalho, respectivamente, em abril e agosto", diz a coordenadora. Mas já estão prontos os protótipos dos sistemas, atualmente em testes. As ferramentas devem ser concluídas em abril do ano que vem. A ideia é que sejam usadas livremente por meio de programas de navegação na internet.