Notícia

Agência USP de Notícias

Software faz correferência em textos de Língua Portuguesa

Publicado em 20 abril 2011

Por Valéria Dias

No Instituto de Ciências Matemáticas e de Computação (ICMC) da USP, em São Carlos, uma pesquisa de mestrado resultou em um software que realiza automaticamente a correferência em múltiplos documentos em Língua Portuguesa. O programa identifica uma mesma entidade, pessoa, lugar, evento ou conceito em um ou em vários textos. O software poderá ser aplicado em sistemas de perguntas e respostas, extração de informação, tradução automática, simplificação textual e sumarização automática.

“Trata-se do primeiro software desenvolvido no Brasil direcionado especificamente para textos em Língua Portuguesa. O outro diferencial é que o programa faz a correferência automaticamente, sem haver necessidade de treinar a máquina como ocorre em outros programas semelhantes”, explica Jefferson Fontinele da Silva, autor do trabalho.

Segundo ele, os programas já existentes foram desenvolvidos para textos em outros idiomas e necessitam de um treinamento para que o computador possa fornecer a correferência dos elementos do texto. Silva desenvolveu o projeto para sua dissertação de mestrado intitulada Resolução de correferência em múltiplos documentos utilizando aprendizado não supervisionado. O trabalho foi orientado pelo professor João Luis Garcia Rosa, do Departamento de Ciências da Computação do ICMC, e será apresentado na unidade no próximo dia 5 de maio.

Para entender o que é correferência, Silva usa como exemplo textos que citam uma mesma pessoa diversas vezes. Com o software, é possível identificar em quais momentos do texto a pessoa é citada, mesmo que ela não tenha sido citada pelo nome. Por exemplo, no caso da frase “Maria nasceu no Brasil. A professora viajou ontem para a Europa, onde pretende viajar pela França e Itália”, o software encontra os diferentes trechos de texto que se referem a Maria, como no exemplo, ”Maria” e ”A professora”. Em textos onde várias entidades são citadas, o software fornece a correferência para todas elas, separadamente.

Programa identifica a expressão "três membros da tripulação" em notícias sobre um mesmo assunto publicadas no Jornal do Brasil, Folha de S.Paulo e O Estado de S.Paulo

Contextualização
De acordo com o pesquisador, no caso de alguns buscadores na internet, a correferência é feita por meio da comparação de palavras. Já o software desenvolvido no ICMC fornece a correferência por meio das análises sintática e semântica, que é feita automaticamente. Na análise sintática, o software identifica o sujeito, o verbo e os complementos das frases. Já na semântica, o programa contextualiza as palavras. “Isso é bastante útil para aplicação do software em tradução automática, pois ajuda o computador a contextualizar o que está sendo traduzido”, aponta.

No projeto desenvolvido por Silva, foram utilizados textos jornalísticos sobre um mesmo assunto publicados em jornais como Folha de S.Paulo, O Estado de S.Paulo, Jornal de Brasília e O Globo. Esses textos foram inseridos no software manualmente. Após a análise sintática e semântica dos documentos, bem como da aplicação dos algoritmos estatísticos, o software apresenta a correlação de entidades, pessoas, lugares ou eventos, conforme o que tiver sido solicitado ao programa. “A precisão em encontrar o que foi solicitado gira em torno de 65%”, aponta o pesquisador. Segundo ele, essa precisão é comparável com a obtida em sistemas que necessitam de aprendizado.

Apesar de ainda não ter definido o tema que irá pesquisar no doutorado, uma das possibilidades é estudar a aplicação do sistema. A pesquisa teve apoio da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (Capes). “Como tivemos financiamento público, pretendemos disponibilizar o sistema como software livre”, finaliza o pesquisador. A dissertação de mestrado de Jefferson Silva está inserida no projeto Aplicação de Técnicas de Aprendizado de Máquina e Linguística Computacional para Tratamento de Textos coordenado pelo professor João Luis Garcia Rosa, com apoio da Fundação de Amparo a Pesquisa do Estado de São Paulo (Fapesp).

Mais informações: (99) 8411-8649 ou email jefferson_font@yahoo.com.br, com Jefferson Fontinele da Silva, ou (16) 3373-8170, com o professor João Luis Garcia Rosa