Notícia

A Cidade (Ribeirão Preto)

ICMC cria software brasileiro para análise de textos

Publicado em 19 fevereiro 2005

O NILC (Núcleo Interinstitucional de Lingüística Computacional), do ICMC (Instituto de Ciências Matemáticas e de Computação) da USP de São Carlos, desenvolveu o primeiro software brasileiro de análise discursiva de textos. O DiZer é um analisador automático para o português do Brasil que poderá ser utilizado em diversos sistemas de processamento da língua, como sumarizadores de textos e tradutores automáticos, entre outros.
Thiago Alexandre Salgueiro Pardo, doutorando em Ciência da Computação e autor do projeto, explica que o programa tem a capacidade de detectar relações entre as sentenças/orações de um texto, construindo sua estrutura discursiva, isto é, uma estrutura que indica como as partes do texto se relacionam e contribuem para o entendimento umas das outras.
"Se dissermos, por exemplo, 'Choveu pela manhã. O chão está molhado', nós, humanos, somos capazes de reconhecer a relação de causa que existe entre as duas sentenças. Para um computador, entretanto, esta é uma tarefa difícil."
Para que seja possível reconhecer automaticamente este conhecimento implícito no texto, o analisador discursivo faz uso de várias técnicas, como a detecção de marcadores textuais, uso de conhecimento de mundo e de dados estatísticos. Por exemplo, na sentença 'Ele gosta de massas, mas não gosta de macarrão.', é possível detectar automaticamente uma relação de contraste entre as orações dessa sentença devido à presença do marcador 'mas'.
Na ausência de marcadores textuais, como no trecho de texto 'Choveu pela manhã. O chão está molhado', pode-se fazer uso, por exemplo, do conhecimento de mundo de que chover implica molhar.

Uso acadêmico
O pesquisador informa que, no momento, o software está sendo utilizado apenas em textos acadêmicos. "Está pronto, porém ainda não o testamos em outros textos, que não os científicos", informa.
Em fase de conclusão, o sistema resultante é a base da tese de doutorado do pesquisador, que ainda está em andamento. "Podemos considerar que estamos ainda em fase de aprimoramento do software, pois sempre há inovações a serem testadas e adaptações a serem feitas. Mas trata-se de um produto que tem apresentado desempenho satisfatório. É um passo a mais que damos para o entendimento automático de textos."
Thiago Pardo informa que se sabe de alguns analisadores discursivos para as línguas inglesa e japonesa. "Para o português do Brasil, o DiZer é o primeiro", afirma. O pesquisador teve sua pesquisa financiada pela FAPESP - Fundação de Amparo à Pesquisa do Estado de São Paulo, pela CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior, e pela Comissão Fulbright, sob a orientação da professora Maria das Graças Volpe Nunes, no Programa de Pós-Graduação em Ciências da Computação do ICMC da USP de São Carlos.
Mais informações podem ser obtidas com Thiago Alexandre Salgueiro Pardo através do telefone (16) 3373-9628 ou pelo e-mail: thiago@nilc.icmc.usp.br.