Notícia

A Folha (São Carlos, SP)

Software vai melhorar compreensão de textos em computadores

Publicado em 18 fevereiro 2005

O Núcleo Interinstitucional de Lingüística Computacional (NILC), do Instituto de Ciências Matemáticas e de Computação (ICMC) da USP de São Carlos, desenvolveu o primeiro software brasileiro de análise discursiva de textos. O Dizer é um analisador automático para o português do Brasil que poderá ser utilizado em diversos sistemas de processamento da língua, como sumarizadores de textos e tradutores automáticos, entre outros.
Thiago Alexandre Sangueira Pardo, doutorando é Ciência da Computação e autor do projeto, explica que o programa tem ,a capacidade de detectar relações entre as sentenças orações de um texto, construindo sua estrutura discursiva, isto é, uma estrutura que indica como as partes do texto se relacionam e contribuem para o entendimento umas das outras. "Se dissermos, por exemplo, "choveu pela manhã, o chão está molhado", nós, humanos, somos capazes de reconhecer a relação de causa que existe entre as duas sentenças. Para um computador, entretanto, esta é— uma  tarefa difícil."
Para que seja possível reconhecer automaticamente este conhecimento implícito no texto, o analisador discursivo faz uso de várias técnicas, como a detecção de marcado de textuais, uso de conhecimento de mundo e de dados estatísticos. Por exemplo, na sentença 'Ele gosta de massas, mas não gosta de macarrão.', é possível detectar automaticamente uma relação de contraste entre as orações dessa sentença devido à presença do marcador 'mas'. Na ausência de marcadores textuais, como no trecho de texto 'Choveu pela manhã. O chão está molhado', pode-se fazer uso, por exemplo, do conhecimento de mundo de que chover implica molhar.

Uso acadêmico
O pesquisador informa que, no momento, o software está sendo utilizado apenas em textos acadêmicos. "Está pronto, porém ainda não o testamos em outros textos, que não os científicos", informa. Em fase de conclusão, à sistema resultante é a base da tese de doutorado do pesquisador, que ainda está em andamento. Podemos considerar que estamos ainda em fase de aprimoramento do software, pois sempre há inovações a serem testadas e adaptações a serem feitas. Mas trata-se de um produto que tem apresentado desempenho satisfatório. É um passo a mais que damos para o entendimento automático de textos."
Thiago Pardo informa que se sabe de alguns analisadores discursivos para as línguas inglesa e japonesa. "Para o português do Brasil, o DiZèr é o primeiro", afirma. O pesquisador teve sua pesquisa financiada pela FAPESP - Fundação de Amparo à Pesquisa do Estado de São Paulo, pela CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior, e pela Comissão Fulbright, sob a orientação da professora Maria das Graças Volpe Nunes, no Programa de Pós-Graduação em Ciências da Computação do ICMC da USP de São Carlos.
Mais informações:
(OXX16) 3373-9628, com Thiago Alex Salgueiro