Agência FAPESP– Prestes a completar um ano de existência, oCentro de Inteligência Artificial(C4AI) apresenta avanços importantes em áreas como processamento de linguagem natural (PLN), saúde e meio ambiente. No período, foram desenvolvidas pesquisas relacionadas ao aprimoramento do PLN em português, além de trabalhos para a caracterização automática de acidentes vasculares cerebrais (AVCs) e uma base interativa e inteligente sobre a costa brasileira – região conhecida como “Amazônia Azul”.
O C4AI é um Centro de Pesquisa em Engenharia (CPE) constituído por FAPESP e IBM na Universidade de São Paulo (USP).
“Vivemos um momento global no qual precisamos implementar o pensamento científico em todas as camadas da sociedade. Iniciativas como a do C4AI, que aproximam entidades públicas, privadas, pesquisadores e estudantes, representam uma grande colaboração para o ecossistema de inovação e fomentam o trabalho colaborativo em pesquisas ligadas à inteligência artificial para, ao longo dos próximos anos, acelerar as descobertas e o progresso científico e impactar positivamente a vida de todos”, afirma Claudio Pinhanez, gerente de pesquisa em Inteligência Conversacional da IBM Research Brasil e vice-diretor do C4AI.
Em uma de suas frentes, o centro tem trabalhado para construir um agente de conversação que domine o conhecimento existente sobre a “Amazônia Azul”, a vasta região do oceano Atlântico na costa brasileira rica em biodiversidade e recursos energéticos. Dentro dessa iniciativa, o centro anuncia o Pirá, primeiro conjunto de dados de perguntas e respostas de grande porte em português e em inglês. Ele contém mais de 160 mil pares de perguntas e respostas em inglês sobre a costa oceânica brasileira, criadas a partir de textos científicos, além de 8 mil pares de perguntas em português. O conteúdo pretende responder às perguntas mais diversas sobre o ecossistema marinho. Espera-se que sua existência contribua substancialmente para a evolução de tecnologias de conversação, incluindo as de assistentes virtuais no Brasil.
Outro projeto tem como foco a modelagem de AVCs com técnicas de IA. Para isso, foi realizada coleta de dados de eletroencefalogramas (EEGs) com auxílio do Laboratório de Neuromodulação do Instituto de Medicina Física e Reabilitação do Hospital das Clínicas da Faculdade de Medicina da USP. A partir desses dados, foi desenvolvido um sistema inicial de classificação de AVC usando redes complexas, que utilizam técnicas de aprendizado de máquina e dados multimodais. Foram também criados um sistema para filtragem de dados usando IA e uma plataforma para manipulação, visualização e análise de EEGs.
As aplicações de aprendizado de máquina na medicina, frequentemente, precisam lidar com conjuntos de dados heterogêneos e dinâmicos de grande escala, como textos, imagens e biomarcadores genéticos. A integração dessas informações é essencial para tratar corretamente os problemas de saúde, permitindo que médicos e profissionais da área selecionem e entendam quais atributos são mais relevantes para a classificação de um AVC, fornecendo informações importantes para a tomada de decisões.
PLN em português
Para lidar com desafios relacionados à língua portuguesa, o C4AI está disponibilizando três conjuntos de dados fundamentais para o avanço do processamento computacional do idioma. Eles contêm textos de fontes diversas, minuciosamente anotados por estudantes de linguística, bem como gravações da língua portuguesa de diversas regiões do Brasil. O trabalho visa produzir e coletar dados e ferramentas que permitam um alto nível de desempenho no processamento de linguagem natural em português, assim como já existe para outros idiomas, e desenvolver soluções computacionais de suporte ao idioma, possibilitando a criação de aplicativos de última geração.
Um dos conjuntos de dados reúne textos de fontes diversas, como notícias, tuítes e comentários de consumidores. O conteúdo segue todas as normas de controle de privacidade da Lei Geral de Proteção de Dados (LGPD) e foi minuciosamente anotado, frase a frase, por dezenas de estudantes de linguística da USP.
Outro conjunto, o CORAA, contém mais de 260 horas de gravações da língua portuguesa, de diversas regiões do Brasil, provenientes de quatro conjuntos de dados preexistentes – agora auditados pelos alunos da universidade. A multidiversidade do conteúdo disponibilizado pelo CORAA oferece, por exemplo, maior diversidade regional na criação de futuros aplicativos de conversação, respeitando sotaques, culturas e costumes locais. O objetivo é chegar a 600 horas de gravação na próxima versão.
Um terceiro conjunto de dados contém informações sobre mais de 120 bilhões de palavras e termos em português, anotado por tipologia e origem, oferecendo um amplo leque de detalhes sobre a etimologia.
Em outra frente, o centro criou uma rede de pesquisadores interessados na ligação entre técnicas de IA e a cadeia de produção de alimentos, tendo em vista a importância econômica e social do agronegócio no Brasil, e uma rede de pesquisadores de vários campos das humanidades, de ciências sociais a direito, que investigam temas como a relação entre IA, educação e trabalho; a relação entre IA, ética e direito; violência, viés e impactos sociais da IA; políticas públicas e governança diante da IA.
“A missão do Centro de Inteligência Artificial é desenvolver pesquisas de ponta no Brasil, procurando buscar a melhora da vida humana por meio dos resultados dessas pesquisas, bem como fomentar o debate social sobre a tecnologia”, afirmaFábio Cozman, diretor do C4AI na Universidade de São Paulo.
Comitês em ação
Outro marco deste primeiro ano de atividades foi a entrada de 17 organizações no comitê de indústria e sociedade, o que reforça a relevância do tema para a economia do país. Dentre as entidades estão: B3, Banco do Brasil, Banco Original, BRF, Cubo Itaú, Energisa, FAPESP, Gerdau, IBM, Magalu, Motorola, Petrobras, Raízen, Vale e WEG. Esse comitê tem o objetivo de entender os desafios do setor e encontrar maneiras de divulgar e levar para a indústria novas tecnologias, avanços científicos e profissionais qualificados.
Também foi criado o comitê de diversidade e inclusão, cuja função é promover e aumentar a participação de mulheres, afrodescendentes e outros membros da sociedade, gerando uma participação mais inclusiva no setor de IA. O comitê já está em funcionamento e conta com dez membros até o momento, composto por professores e estudantes de diferentes faculdades da USP.
“O C4AI está se estabelecendo de maneira perfeitamente alinhada com os princípios do programa dos Centros de Pesquisa em Engenharia da FAPESP: centro de pesquisa de excelência internacional com trabalho forte nos eixos de inovação e difusão para a sociedade. Os frutos que já começam a ser produzidos beneficiarão o ecossistema de pesquisa e inovação em IA em São Paulo e no Brasil, como é possível perceber sobre as bases de dados e resultados de pesquisa em Processamento de Linguagem Natural, por exemplo”, afirmaRoberto Marcondes, membro da coordenação do Programa Centros de Pesquisa, Inovação e Difusão (CEPIDs), da FAPESP.
Atualmente, o C4AI conta com 41 bolsistas orientados por mais de 80 professores. Em 2022, a meta é chegar a 120 professores e 130 bolsistas. Em um ano de atividades, foram mais de 50 artigos publicados em jornais científicos, conferências médicas e de IA, além da promoção de duas séries de seminários on-line que debateram, para milhares de participantes, as perspectivas e os avanços de IA no Brasil e no mundo e fomentaram discussões sobre políticas públicas de apoio à pesquisa e inovação em IA.
Este texto foi originalmente publicado porAgência FAPESPde acordo com alicença Creative Commons CC-BY-NC-ND. Leia ooriginal aqui.