As máquinas estão cada vez melhores em entender a complexidade da linguagem humana. Cada vez que alguém treina um modelo, estamos um passo mais perto de integrar nossas máquinas com mais eficiência em nossas vidas. Acontece que a maioria dos modelos e dos conjuntos de dados usados para treiná-los estão em inglês. Treinar um modelo em português, por exemplo, tem desafiado os cientistas de dados. Os conjuntos de dados existentes são, em sua maioria, proprietários e os poucos abertos, listados no fórum do AI Lab, versam sobre domínios específicoss como saúde e gestão do pessoal e projetos.
Foi tentando resolver esse problema que, no seu primeiro ano, completados este mês, o Centro de Inteligência Artificial (C4AI), parceria entre IBM, USP e Fapesp, investiu na construção de três conjuntos de dados a partir de pesquisas concentradas tanto na modalidade escrita, quanto falada do português.
Um deles, batizado de Carolina é composto pelo maior conjunto de dados sintáticos disponível no Brasil, contendo notícias, blogs, tuites, textos jurídicos, teses, interações e comentários de consumidores publicados na internet, e por aí vai, sempre que tornados públicos. Os dados seguem todas as normas de controle de privacidade da LGPD. O outro, chamado CORAA, contém mais de 600 horas de gravações da língua portuguesa, de diversas regiões do Brasil, provenientes de quatro conjunto de dados pré-existentes, mas agora auditadas pelos alunos da universidade. A multidiversidade do conteúdo disponibilizado oferece, por exemplo, maior diversidade regional na criação de futuros aplicativos de conversação, respeitando sotaques, culturas e costumes locais. O objetivo é chegar a 1200 horas de gravações na próxima versão. E o terceiro, o feto Carolina,contém informações sobre mais de 120 bilhões de palavras e termos em português, que estão sendo anotados e etiquetados por tipologia e origem, oferecendo um amplo leque de detalhes sobre sintaxe, semântica, morfologia.
“Vemos essas iniciativas como estruturantes para o mercado, uma vez que os data sets poderão ser usados livremente tanto por acadêmicos quanto por empresas”, comenta Claudio Pinhanez, gerente de pesquisa em Inteligência Conversacional do IBM Research Brasil e vice-diretor do C4AI.
A expectativa é de que os três conjuntos possibilitem, entre outras coisas, o desenvolvimento de aplicativos de IA de última geração, com a capacidade de compreender melhor a linguagem, como são as ferramentas de transcrição de áudio, tradução de texto e correção gramatical, construção de agentes de interativos por voz e até sistemas capazes de, pela acústica da fala, identificar compromentimentos típicos da infecção por Covid. Algumas ferramentas criadas pelo centro para uso dos pesquisadores também estarão disponíveis em open source.
O fato de os textos do Carolina serem de diferentes tipos e fontes dá ao Carolina uma amplitude de utilização muito grande, segundo o professor Marcelo Finger, coordenador deste trabalho. “Seria muito importante para nós, agora, termos doações de arquivos de áudio, de fala, para aumentar a diversidade. Nós, da IBM, vamos iniciar um trabalho com o Museu Catavento para coletar vozes de crianças, que são raríssima nos conjuntos disponíveis hoje na indústria, sempre anonimizadas e com a autorização dos pais”, explica Pinhanez. “No instante que a gente tiver 5 mil horas de áudios transcritos, e isso for para uso público, veremos um salto enorme nas aplicações, como já contece hoje em inglês e na chinês”.
Um marco deste primeiro ano de atividades do Centro de IA foi a entrada de 17 grandes empresas no comitê de indústria e sociedade, o que reforça a relevância do tema para a economia do País, dentre elas: B3, Banco do Brasil, Banco Original, BRF, Cubo Itaú, Energisa, FAPESP, Gerdau, IBM, Magalu, Motorola, Petrobras, Raízen, Vale e WEG, entre outras. Este comitê tem o objetivo de entender os desafios do setor e encontrar maneiras de divulgar e levar para a indústria novas tecnologias, avanços científicos e profissionais qualificados, desenvolvidas no C4AI.
E o processamento de linguagem natutal é uma das áreas de interesse crescente. Para ilustrar, em julho o professor Thiago Pardo, da USP, ofereceru um curso gratuito de Python para Processamento de Linguagem Natural com 10 mil vagas. Em poucos dias teve mais de 13 mil inscritos.
A idieia do comitê de indústria é ter reuinões semestrais que aproximem mais o centro do setor produtivo. “Torcemos para que outras empresas se interessem em estar mais próximas, parapaarcerias que possaam beneficiar ass duas pontaas, a aacademia e o setor privado ou governamental”, comenta Pinhanez.