Lançado em novembro de 2022 pela startup OpenIA, o ChatGPT é uma tecnologia de modelagem de língua baseada em algoritmos de redes neurais artificiais profundas – modelos que tentam simular o comportamento do cérebro humano, com unidades de processamento interconectadas em várias camadas, da mesma forma que os neurônios se conectam por sinapses para aprendermos algo.
O aprendizado por essas redes neurais foi facilitado e impulsionado nos últimos anos com o surgimento de uma técnica de processamento de linguagem natural chamada word embeddings, que permite representar numericamente as palavras, explica à Agência FAPESPThiago Alexandre Salgueiro Pardo, professor do ICMC-USP e um dos pesquisadores principais do Centro de Inteligência Artificial (C4AI).
O C4AI é um Centro de Pesquisa em Engenharia (CPE) constituído pela FAPESP e a IBM na Universidade de São Paulo (USP).
“As redes neurais gostam de trabalhar com números. Se dermos uma palavra simbólica, escrita por extenso, elas não sabem muito bem o que fazer com isso. Mas se a palavra for transformada em número elas conseguem processar isso muito bem. E ao transformar palavras em números é possível realizar operações matemáticas sobre elas”, diz Pardo.
“Isso causou uma revolução. Todos os sistemas de processamento de linguagem natural melhoraram por causa da representação numérica de texto”, complementa o pesquisador.
Outra revolução recente no campo do processamento de linguagem natural foi o desenvolvimento de um novo tipo de rede neural artificial, os chamados grandes modelos de linguagem (LLM).
Treinados em conjuntos de dados muito grandes, da ordem de bilhões de textos, esses modelos são capazes de deduzir a palavra que falta para completar uma determinada sentença.
Um dos grandes modelos de linguagem que revolucionaram a área foi o Bert, lançado em 2018 pelo Google, baseado na representação numérica de um texto para prever as próximas palavras que estão faltando com base no trecho anterior. Já no final de 2020, a OpenIA lançou o GPT-3, que gera texto a partir de representações numéricas, dando origem aos chamados modelos generativos.
“Como um modelo generativo, o ChatGPT, que é, de fato, um sistema muito inovador, pode gerar informações corretas ou erradas, porque não tem um filtro”, pondera Fábio Cozman, professor da Escola Politécnica da USP e diretor do C4AI.
Além de produzir informações incorretas e desatualizadas, uma vez que a base de dados usada para treiná-lo vai até 2021, o ChatGPT também pode produzir e contribuir para difundir conteúdos danosos e inapropriados, estimular o plágio e outras infrações éticas, aponta Fernando Santos Osório, professor do ICMC-USP e membro do comitê gestor do C4AI.
“O ChatGPT é uma ótima ferramenta do ponto de vista linguístico, mas peca muito em relação a sistemas de representação de conhecimento e apresenta alguns problemas muito sérios que têm de ser discutidos”, avalia Osório.
“O Google também pode fornecer informações incorretas, perigosas e desatualizadas, mas aponta quais as fontes, a reputação delas e permite que o usuário possa avaliá-las e fazer fact-checking. O ChatGPT não”, compara.
Processamento de linguagem natural em português
A fim de possibilitar o treinamento de modelos de linguagem semelhantes ao GPT-3 e elevar o nível de desempenho no processamento computacional de linguagem natural em português do Brasil, os pesquisadores vinculados ao C4AI desenvolveram e disponibilizaram nos últimos dois anos grandes conjuntos de dados.
Os datasets contêm textos de fontes diversas, minuciosamente anotados por estudantes de linguística, bem como gravações da língua portuguesa de diversas regiões do Brasil.
Um dos conjuntos de dados, batizado de CORAA, contém mais de 260 horas de gravações de falas transcritas em língua portuguesa, de diversas regiões do Brasil, provenientes de quatro conjuntos de dados preexistentes – agora auditados pelos alunos da universidade. A multidiversidade do conteúdo disponibilizado pelo CORAA oferece, por exemplo, maior diversidade regional na criação de futuros aplicativos de conversação, respeitando sotaques, culturas e costumes locais. O objetivo é chegar a 600 horas de gravação na próxima versão.
Um segundo conjunto de dados, nomeado Carolina, contém informações sobre mais de 600 milhões de palavras e termos em português, anotados por tipologia e origem, oferecendo um amplo leque de detalhes sobre a etimologia para o treinamento de grandes modelos de processamento de linguagem natural.
“Esses conjuntos de dados em português são públicos e estão disponíveis para qualquer interessado, como universidades, empresas e startups”, disse Claudio Pinhanez, gerente de pesquisa em Inteligência Conversacional da IBM Research Brasil e vice-diretor do C4AI, em um evento realizado em fevereiro no Inovabra, em São Paulo.
“Ninguém vai investir em processamento de linguagem natural em português se não for o Brasil. Temos de ter o mesmo tipo de infraestrutura em inteligência artificial existente em países como os Estados Unidos e a China para podermos fazer processamento de fala, jurídico e de notícias em português, entre outras diversas aplicações”, afirmou.
Os pesquisadores do Centro iniciaram em 2022 um projeto voltado a empregar técnicas ultramodernas de inteligência artificial para auxiliar no processamento de línguas indígenas.
“Estamos estabelecendo agora parcerias com algumas comunidades indígenas em São Paulo, principalmente da etnia guarani, que é a língua indígena mais falada na região. Mas pretendemos futuramente expandir para outras etnias da Amazônia”, disse Pinhanez.