Os dados têm valor e, se bem explorados, podem gerar benefícios políticos, sociais e econômicos. Mas, se por um lado, há uma infinidade de dados disponíveis para serem coletados e trabalhados, por outro há uma imensa demanda reprimida no Brasil por profissionais da área de computação.
A avaliação foi feita no dia 22 de abril, na Assembleia Legislativa de São Paulo (Alesp), por pesquisadores participantes do segundo evento do Ciclo de Palestras ILP-FAPESP 2019, que teve como tema big data e machine learning. O ciclo é uma parceria entre o Instituto do Legislativo Paulista (ILP) e a FAPESP.
André Carlos Ponce de Leon Ferreira de Carvalho, do Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo (ICMC-USP), comparou em sua palestra o valor do big data com o do ouro. De acordo com o pesquisador, a tonelada do metal precioso vale aproximadamente US$ 40 milhões hoje.
“Em toda a história da humanidade foram extraídas 190 mil toneladas de ouro, o que dá US$ 7,6 trilhões. Juntas, as oito principais empresas que trabalham com dados no mundo hoje – Facebook, Amazon, Apple, Microsoft, Google, Baidu, Alibaba e Tencent – valiam cerca de US$ 5 trilhões em 2018, ou seja, dois terços de tudo o que foi gerado em ouro”, disse Carvalho.
O dado apresentado pelo pesquisador da USP é semelhante ao encontrado no livro The Big Nine, lançado em março deste ano pela professora da Universidade de Nova York (Estados Unidos) Amy Weeb. A obra trata das nove grandes empresas de inteligência artificial e, além das citadas por Carvalho, inclui a IBM.
“Em 2019, o big data terá um faturamento de US$ 190 bilhões. Já a previsão para o ouro é extrair 3 mil toneladas no ano, algo em torno de US$ 120 bilhões”, disse Carvalho.
O cálculo apresentado por Carvalho revela as oportunidades que o big data e as técnicas de machine learning podem trazer para a economia e a geração de empregos.
De acordo com Claudia Bauzer Medeiros, professora do Instituto de Computação da Universidade Estadual de Campinas (Unicamp) e membro da coordenação do Programa FAPESP de eScience e Data Science, para que essas oportunidades se tornem realidade é preciso investir na qualidade dos dados gerados.
“O que mostram estudos no mundo inteiro? O big data é acima de tudo data e depois big. Se não houver muitos dados, não dá para fazer as análises necessárias. Por outro lado, se não houver qualidade nos dados, eles não servem para nada. E sabe-se que 80% do custo de pessoal e de infraestrutura está no pré-processamento que garante a qualidade necessária”, disse.
Com a profusão de informações obtidas a partir de sensores, o desafio é conseguir combinar diferentes tipos de dados – históricos, mapas, notícias de jornal e até tweets – para conseguir prever, monitorar, gerar políticas públicas ou identificar produtos de interesse dos consumidores.
“O big data está em toda parte. Em geral, corresponde a um conjunto de propriedades que começam com ‘v’: volume, velocidade e variedade [big], veracidade, visualização e valor [data]. Porém, é preciso que se invista – e muito – em qualidade para que os dados tenham valor”, disse Bauzer Medeiros.
Segundo a pesquisadora, o dado tem valor e também custo. “Custa a infraestrutura, o processamento. Quanto mais se preservar para usos futuros, mais se consegue extrair valor dos dados. Cerca de 30% do orçamento da agência espacial norte-americana (Nasa) é dedicado à preservação e backup de dados”, disse.
Não por acaso, há cerca de dois anos, a FAPESP passou a exigir de todo projeto maior de pesquisa um plano que descreva como os dados serão produzidos, armazenados e preservados. “Se o processo for feito com qualidade, os dados terão milhões de outros usos além daqueles pelos quais foram coletados”, disse.
E há também empregos nessa área. “Só entre grupos de startups de tecnologia de dados aqui em São Paulo, percebemos uma necessidade de cerca de 150 cientistas de dados”, disse Jorge Gripp, sócio da Autaza, startup instalada no Parque Tecnológico de São José dos Campos (SP) que contou com o apoio do Programa Pesquisa Inovativa em Pequenas Empresas (PIPE) da FAPESP em 2017.
Mais do que mil palavras
Uma modalidade particular do big data, que não deve ser desconsiderada, é a imagem. Só no Instagram, são 95 milhões de fotos publicadas por dia. No Youtube, são 300 horas de vídeo publicadas por minuto.
“Em captura de imagem estamos bem, mas ainda é preciso melhorar a análise dessas imagens por meio do machine learning. A ideia é usar o computador para extrair qualquer tipo de informação útil e relevante a partir dos dados”, explicou Nina Hirata, pesquisadora do Instituto de Matemática e Estatística (IME) da USP.
O Ciclo ILP-FAPESP contou com a participação de Vinicius Schurgelies, diretor-presidente do ILP, de Carlos Américo Pacheco, diretor-presidente do Conselho Técnico-Administrativo (CTA) da FAPESP, e do deputado estadual Heni Ozi Cukier (Novo-SP).
“O objetivo do Ciclo ILP-FAPESP é aproximar a Fundação do Legislativo e contribuir com informações sobre ciência, tecnologia e inovação para a formulação de políticas públicas”, disse Pacheco.