Big data não é sobre os dados, é sobre as análises, segundo o professor da Universidade de Harvard Gary King - e existem algumas análises muito ruins lá fora. Um de seus exemplos recentes diz respeito a um grande projeto de dados que começou a usar feeds do Twitter e outras mídias sociais para prever a taxa de desemprego nos EUA. Os pesquisadores elaboraram uma categoria de muitas palavras que pertenceram ao desemprego, incluindo: emprego, desemprego e classificados. Eles capturaram tweets e outras mídias sociais que continham estas palavras, em seguida, olharam para as correlações entre o número total de palavras por mês nesta categoria e a taxa de desemprego mensal. Isto é conhecido como análise de sentimentos por contagem de palavras, e é uma abordagem de análise comuns, disse King.
O dinheiro foi levantado e trabalho se arrastou por um longo tempo e de repente houve um tremendo aumento no número de tweets que continham o tipo de palavras que caíssem nesta categoria. Talvez os pesquisadores haviam deixado passar alguma coisa. "O que eles não tinham notado foi que Steve Jobs havia morrido", disse King,professor da Universidade Albert J Weatherhead III e diretor do Instituto de Ciências Sociais Quantitativa em Harvard. Claro, tweets com "Jobs" postados por uma razão completamente diferente inundaram a rede.
King, cuja pesquisa se concentra no desenvolvimento e aplicação de métodos empíricos para pesquisa em ciências sociais, disse que esses erros acontecem "o tempo todo", em análise de sentimentos pela contagem de palavras e outros programas de análise "off the shelf" . Isso porque essas abordagens tendem a confundir os seres humanos com os sistemas que respondem de maneiras completamente previsíveis. Isso é conhecido como péssimo em analytics. "Nós somos muito bons em serem humanos, mas muito ingênuos tradando-se de computadores."
O orador principal na recente Text and Social Analytics Summit 2013 em Cambridge, Massachusetts, King fez questão que,sem dúvida, muitas empresas estão descobrindo como eles devem extrair valor a partir do pronto de origem dos dados que coletam e que são gerarados minuto a minuto. (Curiosidade: O volume de e-mail produzidos a cada cinco minutos é equivalente a todos os dados digitais na Biblioteca do Congresso.) O valor real em Big Data está na qualidade das análises, que muitas vezes exige cálculos matemáticos personalizados para o propósito de seu negócio em particular, não algo genérico como um programa off-the-shelf.
"Temos tentado comoditizar os analytics e há softwares lá fora que fazem um monte destas tarefas", disse King. Mas o software comercial que automatiza a "última milha", o trecho que separa um projeto de análise de Big Data vencedor de um coadjuvante, ele acredita que é raro, se é que existe algum.
CONTAGEM DE PALAVRAS CONTRA LEITURA ASSISTIDA POR COMPUTADOR
Uma característica comum de análise ruins envolve a formação de grumos de muitas classificações individuais para responder a perguntas sobre o zeitgeist. O projeto de análise Twitter descrito acima é um exemplo. Análise de sentimentos por uma contagem de palavras categóricas funciona por pouco tempo", mas se você fizer isso por mais tempo, isso será o suficiente para ele falhar catastroficamente", disse King.
Uma maneira de evitar erros de interpretação é de ler os posts - King trabalha com leitura assistida por computador para garantir que o post é realmente sobre o assunto. Isso requer semântica ao invés de contagem de palavras simples e é muito mais difícil de fazer.
Análises Ruins não se limitam à enormemente e difícil tarefa de analisar os não estruturados feeds de mídia social. Outro projeto de Big Data que deu errado descrito por King tentou descobrir as causas de morte em partes do mundo onde não há emissão da certidão de óbito. Uma maneira de coletar esses dados é ter pesquisadores indo de casa em casa fazendo o que é chamado de "autópsia verbal". Quais eram os sintomas do falecido exibidos antes de morrer,sangramento do nariz, dores de estômago?
Isso funciona muito bem, disse ele, até que você tente ligar o relatório verbal a um diagnóstico e o que você vai encontrar não necessariamente terá a mesma causa da morte de um médico para outro. O envio de um médico para a Tanzânia para fazer a autópsia verbal parece ter ajudado, mas isso pode ser um beco sem saída também. Um médico treinado em Boston, por exemplo, sem muita experiência em doenças tropicais, talvez não pense imediatamente em malária quando houver corrimento nasal e por sua vez reportará a causa da morte erroneamente. E enviar o melhor médico na Tanzânia em campo para fazer "este pequeno estudo", disse King, pode realmente acabar matando as pessoas, privando-os de um bem escasso, ou seja, um médico. O problema fundamental é que as análises estão focadas em classificações individuais quando o real objetivo da análise é a forma como toda a população foi distribuída.
"Na saúde pública, eles não se preocupam com você, eles se preocupam com "de que todo mundo morreu", disse King. A abordagem é ineficaz em muitos campos. "Uma vez que percebemos do que precisávamos para chegar a um método diferente para estimar a porcentagem na categoria que não tinha nada a ver com a classificação de um indivíduo."
Tratando-se do Brasil, este tipo de trabalho seria ainda mais complexo, levando-se em consideração o péssimo atendimento dos Serviços Públicos de Saúde onde médicos sequer dispõem de equipamentos para efetuar diagnósticos. Os médicos brasileiros além de enfrentar problemas de infraestrutura, ainda tem que lidar com as péssimas condições de trabalho as quais tem que se submeter para atender a população, e muito ao contrário do que você está imaginando, não estamos falando de povoados na Selva Amazônica ou cidades e povoados no Sertão Nordestino, também estão incluídos bairros das principais capitais do país.
Apesar de alguns hospitais públicos já contarem com os recursos da informatização, ainda é precário a qualidade dos dados informados, quando são informados, pois não há uma forma de se certificar que aqueles dados são confiáveis devido a forma de como são registrados e sem falar dos vários casos de desvio de verbas e corrupção na área da saúde. Portanto, qualquer tipo de trabalho a ser desenvolvido envolvendo a Análise de Big Data com dados obtidos a partir destes sistemas estaria fadado ao fracasso se não houvesse todo um trabalho de seleção e validação dos dados.
Nenhum comentário:
Postar um comentário