Mostrando postagens com marcador Analytics. Mostrar todas as postagens
Mostrando postagens com marcador Analytics. Mostrar todas as postagens

quinta-feira, 4 de dezembro de 2014

8 fortes tendências para Big Data Analytics

Como acontece com qualquer nova tecnologia, as soluções para Big Data Analytics começaram a apresentar sinais de amadurecimento, e isto se reflete numa oferta de mais e melhores opções para analisar os dados das empresas aliando desempenho, usabilidade e segurança. Analiso a seguir as 8 tendências apontadas pelo CIO.

Como acontece com qualquer nova tecnologia, as soluções para Big Data Analytics começaram a apresentar sinais de amadurecimento, e isto se reflete numa oferta de mais e melhores opções para analisar os dados das empresas aliando desempenho, usabilidade e segurança.
Analiso a seguir as 8 tendências apontadas pelo CIO.

1 – Big Data Analytics na nuvem
Embora desenvolvido inicialmente para funcionar com clusters de máquinas físicas, o Hadoop evoluiu, e muitos provedores oferecem opções para processamento de dados na nuvem, a exemplo de Amazon (Redshift e Kinesis), Google (Big Query) e IBM (Bluemix).
Há alguma controvérsia sobre os custos de utilizar soluções na nuvem para processar volumes muito grandes de dados (petabytes e acima), mas acredito num ajuste do mercado para que as ofertas de soluções na nuvem sejam atrativas mesmo para cenários mais “agressivos” de análise de dados.
Quando se trata de volumes menores de dados, a nuvem é a melhor opção, pois processar 1 TB de dados pode custar a partir de 25 dólares. Nada mal hein ?

2 – Hadoop, o sistema operacional corporativo para dados
O Hadoop atualmente suporta alternativas ao Map/Reduce, e as versões mais recentes oferecem mais recursos para escalabilidade, desempenho e segurança, além de facilidades que estão tornando cada vez mais simples utilizar as ferramentas, transformando o Hadoop no S.O. para dados “de fato”, o que deve se refletir numa adoção mais acelerada de agora em diante.
Integração com SQL, dados em memória, processamento de streamming, grafos e muitos outros tipos de processamentos de dados já são suportados, tornando a solução genérica o suficiente para ser útil aos mais diversos segmentos de mercado.

3 – Big Data Lakes
Comecei a ver este termo citado com mais frequência na mídia, significando que há um movimento de utilizar o Hadoop como “repositório gigante de dados”, ou seja, as empresas podem simplesmente “despejar” seus dados neste repositório, e construir gradativamente os esquemas necessários para acesso aos dados disponíveis.
Por um lado, isso reduz a necessidade de todo um trabalho prévio de modelagem antes de ser possível analisar os dados. Por outro, exige mais conhecimento para construir esquemas para acesso aos dados à medida que se tornam necessários, sob demanda, num processo incremental.

4 – Mais Análises Preditivas
Com as tecnologias para Big Data, a possibilidade de analisar mais dados implica também na possibilidade de analisar mais atributos, variáveis, metadados e registros, permitindo otimizar as amostras utilizadas em análises estatísticas e aumentando a capacidade de fazer previsões a partir dos dados.

O fato de não ter restrições de poder computacional faz uma diferença muito grande, segundo especialistas, permitindo formular os problemas de maneiras diferentes e viabilizando análises que antes eram impossíveis.

5 – SQL integrado ao Hadoop
As ferramentas que permitem o suporte à linguagem SQL com Hadoop estão evoluindo muito rapidamente, como todo o ecossistema Big Data, tanto em quantidade quanto qualidade, especialmente desempenho.
Isto é importante porque representa a possibilidade de utilizar uma linguagem que o mercado já conhece, mas dentro de um novo contexto, com novas possibilidades, o que simplifica o uso das novas soluções baseadas em Hadoop, reduzindo o investimento necessário em treinamento, por exemplo.
Embora o Hive continue evoluindo, especialista apontam que alternativas desenvolvidas pela Cloudera, Pivotal, IBM e outros fornecedores oferecem melhor desempenho, facilitando a análise interativa.

6 – Mais e melhores opções NoSQL


NoSQL não é nenhuma novidade pra quem acompanha o blog. Especialistas estimam entre 15 e 20 soluções Open Source NoSQL populares, cada uma com sua especialidade.
Soluções baseadas em grafos que facilitam a análise de redes de relacionamentos, ou especializadas em tratar fluxos de dados (streamming) de sensores ou redes sociais como Twitter, estão sendo integradas ao ecossistema Hadoop.


7 – Deep Learning
A combinação de técnicas de aprendizado de máquina conhecida como Deep Learning e que se baseia em redes neurais está evoluindo, e especialistas apontam grande potencial para a solução de problemas relacionados a negócios.
Identificar relações entre dados, ou destacar aqueles mais relevantes dentre um grande volume de informações são algumas das possibilidades que a técnica oferece, sem a necessidade de modelos especializados ou instruções através de códigos e programação.
Um exemplo muito interessante envolveu a aplicação de um algoritmo de Deep Learning para examinar dados da Wikipedia, tendo como resultado o aprendizado “por conta própria” de que Califórnia e Texas são estados dos EUA.

8 – Analytics em memória
O uso de bancos de dados em memória é cada vez maior, como demonstra a popularidade de soluções como Qlikview e Tableau, pois estas soluções, se usadas da maneira correta, podem trazer muitos benefícios às empresas através do chamado Hybrid Transaction/Analytical Processing (HTAP).
Mas tem gente usando errado, especialistas advertem. Estas soluções não são a melhor opção para lidar com dados que não mudam com frequência ou que não precisam ser analisados de muitas formas diferentes em tempo real. Nesse caso, é um desperdício de dinheiro.
O Spark é uma solução muito promissora que fornece a possibilidade de manipular grandes volumes de dados usando técnicas de armazenamento em memória de maneira análoga ao que o Map/Reduce faz em disco, e assim oferecendo uma alternativa às soluções tradicionais de bancos de dados em memória.

Conclusão
Do que tenho acompanhado, vejo claramente que (nunca antes na história deste planeta :) uma tecnologia foi tão rapidamente assimilada pelo mercado como estas relacionadas ao Big Data.
A evolução das ferramentas e o crescimento do ecossistema Hadoop ocorre na velocidade da luz, trazendo cada vez mais facilidades para uso da tecnologia pelas empresas.
Por isso, entendo que o recado é muito claro: a hora de começar a aprender, experimentar e adotar a tecnologia é agora, pois em breve o Hadoop vai virar commodity, e a vantagem competitiva para o profissional de TI que busque uma carreira nesta área desaparecerá.
Do ponto de vista das organizações, entendo que é hora de planejar iniciativas para 2015 que contemplem a utilização da tecnologia, e sugiro começar utilizando soluções mais simples de implementar, seja através de uma máquina virtual da Cloudera ou com o serviço EMR da Amazon.
Website: http://nitrotv.w.pw

Fonte : http://portal.comunique-se.com.br

quinta-feira, 23 de janeiro de 2014

EMPRESAS GASTAM MAIS TEMPO PARA ORGANIZAR DADOS DO QUE ANALISÁ-LOS PARA NEGÓCIOS

Estudo indica que apenas 10% do tempo é dedicado para utilização desses dados em prol dos negócios. Muitos esforços ainda são destinados para estruturar dados em formas possível de serem analisados
As empresas estão presas em um mundo obscuro lotado de dados e devem continuar por lá por mais alguns anos. É o que sugere o professor de marketing da Baylor University’s Hankamer School of Business, Jeff Tanner, responsável por um estudo que traz um diagnóstico sobre esse cenário.

O foco do especialista é ajudar extrair maior valor de vendas a partir de dados transacionais de consumidores, algo que ele avalia que tem se tornado cada vez mais comum à medida que novas fontes de dados emergem, como social media. As companhias estão em busca de dados que podem ser utilizados para criar retratos individuais mais completos de seus cliente para a customização de ações de marketing.

O estudo, contudo, indica que a maioria ainda está lutando para estruturar seus dados em formas possíveis de serem analisados. Uma pesquisa feita com varejistas e empresas de bens de consumo embalados nos Estados Unidos mostra que as companhias gastam cerca de 70% a 90% de seu tempo organizando dados para que sejam analisados. Isso significa que cerca de 10% do tempo é dedicado, de fato, à utilização desses dados para ajudar os negócios.

As empresas ainda não são capazes de enxergar o que está contido em seus dados. Segundo o pesquisador, o caminho é aprender a criar mensagens mais assertivas que condizem com o perfil de compra de seus clientes e seus interesses. O desafio a ser superado, de acordo com ele, irá conduzir ao que ele chama de “quebra de informação”, em que as companhias irão terceirizar seus dados para outras analisarem. Ele acredita que a comercialização de dados de consumidores se tornará menos comum. “Estamos caminhando para o limite de capacidade em análise, armazenamento e preparação”, afirma Tanner.

Então o que vale a pena em relação aos dados? A resposta indica para o que pode levar sua empresa mais próximo de uma transação valiosa.  Note que isso não significa o quão mais próximo é possível chegar do consumidor. Dados baseados em localização por si só não têm valor. “Sempre ouço dos fornecedores que isso vai permitir dar descontos e blá blá blá. Mas se eu souber que você está numa rua próxima à minha loja e lhe enviar uma notificação com um desconto de um dólar em um produto, isso é um desconto estúpido”, diz.

Para Tanner, o que as empresas precisam é recolher melhores informações de seus dados. Assim, é preciso saber se esse consumidor que está nessa rua costuma frequentar a minha loja e, em caso afirmativo, o que essa pessoa tem hábito de comprar e quando? Além disso, esses dados devem ser aplicados nas vendas desses produtos para promover uma cadeia de suprimento mais eficiente.

Fonte: Information Week

quarta-feira, 15 de janeiro de 2014

O PROBLEMA DA CIÊNCIA DOS DADOS

Muitas organizações se afundam em dividas com os investimentos de TI em vez de tirar um tempo para analisar seu Big Data. O primeiro passo é ver se você pode reunir os dados em que reside o problema que às vezes isso pode ser uma enorme quantidade de dados." Estas peças de medição podem incluir, por exemplo, todos os logs de rede em uma variedade de sistemas; dados sobre as aplicações dos empregados comportamento de quando eles estão entrando no prédio, o que eles estão acessando bancos de dados e o que eles estão introduzindo no meio ambiente?

As organizações precisam se concentrar em padrões de comportamento através da coleta de dados das máquinas, aplicações e pegadas digitais das pessoas que mostram como eles se comportam nas suas tarefas diariamente. "Você tem que ser capaz de olhar para uma ampla e não-estruturada gama de dados a partir de um período de seis meses, pelo menos, para detectar os tipos de mudanças de comportamento". Isso significa terabytes ou mesmo petabytes de dados a ser capaz de observar padrões ou anomalias.

O segundo obstáculo, especialmente se for de dados não estruturados, é ter as pessoas, sejam elas internas ou externas, que são realmente qualificados para fazer a análise estatística e as análises que lhe permite obter a resposta "reais", essencialmente, aqueles sinais que são indicativos de um evento particular. Hipoteticamente, isso significa que alguém que pudesse olhar para todos os dados e determinar: se alguém está acessando esse tipo de informação a esta hora do dia através de um determinado site, vamos acompanhar isso como algum tipo de intenção maliciosa. "Você precisa saber o que as pessoas estão acessando"

Em terceiro lugar, você precisa de alguma maneira de apresentar essa informação para a diretoria, seja ele em forma de um relatório físico ou de alguma outra forma: 

Muitas empresas têm problemas em duas áreas: "O que estamos descobrindo é que a maioria das organizações não possuem habilidades para coletar os dados, especialmente os dados não estruturados, em grande parte porque ele faz abrangem várias línguas". A segunda questão envolve encontrar pessoas que realmente possam fazer as análises. Há uma quantidade justa de competição e as empresas estão lutando para encontrar profissionais com um grau avançado em análises no mundo inteiro.

Para colocar o big data analytics em uso, as organizações têm de usar observações coletivas, experiência e análise lógica para identificar padrões nos dados. "A análise preditiva consiste em você aplicar a análise estatística e modelagem na sua observação" e depois ver se algo que você vê no presente ou do passado vai ser tendência no futuro com base nessas observações e com base em um modelo estatístico.O conhecimento de como será feita a analise  e o tipo de modelo estatístico que você deseja executar é sua, e ninguém mais tem que decidir isso".

Os fãs do filme "Minority Report", pode aplaudir o modelo de policiamento preditivo que está surgindo em algumas das principais áreas metropolitanas, como Los Angeles. Ele combina a análise estatística avançada baseada em dados de crimes anteriores, visualização, aprendizado da máquina e inteligência artificial para prever quando e onde eventos ocorrerão o que possibilita ações pró-ativas para impedi-los e poupar recursos. Grande parte da pesquisa sobre "PredPol" está sendo feito na Universidade da Califórnia (UCLA).
PredPol Traz Big Data para a aplicação da lei, com US $ 1,3 milhões

No entanto, a maioria das organizações e indústrias estão sozinhas quando se trata de modelagem estatística e análise de Big Data. "Não há nada 'enlatado', pronto que você pode comprar e que irá magicamente analisar sua segurança do Big Data". "Todas as implementações de análise que estão em  uso são uma plataforma "Feito em Casa". Há vendedores que tentarão vender  uma implementação personalizado do Hadoop, mas não há vendedores que irão construir sua análise para você.

Kate Crawford
A propensão para falsos positivos e más interpretações apresenta seus próprios riscos. Kate Crawford, um dos principais pesquisadores da Microsoft Research, alertou sobre preconceitos escondidos com relação a  big data analytics  e ofereceu vários exemplos. Ela chama o problema de "fundamentalismo de dados", ou "a noção de que a correlação sempre indica causalidade e que os grandes conjuntos de dados e análise preditiva sempre refletem a verdade objetiva".

Além da implementação da tecnologia, outra questão que muitas empresas enfrentam é as que possuem as análises que podem vir a uma combinação de talentos altamente qualificados. "Alguns esforços bem-sucedidos tinham a combinação de propriedades do sistema feita por equipes de segurança e de fraude", "A equipe de segurança teria que investir em pessoas com incomum, e muitas vezes caro, de habilidades, tais como estatísticas. Claro, eles podem puxar um estatístico de outro projeto da empresa, que seria muito útil também. No entanto, este especialista em estatística tem de ser acompanhado por alguém que conheça o assunto sobre a segurança ".

As escolas de negócios estão começando a introduzir mais cursos de Big Data Analytics, liderados em parte por programas de empresas como a Cloudera.
Cloudera Desktop
Mesmo assim, não há realmente uma maneira de atender a demanda por talentos altamente qualificados nos próximos anos."O impulso nos últimos dois anos tem sido em torno de infraestrutura e outros recursos que lhe permitem organizar os dados e um monte de empresas estão começando a aceitar que o problema é que a infra-estrutura não tem realmente capacidade analítica.

Se você realmente quer fazer isso em uma escala maior, que é o que todo mundo tem que fazer, você tem que ter ferramentas , então você tem que descobrir, como posso colocar esta ferramenta em um ambiente a ser usado para que um conjunto de cientistas de dados não precise estar com os usuários da empresa para resolver esse problema a cada momento. É realmente essa mudança que vai desbloquear um monte de recursos ". Agora, as empresas terão que tentar fazê-lo por si só? Sim, mas não esqueçam que o numero de talentos não cresce rápido o suficiente, e isso é verdade nos governos também.

BIG DATA ANALYTICS - NOVOS PADRÕES EMERGEM PARA A SEGURANÇA

Os bombas detonadas durante a maratona de Boston oferecem um lembrete austero das falhas de Análise do Big Data e de Segurança, notoriamente as agências de inteligência foram incapazes de ligar os pontos antes e depois dos ataques 15 de abril.
A falta de compartilhamento de informações entre as organizações e unidades de negócios, ou a consciência de que um determinado conjunto de dados ainda existe, é um problema comum. Análises de Big Data podem ajudar a resolver este dilema, de acordo com seus proponentes, e fornecer dados de inteligência que detecta padrões suspeitos e ameaças potenciais, expandindo a definição de dados de segurança para todas as partes do negócio.
Segurança orientada a inteligência alimentada por análises de Big Data vai atrapalhar vários segmentos de produtos nos próximos dois anos, de acordo com executivos da RSA, a divisão de segurança da EMC. "Com a difusão de Big Data cobrindo tudo o que fazemos", disse Arthur Coviello, Jr., vice-presidente da EMC e presidente executivo da divisão de segurança RSA , durante sua palestra RSA, em fevereiro, "a nossa superfície de ataque está prestes a ser alterada e expandir , e os nossos riscos ampliados de forma que não poderíamos ter imaginado. "
Arthur Coviello, Jr., vice-presidente da EMC e
Presidente Executivo da Divisão de Segurança RSA
Como as organizações e funcionários cada vez mais operando em ambientes móveis, web e mídia social, aproveitando-se de informações identificadas por análises ou padrões através de uma ampla variedade de conjuntos de dados, incluindo texto não estruturado e binário de áudio de dados, imagens e vídeo podem oferecer informações valiosas sobre negócios riscos muito além de TI.
Mas, mesmo com o uso de modelagem estatística avançada e análise preditiva, as ameaças à segurança de origens desconhecidas ainda podem passar despercebidas. Será que o Big Data  e análises de alto desempenho realmente podem fazer segurança melhor? Talvez, mas hoje o uso significativo de tecnologias de Big Data em grandes volumes de dados de segurança é rara e extremamente desafiador, de acordo com Anton Chuvakin, diretor de segurança e gestão de risco, o Gartner, brincou com a pesquisa: "As organizações que usam análise preditiva tradicionais para a segurança ? Você quer dizer "os dois? '"
O Gartner define "big data", baseado nos 3Vs (Volume, Variedade e Velocidade). 
Anton Chuvakin
"As organizações que realmente investiram tempo (muitas vezes anos) e recursos (muitas vezes milhões de dólares) na construção de sua própria plataforma para big data analytics têm encontrado valor", disse Chuvakin. "Normalmente, esse valor se manifesta através de uma melhor detecção de fraudes, detecção de incidentes de segurança mais ampla e profunda tornando a investigação de incidentes mais eficaz."
Uma dessas empresas é a Visa, a gigante  em processamento de cartão de crédito. A empresa fez um respingo no início deste ano, quando se divulgou no The Wall Street Journal que ele estava usando um novo mecanismo de análise e 16 modelos diferentes, que pode ser atualizado em menos de uma hora, para detectar a fraude de cartão de crédito. Steve Rosenbush do The Journal blogged sobre as melhorias por trás do mecanismo de análise de alto desempenho, que de acordo com a Visa, ela monitora e acompanha até 500 aspectos de uma transação, em comparação com a tecnologia anterior, que só poderia lidar com 40. As capacidades de análises poderosas são possíveis em parte pela adoção da tecnologia de banco de dados não-relacional em 2010 e pelo framework open source software Apache Hadoop, que é projetado para o armazenamento de baixo custo e cálculo de dados distribuídos através de clusters de servidores de commodities da Visa.

A CORRIDA PARA GRANDES ANÁLISES 

Apesar de toda a polêmica sobre o Hadoop, que utiliza o modelo de programação MapReduce (derivado da tecnologia do Google) para "mapear" e "reduzir" de dados, juntamente com um sistema de arquivos distribuídos (HDFS) com built-in de automação para falhas e redundância,o uso de Hadoop é rara em grandes e médias empresas. As ferramentas para acessar o armazenamento do Hadoop e capacidades computacionais são ainda imperceptíveis, sem  interfaces, com ferramentas complexas para os cientistas de dados ou acesso programático para programadores qualificados com conhecimento de MapR Hive para consultas SQL-like ou Pig para alto nível de fluxo de dados.

Isso pode mudar em breve, no entanto, como os fornecedores de tecnologia de todas as empresas de infra-estrutura de todos os lados e grandes empresas de software prestadores de serviço na tentativa de fornecer grandes ferramentas de análise de dados (Big Data Analytics Tools)para usuários corporativos. A Cloudera, oferece uma distribuição para Hadoop (CDH) e a SAS anunciou uma parceria estratégica para integrar SAS High Performance Analytics e SAS Analytics Visual entre outras ferramentas no final de abril. Infobright, Greenplum da EMC e MapR estão se movendo para o espaço empresarial com análises e ferramentas de visualização que permitem aos analistas corporativos trabalhar com grandes conjuntos de dados e desenvolvimento de processos analíticos, em alguns casos usando sandboxing e virtualização.
"Esse tipo de análise vendo sendo necessária ha muito tempo e apenas agora as tecnologias que podem realmente realizar esse tipo de análise em grandes escalas será disponibilizada ", disse Mark Seward, diretor sênior de segurança e conformidade em Splunk. Informações de segurança das empresas e gerenciamento de eventos de tecnologia (SIEM) já é utilizado por cerca de 2.000 empresas para analisar os dados da máquina, o que inclui todos os dados de sistemas, a "Internet das coisas" e os dispositivos conectados.

Qualquer texto ACSII podem ser indexados pelo Splunk, que por sua vez pode usar até 150 comandos sobre os dados de retorno definidos para realizar a análise estatística e disponibilizar visualizações. De acordo com Seward, o Splunk pode ser escalado para petabytes de dados. Ele não lida nativamente com dados binários mas o Hadoop e outros conversores estão disponíveis. Para usar o Splunk, os profissionais de segurança de TI essencialmente precisam entender e conhecer comandos shell script Unix, SQL e ter acesso à documentação sobre o tipo de campos que têm nos dados.

O que é o Splunk?

Splunk é uma ferramenta de pesquisa e analise de logs de TI. É um software que permite que você indexe, pesquise, alerte e informe em tempo real e permite que você visualize históricos de dados de TI – dando uma maior visualização em toda a sua infra-estrutura de TI de uma localidade em tempo real. Reduza o tempo para solucionar problemas de TI e incidentes de segurança para minutos ou segundos ao invés de horas ou dias. Monitore toda sua infra-estrutura de TI para evitar degradação do serviço e tempo de inatividade. Relatórios sobre todos os controles de sua conformidade a um custo menor e em uma fração do tempo. O download do Splunk gratuito.

Splunk indexa qualquer tipo de dado de TI de qualquer fonte em tempo real. Aponte seus servidores syslog ou dispositivos de rede para o Splunk, configure sondagens de WMI, monitore arquivos de log em tempo real, permitir a monitoração das alterações em seu sistema de arquivos ou o registro no Windows, ou até mesmo agendar um script para pegar as métricas do sistema. Splunk indexa todos os seus dados de TI sem precisar de nenhum analisador especifico ou adaptadores para compra, escrever ou manter. Tanto os dados primários e o rico índice são armazenados em um eficiente, compacto, armazenamento de dados baseado em arquivos com assinatura de dados opcionais e auditoria da integridade de dados.

"Com o advento do Hadoop e tecnologias de indexação como Splunk, agora as tecnologias estão disponíveis para dar uma olhada com mais detalhes em torno de dados gerados por máquina e os dados gerados por usuários para entender o que está acontecendo dentro de uma organização, ou o que está acontecendo dentro de uma linha de produção, por exemplo ", disse Seward. Quando você pensa sobre o risco em toda a organização, você não está apenas pensando em segurança, no sentido tradicional, mas você também está pensando sobre o que as pessoas fazem no dia-a-dia em todos os dados ou o máximo que puder obter. o que seria um risco para o seu negócio particular. "Eu talvez precise olhar para os dados de aquecimento e ventilação para entender se alguém entrou na fábrica e alterou a temperatura de alguns graus, o que poderia colocar em risco toda a produção de um produto", disse ele.

"BIG DATA X PÉSSIMAS ANÁLISES", O DESAFIO A SER VENCIDO

Big data não é sobre os dados, é sobre as análises, segundo o professor da Universidade de Harvard Gary King - e existem algumas análises muito ruins lá fora. Um de seus exemplos recentes diz respeito a um grande projeto de dados que começou a usar feeds do Twitter e outras mídias sociais para prever a taxa de desemprego nos EUA. Os pesquisadores elaboraram uma categoria de muitas palavras que pertenceram ao desemprego, incluindo: emprego, desemprego e classificados. Eles capturaram tweets e outras mídias sociais que continham estas palavras, em seguida, olharam para as correlações entre o número total de palavras por mês nesta categoria e a taxa de desemprego mensal. Isto é conhecido como análise de sentimentos por contagem de palavras, e é uma abordagem de análise comuns, disse King.
O dinheiro foi levantado e trabalho se arrastou por um longo tempo e de repente houve um tremendo aumento no número de tweets que continham o tipo de palavras que caíssem nesta categoria. Talvez os pesquisadores haviam deixado passar alguma coisa. "O que eles não tinham notado foi que Steve Jobs havia morrido", disse King,professor da Universidade Albert J Weatherhead III e diretor do Instituto de Ciências Sociais Quantitativa em Harvard. Claro, tweets com "Jobs" postados por uma razão completamente diferente inundaram a rede.
King, cuja pesquisa se ​​concentra no desenvolvimento e aplicação de métodos empíricos para pesquisa em ciências sociais, disse que esses erros acontecem "o tempo todo", em análise de sentimentos pela contagem de palavras e outros programas de análise "off the shelf" . Isso porque essas abordagens tendem a confundir os seres humanos com os sistemas que respondem de maneiras completamente previsíveis. Isso é conhecido  como péssimo em analytics. "Nós somos muito bons em serem humanos, mas muito ingênuos tradando-se de computadores."
O orador principal na recente Text and Social Analytics Summit 2013 em Cambridge, Massachusetts, King fez questão que,sem dúvida, muitas empresas estão descobrindo como eles devem extrair valor a partir do pronto de origem dos dados que coletam e que são gerarados minuto a minuto. (Curiosidade: O volume de e-mail produzidos a cada cinco minutos é equivalente a todos os dados digitais na Biblioteca do Congresso.) O valor real em Big Data está na qualidade das análises, que muitas vezes exige cálculos matemáticos personalizados para o propósito de seu negócio em particular, não algo genérico como um programa off-the-shelf.
"Temos tentado comoditizar os analytics e há softwares lá fora que fazem um monte destas tarefas", disse King. Mas o software comercial que automatiza a "última milha", o trecho que separa um projeto de análise de Big Data vencedor de um coadjuvante, ele acredita que é raro, se é que existe algum.

CONTAGEM DE PALAVRAS CONTRA LEITURA ASSISTIDA POR COMPUTADOR

Uma característica comum de análise ruins envolve a formação de grumos de muitas classificações individuais para responder a perguntas sobre o zeitgeist. O projeto de análise Twitter descrito acima é um exemplo. Análise de sentimentos por uma contagem de palavras categóricas funciona por pouco tempo", mas se você fizer isso por mais tempo, isso será o suficiente para ele falhar catastroficamente", disse King.

Uma maneira de evitar erros de interpretação é de ler os posts - King trabalha com leitura assistida por computador para garantir que o post é realmente sobre o assunto. Isso requer semântica ao invés de contagem de palavras simples e é muito mais difícil de fazer.

Análises Ruins não se limitam à enormemente e difícil tarefa de analisar os não estruturados feeds de mídia social. Outro projeto de Big Data que deu errado descrito por King tentou descobrir as causas de morte em partes do mundo onde não há emissão da certidão de óbito. Uma maneira de coletar esses dados é ter pesquisadores indo de casa em casa fazendo o que é chamado de "autópsia verbal". Quais eram os sintomas do falecido exibidos antes de morrer,sangramento do nariz, dores de estômago?

Isso funciona muito bem, disse ele, até que você tente ligar o relatório verbal a um diagnóstico e o que você vai encontrar não necessariamente terá a mesma causa da morte de um médico para outro. O envio de um médico para a Tanzânia para fazer a autópsia verbal parece ter ajudado, mas isso pode ser um beco sem saída também. Um médico treinado em Boston, por exemplo, sem muita experiência em doenças tropicais, talvez não pense imediatamente em malária quando houver corrimento nasal e por sua vez reportará a causa da morte erroneamente. E enviar o melhor médico na Tanzânia em campo para fazer "este pequeno estudo", disse King, pode realmente acabar matando as pessoas, privando-os de um bem escasso, ou seja, um médico. O problema fundamental é que as análises estão focadas em classificações individuais quando o real objetivo da análise é a forma como toda a população foi distribuída.

"Na saúde pública, eles não se preocupam com você, eles se preocupam com "de que todo mundo morreu", disse King. A abordagem é ineficaz em muitos campos. "Uma vez que percebemos do que precisávamos para chegar a um método diferente para estimar a porcentagem na categoria que não tinha nada a ver com a classificação de um indivíduo."

Tratando-se do Brasil, este tipo de trabalho seria ainda mais complexo, levando-se em consideração o péssimo atendimento dos Serviços Públicos de Saúde onde médicos sequer dispõem de equipamentos para efetuar diagnósticos. Os médicos brasileiros além de enfrentar problemas de infraestrutura, ainda tem que lidar com as péssimas condições de trabalho as quais tem que se submeter para atender a população, e muito ao contrário do que você está imaginando, não estamos falando de povoados na Selva Amazônica ou cidades e povoados no Sertão Nordestino, também estão incluídos bairros das principais capitais do país.
Apesar de alguns hospitais públicos já contarem com os recursos da informatização, ainda é precário a qualidade dos dados informados, quando são informados, pois não há uma forma de se certificar que aqueles dados são confiáveis devido a forma de como são registrados e sem falar dos vários casos de desvio de verbas e corrupção na área da saúde. Portanto, qualquer tipo de trabalho a ser desenvolvido envolvendo a Análise de Big Data com dados obtidos a partir destes sistemas estaria fadado ao fracasso se não houvesse todo um trabalho de seleção e validação dos dados.

FERRAMENTAS DE ANÁLISE "IN-MEMORY" PODEM IMPULSIONAR O BIG DATA

Até agora, muitas empresas decidiram que big data não é apenas um chavão, mas um novo fato da vida empresarial - que exige ter estratégias em prática para o gerenciamento de grandes volumes de dados estruturados e não estruturados. E com a realidade de big data vem o desafio de analisá-lo de uma forma que traz o valor de negócio real. Negócios e de TI líderes que começaram por abordar grandes questões de gerenciamento de dados estão agora olhando para usar grandes análise de dados para identificar tendências, detectar padrões e recolher outros dados valiosos do mar de informações disponíveis para eles.
Pode ser tentador para sair comprando grandes promessas em termos de Softwares de Análise de dados, pensando que terá todas as resposta para as necessidades de negócios da sua empresa. Mas as grandes tecnologias de análise de dados por si só não são suficientes para lidar com a tarefa. Processos e pessoas analíticas bem planejadas com o talento e as habilidades necessárias para alavancar as tecnologias são essenciais para levar a cabo uma iniciativa eficaz de grandes análises de dados. Comprar ferramentas adicionais para ir além das aplicações de inteligência de negócios e análise existentes de uma organização pode até não ser necessário, dependendo objetivos de negócios de um determinado projeto.

No esforço contínuo por empresas para burlar o valor do negócio tangível de aglomerações de big data, as ferramentas de analise in-memory oferecem um caminho possível para desvendar insights que podem desencadear melhorias operacionais e apontar o caminho para novas oportunidades de receita.
Ao contrário do software de BI que executa consultas em relação aos dados armazenados em discos rígidos do servidor, a tecnologia in-memory consulta informações carregadas na memória RAM, o que pode acelerar significativamente o desempenho analítico, reduzindo ou até mesmo eliminando probelas de I/O em disco responsável pelo estrangulamento do business intelligence convencional. Consultores e usuários experientes dizem que o aumento da velocidade resultante é particularmente atraente para grandes aplicações de análise de dados que envolvem complexos cenários hipotéticos e grandes quantidades de informação a partir de uma variedade de fontes de dados.

"O maior benefício para a análise in-memory é a velocidade de análise e exploração", disse Cindi Howson, fundadora do BI Scorecard, uma empresa de pesquisa e consultoria em Sparta, NJ, que publica avaliações técnicas de ferramentas de BI e Analytics. A latência de dados que muitas vezes descamba para consulta BI tradicional "interrompe todo o processo de pensamento" para usuários de negócios, disse Howson. Ela citou flexibilidade analítica como outra análise em memória como um plus: "Com as ferramentas na memória, os usuários podem fazer perguntas de negócios que nunca poderia fazer antes, porque a tecnologia era muito lenta." 

Esse é o caso da Cheezburger Inc. O operador de sites de humor com sede em Seattle r, que atraem um total de 500 milhões de page views por mês é obter bons resultados com uma iniciativa nas análises de Big Data In-Memory, de acordo com Loren Bast, que foi diretor de BI do Cheezburger até deixar a empresa em abril.

Mergulho profundo em muitos dados

Inicialmente, a Cheezburger tropeçou na tentativa de acompanhar e analisar os dados sobre o seu tráfego on-line em um esforço para discernir padrões de comportamento do usuário. "Nós mergulhamos fundo na piscina do big data, e nós estávamos certos de fazê-lo grande, simplesmente não fazendo a coisa certa," afirmou Bast , enquanto ele ainda estava na empresa. Apenas 10% dos dados capturados acabou sendo relevantes para o programa de análise e limpos o suficiente para serem dignos de confiança, acrescentou.

A equipes de BI se reagruparam, voltando-se para o QlikView, software in-memory analytics da Qlik Technologies Inc. 's, para uso contra os conjuntos de dados específicos armazenados no Hadoop e outros repositórios. Bast disse que o sistema in-memory deu aos usuários de negócios da Cheezburger muito mais flexibilidade para a criação de consultas em tempo real e juntando informações de diferentes fontes de dados para obter respostas às suas perguntas de negócios.

"Sem in-memory, era realmente tedioso para construir relatórios, especialmente dinâmica, relatórios personalizados", disse ele. "Agora podemos resolver com uma comunicação precisa e muito mais rápido do que costumava fazer." Isso permite que aos usuários "fugir do trabalho pesado" e passar mais tempo agindo sobre os dados de tráfego do que analisá-los, Bast acrescentou.

Ferramentas de análise em memoria (In-memory analytics tools) podem tornar mais fácil para as organizações a capitalizar em volumes crescentes de Big Data, mas isso não significa que a combinação virá sem desafios. O custo relativamente elevado de memória RAM em comparação com armazenamento em disco tem sido uma barreira para a sua adoção, assim como os problemas de escalabilidade relacionados com as restrições de memória de servidores. Essas preocupações têm sido um pouco aliviada pela queda dos preços de memória e à crescente disponibilidade de sistemas de 64 bits que suportam capacidades significativas de expansão de memória.

A boa governança necessária em in-memory analytics

Além disso, a governança de dados é uma questão que as organizações terão que enfrentar à medida que mais e mais usuários de negócios tenham acesso aos aplicativos na memória, disse Tapan Patel, gerente de marketing de produto global para análise preditiva e data mining em fornecedor de software SAS Institute Inc. "você tem que evitar um cenário onde vários silos de dados aparecem ", disse ele. "Maior integração de ferramentas de análise em memória com a camada de dados tradicional será fundamental para evitar a replicação de dados."

Conectividade perfeita com Hadoop - a tecnologia de código aberto que tornou-se quase sinônimo de big data devido à sua capacidade de forma rentável para armazenar grandes quantidades de dados estruturados e não estruturados e que é um dos pontos críticos para a integração que permite a análise de Big Data em memória. "In-memory analytics e Hadoop são tecnologias muito complementares e na maioria dos casos ambos têm um lugar em ambientes de Big Data", disse John Appleby, diretor da consultoria em implementações de SAP AG´s HANA appliance de computação in-memory na Bluefin Solutions, uma empresa de consultoria e integradora de sistemas com sede em Londres.

Mas as ligações entre sistemas Hadoop e ferramentas de análise em memória são ainda relativamente imaturas, de acordo com Appleby. Ele disse que a flexibilidade do Hadoop para lidar com dados não estruturados de uma forma sem esquema encontra-se em contraste direto com a necessidade do software na memória ter algum nível de estrutura para análise de dados. "Os tipos de modelos de dados criadas nos dois mundos não têm a mesma aparência", disse Appleby. "Você tem duas fundações diferentes em que você precisa de um único ponto de vista, e ninguém tem a resposta ainda. Este é um problema que as organizações estão apenas começando a lidar."

Mas isso não está parando a Cheezburger. Bast disse que a empresa está usando o QlikView em conjunto com Hadoop para determinar quais dados olhar e em seguida analisar as informações em um esforço para melhorar o planejamento de conteúdo e detectar anomalias que podem apontar para problemas técnicos ou promocionais, por exemplo, um pedaço de conteúdo que tem um grande número de comentários, mas não recebo muito tráfego. O resultado, acrescentou, é recebido em menos tempo de espera para consultas para executar seu curso: "Nossas decisões são tomadas muito mais rápido."