sexta-feira, 26 de dezembro de 2014

Grandes Idéias para 2015 - Big Data & Wearable Health Sensors

Se você acompanha as notícias, certamente já deve ter se deparado com os termos “wearable technology” ou “tecnologias vestíveis”. A tradução direta para o português pode até parecer um pouco limitada ou estranha, uma vez que a categoria ainda está expandindo os seus horizontes. Entretanto, no que depender da indústria, os investimentos nesse segmento só tendem a aumentar.
Em 09 de setembro de 2014, a Apple, com sua considerável influência, ajudou a empurrar para o mainstream a ideia de um computador vestível, que não era um conjunto projetado e disfarçado de pseudo-óculos, mas uma série de desenvolvimentos de relógios discretos equipados com simples sensores como por exemplo,  um monitor de freqüência cardíaca. O futuro da computação, segundo o que eles estavam mostrando, não basta incluir ler mensagens de texto em seu pulso, mas também novas formas de monitorar a sua saúde.
Um protótipo de sensor flexível que mede,  temperatura, freqüência cardíaca, e outros sinais vitais
O sensor de frequência cardíaca no Apple Watch é relativamente básico, e enquanto ele pode acabar se tornando um dos exemplo mais difundido, outras empresas estão desenvolvendo sensores de saúde wearable que prometem ser mais avançados e menos discretos. 
A tecnologia por trás de muitos destes dispositivos tem estado em desenvolvimento há décadas, e só agora é que ficou pronta para produção em massa. Como os médicos e engenheiros, estes sensores varrem dezenas de métricas disponíveis de níveis de frequência cardíaca, oxigênio no sangue e mudanças sutis na forma de como nos movemos e com isto estão se esforçando para fazer diagnósticos significativos.
Embora existam muitos desafios ainda a serem superados pela indústria, incluindo o que fazer com todos esses novos dados e como proteger a privacidade do paciente, a evolução do último ano mudaram rapidamente os projetos de investigação em realidades atingíveis em sensores de saúde wearable.
Em um futuro bem próximo, assim como já como mostrado em inúmeros filmes de ficção cientifica, quando acordarmos e ficarmos na frente do espelho, poderemos visualizar um disgnóstico completo de nosso corpo e com ajuda do Big data, o sistema será capaz de prever com exatidão qualquer evento de saúde que está em desenvolvimento, como um AVC, Infarto do Miocárdio, Infecções, etc...neste caso então, seu médico seria alertado sobre o fato e já dar inicio a todos procedimentos.

quinta-feira, 4 de dezembro de 2014

8 fortes tendências para Big Data Analytics

Como acontece com qualquer nova tecnologia, as soluções para Big Data Analytics começaram a apresentar sinais de amadurecimento, e isto se reflete numa oferta de mais e melhores opções para analisar os dados das empresas aliando desempenho, usabilidade e segurança. Analiso a seguir as 8 tendências apontadas pelo CIO.

Como acontece com qualquer nova tecnologia, as soluções para Big Data Analytics começaram a apresentar sinais de amadurecimento, e isto se reflete numa oferta de mais e melhores opções para analisar os dados das empresas aliando desempenho, usabilidade e segurança.
Analiso a seguir as 8 tendências apontadas pelo CIO.

1 – Big Data Analytics na nuvem
Embora desenvolvido inicialmente para funcionar com clusters de máquinas físicas, o Hadoop evoluiu, e muitos provedores oferecem opções para processamento de dados na nuvem, a exemplo de Amazon (Redshift e Kinesis), Google (Big Query) e IBM (Bluemix).
Há alguma controvérsia sobre os custos de utilizar soluções na nuvem para processar volumes muito grandes de dados (petabytes e acima), mas acredito num ajuste do mercado para que as ofertas de soluções na nuvem sejam atrativas mesmo para cenários mais “agressivos” de análise de dados.
Quando se trata de volumes menores de dados, a nuvem é a melhor opção, pois processar 1 TB de dados pode custar a partir de 25 dólares. Nada mal hein ?

2 – Hadoop, o sistema operacional corporativo para dados
O Hadoop atualmente suporta alternativas ao Map/Reduce, e as versões mais recentes oferecem mais recursos para escalabilidade, desempenho e segurança, além de facilidades que estão tornando cada vez mais simples utilizar as ferramentas, transformando o Hadoop no S.O. para dados “de fato”, o que deve se refletir numa adoção mais acelerada de agora em diante.
Integração com SQL, dados em memória, processamento de streamming, grafos e muitos outros tipos de processamentos de dados já são suportados, tornando a solução genérica o suficiente para ser útil aos mais diversos segmentos de mercado.

3 – Big Data Lakes
Comecei a ver este termo citado com mais frequência na mídia, significando que há um movimento de utilizar o Hadoop como “repositório gigante de dados”, ou seja, as empresas podem simplesmente “despejar” seus dados neste repositório, e construir gradativamente os esquemas necessários para acesso aos dados disponíveis.
Por um lado, isso reduz a necessidade de todo um trabalho prévio de modelagem antes de ser possível analisar os dados. Por outro, exige mais conhecimento para construir esquemas para acesso aos dados à medida que se tornam necessários, sob demanda, num processo incremental.

4 – Mais Análises Preditivas
Com as tecnologias para Big Data, a possibilidade de analisar mais dados implica também na possibilidade de analisar mais atributos, variáveis, metadados e registros, permitindo otimizar as amostras utilizadas em análises estatísticas e aumentando a capacidade de fazer previsões a partir dos dados.

O fato de não ter restrições de poder computacional faz uma diferença muito grande, segundo especialistas, permitindo formular os problemas de maneiras diferentes e viabilizando análises que antes eram impossíveis.

5 – SQL integrado ao Hadoop
As ferramentas que permitem o suporte à linguagem SQL com Hadoop estão evoluindo muito rapidamente, como todo o ecossistema Big Data, tanto em quantidade quanto qualidade, especialmente desempenho.
Isto é importante porque representa a possibilidade de utilizar uma linguagem que o mercado já conhece, mas dentro de um novo contexto, com novas possibilidades, o que simplifica o uso das novas soluções baseadas em Hadoop, reduzindo o investimento necessário em treinamento, por exemplo.
Embora o Hive continue evoluindo, especialista apontam que alternativas desenvolvidas pela Cloudera, Pivotal, IBM e outros fornecedores oferecem melhor desempenho, facilitando a análise interativa.

6 – Mais e melhores opções NoSQL


NoSQL não é nenhuma novidade pra quem acompanha o blog. Especialistas estimam entre 15 e 20 soluções Open Source NoSQL populares, cada uma com sua especialidade.
Soluções baseadas em grafos que facilitam a análise de redes de relacionamentos, ou especializadas em tratar fluxos de dados (streamming) de sensores ou redes sociais como Twitter, estão sendo integradas ao ecossistema Hadoop.


7 – Deep Learning
A combinação de técnicas de aprendizado de máquina conhecida como Deep Learning e que se baseia em redes neurais está evoluindo, e especialistas apontam grande potencial para a solução de problemas relacionados a negócios.
Identificar relações entre dados, ou destacar aqueles mais relevantes dentre um grande volume de informações são algumas das possibilidades que a técnica oferece, sem a necessidade de modelos especializados ou instruções através de códigos e programação.
Um exemplo muito interessante envolveu a aplicação de um algoritmo de Deep Learning para examinar dados da Wikipedia, tendo como resultado o aprendizado “por conta própria” de que Califórnia e Texas são estados dos EUA.

8 – Analytics em memória
O uso de bancos de dados em memória é cada vez maior, como demonstra a popularidade de soluções como Qlikview e Tableau, pois estas soluções, se usadas da maneira correta, podem trazer muitos benefícios às empresas através do chamado Hybrid Transaction/Analytical Processing (HTAP).
Mas tem gente usando errado, especialistas advertem. Estas soluções não são a melhor opção para lidar com dados que não mudam com frequência ou que não precisam ser analisados de muitas formas diferentes em tempo real. Nesse caso, é um desperdício de dinheiro.
O Spark é uma solução muito promissora que fornece a possibilidade de manipular grandes volumes de dados usando técnicas de armazenamento em memória de maneira análoga ao que o Map/Reduce faz em disco, e assim oferecendo uma alternativa às soluções tradicionais de bancos de dados em memória.

Conclusão
Do que tenho acompanhado, vejo claramente que (nunca antes na história deste planeta :) uma tecnologia foi tão rapidamente assimilada pelo mercado como estas relacionadas ao Big Data.
A evolução das ferramentas e o crescimento do ecossistema Hadoop ocorre na velocidade da luz, trazendo cada vez mais facilidades para uso da tecnologia pelas empresas.
Por isso, entendo que o recado é muito claro: a hora de começar a aprender, experimentar e adotar a tecnologia é agora, pois em breve o Hadoop vai virar commodity, e a vantagem competitiva para o profissional de TI que busque uma carreira nesta área desaparecerá.
Do ponto de vista das organizações, entendo que é hora de planejar iniciativas para 2015 que contemplem a utilização da tecnologia, e sugiro começar utilizando soluções mais simples de implementar, seja através de uma máquina virtual da Cloudera ou com o serviço EMR da Amazon.
Website: http://nitrotv.w.pw

Fonte : http://portal.comunique-se.com.br

quinta-feira, 16 de outubro de 2014

Oracle quer SQL como “lingua franca” para Big Data

A Oracle espera chamar a atenção do mercado de análise de dados com o Big Data SQL, uma ferramenta de software que pode executar uma única consulta SQL na própria base de dados da Oracle, bem como em repositórios de dados Hadoop e NoSQL.

O software é uma opção para a Big Data Appliance da Oracle, que incorpora a distribuição Hadoop da Cloudera, disse Neil Mendelson, vice-presidente de desenvolvimento de produtos, Big Data e analítica.

Há muita experimentação de empresas em redor do Big Data, mas alguns factores estão a impedir os clientes de deslocarem esses projectos para o modo de produção, nomeadamente pela falta de integração entre o Hadoop e outros sistemas, dificultada pela obtenção de talentos e por preocupações com a segurança, disse Mendelson.

O Big Data SQL aproveita as capacidades básicas de qualquer administrador de base de dados Oracle, acrescentou. No entanto, também tem que se comprar muita da tecnologia da Oracle.

Os benefícios completos do Big Data SQL requerem uma base de dados Oracle instalada e a funcionar na máquina da base de dados Exadata da empresa. Numa implementação, a Exadata e a Big Data Appliance partilham uma interligação para a troca de dados, disse Mendelson.

Além disso, o Big SQL Data só é compatível com a versão 12c da base de dados Oracle, lançada no ano passado. A maioria dos clientes ainda usam versões 11g e anteriores.

Mas os clientes têm benefícios pelo investimento que o Big Data SQL requer, em particular a capacidade de usar recursos avançados de segurança da base de dados da Oracle nos ambientes Hadoop e NoSQL, disse. Regras de segurança definidas para dados na 12c são simplesmente “empurrados” para os outros ambientes, disse Mendelson.

A Oracle irá ao longo do tempo adicionar suporte para o uso do Big Data SQL com outros sistemas de hardware que também vende, de acordo com o mesmo responsável. O software deverá estar disponível nos próximos meses (a empresa refere o terceiro trimestre do ano), com os preços a serem anunciados nessa altura.

O Big Data SQL não é uma tentativa de substituir os motores SQL já criados para o Hadoop, como o Hive ou o Impala, que a Oracle continuará a usar com a Big Data Appliance, referiu. “Nós estamos realmente a resolver um problema mais amplo”.

Um grande desafio para os cientistas de dados é a sobrecarga de mover dados entre sistemas, disse Mendelson. O Big Data SQL permite que várias “bases” de informação possam ser consultadas com um movimento mínimo de dados, e as consultas são mais eficientes usando a tecnologia Smart Scan do Exadata.

NAS pode ser rápida o suficiente para Hadoop

A Isilon defende que a tecnologia pode suportar, com vantagens, um “data lake” para Big Data se a análise de dados for executada dentro do repositório.
Craig Cotton,

O fato de, segundo , a análise de dados custar 30 mil dólares por terabyte, usando tecnologia da Teradata e da Oracle, levou a que menos de 1% dos dados existentes fossem analisados com software avançado. Craig Cotton, diretor de marketing de soluções da Isilon, uma empresa da EMC, considera que a utilização da Hadoop baixou muito esses custos, mas traz outros desafios.

No cruzamento e nas correlações de dados, com base em múltiplas fontes, não funciona de forma muito eficaz, defende Craig. Isso esbarra na ideia de colocar as ilhas de dados existentes nas empresas num repositório comum e acessível de várias maneiras: um “data lake”, ou traduzindo literalmente, um “lago de dados”.

É um repositório central onde todos os dados são introduzidos e armazenados na versão original. Os volumes de trabalho dos sistemas de informação da empresa, os de processamento automático pré-agendado, aqueles em tempo real e em interação com as bases de dados, busca empresarial e analítica avançada, vão alimentar-se desse substrato de dados.

A Isilon propõe os seus sistemas de software e hardware para suporte a esse repositório e a projetos de expansão de recursos de armazenamento sobre Network Attached Storage (NAS).

Computerworld ‒ Que problemas tem a Hadoop para a vossa concepção de “data lake”?

Craig Cotton ‒ A Hadoop é muito boa para analisar dados mas só “fala” em HDFS e é necessário retirar os dados do “data lake” por protocolos SMB (Server Message Block) ou NFS (Network File System) ou FTP (File Transfer Protocol). E como se faz o backup de tudo? É muito lento. Na Isilon, estamos a olhar para tecnologias capazes de acelerar tudo isso.

CWNo “data lake”, os dados estão disponíveis para serem analisados sem terem de sair desse repositório?

CC ‒ É a “in-place analytics” [ ou analítica no “sítio” onde estão os dados].

CW ‒ Em que matriz se baseia?

CC ‒ São dados não estruturados, montados no software da Isilon.

CW ‒ E o motor de análise qual será?

CC ‒ Aí está! Uma das vantagens será precisamente a possibilidade de escolher vários. Atualmente, o mais proeminente é a Hadoop. Mas se eu montar um cluster Hadoop, esse sistema só conseguirá comunicar segundo a norma HDFS.

Por isso tenho de usar ferramentas muito lentas que não são nativas para implantar dados, por via de outros protocolos. E se eu tiver 100 terabytes de Big Data e quiser movê-los de um sistema de armazenamento primário para um “cluster” Hadoop, demoro mais de 24 horas numa rede de 10 Gigabits.

CW ‒ E isto pode ser adaptado para novas normas de ferramentas de análise de dados?

CC ‒ Claro. Posso ter uma aplicação Linux e querer analisar os dados por via de NFS. Por isso, além de segurança e suporte a algumas funcionalidades de “multitenancy”, grande expansibilidade e, o mais crítico, é garantir múltiplas formas de acesso.

Depois de ter isso é que posso fazer análises de correlações mesmo interessantes. Podemos ver o caso de uma empresa de cuidados de saúde: tem informação sobre médicos numa base de dados, informação de receitas noutra e pacientes noutra.

Mas assim que os tiver num “date lake”, pode detectar que 90% de determinados pacientes, medicados com determinada combinação de comprimidos, ficou doente.

CW ‒ Como é que a tecnologia da Greenplum pode ser aproveitada neste quadro?

CC ‒ É uma tecnologia de base de dados “in-memory” de alto desempenho

CW ‒ Mas como pode relacionar-se com esta estrutura?

CC ‒ Posso instalar essa base de dados no Isilon, caso queira, ou posso retirar os dados dela e colocá-los no “data lake”. Para fazer as análises, usamos a solução Pivotal HD com motor HAWQ ou Cloudera.

Temos alguns clientes a usarem Pivotal e Cloudera, porque fazem coisas diferentes. Podemos suportar as duas distribuições, ao contrário da Hadoop. Alguns clientes questionam-se sobre se vão precisar de mais de duas. Há 30 anos não se levantava claramente a hipótese de uma organização precisar de mais de uma base de dados, e hoje têm várias e de diversos tipos.

Pensamos que, com o tempo, vai haver necessidade para mais distribuições da Hadoop. E, desta forma que propomos, podem aceder aos mesmos dados desde várias distribuições.

CW ‒ Quais serão os principais desafios de implantação de um “data lake”?

CC ‒ Para obter benefícios reais, embora não preveja que as empresas mudem logo de uma estrutura de silos para o “data lake”, um dos desafios é a necessidade de investir na ideia. Depois deverão evoluir para este tipo de plataforma, à medida que as plataformas instaladas atinjam o fim de vida.

Se houver orçamento, há a capacidade tecnológica e de expansão para desenvolver imediatamente. Mas, de uma forma mais prática, devem começar por um pequeno “data lake” e depois aumentá-lo ao longo do tempo.

Para alguns clientes, mover os dados demoraria três a cinco anos, enquanto para outros seria uma questão de meses.

CW ‒ E também não existe experiência suficiente no mercado para este novo tipo de projeto.

CC ‒ Sim, é verdade, isto envolve uma mudança nos paradigmas, até na implantação e gestão do sistema. Mas uma das vantagens do Isilon para os “data lakes” é poder dar-lhe início com três nós, e depois evoluir para 144 ao longo do tempo, conforme forem precisos mais métodos de acesso, e se acrescentam mais nós de armazenamento.

CW ‒ Que lições tem para partilhar das experiências e projetos já realizados na implantação de um “data lake”?

CC ‒ Várias. Uma é que, como a Hadoop é tradicionalmente usada como tecnologia de armazenamento DAS [de "direct attached storage"], estamos a formar os clientes sobre como usar armazenamento partilhado baseado em NAS.

Achamos que esta tem injustamente uma má reputação, a de ser demasiado lenta para o Hadoop. Na verdade, não é.

Mas supondo que é 10% mais lenta, se forneço com ela resultados 18 horas antes de começar a análise com DAS, é importante que [o processo em absoluto] seja mais lento? Porque deixa de ser preciso transferir os dados, a análise faz-se logo onde estão. E neste processo estamos mais próximos da Cloudera e estamos a desenvolver uma parceria com ela.

CW ‒ Mas o que é que aprenderam sobre este tipo de projetos?

CC ‒ Num grande banco, descobriu-se que havia 18 divisões todas a desenvolverem projetos baseados em analítica. Estavam todas a criar a sua ilha de armazenamento analítico.

Felizmente, o CTO apercebeu-se disso, conseguiu congregar toda a gente na organização e determinar que não iam ter 18 ilhas diferentes. Precisavam de aceder todos aos mesmos dados, e numa organização daquele tipo há requisitos de seguranças mais apertados.

CW ‒ E a montagem de um “data lake” resolveu esse assunto?

CC ‒ Resolveu, mas precisaram de capacidades seguras para haver instâncias utilizadas por múltiplos departamentos, num modelo “multitenant” [na qual a mesma instância serve várias entidades utilizadoras]. Isso é uma coisa que será importante para as grandes organizações.

CW ‒ Outra questão pode ser o licenciamento deste tipo de software. Como lidam com isso?

CC ‒ Não vamos cobrar por protocolos usados, nem pelo Hadoop no Isilon.

CW ‒ Como é que as empresas integram esta visão com aquilo que já têm? Qual é a melhor forma?

CC ‒ Temos quase cinco mil clientes e estamos a encorajá-los a pedirem-nos uma licença gratuita de Hadoop, fornecemos kits de iniciação de Hadoop, com versão para a Pivotal, Cloudera, Apache, Hortonworks, incluindo as extensões VMware para virtualizar a Hadoop. Aos clientes que não têm Isilon propomos o Isilon NFS na Internet para montar uma máquina de virtualização, para testes.

Também temos prestadores de serviço, por exemplo a Rackspace, a oferecer “data lake as a service” – ou seja, como um serviço. Se os clientes decidirem montar isto em cloud computing ou num modelo híbrido, têm essa opção.

CW ‒ Como é que isto se integra com a vossa estratégia de centro de dados definido por software, ou Software Defined Datacenter?

CC ‒ No EMC World, fizemos um anúncio preliminar de que o Isilon estará disponível no próximo ano como solução unicamente de software. Temos os nós S210 e X410, baseados no Intel Ivy bridge, e já são 99% constituídos por hardware “comodity”, já afinados para funcionarem bem com a nossa tecnologia.

O One FS funciona sobre Unix BSD. Vamos suportar plataformas de formato Open Compute e plataformas de hardware ”commodity”.

Mais de metade dos dados são cópias desnecessárias

A culpa é da popularidade dos “backups”.
Mais de 60% do que é armazenado em centros de dados são, na verdade, cópias desnecessários, de acordo com a Actifio.

O presidente da empresa, Jim Sullivan, considera que isso pode estar relacionado com a popularidade dos “back-ups”, que depois se expandiu para a continuidade do negócio, recuperação de desastres e replicação.

“Isto foi seguido por requisitos de negócios em relação à ‘compliance’, retenção e armazenamento de dados”, disse.

“As pessoas tinham de ter proteções para manterem cópias de dados, o que criou mais silos de armazenamento que não são muito eficientes”.

Sullivan atribui o crescimento do armazenamento ao longo das últimas décadas predominantemente às cópias dos mesmos dados, uma abordagem que tem a tendência para ser “ineficiente, cara e complexa”.

“O que as pessoas fazem é comprar sistemas de armazenamento e implantar vários softwares diferentes e, muitos diferentes silos ligados fisicamente a esses sistemas de armazenamento, e não há muita liberdade ou agilidade nisso”, considera.

A Actifio tenta resolver este problema com a sua própria plataforma de gestão de dados que, segundo Sullivan, descobre os dados no seu formato nativo ao nível da aplicação.

De seguida, cria uma cópia dos dados, enquanto as imagens virtuais podem ser gravadas num único processo, o que pode reduzir o espaço de armazenamento até 50%, os custos de armazenamento até 90% e a largura de banda até 70%, diz aquele responsável.

Europa tem 2.500 milhões de euros para Big Data

A Europa está a ficar para trás e precisa urgentemente de investimento em Big Data para se manter a par da concorrência.
O Big Data vai ter um grande impulso na União Europeia, correspondente a 2 mil milhões de euros de investimento de um consórcio industrial, a que se somam 500 milhões de euros do dinheiro público, ao longo dos próximos cinco anos.

Empresas como a Atos, IBM, Nokia Solutions and Networks, Orange, SAP e Siemens, juntamente com várias entidades da investigação, vão investir nesta parceria público-privada (PPP) a partir de Janeiro de 2015.

A parceria vai investir em investigação e inovação em campos de Big Data como a energia, manufacturação e saúde para prestar serviços, incluindo medicina personalizada, logística alimentar e analítica predictiva. Outros produtos podem incluir a previsão de rendimento das culturas ou a aceleração do diagnóstico de lesões cerebrais.

O investimento vai dar um impulso à indústria europeia de Big Data, explicou a vice-presidente da Comissão Europeia, Neelie Kroes, durante uma conferência de imprensa em Bruxelas.

“A Europa está a ficar para trás. Praticamente todas as grandes empresas de Big Data são dos EUA, nenhuma é da Europa”, disse. “Isso tem que mudar e é por isso que estamos a colocar dinheiro público no projeto”.

O dinheiro é necessário para ajudar as empresas a processar alguns dos 1,7 milhões de gigabytes de dados que Kroes disse serem gerados no redor do mundo a cada minuto. Esses dados, incluindo informações sobre o clima, imagens de satélite, fotos digitais e vídeos, registos de transações e sinais de GPS, devem ser usados por empresas europeias, disse.

As 25 empresas que formam a Big Data Value Association também vêem uma necessidade imediata de agirem em conjunto e começarem a competir, disse o presidente da associação, Jan Sundelin, que também é presidente da empresa holandesa de comércio eletrônico Tie Kinetix.

A Europa é um dos maiores mercados de retalho do mundo mas as empresas não europeias “sabem mais sobre os nossos consumidores e o que estamos a fazer na Europa do que nós mesmos”, disse ele durante a conferência de imprensa, onde convidou outras empresas e startups a participarem. Não há nenhuma entidade portuguesa associada.

Os investimentos na indústria também vão apoiar “Espaços de Inovação”, que oferecem ambientes seguros para a experimentação de dados privados ou abertos, disse a Comissão.

A parceria, que foi assinada esta segunda-feira em Bruxelas, é o sexto grande programa de investimento em tecnologia da UE para se afirmar em termos globais. Em Julho, por exemplo, a Comissão e o sector privado juntaram-se para investirem 5 mil milhões de euros no sector europeu da electrónica.

“Lagos de dados” ajudam na descoberta em Big Data

EMC e Pivotal aliam-se para análise predictiva de Big Data.
Os “lagos de dados” estão a ganhar impulso como repositórios escaláveis ​​para dados críticos a serem utilizados para análise predictiva de Big Data, de acordo com a EMC.

A empresa anunciou uma parceria com a Pivotal para o Data Lake Hadoop Bundle 2.0. O lançamento do Data Lake pela EMC está concebido para ajudar as organizações a obterem valor imediato no negócio de Big Data.

No início do ano, a EMC e a Pivotal anunciaram a primeira encarnação desta proposta, ligando o Hadoop empresarial e a analítica predictiva com o armazenamento “scale-out” empresarial.

O pacote é concebido para ajudar as organizações a acelerarem o valor das iniciativas de Big Data em Hadoop na empresa, mantendo os custos de aquisição e de gestão mais baixos do que as soluções montadas com diferentes plataformas.

quinta-feira, 13 de fevereiro de 2014

SAP APRESENTA NOVA SOLUÇÃO DE BIG DATA PARA ANÁLISE DE DADOS DO FUTEBOL

A SAP apresentou nesta quarta-feira (12) sua nova solução de Big Data voltada para o setor esportivo durante a realização do SAP Fórum, em São Paulo. A solução é considerada o terceiro pilar de atuação da empresa na área de esportes, focada na melhora de performance de jogadores em campo.
Já utilizada por equipes europeias, como o time alemão TSG 1899 Hoffenheim, da Bundesliga, a solução consiste em um série de sensores que podem ser anexados aos jogadores e ao gramado. Durante o treino, os sensores podem captar informações como velocidade, batimento cardíaco, posição que mais ocupa no campo, entre outros dados de rendimento.
Solução é demonstrada durante SAP Fórum, em São Paulo (Foto: Divulgação)

"Os chips enviam informações através de antenas que ficam nos refletores dos estádios para a plataforma SAP Hana, que analisa e devolve a informação para o pessoal de gestão do time", afirmou o Head de Inovação do SAP Labs, Daniel Duarte, em entrevista ao Canaltech.
A ideia é que clubes sejam capazes de extrair valor das informações coletadas, que podem ser compiladas na forma de visualizações em 3D em tempo real. 
O executivo reconhece que a soluçao ainda pode demorar um tempo antes de chegar aos campos, dada a resistência da FIFA em autorizar esse tipo de tecnologia nos jogos. Entretanto, times brasileiros já se reuniram com a SAP nesta semana e mostraram interesse na aquisição da solução para seus centros de treinamento. A empresa, no entanto, não revela quais os potenciais clientes.
Dentro do setor de esportes, a SAP opera sobre dois outros pilares, além da solução apresentada hoje. A primeira, gestão de arenas esportivas baseada em um ERP SAP, que envolve áreas como contabilidade, venda de ingressos, administração de alimentação e planos de manutenção. Nesse modelo, a SAP trabalha atualmente com equipes da Liga Nacional de Futebol Americano (NFL) e a liga de basquete NBA. Em novembro do ano passado, a empresa alemã fechou seu primeiro contrato para gestão no Brasil, com o Palmeiras.
O segundo pilar consiste em soluções voltadas para os torcedores presentes na arena, que podem fornecer capacidades de segunda tela, contando com informações em tempo real sobre a partida através de um login que o usuário pode fazer ao entrar no perímetro de rede do estádio.
Em março de 2013, a SAP definiu uma nova estratégia que passou a considerar o setor de esportes e entretenimento como uma nova vertical de negócios da empresa, englobando operações como eventos esportivos, shows e festivais. Atualmente, a SAP opera com outras 24 verticais. A empresa afirma que ainda não fechou números sobre o que o setor representa atualmente para a SAP, mas já demonstra que deve atuar com força nesta vertical nos próximos anos.
"Ela é de importância extrema para a SAP. O compromisso da vertical começou com o CEO da SAP, que tem relacionamento próximo com clubes norte-americanos como o New York Yankees e o San Francisco 49ers, da NFL", conta Duarte. "Agora ele cascateou isso para cada uma das regiões da SAP para trazer isso para os esportes locais".

quinta-feira, 23 de janeiro de 2014

MAIS DE 70% DAS OPORTUNIDADES ESTÃO NA CIÊNCIA DOS DADOS, DIZ PESQUISA

Levantamento aponta que otimização de marketing digital e análise de relacionamento nas redes sociais também são benefícios da tecnologia.
A melhor oportunidade para a aplicação de análise das informações é na ciência de dados. É o que acreditam 70% dos participantes de uma pesquisa realizada pela Teradata, especializada em soluções focadas em análise de Big Data e data warehousing, com 1,3 mil pessoas nas cidades de San Francisco, Boston e Chicago, nos Estados Unidos.

A otimização de marketing digital e análise de relacionamento nas redes sociais também foram consideradas oportunidades pelos entrevistados. As oportunidades menos valiosas, de acordo com os ouvidos pela estudo, estão na detecção de fraudes e prevenção.

O levantamento indica que o mercado está em busca de maneiras de lidar com as grandes quantidades de dados, ou Big Data, para obter uma percepção mais profunda dos negócios. 

Em San Francisco e Boston, 60% dos entrevistados disseram que o setor de TI está conduzindo conversas sobre a análise de Big Data. Em Boston, mais de 70% dos participantes disseram que a equipe de tecnologia foi a primeira a falar sobre a importância da tecnologia.

No total, cerca de 60% dos participantes relataram que o maior desafio com a análise é a complexidade dos dados. Já os enormes volumes de dados gerados é o segundo maior desafio apontado pelos entrevistados.

EMPRESAS GASTAM MAIS TEMPO PARA ORGANIZAR DADOS DO QUE ANALISÁ-LOS PARA NEGÓCIOS

Estudo indica que apenas 10% do tempo é dedicado para utilização desses dados em prol dos negócios. Muitos esforços ainda são destinados para estruturar dados em formas possível de serem analisados
As empresas estão presas em um mundo obscuro lotado de dados e devem continuar por lá por mais alguns anos. É o que sugere o professor de marketing da Baylor University’s Hankamer School of Business, Jeff Tanner, responsável por um estudo que traz um diagnóstico sobre esse cenário.

O foco do especialista é ajudar extrair maior valor de vendas a partir de dados transacionais de consumidores, algo que ele avalia que tem se tornado cada vez mais comum à medida que novas fontes de dados emergem, como social media. As companhias estão em busca de dados que podem ser utilizados para criar retratos individuais mais completos de seus cliente para a customização de ações de marketing.

O estudo, contudo, indica que a maioria ainda está lutando para estruturar seus dados em formas possíveis de serem analisados. Uma pesquisa feita com varejistas e empresas de bens de consumo embalados nos Estados Unidos mostra que as companhias gastam cerca de 70% a 90% de seu tempo organizando dados para que sejam analisados. Isso significa que cerca de 10% do tempo é dedicado, de fato, à utilização desses dados para ajudar os negócios.

As empresas ainda não são capazes de enxergar o que está contido em seus dados. Segundo o pesquisador, o caminho é aprender a criar mensagens mais assertivas que condizem com o perfil de compra de seus clientes e seus interesses. O desafio a ser superado, de acordo com ele, irá conduzir ao que ele chama de “quebra de informação”, em que as companhias irão terceirizar seus dados para outras analisarem. Ele acredita que a comercialização de dados de consumidores se tornará menos comum. “Estamos caminhando para o limite de capacidade em análise, armazenamento e preparação”, afirma Tanner.

Então o que vale a pena em relação aos dados? A resposta indica para o que pode levar sua empresa mais próximo de uma transação valiosa.  Note que isso não significa o quão mais próximo é possível chegar do consumidor. Dados baseados em localização por si só não têm valor. “Sempre ouço dos fornecedores que isso vai permitir dar descontos e blá blá blá. Mas se eu souber que você está numa rua próxima à minha loja e lhe enviar uma notificação com um desconto de um dólar em um produto, isso é um desconto estúpido”, diz.

Para Tanner, o que as empresas precisam é recolher melhores informações de seus dados. Assim, é preciso saber se esse consumidor que está nessa rua costuma frequentar a minha loja e, em caso afirmativo, o que essa pessoa tem hábito de comprar e quando? Além disso, esses dados devem ser aplicados nas vendas desses produtos para promover uma cadeia de suprimento mais eficiente.

Fonte: Information Week

quinta-feira, 16 de janeiro de 2014

PRIMEIROS PASSOS ESTRATÉGICOS ANTES DE ADOTAR O BIG DATA

A tendência Big Data está se tornando mais prevalente entre as organizações a medida que o volume de dados aumenta, devido à mídia social, mobilidade e computação em nuvem. Como essa abundância de dados estruturados e não estruturados cresce, as empresas estão lutando para gerenciar com sucesso e dar sentido a ela. 
Especificamente, as empresas estão aplicando big data analytics para determinar as tendências de negócios e insights do resultado de dados criados. Analisando o Big Data pode resultar em crescimento de negócios, redução de custos, aumento de receita e melhor marketing para as organizações. Mas este trabalho vem com desafios bem complicados. 

Neste post, vamos ver como iniciativas Big Data podem fornecer uma vantagem competitiva. Vamos examinar as considerações de grandes infra-estruturas de dados, segurança de Big Data, como os impactos de Big Data no Master Data Management (MDM), a transição do gerenciamento e análise de Big Data e os desafios em apoiar grandes análise de dados nas empresas de pequeno e médio porte, ambientes em empresas de pequeno e médio porte.

Big Data fornece uma vantagem competitiva 
Segundo alguns analistas, as empresas que não se aproveitarem das oportunidades de negócios do Big Data vão ficar para trás em relação a concorrência. Empresas que adotarem  big data analytics poderão tomar decisões mais concretas e ver ganhos financeiros, dizem analistas. No melhor cenário, as empresas irão analisar as informações coletadas a partir de dispositivos móveis, sistemas de armazenamento e ferramentas de gestão. A ideia é identificar padrões de negócios recorrentes para capitalizar os sucessos e evitar falhas.
No entanto, a adoção do big data analytics coloca alguns desafios, tais como a dificuldade de utilizar tecnologias de Big Data, como por exemplo o Software Apache Hadoop Distributed File System e MapReduce. Alguns analistas, por outro lado, acreditam que a forma tradicional de pensar sobre o negócio através de tecnologias de data warehouse e BI  não fornecem às empresas as informações necessárias para fazer o melhor uso de dados.
Nesse meio tempo, várias empresas estão desenvolvendo ferramentas para reduzir os obstáculos do Big Data. Com essas novas ferramentas e treinamento adequado, as empresas irão encontrar tecnologias de Big Data mais acessíveis e serem capaz de implantar, administrar, gerenciar e proteger-los mais facilmente.

Considerações de infra-estrutura para iniciar no Big Data

Parte de abraçar a grande tendência dos dados, primeiro é preciso saber o que considerar na escolha de uma infra-estrutura de Big Data. O maior desafio que os administradores irão ter que enfrentar é como farão para armazenar os dados estruturados e não estruturados produzidos pelas empresas de uma maneira que fique fácil para analisar. Mas empresas de TI também devem considerar os desafios que surgem na gestão de Redes na Análise de Big Data. 
A fim de superar os desafios apresentados pelo Big Data, algumas características de uma grande infra-estrutura de armazenamento de dados a serem considerados incluem a capacidade, latência, o acesso a arquivos, segurança e custo.

Iniciativas de Big Data exigem um Frameworks seguros

Enquanto a análise e Gestão de Big Data tem seus benefícios, é importante reconhecer os problemas de segurança que podem representar. Grandes volumes de Dados podem conter ameaças de segurança ou dados tóxicos como números de CPF, RG, Passaportes, etc.. e dados de propriedade intelectual, que pode ser prejudicial a uma organização, se forem expostos. 
Ambientes de Big Data que não são seguros o suficientemente e isto pode fazer com que as informações fiquem vulneráveis a um ataque. Para evitar ataques e vazamentos, as empresas devem tomar medidas adequadas para garantir um ambiente de Big Data e criar um FrameWork confiável. Para criar FrameWork, as organizações devem dar três passos principais: definir o nível de classificação de dados com base em como ele pode ser tóxico, olhando para análise e soluções de visibilidade para cruzar com o Big Data com segurança e usando ferramentas como o controle de acesso para defender os dados, e  por fim, a eliminação dos dados quando não é for mais necessário.

A gestão do Big Data tende a impactar o fluxo de trabalho nos negócios 

Uma vez que as empresas implementem uma infra-estrutura de Big Data, eles estão propensos a ver um impacto sobre o fluxo de trabalho nos negócios, dominar literalmente o gerenciamento de dados de programas (MDM).
Programas MDM gerenciam as conexões entre os dados internos de uma organização e o Big Data que flui externamente. Pelo simples fatodo Big Data vir de várias fontes, tais como mídias sociais e computação em nuvem, é importante avaliar a melhor maneira de gerenciar todos os dados que vem da mídias sociais, isso pode ser através de uma lligação dos arquivos mestres internos de clientes para perfis de redes sociais externos . Quanto à computação em nuvem, as empresas poderiam usar os recursos de MDM baseados em nuvem ou ambientes híbridos formados por ambos em nuvem e aplicações no local.
Um dos maiores desafios que as organizações estão enfrentando com MDM está provando o business case. As empresas devem mostrar que o investimento nesses programas fornece uma visão inventário e, portanto, reduzir os custos. Se feito com sucesso, as organizações podem utilizar práticas de MDM para assumir o Big Data e melhorar suas estratégias de negócios.

Mudando de grandes gerenciamentos de dados para grandes análises de dados 

Como a tendência de Big Data cresce, a idéia de "big data" fez a transição de definir a quantidade, velocidade e tipo de dados que as empresas devem conseguir determinar e o que fazer com esses dados para fins comerciais. 
Esta mudança de grande gerenciamento de dados para grandes análises de dados obriga as organizações a olhar para além de apenas entender como controlar grandes dados e mais profundo em casos de uso de analytics. O importante para as organizações não se concentrar inteiramente no volume de dados para a gestão, mas sim para olhar como esses dados podem ajudar a melhorar os processos de negócios e agregar valor aos negócios.

Empresas pequenas e de médio porte utilizam big data analytics com a ajuda de provedores de cloud computing 

Big data pode parecer simples para as grandes empresas, mas as empresas de pequeno e médio porte estão tomando as medidas necessárias para utilizar big data analytics também. Estas pequenas e médias empresas podem achar a grande ajuda que necessitam de provedores de nuvem. 
Um número de provedores de nuvem identificaram tendências em big data analytics para pequenas e médias empresas, e as empresas menores devem procurar provedores que já vem fazendo este trabalho.

Superando desafios do Big Data na nuvem 

Muitos provedores de nuvem ainda não encontraram oportunidades em apoiar o big data analytics na nuvem, mas isto também traz alguns desafios que cercam demandas colocadas sobre redes, armazenamento e servidores. Nuvem não oferecem flexibilidade para triturar grandes quantidades de dados não estruturados, mas essa flexibilidade também pode ser o problema para arquiteturas de nuvem. 
A fim de superar a capacidade, desempenho e agilidade desafios, os provedores de nuvem devem mudar suas arquiteturas para acomodar a demanda. Para o armazenamento, capacidade de dados é fundamental para garantir o desempenho. Alguns provedores de nuvem também estão adotando modelos de arquitetura que permitem a um sistema mais distribuído e com melhor balanceamento de carga.


UNIVERSIDADES DEVEM INCLUIR SEGURANÇA DE BIG DATA E CLOUD EM SEUS CURRÍCULOS

Quando se trata de integrar as tendências da tecnologia da informação nos currículos de muitas universidades e faculdades, o sistema educacional tem ficado para trás na curva de aprendizado. Isto é verdade para a educação de Big Data, e infelizmente, a segurança de TI é necessária para proteger informações não estruturadas.
Os conceitos relacionados com a manipulação de grandes quantidades de dados são brevemente abordadas em cursos que se concentram em bancos de dados ou algoritmos. Mas quando big data é abordada em uma classe de algoritmos, é principalmente como uma justificativa para o ensino de diferentes algoritmos de classificação, essencialmente, ordenando listas em projetos de "big data".
Se as universidades oferecem aulas sobre big data, muitas vezes é como de pós-graduação ou cursos de extensão. Apesar de alguns serem de engenharia informática ou ciências da computação que incidem especificamente sobre big data, vemos o conceito aparecer em outros cursos; bio-informática, por exemplo, onde o processamento de big data é necessário para concluir uma tarefa especifica.

Segurança opcional 
Dado o vazio na educação de Big Data, ele deve vir como nenhuma surpresa que a segurança de big data não é coberta, na maioria dos currículos. Mesmo a nova proposta da Associação de Segurança Nacional e do Departamento de Segurança Interna com áreas de foco para os Centros Nacionais de Excelência Acadêmica que lista uma grande de segurança de dados como uma unidade de conhecimento opcional em três áreas de conteúdo.
Segurança de big data é importante, mas é difícil de ensinar por muitas razões de terminologia, segurança atual e sistemas de monitoramento, de infra-estrutura física e isso é só para começar. Em primeiro lugar, é difícil classificar o que se quer dizer com o termo "big data". Implica conhecimento incompleto do que pontos de dados podem estar no conjunto de armazenamento e tentar garantir aquilo que é desconhecido é difícil. Pense em prevenção de perda de dados, é difícil, se não impossível, para dizer se os dados sensíveis está deixando a instalação quando os dados não são enumerados.
Nós não estamos ensinando uma grande segurança de dados. Mas, em nossa defesa, como podemos garantir algo que é difícil de classificar? Além disso, como podemos ensinar outros a protegê-los? A nova classificação de big data apresenta um problema básico que precisa de resolução antes de fornecer soluções.

Novos métodos de segurança 
Será que as novas classificações de Big Data significam que novos métodos de segurança são garantidos ou podemos utilizar métodos que atualmente são implantados, só que em escala maior? No caso de Big Data, argumentamos que o tamanho e a complexidade exige mais do que apenas a escala de métodos de segurança de dados atuais.
Se pudermos ir além da terminologia e falta de conhecimento, é preciso repensar a implementação de sistemas de segurança e monitoramento no caso de Big Data. Em sistemas de segurança e monitoramento atuais, escrever e analisar arquivos de log é a principal técnica utilizada para capturar eventos e indicar quando brechas de segurança são tentadas ou bem sucedidas. No mundo de hoje, ouvimos lamentações de como grandes arquivos de logs crescem e como é difícil de separar os dados úteis a partir do ruído(lixo), mesmo com a ajuda de um produto especifico de algum fornecedor para facilitar esta tarefa. No mundo do big data, a complexidade dos sistemas de segurança e monitoramento só crescem exponencialmente.
Embora, muitos fatores compliquem a segurança do Big Data, uma última questão que queremos ressaltar é que o Big Data, muitas vezes estão na nuvem. Portanto, as discussões sobre métodos de segurança para Big Data incluem segurança em nuvem. Nenhum destes temas está maduro e será uma ação necessária das organizações tomar as medidas de segurança, será necessário considerar que tais medidas irão trabalhar com dados em nuvem.
A partir da perspectiva educacional, acreditamos que o ensino de segurança em Big Data começa com os fundamentos de segurança de dados que são ensinadas em todos os programas de segurança. Não há nenhuma base mais sólida para as grandes discussões de segurança de dados do que uma compreensão profunda e ampla dos conceitos de segurança, no entanto, as complexidades adicionais que big data contribui para o problema da necessidade de segurança devem ser incluídas no currículo.

Enquanto acreditamos que a melhor maneira para os alunos aprenderem é através de experimentos de laboratório ou simulações, o desenvolvimento de grandes exercícios de segurança de dados pode revelar-se mais difícil do que exercícios de segurança tradicionais. Se defendemos que uma definição de Big Data pode ser desenvolvida e universalmente aceita, ainda vemos obstáculos a superar. Atualmente, os alunos trabalham com detecção de intrusão e prevenção de perda de dados, mas não em um ambiente de Big Data. E podemos constatar, eles realmente não estão preparados para lidar com a enorme quantidade de dados que chegam a partir de dispositivos de segurança, monitoramento de rede e monitores de perda de dados. Experimentos de laboratório precisam ser cuidadosamente e trabalhados para não sobrecarregar os alunos, mas também proporcionar a aparência de big data.

Sem dados significativos 
Infelizmente, o acesso aos dados reais e significativos é difícil no ensino superior. Não se pode ter acesso a Big Datas reais, porque, em muitos casos, é privado. Precisamos desenvolver um exemplo de conjuntos de Big Data em que os tipos de dados correspondem a diferentes setores de dados. Este é um lugar perfeito para a Faculdade desenvolver com a parceria de indústrias verticais ou grupos comerciais da indústria, fontes de dados. E, os educadores precisam ser inovadores na combinação de nuvem e grandes conceitos de segurança de dados e incentivar os alunos a pensar sobre estes temas.
Então, o que podemos realisticamente esperar realizar na área da educação em segurança de Big Data? Esperamos que os educadores possam ajudar os alunos a aprender os fundamentos necessários para se adaptar às ameaças sempre em mudança e tecnologias. Enquanto hoje os temas atuais são Big Data e segurança na nuvem, os tópicos de amanhã são desconhecidos. Os educadores precisam incluir os temas de segurança mais recentes e questões como Big Data e segurança na nuvem para os alunos. No entanto, também devem se esforçar para educar os alunos para que eles possam se adaptar às mudanças, uma vez que deixem as salas de aula.

quarta-feira, 15 de janeiro de 2014

O PROBLEMA DA CIÊNCIA DOS DADOS

Muitas organizações se afundam em dividas com os investimentos de TI em vez de tirar um tempo para analisar seu Big Data. O primeiro passo é ver se você pode reunir os dados em que reside o problema que às vezes isso pode ser uma enorme quantidade de dados." Estas peças de medição podem incluir, por exemplo, todos os logs de rede em uma variedade de sistemas; dados sobre as aplicações dos empregados comportamento de quando eles estão entrando no prédio, o que eles estão acessando bancos de dados e o que eles estão introduzindo no meio ambiente?

As organizações precisam se concentrar em padrões de comportamento através da coleta de dados das máquinas, aplicações e pegadas digitais das pessoas que mostram como eles se comportam nas suas tarefas diariamente. "Você tem que ser capaz de olhar para uma ampla e não-estruturada gama de dados a partir de um período de seis meses, pelo menos, para detectar os tipos de mudanças de comportamento". Isso significa terabytes ou mesmo petabytes de dados a ser capaz de observar padrões ou anomalias.

O segundo obstáculo, especialmente se for de dados não estruturados, é ter as pessoas, sejam elas internas ou externas, que são realmente qualificados para fazer a análise estatística e as análises que lhe permite obter a resposta "reais", essencialmente, aqueles sinais que são indicativos de um evento particular. Hipoteticamente, isso significa que alguém que pudesse olhar para todos os dados e determinar: se alguém está acessando esse tipo de informação a esta hora do dia através de um determinado site, vamos acompanhar isso como algum tipo de intenção maliciosa. "Você precisa saber o que as pessoas estão acessando"

Em terceiro lugar, você precisa de alguma maneira de apresentar essa informação para a diretoria, seja ele em forma de um relatório físico ou de alguma outra forma: 

Muitas empresas têm problemas em duas áreas: "O que estamos descobrindo é que a maioria das organizações não possuem habilidades para coletar os dados, especialmente os dados não estruturados, em grande parte porque ele faz abrangem várias línguas". A segunda questão envolve encontrar pessoas que realmente possam fazer as análises. Há uma quantidade justa de competição e as empresas estão lutando para encontrar profissionais com um grau avançado em análises no mundo inteiro.

Para colocar o big data analytics em uso, as organizações têm de usar observações coletivas, experiência e análise lógica para identificar padrões nos dados. "A análise preditiva consiste em você aplicar a análise estatística e modelagem na sua observação" e depois ver se algo que você vê no presente ou do passado vai ser tendência no futuro com base nessas observações e com base em um modelo estatístico.O conhecimento de como será feita a analise  e o tipo de modelo estatístico que você deseja executar é sua, e ninguém mais tem que decidir isso".

Os fãs do filme "Minority Report", pode aplaudir o modelo de policiamento preditivo que está surgindo em algumas das principais áreas metropolitanas, como Los Angeles. Ele combina a análise estatística avançada baseada em dados de crimes anteriores, visualização, aprendizado da máquina e inteligência artificial para prever quando e onde eventos ocorrerão o que possibilita ações pró-ativas para impedi-los e poupar recursos. Grande parte da pesquisa sobre "PredPol" está sendo feito na Universidade da Califórnia (UCLA).
PredPol Traz Big Data para a aplicação da lei, com US $ 1,3 milhões

No entanto, a maioria das organizações e indústrias estão sozinhas quando se trata de modelagem estatística e análise de Big Data. "Não há nada 'enlatado', pronto que você pode comprar e que irá magicamente analisar sua segurança do Big Data". "Todas as implementações de análise que estão em  uso são uma plataforma "Feito em Casa". Há vendedores que tentarão vender  uma implementação personalizado do Hadoop, mas não há vendedores que irão construir sua análise para você.

Kate Crawford
A propensão para falsos positivos e más interpretações apresenta seus próprios riscos. Kate Crawford, um dos principais pesquisadores da Microsoft Research, alertou sobre preconceitos escondidos com relação a  big data analytics  e ofereceu vários exemplos. Ela chama o problema de "fundamentalismo de dados", ou "a noção de que a correlação sempre indica causalidade e que os grandes conjuntos de dados e análise preditiva sempre refletem a verdade objetiva".

Além da implementação da tecnologia, outra questão que muitas empresas enfrentam é as que possuem as análises que podem vir a uma combinação de talentos altamente qualificados. "Alguns esforços bem-sucedidos tinham a combinação de propriedades do sistema feita por equipes de segurança e de fraude", "A equipe de segurança teria que investir em pessoas com incomum, e muitas vezes caro, de habilidades, tais como estatísticas. Claro, eles podem puxar um estatístico de outro projeto da empresa, que seria muito útil também. No entanto, este especialista em estatística tem de ser acompanhado por alguém que conheça o assunto sobre a segurança ".

As escolas de negócios estão começando a introduzir mais cursos de Big Data Analytics, liderados em parte por programas de empresas como a Cloudera.
Cloudera Desktop
Mesmo assim, não há realmente uma maneira de atender a demanda por talentos altamente qualificados nos próximos anos."O impulso nos últimos dois anos tem sido em torno de infraestrutura e outros recursos que lhe permitem organizar os dados e um monte de empresas estão começando a aceitar que o problema é que a infra-estrutura não tem realmente capacidade analítica.

Se você realmente quer fazer isso em uma escala maior, que é o que todo mundo tem que fazer, você tem que ter ferramentas , então você tem que descobrir, como posso colocar esta ferramenta em um ambiente a ser usado para que um conjunto de cientistas de dados não precise estar com os usuários da empresa para resolver esse problema a cada momento. É realmente essa mudança que vai desbloquear um monte de recursos ". Agora, as empresas terão que tentar fazê-lo por si só? Sim, mas não esqueçam que o numero de talentos não cresce rápido o suficiente, e isso é verdade nos governos também.

BIG DATA ANALYTICS - NOVOS PADRÕES EMERGEM PARA A SEGURANÇA

Os bombas detonadas durante a maratona de Boston oferecem um lembrete austero das falhas de Análise do Big Data e de Segurança, notoriamente as agências de inteligência foram incapazes de ligar os pontos antes e depois dos ataques 15 de abril.
A falta de compartilhamento de informações entre as organizações e unidades de negócios, ou a consciência de que um determinado conjunto de dados ainda existe, é um problema comum. Análises de Big Data podem ajudar a resolver este dilema, de acordo com seus proponentes, e fornecer dados de inteligência que detecta padrões suspeitos e ameaças potenciais, expandindo a definição de dados de segurança para todas as partes do negócio.
Segurança orientada a inteligência alimentada por análises de Big Data vai atrapalhar vários segmentos de produtos nos próximos dois anos, de acordo com executivos da RSA, a divisão de segurança da EMC. "Com a difusão de Big Data cobrindo tudo o que fazemos", disse Arthur Coviello, Jr., vice-presidente da EMC e presidente executivo da divisão de segurança RSA , durante sua palestra RSA, em fevereiro, "a nossa superfície de ataque está prestes a ser alterada e expandir , e os nossos riscos ampliados de forma que não poderíamos ter imaginado. "
Arthur Coviello, Jr., vice-presidente da EMC e
Presidente Executivo da Divisão de Segurança RSA
Como as organizações e funcionários cada vez mais operando em ambientes móveis, web e mídia social, aproveitando-se de informações identificadas por análises ou padrões através de uma ampla variedade de conjuntos de dados, incluindo texto não estruturado e binário de áudio de dados, imagens e vídeo podem oferecer informações valiosas sobre negócios riscos muito além de TI.
Mas, mesmo com o uso de modelagem estatística avançada e análise preditiva, as ameaças à segurança de origens desconhecidas ainda podem passar despercebidas. Será que o Big Data  e análises de alto desempenho realmente podem fazer segurança melhor? Talvez, mas hoje o uso significativo de tecnologias de Big Data em grandes volumes de dados de segurança é rara e extremamente desafiador, de acordo com Anton Chuvakin, diretor de segurança e gestão de risco, o Gartner, brincou com a pesquisa: "As organizações que usam análise preditiva tradicionais para a segurança ? Você quer dizer "os dois? '"
O Gartner define "big data", baseado nos 3Vs (Volume, Variedade e Velocidade). 
Anton Chuvakin
"As organizações que realmente investiram tempo (muitas vezes anos) e recursos (muitas vezes milhões de dólares) na construção de sua própria plataforma para big data analytics têm encontrado valor", disse Chuvakin. "Normalmente, esse valor se manifesta através de uma melhor detecção de fraudes, detecção de incidentes de segurança mais ampla e profunda tornando a investigação de incidentes mais eficaz."
Uma dessas empresas é a Visa, a gigante  em processamento de cartão de crédito. A empresa fez um respingo no início deste ano, quando se divulgou no The Wall Street Journal que ele estava usando um novo mecanismo de análise e 16 modelos diferentes, que pode ser atualizado em menos de uma hora, para detectar a fraude de cartão de crédito. Steve Rosenbush do The Journal blogged sobre as melhorias por trás do mecanismo de análise de alto desempenho, que de acordo com a Visa, ela monitora e acompanha até 500 aspectos de uma transação, em comparação com a tecnologia anterior, que só poderia lidar com 40. As capacidades de análises poderosas são possíveis em parte pela adoção da tecnologia de banco de dados não-relacional em 2010 e pelo framework open source software Apache Hadoop, que é projetado para o armazenamento de baixo custo e cálculo de dados distribuídos através de clusters de servidores de commodities da Visa.

A CORRIDA PARA GRANDES ANÁLISES 

Apesar de toda a polêmica sobre o Hadoop, que utiliza o modelo de programação MapReduce (derivado da tecnologia do Google) para "mapear" e "reduzir" de dados, juntamente com um sistema de arquivos distribuídos (HDFS) com built-in de automação para falhas e redundância,o uso de Hadoop é rara em grandes e médias empresas. As ferramentas para acessar o armazenamento do Hadoop e capacidades computacionais são ainda imperceptíveis, sem  interfaces, com ferramentas complexas para os cientistas de dados ou acesso programático para programadores qualificados com conhecimento de MapR Hive para consultas SQL-like ou Pig para alto nível de fluxo de dados.

Isso pode mudar em breve, no entanto, como os fornecedores de tecnologia de todas as empresas de infra-estrutura de todos os lados e grandes empresas de software prestadores de serviço na tentativa de fornecer grandes ferramentas de análise de dados (Big Data Analytics Tools)para usuários corporativos. A Cloudera, oferece uma distribuição para Hadoop (CDH) e a SAS anunciou uma parceria estratégica para integrar SAS High Performance Analytics e SAS Analytics Visual entre outras ferramentas no final de abril. Infobright, Greenplum da EMC e MapR estão se movendo para o espaço empresarial com análises e ferramentas de visualização que permitem aos analistas corporativos trabalhar com grandes conjuntos de dados e desenvolvimento de processos analíticos, em alguns casos usando sandboxing e virtualização.
"Esse tipo de análise vendo sendo necessária ha muito tempo e apenas agora as tecnologias que podem realmente realizar esse tipo de análise em grandes escalas será disponibilizada ", disse Mark Seward, diretor sênior de segurança e conformidade em Splunk. Informações de segurança das empresas e gerenciamento de eventos de tecnologia (SIEM) já é utilizado por cerca de 2.000 empresas para analisar os dados da máquina, o que inclui todos os dados de sistemas, a "Internet das coisas" e os dispositivos conectados.

Qualquer texto ACSII podem ser indexados pelo Splunk, que por sua vez pode usar até 150 comandos sobre os dados de retorno definidos para realizar a análise estatística e disponibilizar visualizações. De acordo com Seward, o Splunk pode ser escalado para petabytes de dados. Ele não lida nativamente com dados binários mas o Hadoop e outros conversores estão disponíveis. Para usar o Splunk, os profissionais de segurança de TI essencialmente precisam entender e conhecer comandos shell script Unix, SQL e ter acesso à documentação sobre o tipo de campos que têm nos dados.

O que é o Splunk?

Splunk é uma ferramenta de pesquisa e analise de logs de TI. É um software que permite que você indexe, pesquise, alerte e informe em tempo real e permite que você visualize históricos de dados de TI – dando uma maior visualização em toda a sua infra-estrutura de TI de uma localidade em tempo real. Reduza o tempo para solucionar problemas de TI e incidentes de segurança para minutos ou segundos ao invés de horas ou dias. Monitore toda sua infra-estrutura de TI para evitar degradação do serviço e tempo de inatividade. Relatórios sobre todos os controles de sua conformidade a um custo menor e em uma fração do tempo. O download do Splunk gratuito.

Splunk indexa qualquer tipo de dado de TI de qualquer fonte em tempo real. Aponte seus servidores syslog ou dispositivos de rede para o Splunk, configure sondagens de WMI, monitore arquivos de log em tempo real, permitir a monitoração das alterações em seu sistema de arquivos ou o registro no Windows, ou até mesmo agendar um script para pegar as métricas do sistema. Splunk indexa todos os seus dados de TI sem precisar de nenhum analisador especifico ou adaptadores para compra, escrever ou manter. Tanto os dados primários e o rico índice são armazenados em um eficiente, compacto, armazenamento de dados baseado em arquivos com assinatura de dados opcionais e auditoria da integridade de dados.

"Com o advento do Hadoop e tecnologias de indexação como Splunk, agora as tecnologias estão disponíveis para dar uma olhada com mais detalhes em torno de dados gerados por máquina e os dados gerados por usuários para entender o que está acontecendo dentro de uma organização, ou o que está acontecendo dentro de uma linha de produção, por exemplo ", disse Seward. Quando você pensa sobre o risco em toda a organização, você não está apenas pensando em segurança, no sentido tradicional, mas você também está pensando sobre o que as pessoas fazem no dia-a-dia em todos os dados ou o máximo que puder obter. o que seria um risco para o seu negócio particular. "Eu talvez precise olhar para os dados de aquecimento e ventilação para entender se alguém entrou na fábrica e alterou a temperatura de alguns graus, o que poderia colocar em risco toda a produção de um produto", disse ele.

"BIG DATA X PÉSSIMAS ANÁLISES", O DESAFIO A SER VENCIDO

Big data não é sobre os dados, é sobre as análises, segundo o professor da Universidade de Harvard Gary King - e existem algumas análises muito ruins lá fora. Um de seus exemplos recentes diz respeito a um grande projeto de dados que começou a usar feeds do Twitter e outras mídias sociais para prever a taxa de desemprego nos EUA. Os pesquisadores elaboraram uma categoria de muitas palavras que pertenceram ao desemprego, incluindo: emprego, desemprego e classificados. Eles capturaram tweets e outras mídias sociais que continham estas palavras, em seguida, olharam para as correlações entre o número total de palavras por mês nesta categoria e a taxa de desemprego mensal. Isto é conhecido como análise de sentimentos por contagem de palavras, e é uma abordagem de análise comuns, disse King.
O dinheiro foi levantado e trabalho se arrastou por um longo tempo e de repente houve um tremendo aumento no número de tweets que continham o tipo de palavras que caíssem nesta categoria. Talvez os pesquisadores haviam deixado passar alguma coisa. "O que eles não tinham notado foi que Steve Jobs havia morrido", disse King,professor da Universidade Albert J Weatherhead III e diretor do Instituto de Ciências Sociais Quantitativa em Harvard. Claro, tweets com "Jobs" postados por uma razão completamente diferente inundaram a rede.
King, cuja pesquisa se ​​concentra no desenvolvimento e aplicação de métodos empíricos para pesquisa em ciências sociais, disse que esses erros acontecem "o tempo todo", em análise de sentimentos pela contagem de palavras e outros programas de análise "off the shelf" . Isso porque essas abordagens tendem a confundir os seres humanos com os sistemas que respondem de maneiras completamente previsíveis. Isso é conhecido  como péssimo em analytics. "Nós somos muito bons em serem humanos, mas muito ingênuos tradando-se de computadores."
O orador principal na recente Text and Social Analytics Summit 2013 em Cambridge, Massachusetts, King fez questão que,sem dúvida, muitas empresas estão descobrindo como eles devem extrair valor a partir do pronto de origem dos dados que coletam e que são gerarados minuto a minuto. (Curiosidade: O volume de e-mail produzidos a cada cinco minutos é equivalente a todos os dados digitais na Biblioteca do Congresso.) O valor real em Big Data está na qualidade das análises, que muitas vezes exige cálculos matemáticos personalizados para o propósito de seu negócio em particular, não algo genérico como um programa off-the-shelf.
"Temos tentado comoditizar os analytics e há softwares lá fora que fazem um monte destas tarefas", disse King. Mas o software comercial que automatiza a "última milha", o trecho que separa um projeto de análise de Big Data vencedor de um coadjuvante, ele acredita que é raro, se é que existe algum.

CONTAGEM DE PALAVRAS CONTRA LEITURA ASSISTIDA POR COMPUTADOR

Uma característica comum de análise ruins envolve a formação de grumos de muitas classificações individuais para responder a perguntas sobre o zeitgeist. O projeto de análise Twitter descrito acima é um exemplo. Análise de sentimentos por uma contagem de palavras categóricas funciona por pouco tempo", mas se você fizer isso por mais tempo, isso será o suficiente para ele falhar catastroficamente", disse King.

Uma maneira de evitar erros de interpretação é de ler os posts - King trabalha com leitura assistida por computador para garantir que o post é realmente sobre o assunto. Isso requer semântica ao invés de contagem de palavras simples e é muito mais difícil de fazer.

Análises Ruins não se limitam à enormemente e difícil tarefa de analisar os não estruturados feeds de mídia social. Outro projeto de Big Data que deu errado descrito por King tentou descobrir as causas de morte em partes do mundo onde não há emissão da certidão de óbito. Uma maneira de coletar esses dados é ter pesquisadores indo de casa em casa fazendo o que é chamado de "autópsia verbal". Quais eram os sintomas do falecido exibidos antes de morrer,sangramento do nariz, dores de estômago?

Isso funciona muito bem, disse ele, até que você tente ligar o relatório verbal a um diagnóstico e o que você vai encontrar não necessariamente terá a mesma causa da morte de um médico para outro. O envio de um médico para a Tanzânia para fazer a autópsia verbal parece ter ajudado, mas isso pode ser um beco sem saída também. Um médico treinado em Boston, por exemplo, sem muita experiência em doenças tropicais, talvez não pense imediatamente em malária quando houver corrimento nasal e por sua vez reportará a causa da morte erroneamente. E enviar o melhor médico na Tanzânia em campo para fazer "este pequeno estudo", disse King, pode realmente acabar matando as pessoas, privando-os de um bem escasso, ou seja, um médico. O problema fundamental é que as análises estão focadas em classificações individuais quando o real objetivo da análise é a forma como toda a população foi distribuída.

"Na saúde pública, eles não se preocupam com você, eles se preocupam com "de que todo mundo morreu", disse King. A abordagem é ineficaz em muitos campos. "Uma vez que percebemos do que precisávamos para chegar a um método diferente para estimar a porcentagem na categoria que não tinha nada a ver com a classificação de um indivíduo."

Tratando-se do Brasil, este tipo de trabalho seria ainda mais complexo, levando-se em consideração o péssimo atendimento dos Serviços Públicos de Saúde onde médicos sequer dispõem de equipamentos para efetuar diagnósticos. Os médicos brasileiros além de enfrentar problemas de infraestrutura, ainda tem que lidar com as péssimas condições de trabalho as quais tem que se submeter para atender a população, e muito ao contrário do que você está imaginando, não estamos falando de povoados na Selva Amazônica ou cidades e povoados no Sertão Nordestino, também estão incluídos bairros das principais capitais do país.
Apesar de alguns hospitais públicos já contarem com os recursos da informatização, ainda é precário a qualidade dos dados informados, quando são informados, pois não há uma forma de se certificar que aqueles dados são confiáveis devido a forma de como são registrados e sem falar dos vários casos de desvio de verbas e corrupção na área da saúde. Portanto, qualquer tipo de trabalho a ser desenvolvido envolvendo a Análise de Big Data com dados obtidos a partir destes sistemas estaria fadado ao fracasso se não houvesse todo um trabalho de seleção e validação dos dados.