Mostrando postagens com marcador Hadoop. Mostrar todas as postagens
Mostrando postagens com marcador Hadoop. Mostrar todas as postagens

quinta-feira, 4 de dezembro de 2014

8 fortes tendências para Big Data Analytics

Como acontece com qualquer nova tecnologia, as soluções para Big Data Analytics começaram a apresentar sinais de amadurecimento, e isto se reflete numa oferta de mais e melhores opções para analisar os dados das empresas aliando desempenho, usabilidade e segurança. Analiso a seguir as 8 tendências apontadas pelo CIO.

Como acontece com qualquer nova tecnologia, as soluções para Big Data Analytics começaram a apresentar sinais de amadurecimento, e isto se reflete numa oferta de mais e melhores opções para analisar os dados das empresas aliando desempenho, usabilidade e segurança.
Analiso a seguir as 8 tendências apontadas pelo CIO.

1 – Big Data Analytics na nuvem
Embora desenvolvido inicialmente para funcionar com clusters de máquinas físicas, o Hadoop evoluiu, e muitos provedores oferecem opções para processamento de dados na nuvem, a exemplo de Amazon (Redshift e Kinesis), Google (Big Query) e IBM (Bluemix).
Há alguma controvérsia sobre os custos de utilizar soluções na nuvem para processar volumes muito grandes de dados (petabytes e acima), mas acredito num ajuste do mercado para que as ofertas de soluções na nuvem sejam atrativas mesmo para cenários mais “agressivos” de análise de dados.
Quando se trata de volumes menores de dados, a nuvem é a melhor opção, pois processar 1 TB de dados pode custar a partir de 25 dólares. Nada mal hein ?

2 – Hadoop, o sistema operacional corporativo para dados
O Hadoop atualmente suporta alternativas ao Map/Reduce, e as versões mais recentes oferecem mais recursos para escalabilidade, desempenho e segurança, além de facilidades que estão tornando cada vez mais simples utilizar as ferramentas, transformando o Hadoop no S.O. para dados “de fato”, o que deve se refletir numa adoção mais acelerada de agora em diante.
Integração com SQL, dados em memória, processamento de streamming, grafos e muitos outros tipos de processamentos de dados já são suportados, tornando a solução genérica o suficiente para ser útil aos mais diversos segmentos de mercado.

3 – Big Data Lakes
Comecei a ver este termo citado com mais frequência na mídia, significando que há um movimento de utilizar o Hadoop como “repositório gigante de dados”, ou seja, as empresas podem simplesmente “despejar” seus dados neste repositório, e construir gradativamente os esquemas necessários para acesso aos dados disponíveis.
Por um lado, isso reduz a necessidade de todo um trabalho prévio de modelagem antes de ser possível analisar os dados. Por outro, exige mais conhecimento para construir esquemas para acesso aos dados à medida que se tornam necessários, sob demanda, num processo incremental.

4 – Mais Análises Preditivas
Com as tecnologias para Big Data, a possibilidade de analisar mais dados implica também na possibilidade de analisar mais atributos, variáveis, metadados e registros, permitindo otimizar as amostras utilizadas em análises estatísticas e aumentando a capacidade de fazer previsões a partir dos dados.

O fato de não ter restrições de poder computacional faz uma diferença muito grande, segundo especialistas, permitindo formular os problemas de maneiras diferentes e viabilizando análises que antes eram impossíveis.

5 – SQL integrado ao Hadoop
As ferramentas que permitem o suporte à linguagem SQL com Hadoop estão evoluindo muito rapidamente, como todo o ecossistema Big Data, tanto em quantidade quanto qualidade, especialmente desempenho.
Isto é importante porque representa a possibilidade de utilizar uma linguagem que o mercado já conhece, mas dentro de um novo contexto, com novas possibilidades, o que simplifica o uso das novas soluções baseadas em Hadoop, reduzindo o investimento necessário em treinamento, por exemplo.
Embora o Hive continue evoluindo, especialista apontam que alternativas desenvolvidas pela Cloudera, Pivotal, IBM e outros fornecedores oferecem melhor desempenho, facilitando a análise interativa.

6 – Mais e melhores opções NoSQL


NoSQL não é nenhuma novidade pra quem acompanha o blog. Especialistas estimam entre 15 e 20 soluções Open Source NoSQL populares, cada uma com sua especialidade.
Soluções baseadas em grafos que facilitam a análise de redes de relacionamentos, ou especializadas em tratar fluxos de dados (streamming) de sensores ou redes sociais como Twitter, estão sendo integradas ao ecossistema Hadoop.


7 – Deep Learning
A combinação de técnicas de aprendizado de máquina conhecida como Deep Learning e que se baseia em redes neurais está evoluindo, e especialistas apontam grande potencial para a solução de problemas relacionados a negócios.
Identificar relações entre dados, ou destacar aqueles mais relevantes dentre um grande volume de informações são algumas das possibilidades que a técnica oferece, sem a necessidade de modelos especializados ou instruções através de códigos e programação.
Um exemplo muito interessante envolveu a aplicação de um algoritmo de Deep Learning para examinar dados da Wikipedia, tendo como resultado o aprendizado “por conta própria” de que Califórnia e Texas são estados dos EUA.

8 – Analytics em memória
O uso de bancos de dados em memória é cada vez maior, como demonstra a popularidade de soluções como Qlikview e Tableau, pois estas soluções, se usadas da maneira correta, podem trazer muitos benefícios às empresas através do chamado Hybrid Transaction/Analytical Processing (HTAP).
Mas tem gente usando errado, especialistas advertem. Estas soluções não são a melhor opção para lidar com dados que não mudam com frequência ou que não precisam ser analisados de muitas formas diferentes em tempo real. Nesse caso, é um desperdício de dinheiro.
O Spark é uma solução muito promissora que fornece a possibilidade de manipular grandes volumes de dados usando técnicas de armazenamento em memória de maneira análoga ao que o Map/Reduce faz em disco, e assim oferecendo uma alternativa às soluções tradicionais de bancos de dados em memória.

Conclusão
Do que tenho acompanhado, vejo claramente que (nunca antes na história deste planeta :) uma tecnologia foi tão rapidamente assimilada pelo mercado como estas relacionadas ao Big Data.
A evolução das ferramentas e o crescimento do ecossistema Hadoop ocorre na velocidade da luz, trazendo cada vez mais facilidades para uso da tecnologia pelas empresas.
Por isso, entendo que o recado é muito claro: a hora de começar a aprender, experimentar e adotar a tecnologia é agora, pois em breve o Hadoop vai virar commodity, e a vantagem competitiva para o profissional de TI que busque uma carreira nesta área desaparecerá.
Do ponto de vista das organizações, entendo que é hora de planejar iniciativas para 2015 que contemplem a utilização da tecnologia, e sugiro começar utilizando soluções mais simples de implementar, seja através de uma máquina virtual da Cloudera ou com o serviço EMR da Amazon.
Website: http://nitrotv.w.pw

Fonte : http://portal.comunique-se.com.br

quinta-feira, 16 de outubro de 2014

NAS pode ser rápida o suficiente para Hadoop

A Isilon defende que a tecnologia pode suportar, com vantagens, um “data lake” para Big Data se a análise de dados for executada dentro do repositório.
Craig Cotton,

O fato de, segundo , a análise de dados custar 30 mil dólares por terabyte, usando tecnologia da Teradata e da Oracle, levou a que menos de 1% dos dados existentes fossem analisados com software avançado. Craig Cotton, diretor de marketing de soluções da Isilon, uma empresa da EMC, considera que a utilização da Hadoop baixou muito esses custos, mas traz outros desafios.

No cruzamento e nas correlações de dados, com base em múltiplas fontes, não funciona de forma muito eficaz, defende Craig. Isso esbarra na ideia de colocar as ilhas de dados existentes nas empresas num repositório comum e acessível de várias maneiras: um “data lake”, ou traduzindo literalmente, um “lago de dados”.

É um repositório central onde todos os dados são introduzidos e armazenados na versão original. Os volumes de trabalho dos sistemas de informação da empresa, os de processamento automático pré-agendado, aqueles em tempo real e em interação com as bases de dados, busca empresarial e analítica avançada, vão alimentar-se desse substrato de dados.

A Isilon propõe os seus sistemas de software e hardware para suporte a esse repositório e a projetos de expansão de recursos de armazenamento sobre Network Attached Storage (NAS).

Computerworld ‒ Que problemas tem a Hadoop para a vossa concepção de “data lake”?

Craig Cotton ‒ A Hadoop é muito boa para analisar dados mas só “fala” em HDFS e é necessário retirar os dados do “data lake” por protocolos SMB (Server Message Block) ou NFS (Network File System) ou FTP (File Transfer Protocol). E como se faz o backup de tudo? É muito lento. Na Isilon, estamos a olhar para tecnologias capazes de acelerar tudo isso.

CWNo “data lake”, os dados estão disponíveis para serem analisados sem terem de sair desse repositório?

CC ‒ É a “in-place analytics” [ ou analítica no “sítio” onde estão os dados].

CW ‒ Em que matriz se baseia?

CC ‒ São dados não estruturados, montados no software da Isilon.

CW ‒ E o motor de análise qual será?

CC ‒ Aí está! Uma das vantagens será precisamente a possibilidade de escolher vários. Atualmente, o mais proeminente é a Hadoop. Mas se eu montar um cluster Hadoop, esse sistema só conseguirá comunicar segundo a norma HDFS.

Por isso tenho de usar ferramentas muito lentas que não são nativas para implantar dados, por via de outros protocolos. E se eu tiver 100 terabytes de Big Data e quiser movê-los de um sistema de armazenamento primário para um “cluster” Hadoop, demoro mais de 24 horas numa rede de 10 Gigabits.

CW ‒ E isto pode ser adaptado para novas normas de ferramentas de análise de dados?

CC ‒ Claro. Posso ter uma aplicação Linux e querer analisar os dados por via de NFS. Por isso, além de segurança e suporte a algumas funcionalidades de “multitenancy”, grande expansibilidade e, o mais crítico, é garantir múltiplas formas de acesso.

Depois de ter isso é que posso fazer análises de correlações mesmo interessantes. Podemos ver o caso de uma empresa de cuidados de saúde: tem informação sobre médicos numa base de dados, informação de receitas noutra e pacientes noutra.

Mas assim que os tiver num “date lake”, pode detectar que 90% de determinados pacientes, medicados com determinada combinação de comprimidos, ficou doente.

CW ‒ Como é que a tecnologia da Greenplum pode ser aproveitada neste quadro?

CC ‒ É uma tecnologia de base de dados “in-memory” de alto desempenho

CW ‒ Mas como pode relacionar-se com esta estrutura?

CC ‒ Posso instalar essa base de dados no Isilon, caso queira, ou posso retirar os dados dela e colocá-los no “data lake”. Para fazer as análises, usamos a solução Pivotal HD com motor HAWQ ou Cloudera.

Temos alguns clientes a usarem Pivotal e Cloudera, porque fazem coisas diferentes. Podemos suportar as duas distribuições, ao contrário da Hadoop. Alguns clientes questionam-se sobre se vão precisar de mais de duas. Há 30 anos não se levantava claramente a hipótese de uma organização precisar de mais de uma base de dados, e hoje têm várias e de diversos tipos.

Pensamos que, com o tempo, vai haver necessidade para mais distribuições da Hadoop. E, desta forma que propomos, podem aceder aos mesmos dados desde várias distribuições.

CW ‒ Quais serão os principais desafios de implantação de um “data lake”?

CC ‒ Para obter benefícios reais, embora não preveja que as empresas mudem logo de uma estrutura de silos para o “data lake”, um dos desafios é a necessidade de investir na ideia. Depois deverão evoluir para este tipo de plataforma, à medida que as plataformas instaladas atinjam o fim de vida.

Se houver orçamento, há a capacidade tecnológica e de expansão para desenvolver imediatamente. Mas, de uma forma mais prática, devem começar por um pequeno “data lake” e depois aumentá-lo ao longo do tempo.

Para alguns clientes, mover os dados demoraria três a cinco anos, enquanto para outros seria uma questão de meses.

CW ‒ E também não existe experiência suficiente no mercado para este novo tipo de projeto.

CC ‒ Sim, é verdade, isto envolve uma mudança nos paradigmas, até na implantação e gestão do sistema. Mas uma das vantagens do Isilon para os “data lakes” é poder dar-lhe início com três nós, e depois evoluir para 144 ao longo do tempo, conforme forem precisos mais métodos de acesso, e se acrescentam mais nós de armazenamento.

CW ‒ Que lições tem para partilhar das experiências e projetos já realizados na implantação de um “data lake”?

CC ‒ Várias. Uma é que, como a Hadoop é tradicionalmente usada como tecnologia de armazenamento DAS [de "direct attached storage"], estamos a formar os clientes sobre como usar armazenamento partilhado baseado em NAS.

Achamos que esta tem injustamente uma má reputação, a de ser demasiado lenta para o Hadoop. Na verdade, não é.

Mas supondo que é 10% mais lenta, se forneço com ela resultados 18 horas antes de começar a análise com DAS, é importante que [o processo em absoluto] seja mais lento? Porque deixa de ser preciso transferir os dados, a análise faz-se logo onde estão. E neste processo estamos mais próximos da Cloudera e estamos a desenvolver uma parceria com ela.

CW ‒ Mas o que é que aprenderam sobre este tipo de projetos?

CC ‒ Num grande banco, descobriu-se que havia 18 divisões todas a desenvolverem projetos baseados em analítica. Estavam todas a criar a sua ilha de armazenamento analítico.

Felizmente, o CTO apercebeu-se disso, conseguiu congregar toda a gente na organização e determinar que não iam ter 18 ilhas diferentes. Precisavam de aceder todos aos mesmos dados, e numa organização daquele tipo há requisitos de seguranças mais apertados.

CW ‒ E a montagem de um “data lake” resolveu esse assunto?

CC ‒ Resolveu, mas precisaram de capacidades seguras para haver instâncias utilizadas por múltiplos departamentos, num modelo “multitenant” [na qual a mesma instância serve várias entidades utilizadoras]. Isso é uma coisa que será importante para as grandes organizações.

CW ‒ Outra questão pode ser o licenciamento deste tipo de software. Como lidam com isso?

CC ‒ Não vamos cobrar por protocolos usados, nem pelo Hadoop no Isilon.

CW ‒ Como é que as empresas integram esta visão com aquilo que já têm? Qual é a melhor forma?

CC ‒ Temos quase cinco mil clientes e estamos a encorajá-los a pedirem-nos uma licença gratuita de Hadoop, fornecemos kits de iniciação de Hadoop, com versão para a Pivotal, Cloudera, Apache, Hortonworks, incluindo as extensões VMware para virtualizar a Hadoop. Aos clientes que não têm Isilon propomos o Isilon NFS na Internet para montar uma máquina de virtualização, para testes.

Também temos prestadores de serviço, por exemplo a Rackspace, a oferecer “data lake as a service” – ou seja, como um serviço. Se os clientes decidirem montar isto em cloud computing ou num modelo híbrido, têm essa opção.

CW ‒ Como é que isto se integra com a vossa estratégia de centro de dados definido por software, ou Software Defined Datacenter?

CC ‒ No EMC World, fizemos um anúncio preliminar de que o Isilon estará disponível no próximo ano como solução unicamente de software. Temos os nós S210 e X410, baseados no Intel Ivy bridge, e já são 99% constituídos por hardware “comodity”, já afinados para funcionarem bem com a nossa tecnologia.

O One FS funciona sobre Unix BSD. Vamos suportar plataformas de formato Open Compute e plataformas de hardware ”commodity”.

quarta-feira, 15 de janeiro de 2014

BIG DATA ANALYTICS - NOVOS PADRÕES EMERGEM PARA A SEGURANÇA

Os bombas detonadas durante a maratona de Boston oferecem um lembrete austero das falhas de Análise do Big Data e de Segurança, notoriamente as agências de inteligência foram incapazes de ligar os pontos antes e depois dos ataques 15 de abril.
A falta de compartilhamento de informações entre as organizações e unidades de negócios, ou a consciência de que um determinado conjunto de dados ainda existe, é um problema comum. Análises de Big Data podem ajudar a resolver este dilema, de acordo com seus proponentes, e fornecer dados de inteligência que detecta padrões suspeitos e ameaças potenciais, expandindo a definição de dados de segurança para todas as partes do negócio.
Segurança orientada a inteligência alimentada por análises de Big Data vai atrapalhar vários segmentos de produtos nos próximos dois anos, de acordo com executivos da RSA, a divisão de segurança da EMC. "Com a difusão de Big Data cobrindo tudo o que fazemos", disse Arthur Coviello, Jr., vice-presidente da EMC e presidente executivo da divisão de segurança RSA , durante sua palestra RSA, em fevereiro, "a nossa superfície de ataque está prestes a ser alterada e expandir , e os nossos riscos ampliados de forma que não poderíamos ter imaginado. "
Arthur Coviello, Jr., vice-presidente da EMC e
Presidente Executivo da Divisão de Segurança RSA
Como as organizações e funcionários cada vez mais operando em ambientes móveis, web e mídia social, aproveitando-se de informações identificadas por análises ou padrões através de uma ampla variedade de conjuntos de dados, incluindo texto não estruturado e binário de áudio de dados, imagens e vídeo podem oferecer informações valiosas sobre negócios riscos muito além de TI.
Mas, mesmo com o uso de modelagem estatística avançada e análise preditiva, as ameaças à segurança de origens desconhecidas ainda podem passar despercebidas. Será que o Big Data  e análises de alto desempenho realmente podem fazer segurança melhor? Talvez, mas hoje o uso significativo de tecnologias de Big Data em grandes volumes de dados de segurança é rara e extremamente desafiador, de acordo com Anton Chuvakin, diretor de segurança e gestão de risco, o Gartner, brincou com a pesquisa: "As organizações que usam análise preditiva tradicionais para a segurança ? Você quer dizer "os dois? '"
O Gartner define "big data", baseado nos 3Vs (Volume, Variedade e Velocidade). 
Anton Chuvakin
"As organizações que realmente investiram tempo (muitas vezes anos) e recursos (muitas vezes milhões de dólares) na construção de sua própria plataforma para big data analytics têm encontrado valor", disse Chuvakin. "Normalmente, esse valor se manifesta através de uma melhor detecção de fraudes, detecção de incidentes de segurança mais ampla e profunda tornando a investigação de incidentes mais eficaz."
Uma dessas empresas é a Visa, a gigante  em processamento de cartão de crédito. A empresa fez um respingo no início deste ano, quando se divulgou no The Wall Street Journal que ele estava usando um novo mecanismo de análise e 16 modelos diferentes, que pode ser atualizado em menos de uma hora, para detectar a fraude de cartão de crédito. Steve Rosenbush do The Journal blogged sobre as melhorias por trás do mecanismo de análise de alto desempenho, que de acordo com a Visa, ela monitora e acompanha até 500 aspectos de uma transação, em comparação com a tecnologia anterior, que só poderia lidar com 40. As capacidades de análises poderosas são possíveis em parte pela adoção da tecnologia de banco de dados não-relacional em 2010 e pelo framework open source software Apache Hadoop, que é projetado para o armazenamento de baixo custo e cálculo de dados distribuídos através de clusters de servidores de commodities da Visa.

A CORRIDA PARA GRANDES ANÁLISES 

Apesar de toda a polêmica sobre o Hadoop, que utiliza o modelo de programação MapReduce (derivado da tecnologia do Google) para "mapear" e "reduzir" de dados, juntamente com um sistema de arquivos distribuídos (HDFS) com built-in de automação para falhas e redundância,o uso de Hadoop é rara em grandes e médias empresas. As ferramentas para acessar o armazenamento do Hadoop e capacidades computacionais são ainda imperceptíveis, sem  interfaces, com ferramentas complexas para os cientistas de dados ou acesso programático para programadores qualificados com conhecimento de MapR Hive para consultas SQL-like ou Pig para alto nível de fluxo de dados.

Isso pode mudar em breve, no entanto, como os fornecedores de tecnologia de todas as empresas de infra-estrutura de todos os lados e grandes empresas de software prestadores de serviço na tentativa de fornecer grandes ferramentas de análise de dados (Big Data Analytics Tools)para usuários corporativos. A Cloudera, oferece uma distribuição para Hadoop (CDH) e a SAS anunciou uma parceria estratégica para integrar SAS High Performance Analytics e SAS Analytics Visual entre outras ferramentas no final de abril. Infobright, Greenplum da EMC e MapR estão se movendo para o espaço empresarial com análises e ferramentas de visualização que permitem aos analistas corporativos trabalhar com grandes conjuntos de dados e desenvolvimento de processos analíticos, em alguns casos usando sandboxing e virtualização.
"Esse tipo de análise vendo sendo necessária ha muito tempo e apenas agora as tecnologias que podem realmente realizar esse tipo de análise em grandes escalas será disponibilizada ", disse Mark Seward, diretor sênior de segurança e conformidade em Splunk. Informações de segurança das empresas e gerenciamento de eventos de tecnologia (SIEM) já é utilizado por cerca de 2.000 empresas para analisar os dados da máquina, o que inclui todos os dados de sistemas, a "Internet das coisas" e os dispositivos conectados.

Qualquer texto ACSII podem ser indexados pelo Splunk, que por sua vez pode usar até 150 comandos sobre os dados de retorno definidos para realizar a análise estatística e disponibilizar visualizações. De acordo com Seward, o Splunk pode ser escalado para petabytes de dados. Ele não lida nativamente com dados binários mas o Hadoop e outros conversores estão disponíveis. Para usar o Splunk, os profissionais de segurança de TI essencialmente precisam entender e conhecer comandos shell script Unix, SQL e ter acesso à documentação sobre o tipo de campos que têm nos dados.

O que é o Splunk?

Splunk é uma ferramenta de pesquisa e analise de logs de TI. É um software que permite que você indexe, pesquise, alerte e informe em tempo real e permite que você visualize históricos de dados de TI – dando uma maior visualização em toda a sua infra-estrutura de TI de uma localidade em tempo real. Reduza o tempo para solucionar problemas de TI e incidentes de segurança para minutos ou segundos ao invés de horas ou dias. Monitore toda sua infra-estrutura de TI para evitar degradação do serviço e tempo de inatividade. Relatórios sobre todos os controles de sua conformidade a um custo menor e em uma fração do tempo. O download do Splunk gratuito.

Splunk indexa qualquer tipo de dado de TI de qualquer fonte em tempo real. Aponte seus servidores syslog ou dispositivos de rede para o Splunk, configure sondagens de WMI, monitore arquivos de log em tempo real, permitir a monitoração das alterações em seu sistema de arquivos ou o registro no Windows, ou até mesmo agendar um script para pegar as métricas do sistema. Splunk indexa todos os seus dados de TI sem precisar de nenhum analisador especifico ou adaptadores para compra, escrever ou manter. Tanto os dados primários e o rico índice são armazenados em um eficiente, compacto, armazenamento de dados baseado em arquivos com assinatura de dados opcionais e auditoria da integridade de dados.

"Com o advento do Hadoop e tecnologias de indexação como Splunk, agora as tecnologias estão disponíveis para dar uma olhada com mais detalhes em torno de dados gerados por máquina e os dados gerados por usuários para entender o que está acontecendo dentro de uma organização, ou o que está acontecendo dentro de uma linha de produção, por exemplo ", disse Seward. Quando você pensa sobre o risco em toda a organização, você não está apenas pensando em segurança, no sentido tradicional, mas você também está pensando sobre o que as pessoas fazem no dia-a-dia em todos os dados ou o máximo que puder obter. o que seria um risco para o seu negócio particular. "Eu talvez precise olhar para os dados de aquecimento e ventilação para entender se alguém entrou na fábrica e alterou a temperatura de alguns graus, o que poderia colocar em risco toda a produção de um produto", disse ele.