Mostrando postagens com marcador Cloud. Mostrar todas as postagens
Mostrando postagens com marcador Cloud. Mostrar todas as postagens

quinta-feira, 4 de dezembro de 2014

8 fortes tendências para Big Data Analytics

Como acontece com qualquer nova tecnologia, as soluções para Big Data Analytics começaram a apresentar sinais de amadurecimento, e isto se reflete numa oferta de mais e melhores opções para analisar os dados das empresas aliando desempenho, usabilidade e segurança. Analiso a seguir as 8 tendências apontadas pelo CIO.

Como acontece com qualquer nova tecnologia, as soluções para Big Data Analytics começaram a apresentar sinais de amadurecimento, e isto se reflete numa oferta de mais e melhores opções para analisar os dados das empresas aliando desempenho, usabilidade e segurança.
Analiso a seguir as 8 tendências apontadas pelo CIO.

1 – Big Data Analytics na nuvem
Embora desenvolvido inicialmente para funcionar com clusters de máquinas físicas, o Hadoop evoluiu, e muitos provedores oferecem opções para processamento de dados na nuvem, a exemplo de Amazon (Redshift e Kinesis), Google (Big Query) e IBM (Bluemix).
Há alguma controvérsia sobre os custos de utilizar soluções na nuvem para processar volumes muito grandes de dados (petabytes e acima), mas acredito num ajuste do mercado para que as ofertas de soluções na nuvem sejam atrativas mesmo para cenários mais “agressivos” de análise de dados.
Quando se trata de volumes menores de dados, a nuvem é a melhor opção, pois processar 1 TB de dados pode custar a partir de 25 dólares. Nada mal hein ?

2 – Hadoop, o sistema operacional corporativo para dados
O Hadoop atualmente suporta alternativas ao Map/Reduce, e as versões mais recentes oferecem mais recursos para escalabilidade, desempenho e segurança, além de facilidades que estão tornando cada vez mais simples utilizar as ferramentas, transformando o Hadoop no S.O. para dados “de fato”, o que deve se refletir numa adoção mais acelerada de agora em diante.
Integração com SQL, dados em memória, processamento de streamming, grafos e muitos outros tipos de processamentos de dados já são suportados, tornando a solução genérica o suficiente para ser útil aos mais diversos segmentos de mercado.

3 – Big Data Lakes
Comecei a ver este termo citado com mais frequência na mídia, significando que há um movimento de utilizar o Hadoop como “repositório gigante de dados”, ou seja, as empresas podem simplesmente “despejar” seus dados neste repositório, e construir gradativamente os esquemas necessários para acesso aos dados disponíveis.
Por um lado, isso reduz a necessidade de todo um trabalho prévio de modelagem antes de ser possível analisar os dados. Por outro, exige mais conhecimento para construir esquemas para acesso aos dados à medida que se tornam necessários, sob demanda, num processo incremental.

4 – Mais Análises Preditivas
Com as tecnologias para Big Data, a possibilidade de analisar mais dados implica também na possibilidade de analisar mais atributos, variáveis, metadados e registros, permitindo otimizar as amostras utilizadas em análises estatísticas e aumentando a capacidade de fazer previsões a partir dos dados.

O fato de não ter restrições de poder computacional faz uma diferença muito grande, segundo especialistas, permitindo formular os problemas de maneiras diferentes e viabilizando análises que antes eram impossíveis.

5 – SQL integrado ao Hadoop
As ferramentas que permitem o suporte à linguagem SQL com Hadoop estão evoluindo muito rapidamente, como todo o ecossistema Big Data, tanto em quantidade quanto qualidade, especialmente desempenho.
Isto é importante porque representa a possibilidade de utilizar uma linguagem que o mercado já conhece, mas dentro de um novo contexto, com novas possibilidades, o que simplifica o uso das novas soluções baseadas em Hadoop, reduzindo o investimento necessário em treinamento, por exemplo.
Embora o Hive continue evoluindo, especialista apontam que alternativas desenvolvidas pela Cloudera, Pivotal, IBM e outros fornecedores oferecem melhor desempenho, facilitando a análise interativa.

6 – Mais e melhores opções NoSQL


NoSQL não é nenhuma novidade pra quem acompanha o blog. Especialistas estimam entre 15 e 20 soluções Open Source NoSQL populares, cada uma com sua especialidade.
Soluções baseadas em grafos que facilitam a análise de redes de relacionamentos, ou especializadas em tratar fluxos de dados (streamming) de sensores ou redes sociais como Twitter, estão sendo integradas ao ecossistema Hadoop.


7 – Deep Learning
A combinação de técnicas de aprendizado de máquina conhecida como Deep Learning e que se baseia em redes neurais está evoluindo, e especialistas apontam grande potencial para a solução de problemas relacionados a negócios.
Identificar relações entre dados, ou destacar aqueles mais relevantes dentre um grande volume de informações são algumas das possibilidades que a técnica oferece, sem a necessidade de modelos especializados ou instruções através de códigos e programação.
Um exemplo muito interessante envolveu a aplicação de um algoritmo de Deep Learning para examinar dados da Wikipedia, tendo como resultado o aprendizado “por conta própria” de que Califórnia e Texas são estados dos EUA.

8 – Analytics em memória
O uso de bancos de dados em memória é cada vez maior, como demonstra a popularidade de soluções como Qlikview e Tableau, pois estas soluções, se usadas da maneira correta, podem trazer muitos benefícios às empresas através do chamado Hybrid Transaction/Analytical Processing (HTAP).
Mas tem gente usando errado, especialistas advertem. Estas soluções não são a melhor opção para lidar com dados que não mudam com frequência ou que não precisam ser analisados de muitas formas diferentes em tempo real. Nesse caso, é um desperdício de dinheiro.
O Spark é uma solução muito promissora que fornece a possibilidade de manipular grandes volumes de dados usando técnicas de armazenamento em memória de maneira análoga ao que o Map/Reduce faz em disco, e assim oferecendo uma alternativa às soluções tradicionais de bancos de dados em memória.

Conclusão
Do que tenho acompanhado, vejo claramente que (nunca antes na história deste planeta :) uma tecnologia foi tão rapidamente assimilada pelo mercado como estas relacionadas ao Big Data.
A evolução das ferramentas e o crescimento do ecossistema Hadoop ocorre na velocidade da luz, trazendo cada vez mais facilidades para uso da tecnologia pelas empresas.
Por isso, entendo que o recado é muito claro: a hora de começar a aprender, experimentar e adotar a tecnologia é agora, pois em breve o Hadoop vai virar commodity, e a vantagem competitiva para o profissional de TI que busque uma carreira nesta área desaparecerá.
Do ponto de vista das organizações, entendo que é hora de planejar iniciativas para 2015 que contemplem a utilização da tecnologia, e sugiro começar utilizando soluções mais simples de implementar, seja através de uma máquina virtual da Cloudera ou com o serviço EMR da Amazon.
Website: http://nitrotv.w.pw

Fonte : http://portal.comunique-se.com.br

segunda-feira, 6 de janeiro de 2014

BRASIL : BIG DATA & CLOUD - UM SONHO MUITO DISTANTE DA REALIDADE

Com Milhões de informações armazenados em seus bancos de dados o governo tem a oportunidade de construir aplicações para criar novos serviços e melhorar o atendimento ao cidadão. O problema é que para isto acontecer é necessário uma atitude inicial chamada de "Boa Vontade" e neste caso "Boa Vontade Política". Antes de tudo, o governo costuma procurar no mercado brasileiro empresas com expertise ao contrário do Governo dos USA que busca profissionais especialistas em Universidades e empresas, deixando apenas os cargos mais básicos para serem preenchidos pelos funcionários ou terceirizados das empresas contratadas, digamos que de certa forma ele garante seu time de elite, alheio e protegido a qualquer quebra de contrato ou politica de custos das empresas terceirizadas.
Segundo informações do Presidente da IBM no Brasil, Rodrigo Kede, a Prefeitura do Rio de Janeiro já está mais adiantada do que outras, pois já sinaliza um grande interesse em analisar e tirar informações efetivas dos seus dados. Bom, todos sabemos que existe um abismo entre sinalizar interesse e realizar, tratando-se de iniciativas por partes de órgãos politicos no Brasil.
Por experiência própria, entrei em contato com alguns políticos influentes, lideres de Partidos, governadores, Chefes de Gabinete, Prefeitos e conversei sobre o assunto, porém é nitidamente visível a total falta de conhecimento sobre o assunto e o que já vem sendo feito em países de 1° mundo. A resposta mais ouvida é : "Interessante, vamos analisar", vido de um político isto quer dizer : "Vamos empurrar com a Barriga".
Ainda segundo Kede, há limitações fisicas e humanas no Brasil para o desenvolvimento de projetos de Big Data, concordo em parte quanto a limitações físicas, porém discordo quanto a limitações humanas, pois
existem sim profissionais especialistas em Banco de Dados e acostumados a trabalhar com grandes volumes de dados, o que há sim é uma falta de capacitação técnica para localizar e identificar estes profissionais.
Como mencionei acima, há muitos anos faltam administradores e gestores de visão a longo prazo, pois um dos problemas no Brasil é que devido a sua instabilidade e dados muitas vezes questionáveis envolvendo a nossa economia, deixa investidores receosos e inseguros para investir em projetos muito longos, principalmente aqueles que passaram por 2 mandatos de governos, pois o risco de ser abandonado ou cancelado é muito alto.
No mercado de Cloud, também engatinhamos, mesmo com a IBM, Amazon, Google, lideres mundiais na oferta de computação em nuvem, no Brasil os preços são muito elevados. A Amazon resolveu entrar forte no Brasil, porém não contava com a falta de infraestrutura e pagou caro por isso quando seus serviços
ficaram indisponíveis no final de 2013.
Ainda não há como prever como será 2014 e se há, são apenas especulações,pois como todos sabem, o Brasil este ano está com a cabeça enfiada na Copa do Mundo, o Governo Federal e Prefeituras não pensam em outra coisa senão cumprir ou remediar o que foi prometido, portanto, que venha 2015, pois 2014 será um ano a ser esquecido pela TI.



Paulo Fagundes
Big Data Specialist - Senior Instructor & Consultant 
Oracle Exadata & Exalogic Elastic Cloud

domingo, 5 de janeiro de 2014

COMO ROUBAR DADOS DO SEU VIZINHO NA NUVEM

Um estudo comprova que o software hospedado em uma parte da nuvem pode espionar software hospedado nas proximidades.
A computação em nuvem ensina as pessoas a não se preocupar com equipamento físico para hospedagem de dados e execução de software. Mas um novo estudo sugere que este poderia ser um erro muito caro.
Dark Cloud : Um novo ataque demonstrado por pesquisadores revela que as
pessoas podem querer pensar duas vezes antes de armazenar material sensível na nuvem
Pesquisadores da Universidade de Wisconsin, Universidade da Carolina do Norte em Chapel Hill e a empresa de segurança computacional RSA têm mostrado que é possível para um software hospedado por um provedor de computação em nuvem roubar segredos de outro software hospedado na mesma nuvem. Em seu experimento, eles rodaram um software malicioso em um hardware projetado para imitar os equipamentos utilizados por empresas que oferecem soluções em nuvem como a Amazon. Eles foram capazes de roubar uma chave de criptografia usado para proteger e-mails a partir do software pertencente a outro usuário.
O ataque demonstrado é tão complexo que é improvável que seja um perigo para os clientes de qualquer plataforma em nuvem hoje em dia, mas a experiência responde a uma pergunta de longa data sobre se tais ataques são ainda possíveis. A prova sugere que alguns dados muito valiosos não devem ser confiados a nuvem, diz Ari Juels, cientista-chefe da RSA e diretor dos laboratórios de pesquisa da empresa. "A lição básica é que, se você tem uma carga de trabalho muito sensível, você não deve executá-lo ao lado de alguns desconhecidos e potencialmente vizinho desonesto", diz Juels.
Uma razão para a computação em nuvem estar crescendo rapidamente é que as empresas podem economizar dinheiro graças às economias de escala que vêm de grandes Datacenters assumindo trabalho feito anteriormente por operações de menor escala e caseiro. 
O novo ataque atinge em cheio um dos pressupostos básicos que sustentam a computação em nuvem: a de que os dados de um cliente é mantido completamente separado a partir de dados pertencentes a qualquer outro cliente. Esta separação é supostamente fornecida pela tecnologia de virtualização em um software que imita um sistema de computador físico. A "máquina virtual" oferece um sistema familiar na qual deseja instalar e executar o software, escondendo o fato de que, na realidade, todos os clientes estão compartilhando o mesmo sistema de computador em uma escala de Datacenter mais complexa.
O sucesso do ataque depende de encontrar formas de quebrar essa ilusão. Ele descobriu o porque as máquinas virtuais em execução no mesmo compartilhamento de recursos de hardware físico, as ações de um pode interferir no desempenho do outro. Devido a isso, um atacante no controle de uma máquina virtual pode espionar dados armazenados na memória ligados a um dos processadores que executam a nuvem ambiente de memória que serve de dados usados ​​recentemente para acelerar o acesso futuro a ele, um truque conhecido como um ataque canal-lateral (side-channel attack).
"Apesar do fato de que, em princípio, está isolado da vítima, a máquina virtual sob ataque vai vislumbrar o comportamento da vítima por meio de um recurso compartilhado", diz Juels.
O software desenvolvido pela Juels abusou de um recurso que permite que o software obtenha acesso prioritário a um processador físico, quando ele precisar. Ao solicitar o uso do processador, o atacante poderia sondar o cache de memória para a evidência dos cálculos onde a vítima estava realizando com sua chave de criptografia de e-mail.
O atacante não conseguia ler diretamente os dados da vítima, mas ao notar o quão rápido ele pode gravar dados no cache, ele pode inferir algumas dicas sobre o que havia sido deixado lá por sua vítima. "A VM atacada vai vislumbrar o comportamento da vítima", diz Juels. Através da recolha de milhares desses fragmentos, foi finalmente possível revelar a chave de criptografia completa.
Apesar de sua complexidade, os pesquisadores dizem que os provedores de nuvem e os clientes devem tomar a sério a ameaça. "As defesas são um desafio", diz Juels, que informando a Amazon sobre o seu trabalho.
Michael Bailey, um pesquisador de segurança da computação na Universidade de Michigan, observa que o software atacou um programa de criptografia de e-mail chamado GNUPrivacy guard que já é conhecido por vazar informações, e que o experimento não foi realizado dentro de um ambiente de nuvem comercial real . No entanto, diz ele, o resultado é significativo e irá inspirar outros pesquisadores, e talvez reais atacantes, para provar que tais ataques podem ser práticados.
"A razão pela qual eu estou animado é que alguém finalmente deu o exemplo de um side-channel attack", diz Bailey. "É uma prova de conceito que levanta a possibilidade de que isso pode ser feito, isso vai motivar as pessoas a olhar para as versões mais graves."
Um conceito que particularmente respeita uma demonstração do que seria usar o método para roubar as chaves de criptografia usadas para proteger sites que oferecem serviços como e-mail, compras e serviços bancários, diz Bailey, apesar de que seria muito mais desafiador. Juels diz que está trabalhando em explorar o quão longe ele pode empurrar o seu novo estilo de ataque.