quinta-feira, 16 de outubro de 2014

Oracle quer SQL como “lingua franca” para Big Data

A Oracle espera chamar a atenção do mercado de análise de dados com o Big Data SQL, uma ferramenta de software que pode executar uma única consulta SQL na própria base de dados da Oracle, bem como em repositórios de dados Hadoop e NoSQL.

O software é uma opção para a Big Data Appliance da Oracle, que incorpora a distribuição Hadoop da Cloudera, disse Neil Mendelson, vice-presidente de desenvolvimento de produtos, Big Data e analítica.

Há muita experimentação de empresas em redor do Big Data, mas alguns factores estão a impedir os clientes de deslocarem esses projectos para o modo de produção, nomeadamente pela falta de integração entre o Hadoop e outros sistemas, dificultada pela obtenção de talentos e por preocupações com a segurança, disse Mendelson.

O Big Data SQL aproveita as capacidades básicas de qualquer administrador de base de dados Oracle, acrescentou. No entanto, também tem que se comprar muita da tecnologia da Oracle.

Os benefícios completos do Big Data SQL requerem uma base de dados Oracle instalada e a funcionar na máquina da base de dados Exadata da empresa. Numa implementação, a Exadata e a Big Data Appliance partilham uma interligação para a troca de dados, disse Mendelson.

Além disso, o Big SQL Data só é compatível com a versão 12c da base de dados Oracle, lançada no ano passado. A maioria dos clientes ainda usam versões 11g e anteriores.

Mas os clientes têm benefícios pelo investimento que o Big Data SQL requer, em particular a capacidade de usar recursos avançados de segurança da base de dados da Oracle nos ambientes Hadoop e NoSQL, disse. Regras de segurança definidas para dados na 12c são simplesmente “empurrados” para os outros ambientes, disse Mendelson.

A Oracle irá ao longo do tempo adicionar suporte para o uso do Big Data SQL com outros sistemas de hardware que também vende, de acordo com o mesmo responsável. O software deverá estar disponível nos próximos meses (a empresa refere o terceiro trimestre do ano), com os preços a serem anunciados nessa altura.

O Big Data SQL não é uma tentativa de substituir os motores SQL já criados para o Hadoop, como o Hive ou o Impala, que a Oracle continuará a usar com a Big Data Appliance, referiu. “Nós estamos realmente a resolver um problema mais amplo”.

Um grande desafio para os cientistas de dados é a sobrecarga de mover dados entre sistemas, disse Mendelson. O Big Data SQL permite que várias “bases” de informação possam ser consultadas com um movimento mínimo de dados, e as consultas são mais eficientes usando a tecnologia Smart Scan do Exadata.

NAS pode ser rápida o suficiente para Hadoop

A Isilon defende que a tecnologia pode suportar, com vantagens, um “data lake” para Big Data se a análise de dados for executada dentro do repositório.
Craig Cotton,

O fato de, segundo , a análise de dados custar 30 mil dólares por terabyte, usando tecnologia da Teradata e da Oracle, levou a que menos de 1% dos dados existentes fossem analisados com software avançado. Craig Cotton, diretor de marketing de soluções da Isilon, uma empresa da EMC, considera que a utilização da Hadoop baixou muito esses custos, mas traz outros desafios.

No cruzamento e nas correlações de dados, com base em múltiplas fontes, não funciona de forma muito eficaz, defende Craig. Isso esbarra na ideia de colocar as ilhas de dados existentes nas empresas num repositório comum e acessível de várias maneiras: um “data lake”, ou traduzindo literalmente, um “lago de dados”.

É um repositório central onde todos os dados são introduzidos e armazenados na versão original. Os volumes de trabalho dos sistemas de informação da empresa, os de processamento automático pré-agendado, aqueles em tempo real e em interação com as bases de dados, busca empresarial e analítica avançada, vão alimentar-se desse substrato de dados.

A Isilon propõe os seus sistemas de software e hardware para suporte a esse repositório e a projetos de expansão de recursos de armazenamento sobre Network Attached Storage (NAS).

Computerworld ‒ Que problemas tem a Hadoop para a vossa concepção de “data lake”?

Craig Cotton ‒ A Hadoop é muito boa para analisar dados mas só “fala” em HDFS e é necessário retirar os dados do “data lake” por protocolos SMB (Server Message Block) ou NFS (Network File System) ou FTP (File Transfer Protocol). E como se faz o backup de tudo? É muito lento. Na Isilon, estamos a olhar para tecnologias capazes de acelerar tudo isso.

CWNo “data lake”, os dados estão disponíveis para serem analisados sem terem de sair desse repositório?

CC ‒ É a “in-place analytics” [ ou analítica no “sítio” onde estão os dados].

CW ‒ Em que matriz se baseia?

CC ‒ São dados não estruturados, montados no software da Isilon.

CW ‒ E o motor de análise qual será?

CC ‒ Aí está! Uma das vantagens será precisamente a possibilidade de escolher vários. Atualmente, o mais proeminente é a Hadoop. Mas se eu montar um cluster Hadoop, esse sistema só conseguirá comunicar segundo a norma HDFS.

Por isso tenho de usar ferramentas muito lentas que não são nativas para implantar dados, por via de outros protocolos. E se eu tiver 100 terabytes de Big Data e quiser movê-los de um sistema de armazenamento primário para um “cluster” Hadoop, demoro mais de 24 horas numa rede de 10 Gigabits.

CW ‒ E isto pode ser adaptado para novas normas de ferramentas de análise de dados?

CC ‒ Claro. Posso ter uma aplicação Linux e querer analisar os dados por via de NFS. Por isso, além de segurança e suporte a algumas funcionalidades de “multitenancy”, grande expansibilidade e, o mais crítico, é garantir múltiplas formas de acesso.

Depois de ter isso é que posso fazer análises de correlações mesmo interessantes. Podemos ver o caso de uma empresa de cuidados de saúde: tem informação sobre médicos numa base de dados, informação de receitas noutra e pacientes noutra.

Mas assim que os tiver num “date lake”, pode detectar que 90% de determinados pacientes, medicados com determinada combinação de comprimidos, ficou doente.

CW ‒ Como é que a tecnologia da Greenplum pode ser aproveitada neste quadro?

CC ‒ É uma tecnologia de base de dados “in-memory” de alto desempenho

CW ‒ Mas como pode relacionar-se com esta estrutura?

CC ‒ Posso instalar essa base de dados no Isilon, caso queira, ou posso retirar os dados dela e colocá-los no “data lake”. Para fazer as análises, usamos a solução Pivotal HD com motor HAWQ ou Cloudera.

Temos alguns clientes a usarem Pivotal e Cloudera, porque fazem coisas diferentes. Podemos suportar as duas distribuições, ao contrário da Hadoop. Alguns clientes questionam-se sobre se vão precisar de mais de duas. Há 30 anos não se levantava claramente a hipótese de uma organização precisar de mais de uma base de dados, e hoje têm várias e de diversos tipos.

Pensamos que, com o tempo, vai haver necessidade para mais distribuições da Hadoop. E, desta forma que propomos, podem aceder aos mesmos dados desde várias distribuições.

CW ‒ Quais serão os principais desafios de implantação de um “data lake”?

CC ‒ Para obter benefícios reais, embora não preveja que as empresas mudem logo de uma estrutura de silos para o “data lake”, um dos desafios é a necessidade de investir na ideia. Depois deverão evoluir para este tipo de plataforma, à medida que as plataformas instaladas atinjam o fim de vida.

Se houver orçamento, há a capacidade tecnológica e de expansão para desenvolver imediatamente. Mas, de uma forma mais prática, devem começar por um pequeno “data lake” e depois aumentá-lo ao longo do tempo.

Para alguns clientes, mover os dados demoraria três a cinco anos, enquanto para outros seria uma questão de meses.

CW ‒ E também não existe experiência suficiente no mercado para este novo tipo de projeto.

CC ‒ Sim, é verdade, isto envolve uma mudança nos paradigmas, até na implantação e gestão do sistema. Mas uma das vantagens do Isilon para os “data lakes” é poder dar-lhe início com três nós, e depois evoluir para 144 ao longo do tempo, conforme forem precisos mais métodos de acesso, e se acrescentam mais nós de armazenamento.

CW ‒ Que lições tem para partilhar das experiências e projetos já realizados na implantação de um “data lake”?

CC ‒ Várias. Uma é que, como a Hadoop é tradicionalmente usada como tecnologia de armazenamento DAS [de "direct attached storage"], estamos a formar os clientes sobre como usar armazenamento partilhado baseado em NAS.

Achamos que esta tem injustamente uma má reputação, a de ser demasiado lenta para o Hadoop. Na verdade, não é.

Mas supondo que é 10% mais lenta, se forneço com ela resultados 18 horas antes de começar a análise com DAS, é importante que [o processo em absoluto] seja mais lento? Porque deixa de ser preciso transferir os dados, a análise faz-se logo onde estão. E neste processo estamos mais próximos da Cloudera e estamos a desenvolver uma parceria com ela.

CW ‒ Mas o que é que aprenderam sobre este tipo de projetos?

CC ‒ Num grande banco, descobriu-se que havia 18 divisões todas a desenvolverem projetos baseados em analítica. Estavam todas a criar a sua ilha de armazenamento analítico.

Felizmente, o CTO apercebeu-se disso, conseguiu congregar toda a gente na organização e determinar que não iam ter 18 ilhas diferentes. Precisavam de aceder todos aos mesmos dados, e numa organização daquele tipo há requisitos de seguranças mais apertados.

CW ‒ E a montagem de um “data lake” resolveu esse assunto?

CC ‒ Resolveu, mas precisaram de capacidades seguras para haver instâncias utilizadas por múltiplos departamentos, num modelo “multitenant” [na qual a mesma instância serve várias entidades utilizadoras]. Isso é uma coisa que será importante para as grandes organizações.

CW ‒ Outra questão pode ser o licenciamento deste tipo de software. Como lidam com isso?

CC ‒ Não vamos cobrar por protocolos usados, nem pelo Hadoop no Isilon.

CW ‒ Como é que as empresas integram esta visão com aquilo que já têm? Qual é a melhor forma?

CC ‒ Temos quase cinco mil clientes e estamos a encorajá-los a pedirem-nos uma licença gratuita de Hadoop, fornecemos kits de iniciação de Hadoop, com versão para a Pivotal, Cloudera, Apache, Hortonworks, incluindo as extensões VMware para virtualizar a Hadoop. Aos clientes que não têm Isilon propomos o Isilon NFS na Internet para montar uma máquina de virtualização, para testes.

Também temos prestadores de serviço, por exemplo a Rackspace, a oferecer “data lake as a service” – ou seja, como um serviço. Se os clientes decidirem montar isto em cloud computing ou num modelo híbrido, têm essa opção.

CW ‒ Como é que isto se integra com a vossa estratégia de centro de dados definido por software, ou Software Defined Datacenter?

CC ‒ No EMC World, fizemos um anúncio preliminar de que o Isilon estará disponível no próximo ano como solução unicamente de software. Temos os nós S210 e X410, baseados no Intel Ivy bridge, e já são 99% constituídos por hardware “comodity”, já afinados para funcionarem bem com a nossa tecnologia.

O One FS funciona sobre Unix BSD. Vamos suportar plataformas de formato Open Compute e plataformas de hardware ”commodity”.

Mais de metade dos dados são cópias desnecessárias

A culpa é da popularidade dos “backups”.
Mais de 60% do que é armazenado em centros de dados são, na verdade, cópias desnecessários, de acordo com a Actifio.

O presidente da empresa, Jim Sullivan, considera que isso pode estar relacionado com a popularidade dos “back-ups”, que depois se expandiu para a continuidade do negócio, recuperação de desastres e replicação.

“Isto foi seguido por requisitos de negócios em relação à ‘compliance’, retenção e armazenamento de dados”, disse.

“As pessoas tinham de ter proteções para manterem cópias de dados, o que criou mais silos de armazenamento que não são muito eficientes”.

Sullivan atribui o crescimento do armazenamento ao longo das últimas décadas predominantemente às cópias dos mesmos dados, uma abordagem que tem a tendência para ser “ineficiente, cara e complexa”.

“O que as pessoas fazem é comprar sistemas de armazenamento e implantar vários softwares diferentes e, muitos diferentes silos ligados fisicamente a esses sistemas de armazenamento, e não há muita liberdade ou agilidade nisso”, considera.

A Actifio tenta resolver este problema com a sua própria plataforma de gestão de dados que, segundo Sullivan, descobre os dados no seu formato nativo ao nível da aplicação.

De seguida, cria uma cópia dos dados, enquanto as imagens virtuais podem ser gravadas num único processo, o que pode reduzir o espaço de armazenamento até 50%, os custos de armazenamento até 90% e a largura de banda até 70%, diz aquele responsável.

Europa tem 2.500 milhões de euros para Big Data

A Europa está a ficar para trás e precisa urgentemente de investimento em Big Data para se manter a par da concorrência.
O Big Data vai ter um grande impulso na União Europeia, correspondente a 2 mil milhões de euros de investimento de um consórcio industrial, a que se somam 500 milhões de euros do dinheiro público, ao longo dos próximos cinco anos.

Empresas como a Atos, IBM, Nokia Solutions and Networks, Orange, SAP e Siemens, juntamente com várias entidades da investigação, vão investir nesta parceria público-privada (PPP) a partir de Janeiro de 2015.

A parceria vai investir em investigação e inovação em campos de Big Data como a energia, manufacturação e saúde para prestar serviços, incluindo medicina personalizada, logística alimentar e analítica predictiva. Outros produtos podem incluir a previsão de rendimento das culturas ou a aceleração do diagnóstico de lesões cerebrais.

O investimento vai dar um impulso à indústria europeia de Big Data, explicou a vice-presidente da Comissão Europeia, Neelie Kroes, durante uma conferência de imprensa em Bruxelas.

“A Europa está a ficar para trás. Praticamente todas as grandes empresas de Big Data são dos EUA, nenhuma é da Europa”, disse. “Isso tem que mudar e é por isso que estamos a colocar dinheiro público no projeto”.

O dinheiro é necessário para ajudar as empresas a processar alguns dos 1,7 milhões de gigabytes de dados que Kroes disse serem gerados no redor do mundo a cada minuto. Esses dados, incluindo informações sobre o clima, imagens de satélite, fotos digitais e vídeos, registos de transações e sinais de GPS, devem ser usados por empresas europeias, disse.

As 25 empresas que formam a Big Data Value Association também vêem uma necessidade imediata de agirem em conjunto e começarem a competir, disse o presidente da associação, Jan Sundelin, que também é presidente da empresa holandesa de comércio eletrônico Tie Kinetix.

A Europa é um dos maiores mercados de retalho do mundo mas as empresas não europeias “sabem mais sobre os nossos consumidores e o que estamos a fazer na Europa do que nós mesmos”, disse ele durante a conferência de imprensa, onde convidou outras empresas e startups a participarem. Não há nenhuma entidade portuguesa associada.

Os investimentos na indústria também vão apoiar “Espaços de Inovação”, que oferecem ambientes seguros para a experimentação de dados privados ou abertos, disse a Comissão.

A parceria, que foi assinada esta segunda-feira em Bruxelas, é o sexto grande programa de investimento em tecnologia da UE para se afirmar em termos globais. Em Julho, por exemplo, a Comissão e o sector privado juntaram-se para investirem 5 mil milhões de euros no sector europeu da electrónica.

“Lagos de dados” ajudam na descoberta em Big Data

EMC e Pivotal aliam-se para análise predictiva de Big Data.
Os “lagos de dados” estão a ganhar impulso como repositórios escaláveis ​​para dados críticos a serem utilizados para análise predictiva de Big Data, de acordo com a EMC.

A empresa anunciou uma parceria com a Pivotal para o Data Lake Hadoop Bundle 2.0. O lançamento do Data Lake pela EMC está concebido para ajudar as organizações a obterem valor imediato no negócio de Big Data.

No início do ano, a EMC e a Pivotal anunciaram a primeira encarnação desta proposta, ligando o Hadoop empresarial e a analítica predictiva com o armazenamento “scale-out” empresarial.

O pacote é concebido para ajudar as organizações a acelerarem o valor das iniciativas de Big Data em Hadoop na empresa, mantendo os custos de aquisição e de gestão mais baixos do que as soluções montadas com diferentes plataformas.