Big Data - O que é? De onde vem? O que come?

/* 

História Real publicada na revista Forbes americana em 16/02/2012 

     No estado de Mineapolis, Estados Unidos, um homem furioso entra em uma loja da Target (uma rede varejista americana) e pede para falar com o gerente!

     "Minha filha recebeu isso por correio, diz ele, ela ainda está no colégio e vocês estão enviando a ela cupons de roupas de bebês e berços! Vocês estão querendo  incentivá-la a engravidar?"

      O gerente não faz idéia sobre o que o homem está falando. Ele checa o remetente, a carta está claramente direcionada a filha do homem e contém propagandas sobre produtos para maternidade e fotos de bebês felizes. O gerente se desculpa, diz que vai verificar o caso e liga para o homem alguns dias depois para se desculpar novamente.

      No telefone o homem parece estar envergonhado. "Eu conversei com minha filha. Aparentemente ocorreram algumas atividades em minha casa que eu não estava plenamente ciente. Ela dará a luz em Agosto. Eu devo desculpas a você."
-----------------------------------------------------------------------------------------------------------

Olá Senhores, Senhoras e Senhoritas!!!


    O "culpado" da situação contrangedora acima foi Big Data! A essa altura do campeonato você provavelmente já deve ouvido falar de Big Data, o termo está ganhando tanta divulgação que até o Gilberto Dimenstein (um cara não técnico) já o mencionou em sua coluna de cultura na rádio CBN.
  Mesmo com tanta divulgação (e talvez por causa disso) existe uma certa dificuldade em definir/explicar o que esse termo significa. E depois de ler muitos posts e artigos acho que já está na hora de eu dar minha opinião.


WTF is BigData?


A primeira coisa que devemos saber sobre Big Data é que ela é uma buzzword. Uma buzzword é um termo ou expressão de impacto, ótima para vendedores/marketeiros e de certa forma uma mania no mundo de TI (lembra do quanto falavam de SOA? E como agora todo mundo vende Cloud Computing?).

Como está na moda, todos os fornecedores de software já incorporaram a expressão em seus materiais de marketing e todos prometem acesso as maravilhas de Big Data  e milhões em ganhos!




Leitor Apressado:- Mas peraí DBA, quer dizer então que é só propaganda? 
DBA: - Negativo, Leitor apressado, o problema é que com tanta informação transbordando a explicação fica mais difícil. Então vamos começar descascando essa cebola até chegarmos ao que Big Data é em sua essência.


Big Data ≠ Dados grandes!



    Uma forma comum que muitos usam para iniciar suas explanações sobre Big Data é apresentar dados impressionantes sobre o crescimento mundial na geração de dados (na ordem de petabytes). Isso somado  a tradução literal do termo acaba levando algumas pessoas a conclusão de que Big Data se refere apenas a lidar com volumes muito grandes de informações.

    É fato que com o advento das redes sociais (facebook, twitter, etc...) e portais de user-content (como o youtube e a wikipedia) que jogam gigabytes e gigabytes de dados na rede todos os dias, os engenheiros desses sistemas quebram a cabeça criando formas de manter a qualidade e velocidade desses serviços, mas o tamanho da informação não é a Big Data em si e sim apenas a matéria prima.    


Os três V's de .... big data???


    A forma mais comum hoje de explicar Big Data são os famosos três Vs (Volume, Variedade, Velocidade). Nesses definição Big Data são técnicas e ferramentas para tratar com:

    - Muito Volume ,ou seja, o tamanho dos dados.

    - Grande Variedade, isto é, o uso de múltiplos formatos de informação (videos, textos, documentos, imagens, xmls, jsons, logs e o que mais for possível imaginar) 

    - E Velocidade alucinante com que tudo isso é gerado nos tempos atuais.  

    Qualquer coisa que consiga juntar esses três itens e devolver valor ao negócio (de preferência em tempo real) seria Big Data.

    É uma definição razoável, no entanto, ela tem um pecado. Ela dá um papel secundário (na realidade, literalmente deixa de fora) o V mais importante. O V de Valor ao negócio)

    Se pensarmos apenas nos três Vs estamos nos limitando ao departamento de TI e a problemas que, na verdade, são variações em escala dos problemas que já lidamos no dia a dia. 
  
    Mas se prestarmos atenção no Valor, ai sim conseguiremos entender o que se ganha com Big Data e o que ocorreu com o pobre homem do começo desse Post.

       

Correlação, ou como saber quem você é, olhando quem é parecido com você.




Mafalda descobre Big Data
    Cada vez que um consumidor compra algo na Target, um "guest id" é relacionado ao cartão de crédito, nome ou email do cliente. Isso permitiu que a empresa construísse um grande banco de dados com histórico de compras de todos os clientes da rede. 
    
    Os estatísticos da Target, analisaram os dados de todas as mulheres cadastradas na Target como grávidas e descobriram alguns padrões de consumo.

    Procurando esses mesmos padrões de consumo em outras clientes a Target criou um Score de Gravidez e passou a encaminhar propagandas direcionadas as clientes com maiores scores.

    O score chegou a tal nivel de precisão que se tornou possivel até mesmo saber em qual fase da gravidez a provável mamãe está e a uma provável data de nascimento.

    E a garota do caso tinha um score alto.

    Se analisarmos isso somente pelo prisma do três V´s diriamos que o Volume e a Velocidade estão presentes (dados de historico de todos os clientes em mais de 1800 lojas + vendas online) mas não é um caso de Variedade pois são dados estruturados do próprio sistema da empresa. O que realmente caracteriza esse caso como Big Data é o Valor que ele agregou ao negócio. E mais tecnicamente, a Correlação.

    Em termos bem simples, Correlação é uma técnica matemática que nos permite através de uma variável X mensurável, prever o comportamento de uma variável Y  descobrindo se as duas possuem uma correlação (se uma aumenta, a outra aumenta também, e se uma diminui a outra segue o mesmo comportamento).
    
     A correlação em si também não é novidade (foi inicialmente aplicada por Karl Pearson em problemas da biologia no século 19!!). Então, caros, qual é a diferença fundamental para os dias de hoje?  




Big Data = Todos os Dados!



    Por limitações físicas, a estatística sempre se baseou no estudo de uma amostra para tentar determinar (e prever) o comportamento do todo (população). Em tempos anteriores, dificilmente um estatístico tinha acesso a dados de toda a população que ele gostaria de estudar. Então, para obter a informação desejada, recorria a pesquisas de mercado ou amostras menores de dados e aplicava diversas técnicas estatísticas para identificar e eliminar vieses ou amostras pouco representativas.

    O estudo de amostra também limita o estatístico a generalizar sobre a população, ter uma ideia geral do comportamento dela, o que invariavelmente impossibilita a obtenção de informação sobre grupos mais específicos (exemplo, o comportamento de compra de mulheres grávidas que darão a luz em Agosto) pois eles provavelmente não estão "significativamente" representados na amostra.

    A quebra de paradigma do Big Data está justamente no tamanho da amostra. Com muitos dados sendo gerados sobre as atividades e recursos de hardware baratos para processa-los, podemos ter como amostra uma população toda!

    E através disso, além de prever padrões de comportamento geral podemos identificar pequenos nichos ou grupos específicos e criar ações que tirem proveito desse conhecimento. Muito mais informação.

    Meio assustador não? 



Espero que tenha gostado desse artigo, e se gostou, compartilhe!
Também deixe seu comentário com duvidas e sugestões!

Abraços e até a próxima!

Felipe Antunes */