Blog

Vorbiți limbajul Big Data?

Big Data, de la fenomen la modă la soluție operațională se impune în mintea conducerii marilor companii. Și totuși proiectele care sunt finalizate rămân relativ puține. Big Data, mai mult decât alte chestii informatice necesită un nucleu dur în jurul unui Director de program experimentat, compus dintr-un specialist tehnic, un expert în analiza de date și un specialist în această meserie.

Dificultățile Big Data

Dacă conducerea este convinsă că firma lor trebuis să pună la punct un asemenea proiect, ei nu știu nici ce să ceară și nici care vor fi rezultatele pe care pot conta. Iată patru motive ale dificultăților în care se încurcă, în general, aceste proiecte:

Înțelegerea conceptului;
Analiza datelor;
Analiza predictivă;
Echipamentul de analiză și stocare.

Deci ce este Big Data?

Big Data are ca obiect manipularea unor volume imense de date înregistrate în trecut pentru a deduce comportamente specifice și a ameliora în acest fel eficiența abordărilor viitoare de marketing. De multe ori Big Data este definit cu ajutorul celor 3V: volum, viteză și varietate. Un proiect de acest tip implică o muncă pe planuri specifice meseriei și tehnice, pentru a trata datele, varietatea conținutului structurat și nestructurat (audio, video, etc.) și pentru a gestiona dispersia bazelor de date. Cu siguranță proiectul integrează mai multe elemente tehnice importante și impune o infrastructură informatică specifică, dar piatra unghiulară a proiectului constă în calitatea analizei de date și în ipotezele care vor fi reținute.

La ce ne putem aștepta de la Big Data?

Înainte de a se bloca în abordările de marketing referitoare la comportamentul predictiv, Big Data va impacta toată funcționarea unei întreprinderi

Îmbunătățind experiența clienților;
Optimizând procesele;
Crescând performanța operațională;
Aliniind modelul de afaceri cu comportamentele.

Analiza predictivă

Pentru realegerea sa, staful lui Barack Obama a utilizat pe scară largă Big Data pentru a identifica acele cartiere susceptibile să fie receptive la acțiuni din poartă-n poartă și la discursurile ținute de militanți în funcție de criterii ca analiza socieo-demografică a cartierelor, corelarea voturilor în funcție de analiza voturilor precedente pe zone geografice și corelarea cu sondajele de opinie. Pe baze identice, această analiză poate determina rezultatele oricăror alegeri. Sistemele care permit mașinii să „învețe” sunt supervizate sau nesupervizate. Cel supervizat integrează un algoritm Bayesian, similar celui care determină că un mail este spam sau nu. sistemul nesupervizat se bazează pe un algoritm de tip Latent Dirichlet Allocation (LDA).

Echipamente de colectare, de tratament și de analiză

Lucrurile se complică la nivelul infrastructurii IT și a echipamentelor informatice pentru că

Bazele de date relaționale nu răspund imperativelor Big Data;
Datele sunt repartizate în mai multe locații fizice;
85% din date provin de pe un suport nestructurat (audio, video, foto, etc.).

Gestionarea unor volume mari de date impune mașini puternice, dar și demultiplicare puterii adăugând alte mașini. Însă bazele de date relaționale nu sunt adaptate pentru a fi rulate pe mai multe mașini. În cadrul bazelor de date de tip „NoSQL”, datele își poartă propria coerență și de aceea acest tip de baze de date este cel mai potrivit.

Ce model de stocare trebuie însă ales?

Key/Value store – pe fiecare linie este înregistrată o pereche constituită dintr-un identificator asociat unei date oricare ar fi natura acesteia;
Document store – baza de date orientată spre document, este modelul cel mai familiar pentru că este principiul bazelor de date XML sau al motoarelor de căutare;
Column store – datele sunt înregistrate sub formă de coloane.

De ce se folosește „Hadoop”?

Pentru a putea utiliza toată puterea de calcul avută la dispoziție, principiul „map reduce” permite rularea unui proces pe mai multe procesoare. Al doilea principiu, „clustering”, face același lucru repartizând procesul pe mai multe mașini. Hadoop integrează în mod nativ aceste două principii.

În mediile în timp real, latența Hadoop este uneori arătată cu degetul de experți. Și în anumite cazuri aceștia folosesc SPARK.

Cum se pot pune în operă aceste tehnici?

Pe piață apar numeroase instrumente având ca obiectiv industrializarea dezvoltării și execuției lanțurilor de tratament al datelor și de a extinde funcționalitățile adăugând noi module. Acestea permit organizarea tratamentelor simple într-o manieră succesivă cu scopul de a ajunge la un proces complex. Majoritatea acestor instrumente oferă interfețe grafice de dezvoltare și supervizare a tratamentelor. Printre aceste instrumente putem cita ETL-urile, conductele de date și sistemele de gestionare a fluxurilor.

Articole complementare:

De ce femeile sunt mai puțin îndrăznețe în management

Lecții de marketing de la Steve Jobs

Luați decizii bune, dar cum le duceți până la capăt?

Copiați liderii adevărați pentru a vă optimiza performanța intelectuală

Blog

Vorbiți limbajul Big Data?

Leave a Reply Cancel reply