Što je analiza velikih podataka. Kako se koristi Big Date? Najbolje knjige o Big-Data tehnologiji

Predviđeno je da bi ukupni globalni volumen stvorenih i repliciranih podataka u 2011. godini mogao biti oko 1,8 zetabajta (1,8 trilijuna gigabajta) – oko 9 puta više od onoga što je stvoreno 2006. godine.

Složenija definicija

Međutim, ` veliki podaci'uključuju više od puke analize golemih količina informacija. Problem nije u tome što organizacije stvaraju ogromne količine podataka, već u tome što je većina njih predstavljena u formatu koji ne odgovara dobro tradicionalnom formatu strukturirane baze podataka, poput weblogova, videa, tekstualnih dokumenata, strojnog koda ili npr. , geoprostorni podaci.... Sve se to pohranjuje u mnogo različitih spremišta, ponekad čak i izvan organizacije. Kao rezultat toga, korporacije mogu imati pristup ogromnoj količini svojih podataka i nemaju potrebne alate za uspostavljanje odnosa između tih podataka i izvlačenje smislenih zaključaka iz njih. Dodajte tome činjenicu da se podaci sada sve češće ažuriraju i dobit ćete situaciju u kojoj tradicionalne metode analize informacija ne mogu pratiti ogromne količine podataka koji se stalno ažuriraju, što u konačnici otvara put tehnologiji. veliki podaci.

Najbolja definicija

U biti, koncept veliki podaci znači rad s informacijama velikog volumena i raznolikog sastava, vrlo često ažuriranim i lociranim u različitim izvorima kako bi se povećala učinkovitost rada, kreirali novi proizvodi i povećala konkurentnost. Konzultantska tvrtka Forrester sažima: ` Veliki podaci kombinirati tehnike i tehnologije koje daju smisao podacima na krajnjoj granici upotrebljivosti.'

Kolika je razlika između poslovne inteligencije i velikih podataka?

Craig Batey, direktor marketinga i glavni tehnološki direktor, Fujitsu Australia, istaknuo je da je poslovna analiza deskriptivan proces analize rezultata koje je tvrtka postigla u određenom vremenskom razdoblju, uz brzinu obrade veliki podaci omogućuje vam da analizu učinite predvidljivom, sposobnom ponuditi poslovne preporuke za budućnost. Veliki podaci također vam omogućuju analizu više vrsta podataka od alata poslovne inteligencije, omogućujući vam da se usredotočite na više od strukturirane pohrane.

Matt Slocum iz O "Reilly Radar vjeruje da iako veliki podaci i poslovna inteligencija imaju isti cilj (pronalaženje odgovora na pitanje), međusobno se razlikuju u tri aspekta.

  • Veliki podaci dizajnirani su za obradu više informacija od poslovne inteligencije, a to je, naravno, u skladu s tradicionalnom definicijom velikih podataka.
  • Veliki podaci dizajnirani su za obradu informacija koje se brže primaju i mijenjaju, što znači duboko istraživanje i interaktivnost. U nekim slučajevima, rezultati se generiraju brže nego što se web stranica učitava.
  • Veliki podaci dizajnirani su za rukovanje nestrukturiranim podacima, čije načine tek počinjemo istraživati ​​nakon što smo ih uspjeli prikupiti i pohraniti, a potrebni su nam algoritmi i sposobnost dijaloga kako bismo olakšali potragu za trendovima sadržanim u tim nizovima.

Prema bijeloj knjizi Oracle Information Architecture: An Architect's Guide to Big Data koju je objavio Oracle, pristupamo informacijama drugačije kada radimo s velikim podacima nego kada radimo poslovnu analizu.

Rad s velikim podacima nije poput uobičajenog procesa poslovne inteligencije, gdje jednostavno zbrajanje poznatih vrijednosti daje rezultate: na primjer, zbroj podataka o plaćenim fakturama postaje godišnja prodaja. Kada se radi s velikim podacima, rezultat se dobiva u procesu njihovog čišćenja pomoću sekvencijalnog modeliranja: prvo se postavlja hipoteza, izgrađuje se statistički, vizualni ili semantički model na temelju kojeg se utvrđuje ispravnost postavljenih podataka. provjerava se prethodna hipoteza, a zatim se postavlja sljedeća hipoteza. Ovaj proces zahtijeva od istraživača da ili interpretira vizualne vrijednosti ili sastavlja interaktivne upite na temelju znanja, ili razvije prilagodljive algoritme strojnog učenja koji mogu postići željeni rezultat. Štoviše, životni vijek takvog algoritma može biti prilično kratak.

Tehnike analize velikih podataka

Postoji mnogo različitih metoda za analizu skupova podataka, koji se temelje na alatima posuđenim iz statistike i računalne znanosti (na primjer, strojno učenje). Popis ne tvrdi da je potpun, ali odražava najpopularnije pristupe u raznim industrijama. Istodobno, treba razumjeti da istraživači nastavljaju raditi na stvaranju novih metoda i poboljšanju postojećih. Osim toga, neke od gore navedenih tehnika nisu nužno primjenjive isključivo na velike podatke i mogu se uspješno koristiti za manje nizove (na primjer, A/B testiranje, regresijska analiza). Naravno, što je obimniji i raznolikiji niz analiziran, to se na izlazu mogu dobiti točniji i relevantniji podaci.

A/B testiranje... Tehnika u kojoj se kontrolni uzorak uspoređuje jedan po jedan s drugim. Tako je moguće identificirati optimalnu kombinaciju pokazatelja za postizanje, na primjer, najboljeg odgovora potrošača na marketinški prijedlog. Veliki podaci omogućuju vam da izvršite ogroman broj iteracija i tako dobijete statistički pouzdan rezultat.

Učenje pravila asocijacija... Skup tehnika za identifikaciju odnosa, t.j. pravila povezivanja, između varijabli u velikim skupovima podataka. Korišteno u rudarenje podataka.

Klasifikacija... Skup tehnika koji vam omogućuje predviđanje ponašanja potrošača u određenom segmentu tržišta (donošenje odluka o kupnji, odljevu, potrošnji itd.). Korišteno u rudarenje podataka.

Klaster analiza... Statistička metoda za razvrstavanje objekata u grupe identificiranjem prethodno nepoznatih zajedničkih značajki. Korišteno u rudarenje podataka.

Crowdsourcing... Metodologija prikupljanja podataka iz velikog broja izvora.

Spajanje podataka i integracija podataka... Skup tehnika koji vam omogućuje analizu komentara korisnika društvenih mreža i usporedbu s rezultatima prodaje u stvarnom vremenu.

Data mining... Skup metoda koji vam omogućuje da odredite najprihvatljivije kategorije potrošača za proizvod ili uslugu koja se promovira, da identificirate karakteristike najuspješnijih zaposlenika i predvidite model ponašanja potrošača.

Ansambl učenje... Ova metoda koristi različite modele predviđanja, čime se poboljšava kvaliteta predviđanja.

Genetski algoritmi... U ovoj tehnici moguća rješenja su predstavljena u obliku 'kromosoma', koji se mogu kombinirati i mutirati. Kao iu procesu prirodne evolucije, preživljavaju najsposobniji.

Strojno učenje... Smjer u informatici (povijesno gledano, iza njega se zadržao naziv `umjetna inteligencija`) koji ima za cilj stvaranje algoritama koji se samouče na temelju analize empirijskih podataka.

Obrada prirodnog jezika (NLP). Skup tehnika za prepoznavanje prirodnog jezika osobe posuđenih iz informatike i lingvistike.

Analiza mreže... Skup metoda za analizu veza između čvorova u mrežama. Primijenjen na društvene mreže, omogućuje vam analizu odnosa između pojedinačnih korisnika, tvrtki, zajednica itd.

Optimizacija... Skup numeričkih metoda za redizajn složenih sustava i procesa za poboljšanje jedne ili više metrika. Pomaže u donošenju strateških odluka, na primjer, sastav linije proizvoda predstavljenih na tržištu, provođenje investicijske analize itd.

Prepoznavanje uzorka... Skup tehnika s elementima za samoučenje za predviđanje obrazaca ponašanja potrošača.

Prediktivno modeliranje... Skup tehnika koje vam omogućuju stvaranje matematičkog modela unaprijed određenog vjerojatnog scenarija za razvoj događaja. Na primjer, analiziranje baze podataka CRM sustava za moguće uvjete koji će potaknuti pretplatnike da promijene svog davatelja usluga.

Regresija... Skup statističkih metoda za identificiranje obrazaca između promjene zavisne varijable i jedne ili više nezavisnih varijabli. Često se koristi za predviđanje i predviđanja. Koristi se u rudarenju podataka.

Analiza osjećaja... Metode za procjenu osjećaja potrošača temelje se na tehnologijama za prepoznavanje prirodnog jezika osobe. Omogućuju vam da iz općeg protoka informacija izdvojite poruke koje se odnose na predmet interesa (na primjer, potrošački proizvod). Zatim procijenite polaritet prosuđivanja (pozitivan ili negativan), stupanj emocionalnosti i tako dalje.

Procesiranje signala... Skup tehnika posuđenih iz radiotehnike, čiji je cilj prepoznavanje signala na pozadini šuma i njegova daljnja analiza.

Prostorna analiza... Skup metoda za analizu prostornih podataka, djelomično posuđenih iz statistike - topologija terena, geografske koordinate, geometrija objekata. Izvor veliki podaci u ovom slučaju često se koriste geografski informacijski sustavi (GIS).

Statistika... Znanost o prikupljanju, organiziranju i tumačenju podataka, uključujući osmišljavanje upitnika i provođenje eksperimenata. Statističke metode se često koriste za donošenje vrijednosnih sudova o odnosima između određenih događaja.

Učenje pod nadzorom... Skup tehnika temeljenih na tehnologijama strojnog učenja koje vam omogućuju identificiranje funkcionalnih odnosa u analiziranim skupovima podataka.

Simulacija... Modeliranje ponašanja složenih sustava često se koristi za predviđanje, predviđanje i razvoj različitih scenarija u planiranju.

Analiza vremenskih serija... Skup metoda za analizu ponavljajućih nizova podataka tijekom vremena, posuđenih iz statistike i digitalne obrade signala. Neke od očitih upotreba su praćenje burze ili incidencije pacijenata.

Učenje bez nadzora... Skup tehnika temeljenih na tehnologijama strojnog učenja koje vam omogućuju otkrivanje skrivenih funkcionalnih odnosa u analiziranim skupovima podataka. Ima zajedničko sa Analiza klastera.

Vizualizacija... Metode za grafički prikaz rezultata analize velikih podataka u obliku dijagrama ili animiranih slika radi lakšeg tumačenja i razumijevanja dobivenih rezultata.


Vizualni prikaz rezultata analize velikih podataka od temeljne je važnosti za njihovu interpretaciju. Nije tajna da je ljudska percepcija ograničena, a znanstvenici nastavljaju provoditi istraživanja kako bi poboljšali moderne metode prezentiranja podataka u obliku slika, dijagrama ili animacija.

Analitički alati

Za 2011. neki od pristupa navedenih u prethodnom pododjeljku ili njihova određena kombinacija omogućuju uvođenje u praksu analitičkih motora za rad s velikim podacima. Od besplatnih ili relativno jeftinih otvorenih sustava za analizu velikih podataka, možemo preporučiti:

  • Revolution Analytics (temeljen na R jeziku za matematičku statistiku).

Od posebnog interesa na ovom popisu je Apache Hadoop, softver otvorenog koda koji je isproban i testiran kao analizator podataka od strane većine tragača dionica tijekom posljednjih pet godina. Čim je Yahoo otvorio Hadoop kod zajednici otvorenog koda, u IT industriji se odmah pojavila cijela nova linija proizvoda Hadoop. Gotovo svi moderni alati za analizu veliki podaci pružiti alate za integraciju s Hadoop-om. Njihovi programeri su i startupi i poznate svjetske tvrtke.

Tržišta rješenja za upravljanje velikim podacima

Platforme velikih podataka (BDP, Big Data Platform) kao sredstvo za suzbijanje digitalnih akorda

Sposobnost analize veliki podaci, kolokvijalno nazvan Big Data, doživljava se kao blagoslov, i to nedvosmisleno. Ali je li doista tako? Do čega može dovesti silovito gomilanje podataka? Najvjerojatnije na ono što domaći psiholozi nazivaju patološkim gomilanjem osobe, silogomanijom ili figurativno "Pljuškinov sindrom". Na engleskom se opaka strast za prikupljanjem svega naziva hording (od engleskog hoard - "zaliha"). Prema klasifikaciji mentalnih bolesti, Hording je klasificiran kao mentalni poremećaj. U digitalnoj eri, digitalno (Digital Hoarding) se dodaje tradicionalnom materijalnom akordiranju, od čega mogu patiti i pojedinci i cijela poduzeća i organizacije ().

Svjetsko i rusko tržište

Pejzaž velikih podataka - glavni dobavljači

Interes za alate za prikupljanje, obradu, upravljanje i analizu veliki podaci pokazao gotovo sve vodeće IT tvrtke, što je sasvim prirodno. Prvo, oni su izravno suočeni s ovim fenomenom u vlastitom poslovanju, a drugo, veliki podaci otvaraju izvrsne mogućnosti za razvoj novih tržišnih niša i privlačenje novih kupaca.

Na tržištu su se pojavili mnogi startupi koji posluju na obrađivanju golemih količina podataka. Neki od njih koriste gotovu infrastrukturu oblaka koju pružaju glavni igrači poput Amazona.

Teorija i praksa velikih podataka u industrijama

Povijest razvoja

2017

TmaxSoft prognoza: sljedeći "val" velikih podataka zahtijevat će modernizaciju DBMS-a

Tvrtke znaju da njihove ogromne količine podataka sadrže važne informacije o njihovom poslovanju i klijentima. Ako tvrtka može uspješno primijeniti ove informacije, tada će imati značajnu prednost u odnosu na konkurenciju, te će moći ponuditi bolje proizvode i usluge od njihovih. Međutim, mnoge organizacije još uvijek ne mogu učinkovito koristiti veliki podaci zbog činjenice da njihova naslijeđena IT infrastruktura nije u mogućnosti pružiti potreban kapacitet pohrane, procese razmjene podataka, uslužne programe i aplikacije potrebne za obradu i analizu velikih količina nestrukturiranih podataka kako bi se iz njih izvukle vrijedne informacije, rekao je TmaxSoft.

Osim toga, povećana procesorska snaga potrebna za analizu sve veće količine podataka može zahtijevati značajna ulaganja u naslijeđenu IT infrastrukturu organizacije, kao i dodatne resurse održavanja koji bi se mogli koristiti za razvoj novih aplikacija i usluga.

Bijela kuća je 5. veljače 2015. objavila izvješće u kojem se govori o tome kako tvrtke koriste “ veliki podaci"Postavljanje različitih cijena za različite kupce - praksa poznata kao" cjenovna diskriminacija "ili" diferencirane cijene "(personalizirane cijene). Izvješće opisuje prednosti “velikih podataka” i za prodavače i za kupce, a njegovi autori zaključuju da se mnoga problematična pitanja koja su se pojavila u vezi s pojavom velikih podataka i diferencijalnih cijena mogu riješiti u okviru postojećih anti- zakoni i zakoni o diskriminaciji.zaštita prava potrošača.

U ovom trenutku, izvješće navodi da postoje samo anegdotski dokazi o tome kako tvrtke koriste velike podatke u kontekstu personaliziranog marketinga i diferenciranih cijena. Ove informacije pokazuju da prodavači koriste metode određivanja cijena koje se mogu podijeliti u tri kategorije:

  • proučavanje krivulje potražnje;
  • Upravljanje i diferencirane cijene na temelju demografskih podataka; i
  • bihevioralno ciljanje i individualizirane cijene.

Studija krivulje potražnje: Marketinški stručnjaci često eksperimentiraju s potražnjom i ponašanjem potrošača nasumično dodjeljujući kupce u jednu od dvije moguće razine cijena. "Tehnički, ovi eksperimenti su oblik diferencijalnog određivanja cijena jer rezultiraju različitim cijenama za kupce, čak i ako su 'nediskriminirajući' u smislu da će svi kupci jednako vjerojatno 'pogoditi' višu cijenu."

Upravljanja: To je praksa predstavljanja proizvoda potrošačima na temelju njihove demografske skupine. Stoga web-mjesto računalne tvrtke može ponuditi isto prijenosno računalo različitim vrstama kupaca po različitim cijenama, koje se određuju na temelju informacija koje daju o sebi (na primjer, ovisno o tome je li korisnik predstavnik državnih agencija, znanstvenih ili komercijalnih institucija, ili od strane pojedinca) ili s njihove geografske lokacije (na primjer, određene IP adresom računala).

Ciljani bihevioralni marketing i personalizirane cijene: U tim se slučajevima osobni podaci kupaca koriste za ciljano oglašavanje i personalizirane cijene određenih proizvoda. Na primjer, mrežni oglašivači koriste podatke prikupljene putem oglašivačkih mreža i kolačića trećih strana o aktivnostima korisnika na internetu kako bi ciljali svoje reklame. Ovaj pristup, s jedne strane, omogućuje potrošačima da primaju reklame robe i usluga koje ih zanimaju s medicinskim i financijskim pitanjima) s kojima se susreću bez njihovog pristanka.

Iako je ciljani bihevioralni marketing široko rasprostranjen, postoji relativno malo dokaza o personaliziranim cijenama u online okruženju. Izvješće sugerira da bi to moglo biti zbog činjenice da se prikladne metode još uvijek razvijaju ili činjenice da tvrtke ne žure koristiti pojedinačne cijene (ili radije šute o tome) - možda zbog straha od negativne reakcije potrošača .

Autori izvješća smatraju da je "za pojedinog potrošača korištenje velikih podataka nedvojbeno povezano i s potencijalnim povratima i rizicima." Iako se priznaje da postoje problemi transparentnosti i diskriminacije u korištenju velikih podataka, izvješće tvrdi da su postojeći zakoni protiv diskriminacije i zaštite potrošača dovoljni za njihovo rješavanje. Međutim, izvješće također naglašava potrebu za "trajnim nadzorom" kada tvrtke koriste povjerljive informacije na neproziran način ili na načine koji nisu obuhvaćeni postojećim regulatornim okvirom.

Ovo izvješće nastavak je napora Bijele kuće da ispita korištenje velikih podataka i diskriminatornih cijena na internetu te njihove implikacije na američke potrošače. Ranije je objavljeno da je Radna skupina Bijele kuće za velike podatke objavila svoje izvješće o ovom pitanju u svibnju 2014. godine. Federalna trgovinska komisija (FTC) također se pozabavila tim pitanjima tijekom svog seminara u rujnu 2014. o diskriminaciji u vezi s korištenjem velikih podataka.

2014

Gartner razbija mitove o velikim podacima

Gartnerov sažetak politike za jesen 2014. navodi brojne uobičajene mitove o velikim podacima među CIO-ima i pobija ih.

  • Svi implementiraju sustave za obradu velikih podataka brže od nas

Interes za Big Data tehnologije je rekordno visok: 73% organizacija koje su ove godine anketirali Gartner analitičari već ulažu u povezane projekte ili će to učiniti. No većina tih inicijativa još je u ranoj fazi, a samo je 13% ispitanih već implementiralo takva rješenja. Najteži dio je shvatiti kako generirati prihod od Big Data, odlučiti odakle početi. Mnoge organizacije zapnu u pilot fazi jer ne mogu povezati novu tehnologiju s određenim poslovnim procesima.

  • Imamo toliko podataka da se ne treba brinuti o malim greškama u njima.

Neki CIO-ovi vjeruju da male praznine u podacima ne utječu na ukupne rezultate velikih količina analiza. Kada je podataka puno, svaka pojedinačna pogreška doista manje utječe na rezultat, kažu analitičari, ali same pogreške postaju sve brojnije. Osim toga, većina analiziranih podataka je vanjski, nepoznate strukture ili podrijetla, pa se povećava vjerojatnost pogrešaka. Stoga je u svijetu Big Data kvaliteta zapravo puno važnija.

  • Tehnologije velikih podataka će eliminirati potrebu za integracijom podataka

Big Data obećava mogućnost obrade podataka u izvornom formatu s automatskim generiranjem sheme dok se čitaju. Vjeruje se da će to omogućiti analizu informacija iz istih izvora korištenjem više modela podataka. Mnogi vjeruju da će to također omogućiti krajnjim korisnicima da interpretiraju bilo koji skup podataka kako smatraju prikladnim. U stvarnosti, većini korisnika često je potreban tradicionalni pristup temeljen na shemi gdje su podaci formatirani na odgovarajući način i postoje dogovori o razini integriteta informacija i načinu na koji bi trebali biti povezani sa slučajem upotrebe.

  • Nema smisla koristiti skladišta podataka za složenu analitiku

Mnogi administratori sustava za upravljanje informacijama smatraju da nema smisla gubiti vrijeme na izgradnju skladišta podataka, s obzirom na to da složeni analitički sustavi koriste nove vrste podataka. Zapravo, mnogi složeni analitički sustavi koriste informacije iz skladišta podataka. U drugim slučajevima, nove vrste podataka potrebno je dodatno pripremiti za analizu u sustavima obrade velikih podataka; morate donijeti odluke o prikladnosti podataka, principima agregiranja i potrebnoj razini kvalitete - takva priprema se može odvijati i izvan skladišta.

  • Podatkovna jezera zamijenit će skladišta podataka

U stvarnosti, dobavljači obmanjuju kupce pozicionirajući podatkovna jezera kao zamjenu za pohranu ili kao kritičnu analitičku infrastrukturu. Temeljnim tehnologijama podatkovnog jezera nedostaje zrelost i širina funkcionalnosti svojstvene pohrani. Stoga bi čelnici upravljanja podacima trebali pričekati dok jezera ne dostignu istu razinu razvoja, smatra Gartner.

Accenture: 92% korisnika velikih podataka zadovoljno je rezultatom

Među glavnim prednostima velikih podataka, ispitanici su naveli:

  • “Traganje za novim izvorima prihoda” (56%),
  • "Poboljšanje korisničkog iskustva" (51%),
  • "Novi proizvodi i usluge" (50%) i
  • “Priljev novih kupaca i zadržavanje lojalnosti starih” (47%).

Mnoge tvrtke suočile su se s tradicionalnim izazovima prilikom uvođenja novih tehnologija. Za 51% sigurnost je postala kamen spoticanja, za 47% - proračun, za 41% - nedostatak potrebnog osoblja, a za 35% - poteškoće u integraciji u postojeći sustav. Gotovo sve ispitane tvrtke (oko 91%) planiraju uskoro riješiti problem s nedostatkom osoblja i zaposliti stručnjake za velike podatke.

Tvrtke su optimistične u pogledu budućnosti velikih podatkovnih tehnologija. 89% vjeruje da će promijeniti posao koliko i internet. 79% ispitanika navelo je da će tvrtke koje ne rade s velikim podacima izgubiti svoju konkurentsku prednost.

Međutim, ispitanici se nisu složili oko toga što bi se točno trebalo smatrati velikim podacima. 65% ispitanika vjeruje da se radi o “datotekama velikih podataka”, 60% vjeruje da je riječ o “naprednoj analitici i analizi”, a 50% vjeruje da su to “podaci iz alata za vizualizaciju”.

Madrid troši 14,7 milijuna eura na upravljanje velikim podacima

U srpnju 2014. postalo je poznato da će Madrid koristiti tehnologije velikih podataka za upravljanje urbanom infrastrukturom. Cijena projekta - 14,7 milijuna eura, a temelj implementiranih rješenja bit će tehnologije za analizu i upravljanje velikim podacima. Uz njihovu pomoć, gradska uprava će upravljati radom sa svakim davateljem usluga i sukladno tome plaćati, ovisno o razini usluga.

Riječ je o izvođačima radova iz uprave, koji prate stanje ulica, rasvjete, navodnjavanja, zelenih površina, čiste teritorij i uklanjaju te recikliraju otpad. Tijekom projekta razvijeno je 300 ključnih pokazatelja uspješnosti gradskih službi za posebno određene inspektore, na temelju kojih će se dnevno provoditi 1,5 tisuća raznih provjera i mjerenja. Osim toga, grad će početi koristiti inovativnu tehnološku platformu pod nazivom Madrid iNTeligente (MiNT) – Smarter Madrid.

2013

Stručnjaci: Big Data Peak Fashion

Bez iznimke, svi dobavljači na tržištu upravljanja podacima u ovom trenutku razvijaju tehnologije za upravljanje velikim podacima. O ovom novom tehnološkom trendu također aktivno raspravlja profesionalna zajednica, kako programeri, tako i industrijski analitičari i potencijalni potrošači takvih rješenja.

Kako je Datashift saznao, od siječnja 2013. bio je val rasprava oko “ veliki podaci“Premašio je sve zamislive dimenzije. Nakon analize broja spominjanja Big Data na društvenim mrežama, Datashift je izračunao da je 2012. godine ovaj izraz korišten oko 2 milijarde puta u objavama koje je kreiralo oko milijun različitih autora diljem svijeta. To je ekvivalent od 260 postova na sat, s vrhuncem od 3070 spominjanja po satu.

Gartner: Svaki drugi CIO spreman je potrošiti na velike podatke

Nakon nekoliko godina eksperimentiranja s Big data tehnologijama i prvih implementacija 2013. godine, adaptacija ovakvih rješenja značajno će se povećati, predviđa Gartner. Istraživači su anketirali IT čelnike diljem svijeta i otkrili da je 42% ispitanika već uložilo u Big data tehnologije ili planiraju uložiti takva ulaganja tijekom sljedeće godine (podaci od ožujka 2013.).

Tvrtke su prisiljene trošiti novac na tehnologije obrade veliki podaci budući da se informacijski krajolik brzo mijenja, potrebni su mi novi pristupi obradi informacija. Mnoge tvrtke već su shvatile da su veliki podaci kritični i da se radom s njima mogu postići prednosti koje nisu dostupne iz tradicionalnih izvora informacija i metoda njihove obrade. Osim toga, stalno pretjerivanje teme "velikih podataka" u medijima raspiruje interes za relevantne tehnologije.

Frank Buytendijk, potpredsjednik Gartnera, čak je pozvao tvrtke da ublaže svoj žar, jer su neki zabrinuti da zaostaju za konkurentima u prikupljanju velikih podataka.

"Nema potrebe za brigom, mogućnosti za implementaciju ideja temeljenih na Big Data tehnologijama su praktički beskrajne", rekao je.

Gartner predviđa da će do 2015. 20% globalnih 1000 tvrtki imati strateški fokus na "informacijsku infrastrukturu".

U iščekivanju novih mogućnosti koje će tehnologije obrade velikih podataka donijeti sa sobom, mnoge organizacije već organiziraju proces prikupljanja i pohrane različitih vrsta informacija.

Za obrazovne i državne organizacije, kao i tvrtke u industriji, najveći potencijal za poslovnu transformaciju leži u kombinaciji akumuliranih podataka s tzv. mračnim podacima (doslovno - "tamni podaci"), potonji uključuju e-poštu, multimediju i ostalo sličan sadržaj. U utrci podataka, tvrdi Gartner, pobijedit će oni koji nauče rukovati širokim spektrom izvora informacija.

Ciscova anketa: Veliki podaci pomoći će povećati IT proračune

U istraživanju iz proljeća 2013., Cisco Connected World Technology Report, koje je u 18 zemalja provela nezavisna analitička tvrtka InsightExpress, anketirano je 1800 studenata i sličan broj mladih stručnjaka u dobi od 18 do 30 godina. Istraživanje je provedeno kako bi se utvrdila razina spremnosti IT odjela za provedbu projekata Veliki podaci i steći uvid u povezane izazove, tehnološke nedostatke i stratešku vrijednost takvih projekata.

Većina tvrtki prikuplja, bilježi i analizira podatke. Ipak, navodi se u izvješću, mnoge se tvrtke suočavaju s nizom složenih poslovnih i informacijskih izazova u vezi s velikim podacima. Primjerice, 60 posto ispitanih priznaje da rješenja za velike podatke mogu poboljšati procese donošenja odluka i povećati konkurentnost, no samo 28 posto ih je reklo da već dobivaju stvarne strateške koristi od akumuliranih informacija.

Više od polovice ispitanih IT rukovoditelja vjeruje da će projekti Big Data pomoći povećati IT proračune u njihovim organizacijama, budući da će biti povećani zahtjevi za tehnologijom, osobljem i profesionalnim vještinama. Istovremeno, više od polovice ispitanika očekuje da će ovakvi projekti povećati IT proračune u njihovim tvrtkama već od 2012. godine. 57 posto je uvjereno da će Big Data povećati svoje proračune tijekom sljedeće tri godine.

81 posto ispitanika reklo je da će svi (ili barem neki) Big Data projekti zahtijevati računalstvo u oblaku. Dakle, širenje cloud tehnologija može utjecati na brzinu distribucije Big Data rješenja i vrijednost tih rješenja za poslovanje.

Tvrtke prikupljaju i koriste podatke raznih vrsta, strukturiranih i nestrukturiranih. Evo izvora iz kojih sudionici ankete dobivaju svoje podatke (Cisco Connected World Technology Report):

Gotovo polovica (48 posto) CIO-a predviđa da će se opterećenje njihovih mreža udvostručiti tijekom sljedeće dvije godine. (Ovo je posebno istinito u Kini, gdje 68 posto ispitanih ima takvo mišljenje, i Njemačkoj, 60 posto.) 23 posto ispitanika očekuje da će se opterećenje mreže utrostručiti tijekom sljedeće dvije godine. Istodobno, samo 40 posto ispitanika izjavilo je spremnost za eksplozivan rast obima mrežnog prometa.

27 posto ispitanih priznalo je da trebaju bolje IT politike i mjere informacijske sigurnosti.

21 posto treba više propusnosti.

Big Data otvara nove mogućnosti IT odjelima da dodaju vrijednost i izgrade čvrste odnose s poslovnim jedinicama, povećavajući prihode i jačajući financijski položaj tvrtke. Big Data projekti čine IT odjele strateškim partnerima poslovnim odjelima.

Upravo će IT odjel, smatra 73 posto ispitanika, postati glavna lokomotiva implementacije Big Data strategije. Istodobno, ispitanici smatraju da će se u provedbu ove strategije uključiti i drugi odjeli. To se prije svega tiče odjela financija (nazvalo ga je 24 posto ispitanika), istraživanja i razvoja (20 posto), poslovanja (20 posto), inženjeringa (19 posto), kao i marketinga (15 posto) i prodaje (14 posto).

Gartner: Milijuni novih poslova potrebnih za upravljanje velikim podacima

Svjetska IT potrošnja dosegnut će 3,7 milijardi dolara do 2013., što je 3,8% više od potrošnje na informacijsku tehnologiju u 2012. (prognoza za kraj godine je 3,6 milijardi dolara). Segment veliki podaci(veliki podaci) će rasti mnogo bržim tempom, prema izvješću Gartnera.

Do 2015. otvorit će se 4,4 milijuna radnih mjesta u području informacijske tehnologije za opsluživanje velikih podataka, od čega će biti 1,9 milijuna radnih mjesta. Štoviše, svaki takav posao stvorit će tri dodatna radna mjesta izvan IT sektora, tako da će samo u Sjedinjenim Državama tijekom sljedeće četiri godine 6 milijuna ljudi raditi na podršci informacijskoj ekonomiji.

Prema Gartnerovim stručnjacima, glavni je problem što u industriji nema dovoljno talenata za to: i privatni i javni obrazovni sustavi, na primjer, u Sjedinjenim Državama, nisu u stanju opskrbiti industriju dovoljnim brojem kvalificiranih osoblje. Tako će od spomenutih novih radnih mjesta u IT-u samo jedno od tri biti kadrovsko osigurano.

Analitičari smatraju da bi ulogu uzgoja kvalificiranog informatičkog osoblja izravno trebale preuzeti tvrtke kojima su prijeko potrebni jer će im takvi zaposlenici postati ulaz u novu informacijsku ekonomiju budućnosti.

2012

Prvi skepticizam u vezi s velikim podacima

Analitičari Ovuma i Gartnera sugeriraju to za trendovsku temu 2012 veliki podaci možda je vrijeme da se oslobodimo iluzije.

Pojam "Big Data" u ovom trenutku obično se odnosi na stalno rastuću količinu informacija koje dolaze online s društvenih medija, iz mreža senzora i drugih izvora, kao i na sve veći raspon alata koji se koriste za obradu podataka i identificiranje važnih poslova - trendovi.

"Zbog pompe (ili unatoč tome) oko ideje velikih podataka, proizvođači su 2012. gledali na ovaj trend s velikom nadom", rekao je Tony Bayer, analitičar u Ovumu.

Bayer je rekao da je DataSift proveo retrospektivnu analizu spominjanja velikih podataka u

Svojedobno sam od Germana Grefa (šefa Sberbanke) čuo izraz “Big Data”. Kažu da sada aktivno rade na implementaciji, jer će im to pomoći skratiti vrijeme rada sa svakim klijentom.

Drugi put sam se s ovim konceptom susreo u internetskoj trgovini klijenta, na kojoj smo radili i povećali asortiman s par tisuća na par desetaka tisuća robnih artikala.

Treći put kad sam vidio da Yandexu treba analitičar velikih podataka. Tada sam odlučio dublje proći u ovu temu i ujedno napisati članak koji će reći kakav je to pojam koji uzbuđuje umove top menadžera i internetskog prostora.

VVV ili VVVVV

Obično započnem bilo koji svoj članak s objašnjenjem što je ovaj izraz. Ovaj članak neće biti iznimka.

No, to prvenstveno nije uzrokovano željom da pokažem koliko sam pametan, već činjenicom da je tema doista složena i zahtijeva pažljivo objašnjenje.

Na primjer, možete pročitati što su veliki podaci na Wikipediji, ništa ne razumjeti, a zatim se vratiti na ovaj članak kako biste i dalje razumjeli definiciju i primjenjivost za poslovanje. Dakle, krenimo s opisom, a zatim na poslovne primjere.

Veliki podaci su veliki podaci. Nevjerojatno, ha? Zapravo, ovo se s engleskog prevodi kao "veliki podaci". Ali ova je definicija, moglo bi se reći, za lutke.

Važno... Tehnologija velikih podataka je pristup/metoda za obradu više podataka za dobivanje novih informacija koje je teško obraditi na konvencionalne načine.

Podaci mogu biti ili obrađeni (strukturirani) ili fragmentirani (tj. nestrukturirani).

Sam izraz pojavio se relativno nedavno. Znanstveni časopis je 2008. godine predvidio ovaj pristup kao nešto potrebno za rad s velikom količinom informacija koja se eksponencijalno povećava.

Primjerice, svake se godine za 40% povećava broj informacija na Internetu koje je potrebno pohraniti i obraditi. Opet. + 40% svake godine nove informacije se pojavljuju na internetu.

Ako su tiskani dokumenti razumljivi i načini njihove obrade također razumljivi (prijenos u elektronički oblik, ušivanje u jednu mapu, broj), što onda učiniti s informacijama koje su prikazane na potpuno različitim „nosačima“ i u drugim svezama:

  • internetski dokumenti;
  • blogovi i društvene mreže;
  • audio/video izvori;
  • mjerni uređaji;

Postoje karakteristike koje omogućuju klasificiranje informacija i podataka kao velikih podataka.

Odnosno, nisu svi podaci prikladni za analitiku. Ove karakteristike sadrže ključni koncept velikog spoja. Svi staju u tri V.

  1. Volume (od engleskog volume). Podaci se mjere u smislu fizičkog volumena “dokumenta” koji se analizira;
  2. Brzina (od engleskog velocity). Podaci ne stoje u razvoju, već stalno rastu, zbog čega ih je potrebno brzo obraditi da bi se dobili rezultati;
  3. Raznolikost (od engleskog varijeteta). Podaci možda nisu u jednom formatu. Odnosno, mogu biti raspršene, strukturirane ili djelomično strukturirane.

Međutim, povremeno se VVV-u dodaje četvrti V (istinitost), pa čak i peti V (u nekim slučajevima to je održivost, u drugima vrijednost).

Negdje sam čak vidio 7V, što karakterizira podatke vezane za veliki spoj. Ali po mom mišljenju ovo je iz serije (gdje se povremeno dodaje P, iako su početna 4 dovoljna za razumijevanje).

VEĆ IMAMO VIŠE OD 29 000 ljudi.
UPALITI

Kome to treba?

Postavlja se logično pitanje, kako se informacije mogu koristiti (ako ništa, veliki datum je stotine i tisuće terabajta)? Čak ni to.

Evo informacija. Pa zašto ste onda smislili veliki spoj? Koja je upotreba velikih podataka u marketingu i poslovanju?

  1. Obične baze podataka ne mogu pohraniti i obraditi (sada ne govorim čak ni o analitici, već jednostavno o pohrani i obradi) ogromne količine informacija.

    Veliki spoj rješava ovaj glavni problem. Uspješno pohranjuje i upravlja informacijama s velikim volumenom;

  2. Strukturira informacije koje dolaze iz različitih izvora (video, slike, audio i tekstualni dokumenti) u jedan, razumljiv i probavljiv oblik;
  3. Formiranje analitike i izrada točnih prognoza na temelju strukturiranih i obrađenih informacija.

Komplicirano je. Jednostavno rečeno, svaki marketer koji razumije da ako proučavate veliku količinu informacija (o vama, vašoj tvrtki, vašim konkurentima, vašoj industriji), možete dobiti vrlo pristojne rezultate:

  • Potpuno razumijevanje vaše tvrtke i vašeg poslovanja u smislu brojeva;
  • Proučite svoje konkurente. A to će zauzvrat omogućiti napredovanje zbog prevalencije nad njima;
  • Saznajte nove informacije o svojim klijentima.

I upravo zato što tehnologija velikih podataka daje sljedeće rezultate, svi žure s njom.

Taj posao pokušavaju uvući u svoju tvrtku kako bi dobili povećanje prodaje i smanjenje troškova. I točnije, onda:

  1. Povećana unakrsna prodaja i dodatna prodaja kroz bolje poznavanje preferencija kupaca;
  2. Potražite popularne proizvode i razloge zašto se kupuju (i obrnuto);
  3. Poboljšanje proizvoda ili usluge;
  4. Poboljšanje razine usluge;
  5. Povećana lojalnost i fokus na kupca;
  6. Sprečavanje prijevara (relevantnije za bankarski sektor);
  7. Smanjenje nepotrebnih troškova.

Najčešći primjer koji se navodi u svim izvorima je, naravno, Apple, koji prikuplja podatke o svojim korisnicima (telefon, sat, računalo).

Upravo zbog prisutnosti eko-sustava korporacija zna toliko o svojim korisnicima i u budućnosti to koristi za ostvarivanje profita.

Ove i druge primjere korištenja možete pročitati u bilo kojem drugom članku osim ovog.

Idemo u budućnost

Pričat ću vam o još jednom projektu. Dapače, o osobi koja gradi budućnost koristeći rješenja za velike podatke.

Ovo je Elon Musk i njegova tvrtka Tesla. Njegov glavni san je da automobile učini autonomnim, odnosno sjednete za volan, uključite autopilota od Moskve do Vladivostoka i ... zaspite, jer uopće ne trebate voziti auto, jer on će sve učiniti sam.

Činilo bi se fantastično? Ali ne! Elon je upravo učinio mnogo mudriji od Googlea, koji kontrolira automobile koristeći desetke satelita. I otišao je drugim putem:

  1. U svaki prodani automobil ugrađeno je računalo koje prikuplja sve podatke.

    Sve općenito znači sve. O vozaču, njegovom stilu vožnje, cestama oko njega, kretanju drugih automobila. Volumen takvih podataka doseže 20-30 GB na sat;

  2. Nadalje, ove informacije se putem satelitske komunikacije prenose do središnjeg računala koje je uključeno u obradu tih podataka;
  3. Na temelju velikih podataka koje ovo računalo obrađuje izrađuje se model bespilotnog vozila.

Inače, ako Googleu ide prilično loše i njihovi automobili stalno upadaju u nesreće, onda Musk, zbog činjenice da je rad s velikim podacima u tijeku, stvari stoje puno bolje, jer testni modeli pokazuju jako dobre rezultate.

Ali... Sve je u gospodarstvu. Što se mi svi bavimo profitom, da li profitom? Mnogo toga što veliki spoj može riješiti nema veze sa zaradom i novcem.

Google statistika, koja se temelji na velikim podacima, pokazuje zanimljivost.

Prije nego što liječnici objave početak epidemije bolesti u određenoj regiji, broj pretraga za liječenjem ove bolesti značajno raste u ovoj regiji.

Dakle, ispravno proučavanje podataka i njihova analiza mogu oblikovati predviđanja i predvidjeti početak epidemije (i, sukladno tome, njezinu prevenciju) mnogo brže od zaključka nadležnih tijela i njihovih postupaka.

Primjena u Rusiji

No, Rusija, kao i uvijek, malo "uspori". Dakle, sama definicija velikih podataka u Rusiji se pojavila prije ne više od 5 godina (sada govorim o običnim tvrtkama).

I to unatoč činjenici da je ovo jedno od najbrže rastućih tržišta na svijetu (droga i oružje se nervozno puše sa strane), jer svake godine tržište softvera za prikupljanje i analizu velikih podataka raste za 32%.

Kako bih okarakterizirao tržište velikih podataka u Rusiji, podsjetio sam se na stari vic. Veliki spoj je kao seks ispod 18 godina.

Svi pričaju o tome, ima puno hypea i malo prave akcije oko toga, a svi se srame priznati da sami to ne rade. Doista, oko ovoga ima puno hypea, ali malo stvarne akcije.

Iako je poznata istraživačka tvrtka Gartner 2015. godine objavila da big date više nije rastući trend (poput umjetne inteligencije, inače), već potpuno neovisni alati za analizu i razvoj naprednih tehnologija.

Najaktivnije niše u kojima se veliki podaci koriste u Rusiji su banke/osiguranje (ne bez razloga sam započeo članak s šefom Sberbanke), telekomunikacije, maloprodaja, nekretnine i ... javni sektor.

Kao primjer, reći ću vam detaljnije o nekoliko sektora gospodarstva koji koriste algoritme velikih podataka.

Banke

Počnimo s bankama i informacijama koje prikupljaju o nama i našim akcijama. Na primjer, uzeo sam TOP 5 ruskih banaka koje aktivno ulažu u velike podatke:

  1. Sberbank;
  2. Gazprombank;
  3. VTB 24;
  4. Alfa banka;
  5. Tinkoff banka.

Posebno je ugodno vidjeti Alfa banku među ruskim čelnicima. U najmanju ruku, lijepo je znati da banka, čiji ste službeni partner, razumije potrebu uvođenja novih marketinških alata u vašu tvrtku.

Ali želim pokazati primjere korištenja i uspješne implementacije velikih podataka u banci, koja mi se sviđa zbog nestandardnog izgleda i postupaka njenog osnivača.

Govorim o Tinkoff banci. Njihov glavni zadatak bio je razviti sustav za analizu velikih podataka u stvarnom vremenu zbog rastuće baze kupaca.

Rezultati: vrijeme unutarnjih procesa smanjeno je za najmanje 10 puta, a za neke - više od 100 puta.

Pa, malo ometanja. Znate li zašto sam počeo govoriti o nestandardnim ludorijama i postupcima Olega Tinkova?

Samo što su mu, po meni, upravo oni pomogli da od prosječnog biznismena, kojih u Rusiji ima tisuće, postane jedan od najpoznatijih i najprepoznatljivijih poduzetnika. Kako biste to dokazali, pogledajte ovaj neobičan i zanimljiv video:

Nekretnina

U nekretninama je sve puno kompliciranije. A to je upravo primjer koji vam želim dati da shvatite veliki datum unutar običnog posla. Početni podaci:

  1. Velika količina tekstualne dokumentacije;
  2. Otvoreni izvor (privatni sateliti koji prenose podatke o promjenama na Zemlji);
  3. Ogromna količina nekontroliranih informacija na Internetu;
  4. Stalne promjene izvora i podataka.

I na temelju toga potrebno je pripremiti i procijeniti vrijednost zemljišne parcele, na primjer, u blizini uralskog sela. Profesionalcu će trebati tjedan dana.

Ruskom društvu procjenitelja & ROSEKO, koje je zapravo implementiralo analizu velikih podataka pomoću softvera, neće trebati više od 30 minuta ležernog rada. Usporedi, tjedan i 30 minuta. Kolosalna razlika.

Pa za užinu

Naravno, ogromne količine informacija ne mogu se pohraniti i obraditi na jednostavnim tvrdim diskovima.

A softver koji strukturira i analizira podatke općenito je intelektualno vlasništvo i svaki put je autorski razvoj. Međutim, postoje alati na temelju kojih se stvara sva ova ljepota:

  • Hadoop & MapReduce;
  • NoSQL baze podataka;
  • Alati klase za otkrivanje podataka.

Iskreno govoreći, ne mogu vam jasno objasniti po čemu se one međusobno razlikuju, budući da se upoznavanje i rad s tim stvarima podučavaju na institutima za fiziku i matematiku.

Zašto sam onda počeo pričati o tome ako ne mogu objasniti? Sjećate se da u svim filmovima pljačkaši uđu u bilo koju banku i vide ogroman broj svakojakih komada željeza spojenih na žice?

Isto vrijedi i za veliki spoj. Primjerice, evo modela koji je trenutno jedan od vodećih na tržištu.

Alat za veliki spoj

Trošak u maksimalnoj konfiguraciji doseže 27 milijuna rubalja po stalku. Ovo je, naravno, deluxe verzija. Želim da unaprijed isprobate stvaranje velikih podataka u svom poslovanju.

Ukratko o glavnoj stvari

Možda se pitate zašto vi, mala i srednja tvrtka, trebate raditi s velikim podacima?

Na to ću vam odgovoriti citatom jedne osobe: “U bliskoj budućnosti klijenti će biti traženi za tvrtke koje bolje razumiju njihovo ponašanje i navike i najbolje im odgovaraju.”

Ali da se razumijemo. Za implementaciju velikih podataka u malom poduzeću potrebno je imati ne samo velike proračune za razvoj i implementaciju softvera, već i za održavanje stručnjaka, barem poput analitičara velikih podataka i sysadmina.

A sad šutim o tome da takve podatke morate imati za obradu.

U REDU. Za male tvrtke ova tema gotovo nije primjenjiva. Ali to ne znači da morate zaboraviti sve što ste pročitali gore.

Samo proučite ne vlastite podatke, već rezultate analize podataka poznatih stranih i ruskih tvrtki.

Primjerice, trgovački lanac Target je pomoću big data analitike doznao da trudnice prije drugog tromjesečja trudnoće (od 1. do 12. tjedna trudnoće) aktivno kupuju nemirisne proizvode.

Zahvaljujući tim informacijama, šalju im kupone za popust za proizvode bez okusa s ograničenim trajanjem.

A ako ste samo jedan vrlo mali kafić, na primjer? Vrlo je jednostavno. Koristite aplikaciju vjernosti.

A nakon nekog vremena i zahvaljujući nagomilanim informacijama, moći ćete ne samo ponuditi svojim kupcima jela koja odgovaraju njihovim potrebama, već i vidjeti najneprodanija i najmarginalnija jela u samo par klikova.

Otuda zaključak. Teško da se isplati implementirati velike podatke za male tvrtke, ali korištenje rezultata i razvoja drugih tvrtki je neophodno.

Stalno ubrzanje rasta podataka sastavni je dio današnje stvarnosti. Društvene mreže, mobilni uređaji, podaci s mjernih uređaja, poslovne informacije samo su neke vrste izvora koji mogu generirati ogromne količine podataka.

U današnje vrijeme pojam Big Data (Big Data) postao je prilično uobičajen. Nisu svi još uvijek svjesni koliko brzo i duboko tehnologije obrade velikih podataka mijenjaju najrazličitije aspekte društva. Promjene se događaju u različitim područjima, što dovodi do novih problema i izazova, uključujući i područje informacijske sigurnosti, gdje bi u prvom planu trebali biti važni aspekti kao što su povjerljivost, integritet, dostupnost itd.

Nažalost, mnoge moderne tvrtke pribjegavaju tehnologiji Big Data bez stvaranja odgovarajuće infrastrukture za to, koja bi mogla osigurati pouzdanu pohranu golemih količina podataka koje prikupljaju i pohranjuju. S druge strane, trenutno se ubrzano razvija blockchain tehnologija koja je osmišljena da riješi ovaj i mnoge druge probleme.

Što su Big Data?

Zapravo, definicija pojma leži na površini: “veliki podaci” znači upravljanje i analizu vrlo velikih količina podataka. U širem smislu, radi se o informacijama koje se zbog velike količine ne mogu obraditi klasičnim metodama.

Sam izraz Big Data pojavio se relativno nedavno. Prema usluzi Google Trends, aktivni rast popularnosti termina dogodio se krajem 2011.:

2010. godine počeli su se pojavljivati ​​prvi proizvodi i rješenja izravno vezana uz obradu velikih podataka. Do 2011. godine većina najvećih IT tvrtki, uključujući IBM, Oracle, Microsoft i Hewlett-Packard, aktivno koriste termin Big Data u svojim poslovnim strategijama. Postupno, analitičari tržišta informacijske tehnologije počinju aktivno istraživati ​​ovaj koncept.

Trenutno je ovaj izraz stekao značajnu popularnost i aktivno se koristi u različitim područjima. Međutim, ne može se sa sigurnošću reći da su Big Data neka vrsta temeljno novog fenomena – naprotiv, veliki izvori podataka postoje već dugi niz godina. U marketingu, to uključuje baze podataka o kupnji kupaca, kreditnoj povijesti, izboru životnog stila i još mnogo toga. Tijekom godina analitičari su koristili te podatke kako bi pomogli tvrtkama predvidjeti buduće potrebe kupaca, procijeniti rizike, oblikovati preferencije potrošača i još mnogo toga.

Trenutno se situacija promijenila u dva aspekta:

- postoje sofisticiraniji alati i metode za analizu i usporedbu različitih skupova podataka;
- alati za analizu nadopunjeni su mnogim novim izvorima podataka, zbog raširenog prijelaza na digitalne tehnologije, kao i novim metodama prikupljanja i mjerenja podataka.

Istraživači predviđaju da će se Big Data tehnologije najaktivnije koristiti u proizvodnji, zdravstvu, trgovini, vladi te u raznim drugim područjima i industrijama.

Big Data nije nikakav specifičan niz podataka, već skup metoda za njihovu obradu. Definirajuća karakteristika velikih podataka nije samo njihov volumen, već i druge kategorije koje karakteriziraju radno intenzivne procese obrade i analize podataka.

Početni podaci za obradu mogu biti, na primjer:

- zapisnici ponašanja korisnika Interneta;
- Internet stvari;
- društveni mediji;
- meteorološki podaci;
- digitalizirane knjige najvećih knjižnica;
- GPS signali iz vozila;
- podatke o transakcijama klijenata banke;
- podatke o lokaciji pretplatnika mobilne mreže;
- informacije o kupnji u velikim trgovačkim lancima i sl.

S vremenom se količina podataka i broj njihovih izvora neprestano povećava, a na toj pozadini se unaprjeđuju nove i postojeće metode obrade informacija.

Osnovna načela velikih podataka:

- Horizontalna skalabilnost - skupovi podataka mogu biti ogromni, što znači da se sustav za obradu velikih podataka mora dinamički širiti kako se njihov volumen povećava.
- Tolerancija kvarova - čak i u slučaju kvara nekih elemenata opreme, cijeli sustav mora ostati u funkciji.
- Lokalitet podataka. U velikim distribuiranim sustavima podaci su obično raspoređeni na veliki broj strojeva. Međutim, u mjeri u kojoj je to moguće i radi uštede resursa, podaci se često obrađuju na istom poslužitelju na kojem su i pohranjeni.

Za stabilan rad sva tri principa i, sukladno tome, visoku učinkovitost pohrane i obrade velikih podataka, potrebne su nove prodorne tehnologije kao što je, primjerice, blockchain.

Čemu služe Big Data?

Opseg Big Data neprestano se širi:

- Veliki podaci se mogu koristiti u medicini. Dakle, moguće je postaviti dijagnozu za pacijenta ne samo na temelju analize povijesti bolesti, već i uzimajući u obzir iskustva drugih liječnika, informacije o ekološkoj situaciji u pacijentovom području stanovanja i mnoge druge čimbenici.
- Big Data tehnologije mogu se koristiti za organiziranje kretanja bespilotnih vozila.
- Obradom velike količine podataka možete prepoznati lica u foto i video materijalima.
- Big Data tehnologije mogu koristiti trgovci na malo - trgovačke tvrtke mogu aktivno koristiti nizove podataka s društvenih mreža kako bi učinkovito prilagodile svoje reklamne kampanje, koje se mogu maksimalno usmjeriti na određeni segment potrošača.
- Ova tehnologija se aktivno koristi u organizaciji predizbornih kampanja, uključujući i za analizu političkih preferencija u društvu.
- Korištenje Big Data tehnologija relevantno je za rješenja klase jamstva dohotka (RA), koja uključuju alate za otkrivanje nedosljednosti i dubinsku analizu podataka, koji omogućuju pravovremeno prepoznavanje mogućih gubitaka ili izobličenja informacija koje mogu dovesti do smanjenja u financijskim rezultatima.
- Davatelji telekomunikacijskih usluga mogu agregirati velike podatke, uključujući geolokaciju; zauzvrat, ove informacije mogu biti od komercijalnog interesa za reklamne agencije koje ih mogu koristiti za prikazivanje ciljanog i lokalnog oglašavanja, kao i za trgovce na malo i banke.
“Big data može igrati važnu ulogu u odlučivanju o otvaranju maloprodajnog mjesta na određenoj lokaciji na temelju podataka o prisutnosti snažnog ciljanog protoka ljudi.

Dakle, najočitija praktična primjena Big Data tehnologije leži u području marketinga. S razvojem interneta i proliferacijom svih vrsta komunikacijskih uređaja, podaci o ponašanju (kao što su broj poziva, kupovne navike i kupnje) postaju dostupni u stvarnom vremenu.

Tehnologije velikih podataka također se mogu učinkovito koristiti u financijama, za društvena istraživanja i u mnogim drugim područjima. Stručnjaci tvrde da su sve te mogućnosti korištenja velikih podataka samo vidljivi dio sante leda, budući da se te tehnologije u mnogo većim količinama koriste u obavještajnim i protuobavještajnim poslovima, u vojnim poslovima, kao i u svemu što se obično naziva informacijskim ratovima.

Općenito, slijed rada s velikim podacima sastoji se od prikupljanja podataka, strukturiranja primljenih informacija pomoću izvješća i nadzornih ploča, kao i naknadnog formuliranja preporuka za djelovanje.

Razmotrimo ukratko mogućnosti korištenja Big Data tehnologija u marketingu. Kao što znate, za trgovca su informacije glavni alat za predviđanje i izradu strategije. Analiza velikih podataka dugo se uspješno koristi za određivanje ciljane publike, interesa, potražnje i aktivnosti potrošača. Analiza velikih podataka, posebice, omogućuje prikazivanje reklama (temeljenog na RTB modelu aukcije - Real Time Bidding) samo onim potrošačima koji su zainteresirani za proizvod ili uslugu.

Upotreba Big Data u marketingu omogućuje poslovnim ljudima da:

- bolje upoznajte svoje potrošače, privucite sličnu publiku na internetu;
- procijeniti stupanj zadovoljstva kupaca;
- razumjeti zadovoljava li ponuđena usluga očekivanja i potrebe;
- pronaći i implementirati nove načine za povećanje povjerenja kupaca;
- kreirati projekte koji su traženi itd.

Na primjer, usluga Google.trends može trgovcu pružiti prognozu sezonske aktivnosti potražnje za određenim proizvodom, fluktuacije i geografiju klikova. Usporedite li te podatke sa statističkim podacima koje prikuplja odgovarajući dodatak na vlastitoj web stranici, možete sastaviti plan raspodjele proračuna za oglašavanje, navodeći mjesec, regiju i druge parametre.

Prema mnogim istraživačima, upravo u segmentaciji i korištenju Big Data leži uspjeh Trumpove predizborne kampanje. Tim budućeg američkog predsjednika uspio je pravilno podijeliti publiku, razumjeti njezine želje i pokazati upravo onu poruku koju birači žele vidjeti i čuti. Dakle, prema riječima Irine Belysheve iz Data-Centric Alliancea, Trumpova je pobjeda u velikoj mjeri omogućena zahvaljujući nestandardnom pristupu internetskom marketingu, koji se temeljio na Big Data, psiho-biheviorskoj analizi i personaliziranom oglašavanju.

Trumpovi politički stratezi i marketinški stručnjaci koristili su posebno razvijen matematički model koji je omogućio duboku analizu podataka svih američkih birača kako bi ih sistematizirali, čineći ultraprecizno ciljanje ne samo po geografiji, već i po namjerama, interesima birača, njihovom psihotipu, karakteristike ponašanja i sl. Nakon Na taj su način marketinški stručnjaci organizirali personaliziranu komunikaciju sa svakom od skupina građana na temelju njezinih potreba, raspoloženja, političkih stavova, psiholoških karakteristika pa čak i boje kože, koristeći vlastitu poruku za gotovo svakog pojedinog birača.

Što se tiče Hillary Clinton, ona je u svojoj kampanji koristila "vremenski testirane" metode temeljene na sociološkim podacima i standardnom marketingu, podijelivši biračko tijelo samo na formalno homogene skupine (muškarci, žene, Afroamerikanci, Hispanjolci, siromašni, bogati itd.). ) ...

Kao rezultat toga, pobjednik je bio onaj koji je cijenio potencijal novih tehnologija i metoda analize. Važno je napomenuti da su troškovi kampanje Hillary Clinton bili dvostruko veći od troškova njezine protivnice:

Podaci: Pew Research

Glavni problemi korištenja Big Data

Osim visoke cijene, jedan od glavnih čimbenika koji ometa implementaciju Big Data u raznim područjima je problem odabira podataka koji će se obraditi: odnosno određivanje koje podatke treba izdvojiti, pohraniti i analizirati, a koje treba ne uzeti u obzir.

Drugi problem s velikim podacima je etički. Drugim riječima, nameće se prirodno pitanje: može li se takvo prikupljanje podataka (osobito bez znanja korisnika) smatrati kršenjem granica privatnosti?

Nije tajna da informacije pohranjene u tražilicama Google i Yandex omogućuju IT divovima da neprestano usavršavaju svoje usluge, čine ih jednostavnim za korištenje i stvaraju nove interaktivne aplikacije. Da bi to učinili, tražilice prikupljaju korisničke podatke o aktivnostima korisnika na Internetu, IP adrese, podatke o geolokaciji, interesima i online kupnji, osobne podatke, e-poruke itd. Sve to omogućuje prikaz kontekstualnog oglašavanja u skladu s ponašanjem korisnika na internet. Istodobno, za to se obično ne traži suglasnost korisnika, a ne daje se i izbor informacija o sebi. To jest, prema zadanim postavkama, Big Data prikuplja sve što će potom biti pohranjeno na poslužiteljima tih stranica.

To dovodi do sljedećeg važnog problema vezanog uz osiguranje sigurnosti pohrane i korištenja podataka. Na primjer, je li određena analitička platforma na koju potrošači automatski prenose svoje podatke na sigurnu? Osim toga, mnogi poslovni predstavnici primjećuju nedostatak visokokvalificiranih analitičara i marketinških stručnjaka koji su sposobni učinkovito raditi s velikim količinama podataka i uz njihovu pomoć rješavati specifične poslovne probleme.

Unatoč svim poteškoćama s implementacijom Big Data, tvrtka namjerava povećati ulaganja u ovo područje. Prema studiji Gartnera, lideri industrija koje ulažu u velike podatke su mediji, maloprodaja, telekomunikacije, bankarstvo i uslužne tvrtke.

Izgledi za interakciju blockchain tehnologija i Big Data

Integracija s velikim podacima ima sinergijski učinak i otvara širok raspon novih mogućnosti za poslovanje, uključujući dopuštanje:

- dobiti pristup detaljnim informacijama o preferencijama potrošača, na temelju kojih je moguće izraditi detaljne analitičke profile za određene dobavljače, robu i komponente proizvoda;
- integrirati detaljne podatke o transakcijama i statistiku potrošnje pojedinih skupina roba po različitim kategorijama korisnika;
- primati detaljne analitičke podatke o lancima opskrbe i potrošnje, kontrolirati gubitke proizvoda tijekom transporta (npr. gubitak težine zbog isušivanja i isparavanja određenih vrsta robe);
- suzbijanje krivotvorenja proizvoda, povećanje učinkovitosti borbe protiv pranja novca i prijevara itd.

Pristup detaljnim podacima o korištenju i potrošnji robe značajno će otkriti potencijal Big Data tehnologije za optimizaciju ključnih poslovnih procesa, smanjenje regulatornih rizika te otkrivanje novih mogućnosti za unovčavanje i kreiranje proizvoda koji će najbolje zadovoljiti trenutne preferencije potrošača.

Kao što znate, predstavnici najvećih financijskih institucija, uključujući, itd., već pokazuju značajan interes za blockchain tehnologiju. Prema Oliveru Bussmannu, IT menadžeru švicarskog financijskog holdinga UBS, blockchain tehnologija je u stanju "smanjiti vrijeme obrade transakcije od nekoliko dana do nekoliko minuta." ...

Potencijal blockchain analize korištenjem Big Data tehnologije je ogroman. Tehnologija distribuirane knjige osigurava integritet informacija, kao i pouzdanu i transparentnu pohranu cjelokupne povijesti transakcija. Veliki podaci zauzvrat pružaju nove alate za učinkovitu analizu, predviđanje, ekonomsko modeliranje i, sukladno tome, otvaraju nove mogućnosti za donošenje uravnoteženijih upravljačkih odluka.

Tandem blockchaina i Big Data može se uspješno koristiti u zdravstvu. Kao što znate, nesavršeni i nepotpuni podaci o zdravstvenom stanju pacijenta značajno povećavaju rizik od pogrešne dijagnoze i netočnog liječenja. Kritični podaci o zdravlju klijenata zdravstvenih ustanova trebaju biti što sigurniji, imati svojstva nepromjenjivosti, biti provjerljivi i ne smiju biti podložni bilo kakvoj manipulaciji.

Informacije u blockchainu ispunjavaju sve navedene zahtjeve i mogu poslužiti kao kvalitetni i pouzdani početni podaci za dubinsku analizu korištenjem novih Big Data tehnologija. Osim toga, uz pomoć blockchaina, medicinske ustanove bi mogle razmjenjivati ​​pouzdane podatke s osiguravajućim društvima, pravosudnim tijelima, poslodavcima, znanstvenim institucijama i drugim organizacijama kojima su potrebne medicinske informacije.

Big Data i informacijska sigurnost

U širem smislu, informacijska sigurnost je zaštita informacija i prateće infrastrukture od slučajnih ili namjernih negativnih utjecaja prirodne ili umjetne prirode.

U području informacijske sigurnosti, Big Data se suočava sa sljedećim izazovima:

- problemi zaštite podataka i osiguranja njihova integriteta;
- rizik od vanjskog uplitanja i curenja povjerljivih informacija;
- neispravno pohranjivanje povjerljivih informacija;
- rizik od gubitka informacija, na primjer, zbog nečijih zlonamjernih radnji;
- rizik zlouporabe osobnih podataka od strane trećih osoba i sl.

Jedan od glavnih problema velikih podataka koji je blockchain osmišljen za rješavanje leži u području informacijske sigurnosti. Osiguravajući usklađenost sa svim svojim osnovnim principima, tehnologija distribuirane knjige može jamčiti integritet i pouzdanost podataka, a zbog nepostojanja jedne točke kvara, blockchain čini rad informacijskih sustava stabilnim. Tehnologija distribuirane knjige može pomoći u rješavanju problema povjerenja podataka, kao i pružiti mogućnost njihove univerzalne razmjene.

Informacije su vrijedna imovina, što znači da bi osiguranje glavnih aspekata informacijske sigurnosti trebalo biti u prvom planu. Kako bi preživjele konkurenciju, tvrtke moraju ići u korak s vremenom, što znači da ne mogu zanemariti potencijalne prilike i prednosti koje nude blockchain tehnologija i Big Data alati.

Samo lijeni ne pričaju o velikim podacima, ali što je to i kako funkcionira, teško da će razumjeti. Počnimo s najjednostavnijim – terminologijom. Govoreći na ruskom, veliki podaci su različiti alati, pristupi i metode za obradu strukturiranih i nestrukturiranih podataka kako bi se mogli koristiti za određene zadatke i svrhe.

Nestrukturirani podaci su informacije koje nemaju unaprijed definiranu strukturu ili nisu organizirane određenim redoslijedom.

Termin "veliki podaci" skovao je urednik časopisa Nature Clifford Lynch još 2008. godine u posebnom broju posvećenom eksplozivnom rastu svjetskih količina informacija. Iako su, naravno, i sami veliki podaci postojali i prije. Prema riječima stručnjaka, većina podatkovnih tokova preko 100 GB dnevno pripada kategoriji velikih podataka.

Pročitajte također:

Danas ovaj jednostavan pojam krije samo dvije riječi – pohranjivanje i obrada podataka.

Veliki podaci - jednostavnim riječima

U suvremenom svijetu veliki podaci su društveno-ekonomski fenomen koji je povezan s činjenicom da su se pojavile nove tehnološke mogućnosti za analizu ogromne količine podataka.

Pročitajte također:

Radi lakšeg razumijevanja, zamislite supermarket u kojem sva roba nije u vašem uobičajenom redoslijedu. Kruh pored voća, pasta od rajčice pored smrznute pizze, upaljač ispred stalka za tampone koji između ostalog sadrži avokado, tofu ili shiitake gljive. Big data sve stavlja na svoje mjesto i pomaže vam pronaći mlijeko s orašastim plodovima, saznati cijenu i rok trajanja te tko osim vas kupuje takvo mlijeko i zašto je bolje od kravljeg.

Kenneth Kukier: Veliki podaci su najbolji podaci

Tehnologija velikih podataka

Ogromne količine podataka obrađuju se kako bi osoba mogla dobiti konkretne i potrebne rezultate za njihovu daljnju učinkovitu uporabu.

Pročitajte također:

Zapravo, veliki podaci su rješenje problema i alternativa tradicionalnim sustavima upravljanja podacima.

Tehnike i metode analize primjenjive na velike podatke prema McKinseyju:

  • Crowdsourcing;

    Miješanje i integracija podataka;

    Strojno učenje;

    Umjetne neuronske mreže;

    Prepoznavanje uzorka;

    Prediktivna analitika;

    Simulacijsko modeliranje;

    Prostorna analiza;

    Statistička analiza;

  • Analitička vizualizacija podataka.

Horizontalna skalabilnost koja omogućuje obradu podataka temeljni je princip obrade velikih podataka. Podaci se distribuiraju računalnim čvorovima, a obrada se odvija bez degradacije performansi. McKinsey je također uključio relacijske sustave upravljanja i poslovnu inteligenciju u kontekstu primjenjivosti.

Tehnologije:

  • NoSQL;
  • MapReduce;
  • Hadoop;
  • Hardverska rješenja.

Pročitajte također:

Za velike podatke postoje tradicionalne definirajuće karakteristike koje je razvila Meta Grupa još 2001. godine, a koje se nazivaju “ Tri V»:

  1. Volumen- veličina fizičkog volumena.
  2. Brzina- brzina rasta i potreba za brzom obradom podataka za dobivanje rezultata.
  3. Raznolikost- sposobnost istovremene obrade različitih vrsta podataka.

Veliki podaci: primjene i mogućnosti

Tradicionalnim alatima nemoguće je obraditi količine heterogenih digitalnih informacija koje brzo pristižu. Sama analiza podataka omogućuje vam da vidite određene i neprimjetne obrasce koje osoba ne može vidjeti. To nam omogućuje da optimiziramo sva područja našeg života - od vlade do proizvodnje i telekomunikacija.

Primjerice, neke su tvrtke prije nekoliko godina štitile svoje klijente od prijevara, a briga o novcu klijenata bila je briga o vlastitom novcu.

Susan Etleiger: Što je s velikim podacima?

Rješenja temeljena na velikim podacima: Sberbank, Beeline i druge tvrtke

Beeline ima ogromnu količinu podataka o pretplatnicima koje koriste ne samo za rad s njima, već i za izradu analitičkih proizvoda, poput vanjskog savjetovanja ili IPTV analitike. Beeline je segmentirao bazu podataka i zaštitio kupce od novčane prijevare i virusa, koristeći HDFS i Apache Spark za pohranu, te Rapidminer i Python za obradu podataka.

Pročitajte također:

Ili se sjetite Sberbanke s njihovim starim slučajem AS SAFI. Riječ je o sustavu koji analizira fotografije kako bi identificirao klijente banke i sprječava prijevare. Sustav je uveden još 2014. godine, u središtu sustava je usporedba fotografija iz baze podataka koje do tamo dolaze s web kamera na policama zahvaljujući računalnom vidu. Osnova sustava je biometrijska platforma. Zahvaljujući tome, slučajevi prijevare su se smanjili za 10 puta.

Veliki podaci u svijetu

Do 2020. godine, prema prognozama, čovječanstvo će generirati 40-44 zetabajta informacija. A do 2025. porast će 10 puta, prema izvješću The Data Age 2025, koje su pripremili analitičari IDC-a. U izvješću se navodi da će većinu podataka generirati same tvrtke, a ne potrošači.

Analitičari istraživanja vjeruju da će podaci postati vitalna imovina, a sigurnost će postati kritični temelj u životu. Autori rada također su uvjereni da će tehnologija promijeniti gospodarski krajolik, a prosječni korisnik će komunicirati s povezanim uređajima oko 4800 puta dnevno.

Tržište velikih podataka u Rusiji

Obično veliki podaci dolaze iz tri izvora:

  • Internet (društvene mreže, forumi, blogovi, mediji i druge stranice);
  • Korporativni arhiv dokumenata;
  • Očitavanja senzora, instrumenata i drugih uređaja.

Veliki podaci u bankama

Uz gore opisani sustav, u strategiji Sberbanke za 2014.-2018. govori o važnosti analize velikih količina podataka za kvalitetnu uslugu korisnicima, upravljanje rizicima i optimizaciju troškova. Sada banka koristi Big data za upravljanje rizicima, suzbijanje prijevara, segmentaciju i procjenu kreditne sposobnosti klijenata, upravljanje osobljem, predviđanje redova u poslovnicama, izračun bonusa zaposlenicima i druge poslove.

VTB24 koristi velike podatke za segmentiranje i upravljanje odljevom kupaca, generiranje financijskih izvještaja, analizu recenzija na društvenim mrežama i forumima. Za to koristi rješenja Teradata, SAS Visual Analytics i SAS Marketing Optimizer.

Pojam Big Data obično označava bilo koju količinu strukturiranih, polustrukturiranih i nestrukturiranih podataka. Međutim, drugi i treći se mogu i trebaju naručiti za naknadnu analizu informacija. Veliki podaci se ne poistovjećuju s bilo kakvim stvarnim volumenom, ali kada govorimo o Big Data, u većini slučajeva mislimo na terabajte, petabajte, pa čak i ekstrabajte informacija. Takav volumen podataka može se akumulirati u bilo kojem poslovanju tijekom vremena, ili, u slučajevima kada tvrtka treba primiti puno informacija, u stvarnom vremenu.

Analiza velikih podataka

Govoreći o analizi velikih podataka, prije svega mislim na prikupljanje i pohranjivanje informacija iz različitih izvora. Primjerice, podaci o kupcima koji su izvršili kupnju, njihove karakteristike, podaci o pokrenutim reklamnim kampanjama i procjena njihove učinkovitosti, podaci kontakt centra. Da, sve te informacije mogu se usporediti i analizirati. Moguće je i potrebno. Ali za to morate postaviti sustav koji vam omogućuje prikupljanje i transformaciju, bez iskrivljavanja informacija, pohranjivanje i, konačno, vizualiziranje. Slažem se, uz velike podatke tablice ispisane na nekoliko tisuća stranica neće puno pomoći u donošenju poslovnih odluka.

1. Dolazak velikih podataka

Većina usluga koje prikupljaju informacije o radnjama korisnika imaju mogućnost izvoza. Kako bi ušli u tvrtku u strukturiranom obliku, koriste se različiti, na primjer, Alteryx. Ovaj softver vam omogućuje da automatski primate informacije, obrađujete ih, ali što je najvažnije - pretvarate ih u željeni oblik i format bez iskrivljavanja.

2. Pohrana i obrada velikih podataka

Gotovo uvijek, kada se prikupljaju velike količine informacija, javlja se problem njihova pohranjivanja. Od svih platformi koje smo proučavali, naša tvrtka preferira Verticu. Za razliku od ostalih proizvoda, Vertica je u stanju brzo "pokloniti" informacije pohranjene u njoj. Nedostaci su dugo snimanje, no kod analize velikih podataka brzina uploada dolazi do izražaja. Na primjer, ako govorimo o kompilaciji pomoću petabajta informacija, brzina učitavanja jedna je od najvažnijih karakteristika.

3. Vizualizacija velikih podataka

I konačno, treća faza analize velikih količina podataka -. To zahtijeva platformu koja je u stanju vizualno odražavati sve primljene informacije u prikladnom obliku. Prema našem mišljenju, samo jedan softverski proizvod može se nositi sa zadatkom - Tableau. Nesumnjivo, jedno od najboljih rješenja današnjice koje može vizualno prikazati bilo koju informaciju, pretvarajući rad tvrtke u trodimenzionalni model, prikupljajući radnje svih odjela u jedan međuovisni lanac (više o Tableauovim mogućnostima možete pročitati) .

Umjesto sažetka, napominjemo da gotovo svaka tvrtka sada može formirati svoje Big Data. Analiza velikih podataka više nije složen i skup proces. Uprava tvrtke sada je dužna ispravno formulirati pitanja na prikupljene podatke, a nevidljivih sivih zona praktički nema.

Preuzmite Tableau

Preuzmite BESPLATNU punu verziju Tableau Desktopa, 14 dana, i dobijte BESPLATNE Tableau BI materijale za obuku

Podijeli ovo