Big data analiza velikih podataka. Jednostavnost je ključ uspjeha

Temeljeno na materijalima iz istraživanja i trendova

Big Data, "Big Data" već su nekoliko godina tema u gradu u IT i marketinškom tisku. I razumljivo je: digitalne tehnologije su prožele život modernog čovjeka, “sve je napisano”. Obim podataka o najrazličitijim aspektima života raste, a istovremeno rastu i mogućnosti pohrane informacija.

Globalne tehnologije za pohranu informacija

Izvor: Hilbert i Lopez, `Svjetski tehnološki kapacitet za pohranu, komunikaciju i računanje informacija`, Science, 2011 Global.

Većina stručnjaka slaže se da je ubrzanje rasta podataka objektivna stvarnost. Društveni mediji, mobilni uređaji, mjerni podaci, poslovne informacije samo su neki od izvora koji mogu generirati ogromne količine informacija. Prema istraživanju IDCDigitalni svemir objavljeno 2012. godine, sljedećih 8 godina količina podataka u svijetu dostići će 40 Zb (zetabajta), što je ekvivalentno 5200 GB za svakog stanovnika planeta.

Rast prikupljenih digitalnih informacija u Sjedinjenim Državama

Izvor: IDC

Velik dio informacija ne stvaraju ljudi, već roboti koji međusobno djeluju i s drugim podatkovnim mrežama, kao što su, na primjer, senzori i pametni uređaji. Uz takve stope rasta, količina podataka u svijetu će se, prema prognozama istraživača, udvostručiti godišnje. Broj virtualnih i fizičkih poslužitelja u svijetu će se udeseterostručiti zbog širenja i stvaranja novih podatkovnih centara. S tim u vezi, sve je veća potreba za učinkovitom upotrebom i unovčavanjem ovih podataka. Budući da korištenje Big Data u poslovanju zahtijeva velika ulaganja, morate jasno razumjeti situaciju. A to je, u biti, jednostavno: možete povećati učinkovitost poslovanja smanjenjem troškova i/i povećanjem prodaje.

Čemu služe Big Data?

Paradigma velikih podataka definira tri glavne vrste zadataka.

Pohranjivanje i upravljanje stotinama terabajta ili petabajta podataka koje konvencionalne relacijske baze podataka ne mogu učinkovito koristiti.
Organiziranje nestrukturiranih informacija koje se sastoje od teksta, slika, videozapisa i drugih vrsta podataka.
Analiza velikih podataka, koja postavlja pitanje kako raditi s nestrukturiranim informacijama, generirati analitička izvješća i implementirati prediktivne modele.

Tržište Big Data projekta presijeca se s tržištem poslovne inteligencije (BA), čiji je volumen u svijetu, prema procjenama stručnjaka, u 2012. iznosio oko 100 milijardi dolara. Uključuje komponente mrežne tehnologije, poslužitelje, softver i tehničke usluge.

Također, korištenje Big Data tehnologija relevantno je za rješenja klase jamstva dohotka (RA), dizajnirana za automatizaciju aktivnosti tvrtki. Suvremeni sustavi jamstva dohotka uključuju alate za otkrivanje nedosljednosti i dubinsku analizu podataka, koji omogućuju pravovremeno otkrivanje mogućih gubitaka ili izobličenja informacija koje mogu dovesti do smanjenja financijskih rezultata. S obzirom na to, ruske tvrtke, potvrđujući prisutnost potražnje za Big Data tehnologijama na domaćem tržištu, napominju da su čimbenici koji stimuliraju razvoj Big Data u Rusiji rast podataka, ubrzanje donošenja upravljačkih odluka i poboljšanje njihove kvalitete. .

Što sprječava rad s velikim podacima

Danas se analizira samo 0,5% akumuliranih digitalnih podataka, unatoč činjenici da postoje objektivno industrijski zadaci koji se mogu riješiti analitičkim rješenjima klase Big Data. Razvijena IT tržišta već imaju rezultate koji se mogu koristiti za procjenu očekivanja povezanih s akumulacijom i obradom velikih podataka.

Uz visoku cijenu, smatra se i jednim od glavnih čimbenika koji ometa implementaciju Big Data – projekata problem izbora podataka za obradu: odnosno određivanje koje podatke treba dohvatiti, pohraniti i analizirati, a koje ne treba uzeti u obzir.

Mnogi predstavnici poduzeća primjećuju da su poteškoće u provedbi Big Data projekata povezane s nedostatkom stručnjaka - marketinških stručnjaka i analitičara. Stopa povrata ulaganja u Big Data izravno ovisi o kvaliteti rada zaposlenika koji se bave dubokom i prediktivnom analitikom. Ogroman potencijal podataka koji već postoje u organizaciji sami trgovci često ne mogu učinkovito iskoristiti zbog zastarjelih poslovnih procesa ili internih propisa. Stoga tvrtke često percipiraju projekte Big Data kao teške ne samo u provedbi, već iu procjeni rezultata: vrijednosti prikupljenih podataka. Specifičnosti rada s podacima zahtijevaju od marketinških stručnjaka i analitičara da prebace svoju pozornost s tehnologije i kreiraju izvješća za rješavanje specifičnih poslovnih problema.

Zbog velikog volumena i velike brzine protoka podataka, proces prikupljanja podataka uključuje ETL procedure u stvarnom vremenu. Za referencu:ETL - odEngleskiEkstrakt, Transformirati, Opterećenje- doslovno "vađenje, transformacija, učitavanje") - jedan od glavnih procesa u upravljanju skladišta podataka, što uključuje: izdvajanje podataka iz vanjskih izvora, njihovu transformaciju i čišćenje prema potrebama ETL treba promatrati ne samo kao proces prijenosa podataka iz jedne aplikacije u drugu, već i kao alat za pripremu podataka za analizu.

A onda pitanja osiguranja sigurnosti podataka koji dolaze iz vanjskih izvora moraju imati rješenja koja odgovaraju količini prikupljenih informacija. Budući da se metode analize velikih podataka do sada razvijaju tek prateći rast volumena podataka, važnu ulogu igra svojstvo analitičkih platformi da koriste nove metode pripreme i agregacije podataka. To sugerira da, primjerice, podaci o potencijalnim kupcima ili ogromno skladište podataka s poviješću klikova na stranicama internetskih trgovina mogu biti zanimljivi za rješavanje raznih problema.

Poteškoće ne prestaju

Unatoč svim poteškoćama s implementacijom Big Data, tvrtka namjerava povećati ulaganja u ovo područje. Prema podacima Gartnera, u 2013. godini 64% najvećih svjetskih tvrtki već je investiralo, ili planira ulagati u implementaciju tehnologija u području Big Data za svoje poslovanje, dok ih je 2012. bilo 58%. Prema studiji Gartnera, lideri industrija koje ulažu u Big Data su medijske tvrtke, telekomunikacijske, bankarske i uslužne tvrtke. Uspješne rezultate implementacije Big Data već su postigli mnogi veliki igrači u maloprodajnom sektoru u smislu korištenja podataka dobivenih korištenjem RFID alata, logistike i sustava replikacije (iz engleskog. dopuna- akumulacija, dopuna - R&T), kao i iz programa vjernosti. Uspješna maloprodajna iskustva stimuliraju druge industrije na tržištu da pronađu nove i učinkovite načine za unovčavanje velikih podataka kako bi svoju analizu pretvorili u resurs za razvoj poslovanja. Zahvaljujući tome, prema predviđanjima stručnjaka, u razdoblju do 2020. godine ulaganja u upravljanje i pohranu podataka smanjit će se s 2 na 0,2 dolara po gigabajtu podataka, ali će proučavanje i analiza tehnoloških svojstava Big Data rasti za samo 40%.

Troškovi prikazani u raznim investicijskim projektima u području Big Data su različite prirode. Stavke troškova ovise o vrsti proizvoda koji se odabiru na temelju određenih odluka. Prema riječima stručnjaka, najveći dio troškova u investicijskim projektima otpada na proizvode koji se odnose na prikupljanje, strukturiranje podataka, čišćenje i upravljanje informacijama.

Kako se to radi

Postoje mnoge kombinacije softvera i hardvera koje vam omogućuju stvaranje učinkovitih Big Data rješenja za različite poslovne discipline: od društvenih medija i mobilnih aplikacija do poslovnog rudarenja podataka i vizualizacije. Važna prednost Big Data je kompatibilnost novih alata s bazama podataka koje se široko koriste u poslovanju, što je posebno važno pri radu s međudisciplinarnim projektima, na primjer, kao što je organiziranje višekanalne prodaje i korisničke podrške.

Slijed rada s velikim podacima sastoji se od prikupljanja podataka, strukturiranja primljenih informacija pomoću izvješća i nadzornih ploča, stvaranja uvida i konteksta te formuliranja preporuka za djelovanje. Budući da rad s Big Data podrazumijeva visoke troškove prikupljanja podataka, čiji rezultat nije unaprijed poznat, glavni je zadatak jasno razumjeti čemu služe podaci, a ne koliko ih je dostupno. U tom se slučaju prikupljanje podataka pretvara u proces dobivanja informacija koje su iznimno potrebne za rješavanje konkretnih problema.

Na primjer, davatelji telekomunikacijskih usluga prikupljaju ogromnu količinu podataka, uključujući geolokacijske podatke, koji se stalno ažuriraju. Ove informacije mogu biti od komercijalnog interesa za reklamne agencije koje ih mogu koristiti za posluživanje ciljanih i lokalnih oglasa, kao i za trgovce na malo i banke. Takvi podaci mogu imati važnu ulogu u odlučivanju o otvaranju maloprodajnog mjesta na određenoj lokaciji na temelju podataka o prisutnosti snažnog ciljanog protoka ljudi. Postoji primjer mjerenja učinkovitosti oglašavanja na bilbordima u Londonu. Sada se doseg takvog oglašavanja može mjeriti samo postavljanjem ljudi s posebnim uređajem koji broji prolaznike u blizini reklamnih konstrukcija. U usporedbi s ovakvim načinom mjerenja učinkovitosti oglašavanja, mobilni operater ima puno više mogućnosti – zna točno gdje se nalaze njegovi pretplatnici, zna njihove demografske karakteristike, spol, dob, bračno stanje itd.

Na temelju takvih podataka u budućnosti se otvara mogućnost mijenjanja sadržaja reklamne poruke, koristeći preferencije određene osobe koja prolazi pored plakata. Ako podaci pokazuju da osoba koja tuda prolazi puno putuje, tada joj se može pokazati reklama za ljetovalište. Organizatori nogometne utakmice mogu procijeniti broj navijača tek kada dođu na utakmicu. No, kada bi imali priliku od mobilnog operatera zatražiti informaciju o tome gdje su se posjetitelji nalazili sat, dan ili mjesec prije utakmice, onda bi to dalo mogućnost organizatorima da planiraju mjesta za oglašavanje sljedećih utakmica.

Drugi primjer je kako banke mogu koristiti Big Data za sprječavanje prijevara. Ako klijent tvrdi da je izgubio karticu, a prilikom kupovine njome banka u realnom vremenu vidi lokaciju klijentovog telefona u području kupnje gdje se transakcija odvija, banka može provjeriti podatke kod klijenta zahtjev da vidi je li ga pokušao prevariti. Ili suprotna situacija, kada kupac obavi kupnju u trgovini, banka vidi da su kartica kojom je izvršena transakcija i telefon kupca na istom mjestu, banka može zaključiti da karticu koristi njezin vlasnik. Zahvaljujući ovim prednostima Big Data, granice kojima su obdarena tradicionalna skladišta podataka šire se.

Za uspješno donošenje odluke o implementaciji Big Data rješenja, tvrtka treba izračunati investicijski slučaj, a to uzrokuje velike poteškoće zbog mnogih nepoznatih komponenti. U takvim slučajevima paradoks analitike je predviđanje budućnosti na temelju prošlosti, za koju često nedostaju podaci. U ovom slučaju, jasno planiranje vaših početnih radnji važan je čimbenik:

Najprije je potrebno odrediti jedan konkretan poslovni problem za čije će se rješavanje koristiti Big Data tehnologije, ovaj će zadatak postati srž utvrđivanja ispravnosti odabranog koncepta. Morate se usredotočiti na prikupljanje podataka povezanih s tim određenim zadatkom, a provjera koncepta omogućit će vam korištenje raznih alata, procesa i tehnika upravljanja koji će vam pomoći u donošenju boljih odluka u budućnosti.
Drugo, malo je vjerojatno da će tvrtka bez vještina i iskustva u analizi podataka moći uspješno implementirati Big Data projekt. Potrebna znanja uvijek proizlaze iz prethodnog iskustva u analitici, što je glavni čimbenik koji utječe na kvalitetu rada s podacima. Kultura korištenja podataka je važna jer često analiza informacija otkriva surovu istinu o poslovanju, a za prihvaćanje i rad s tom istinom potrebne su razvijene metode rada s podacima.
Treće, vrijednost Big Data tehnologija leži u pružanju uvida. Dobrih analitičara i dalje nedostaje na tržištu. Uobičajeno ih je nazivati stručnjacima koji duboko razumiju komercijalno značenje podataka i znaju kako ih pravilno koristiti. Analiza podataka sredstvo je za postizanje poslovnih ciljeva, a da biste razumjeli vrijednost Big Data, potreban vam je odgovarajući model ponašanja i razumijevanja vaših postupaka. U tom će slučaju veliki podaci pružiti mnoštvo korisnih informacija o potrošačima, na temelju kojih možete donositi odluke koje su korisne za vaše poslovanje.

Unatoč činjenici da se rusko tržište velikih podataka tek počinje formirati, pojedinačni projekti u ovom području već se provode prilično uspješno. Neki od njih su uspješni u području prikupljanja podataka, poput projekata za Federalnu poreznu službu i Tinkoff Credit Systems Bank, drugi u smislu analize podataka i praktične primjene njegovih rezultata: ovo je projekt Synqera.

Tinkoff Credit Systems Bank implementirala je projekt implementacije EMC2 Greenplum platforme, koja je alat za masovno paralelno računanje. Banka je tijekom proteklih godina povećala zahtjeve za brzinom obrade akumuliranih informacija i analiziranja podataka u stvarnom vremenu, uzrokovane visokom stopom rasta broja korisnika kreditnih kartica. Banka je najavila planove za proširenje upotrebe Big Data tehnologija, posebice za obradu nestrukturiranih podataka i rad s korporativnim informacijama dobivenim iz različitih izvora.

Federalna porezna služba Rusije trenutno stvara analitički sloj za savezno skladište podataka. Na temelju njega stvara se jedinstveni informacijski prostor i tehnologija za pristup poreznim podacima za statističku i analitičku obradu. Tijekom provedbe projekta radi se na centralizaciji analitičkih informacija s više od 1200 izvora lokalne razine Inspektorata Federalne porezne službe.

Još jedan zanimljiv primjer analize velikih podataka u stvarnom vremenu je ruski startup Synqera, koji je razvio platformu Simplate. Rješenje se temelji na obradi velike količine podataka, program analizira podatke o kupcima, njihovu povijest kupnje, dob, spol, pa čak i raspoloženje. Na blagajnama u lancu kozmetičkih trgovina postavljeni su zasloni osjetljivi na dodir sa senzorima koji prepoznaju emocije kupaca. Program određuje raspoloženje osobe, analizira podatke o njoj, određuje doba dana i skenira bazu popusta trgovine, nakon čega kupcu šalje ciljane poruke o promocijama i posebnim ponudama. Ovo rješenje povećava lojalnost kupaca i povećava prodaju u maloprodaji.

Ako govorimo o uspješnim inozemnim slučajevima, onda je u tom smislu zanimljivo iskustvo korištenja Big Data tehnologija u Dunkin`Donutsu, koji koristi podatke u stvarnom vremenu za prodaju proizvoda. Digitalni zasloni u trgovinama prikazuju ponude koje se izmjenjuju svake minute, ovisno o dobu dana i dostupnosti proizvoda. Tvrtka dobiva podatke iz blagajničkih računa koje su ponude dobile najveći odaziv kupaca. Ovaj pristup obradi podataka omogućio je povećanje dobiti i prometa robe u skladištu.

Kako pokazuje iskustvo implementacije Big Data projekata, ovo je područje osmišljeno za uspješno rješavanje suvremenih poslovnih problema. Istodobno, važan čimbenik u postizanju komercijalnih ciljeva pri radu s velikim podacima je odabir prave strategije, koja uključuje analitiku koja identificira potrebe potrošača, kao i korištenje inovativnih tehnologija u području Big Data.

Prema globalnom istraživanju koje godišnje provode Econsultancy i Adobe među trgovcima tvrtki od 2012., “veliki podaci” o tome kako se ljudi ponašaju na internetu mogu učiniti mnogo. Oni su u stanju optimizirati offline poslovne procese, pomoći razumjeti kako ih vlasnici mobilnih uređaja koriste za pronalaženje informacija ili jednostavno “učiniti marketing boljim”, tj. učinkovitije. Štoviše, posljednja funkcija je iz godine u godinu sve popularnija, što proizlazi iz dijagrama koji smo dali.

Ključna područja rada za internet marketingu u smislu odnosa s kupcima

Izvor: Econsultancy i Adobe, objavljeno- emarketer.com

Napominjemo da nacionalnost ispitanika nije bitna. Kako pokazuje istraživanje koje je KPMG proveo 2013. godine, udio “optimista”, t.j. onih koji koriste Big Data u razvoju poslovne strategije je 56%, štoviše, fluktuacije od regije do regije su male: od 63% u zemljama Sjeverne Amerike do 50% u EMEA.

Korištenje velikih podataka u različitim regijama svijeta

Izvor: KPMG, objavljeno- emarketer.com

U međuvremenu, stav trgovaca prema takvim "modnim trendovima" pomalo podsjeća na dobro poznatu anegdotu:

Reci mi, Vano, voliš li rajčice?
- Volim jesti, ali ne.

Unatoč činjenici da trgovci riječima "vole" Big Data i čini se da ih čak i koriste, zapravo, "sve je komplicirano", dok pišu o svojim iskrenim naklonostima na društvenim mrežama.

Prema istraživanju koje je Circle Research proveo u siječnju 2014. među europskim trgovcima, 4 od 5 ispitanika ne koristi Big Data (unatoč tome što ih, naravno, „vole“). Razlozi su različiti. Malo je okorjelih skeptika - 17% i točno isti broj kao i njihovi antipodi, t.j. oni koji samouvjereno odgovaraju "Da". Ostali su neodlučni i dvojbeni, "močvara". Izbjegavaju izravne odgovore pod uvjerljivim izgovorima poput "ne još, ali uskoro" ili "pričekajmo dok drugi ne počnu".

Korištenje velikih podataka od strane marketinških stručnjaka, Europa, siječanj 2014

Izvor:dnx, Objavljeno -emarketer.com

Što ih zbunjuje? Čiste sitnice. Neki (točno polovica njih) jednostavno ne vjeruju ovim podacima. Drugima (također ih ima puno - 55%) je teško povezati skupove "podataka" i "korisnika" jedni s drugima. Neki ljudi jednostavno (kažimo to politički korektno) imaju interni korporativni nered: podaci napušteno hodaju između marketinških odjela i IT struktura. Za druge, softver se ne može nositi s priljevom posla. itd. Budući da ukupni udjeli znatno premašuju 100%, jasno je da se situacija "višestrukih barijera" događa prilično često.

Prepreke koje ometaju korištenje velikih podataka u marketingu

Izvor:dnx, Objavljeno -emarketer.com

Stoga moramo priznati da je “Big Data” veliki potencijal koji se još uvijek treba iskoristiti. Inače, možda je to razlog zašto Big Data gubi oreol "modnog trenda", o čemu svjedoče i podaci istraživanja koje je provela već spomenuta tvrtka Econsultancy.

Najznačajniji trendovi u digitalnom marketingu 2013.-2014

Izvor: Econsultancy i Adobe

Smjenjuje ih drugi kralj – content marketing. Koliko dugo?

To ne znači da su Big Data neka vrsta temeljno novog fenomena. Veliki izvori podataka postoje već godinama: baze podataka o kupnji kupaca, kreditnoj povijesti, načinu života. I godinama su znanstvenici koristili ove podatke kako bi pomogli tvrtkama u procjeni rizika i predviđanju budućih potreba kupaca. Međutim, danas se situacija promijenila u dva aspekta:

Pojavili su se sofisticiraniji alati i tehnike za analizu i kombiniranje različitih skupova podataka;

Ovi analitički alati nadopunjeni su lavinom novih izvora podataka potaknutih digitalizacijom gotovo svih metoda prikupljanja i mjerenja podataka.

Raspon dostupnih informacija inspirativan je i zastrašujući za istraživače odgojene u strukturiranom istraživačkom okruženju. Osjećaj potrošača bilježe web stranice i sve vrste društvenih medija. Činjenicu gledanja oglasa bilježe ne samo set-top box uređaji, već i digitalne oznake i mobilni uređaji koji komuniciraju s televizorom.

Podaci o ponašanju (kao što su broj poziva, kupovne navike i kupnje) sada su dostupni u stvarnom vremenu. Dakle, mnogo od onoga što je prije bilo dostupno kroz istraživanje sada se može naučiti putem velikih izvora podataka. I sva ta informacijska sredstva generiraju se neprestano, bez obzira na bilo kakve istraživačke procese. Ove promjene nas navode na pitanje mogu li veliki podaci zamijeniti klasično istraživanje tržišta.

Ne radi se o podacima, već o pitanjima i odgovorima

Prije nego što naredimo smrtnu zvonjavu klasičnih studija, moramo se podsjetiti da nije kritična prisutnost nekog određenog podatkovnog materijala, već nešto drugo. Što točno? Naša sposobnost da odgovorimo na pitanja je ono što. Jedna smiješna stvar u novom svijetu velikih podataka jest da rezultati iz novih informacijskih sredstava dovode do još više pitanja, a na ta pitanja obično najbolje odgovara tradicionalno istraživanje. Stoga, kako veliki podaci rastu, vidimo paralelni rast dostupnosti i potražnje za “malim podacima” koji mogu dati odgovore na pitanja iz svijeta velikih podataka.

Razmotrite situaciju: veliki oglašivač neprestano prati promet u trgovini i prodaju u stvarnom vremenu. Postojeće tehnike istraživanja (u kojima intervjuiramo paneliste o njihovim motivacijama za kupnju i ponašanju na POS-u) pomažu nam bolje ciljati određene segmente kupaca. Te se tehnike mogu proširiti kako bi uključile širi raspon sredstava velikih podataka, do točke u kojoj veliki podaci postaju pasivni alat za nadzor, a istraživanje je metoda stalno fokusiranog istraživanja promjena ili događaja koji zahtijevaju proučavanje. Ovako veliki podaci mogu osloboditi gnjavažu istraživanja. Primarno istraživanje više se ne bi trebalo fokusirati na ono što se događa (big data hoće). Umjesto toga, primarno istraživanje može se usredotočiti na objašnjenje zašto vidimo trendove ili odstupanja od trendova. Istraživač će moći manje razmišljati o dobivanju podataka, a više o tome kako ih analizirati i koristiti.

U isto vrijeme vidimo kako veliki podaci rješavaju jedan od naših najvećih problema – problem predugog istraživanja. Ispitivanje samih studija pokazalo je da pretjerano napuhani istraživački alati negativno utječu na kvalitetu podataka. Iako su mnogi stručnjaci odavno priznali ovaj problem, uvijek su odgovorili govoreći: "Ali ove informacije trebaju mi za više rukovodstvo", a duga istraživanja su se nastavila.

U svijetu velikih podataka, gdje se kvantitativni pokazatelji mogu dobiti pasivnim promatranjem, ovo pitanje postaje kontroverzno. Opet, pogledajmo sve ove studije vezane uz konzumaciju. Ako nam veliki podaci daju uvid u potrošnju kroz pasivno promatranje, onda primarno istraživanje u obliku anketa više ne treba prikupljati ovakve podatke, a svoju viziju kratkih anketa možemo konačno potkrijepiti ne samo dobrim željama, već i nečim stvaran.

Big Data treba vašu pomoć

Konačno, “veliki” je samo jedna od karakteristika velikih podataka. Karakteristika "veliko" odnosi se na veličinu i razmjer podataka. Naravno, to je glavna karakteristika, budući da količina ovih podataka nadilazi sve ono s čime smo dosad radili. No važne su i druge karakteristike ovih novih tokova podataka: često su loše formatirani, nestrukturirani (ili, u najboljem slučaju, djelomično strukturirani) i puni dvosmislenosti. Područje upravljanja podacima u nastajanju, prikladno nazvano analitika entiteta, osmišljeno je za rješavanje problema prevladavanja buke u velikim podacima. Njegova je zadaća analizirati te skupove podataka i otkriti koliko je opažanja za istu osobu, koja su zapažanja aktualna, a koja su upotrebljiva.

Ova vrsta čišćenja podataka neophodna je za uklanjanje šuma ili pogrešnih podataka pri radu s velikim ili malim podatkovnim sredstvima, ali nije dovoljna. Također moramo stvoriti kontekst oko imovine velikih podataka na temelju našeg prethodnog iskustva, analitike i znanja o kategorijama. Zapravo, mnogi analitičari ističu sposobnost upravljanja neizvjesnošću svojstvenom velikim podacima kao izvorom konkurentske prednosti, jer omogućuje bolje donošenje odluka.

I tu se primarno istraživanje ne samo oslobađa rutine velikim podacima, već i doprinosi stvaranju sadržaja i analizi u okviru velikih podataka.

Izvrstan primjer za to je primjena našeg novog temeljno drugačijeg okvira jednakosti robne marke na društvene medije. (govorimo o razvijenim inMillward Smeđanovi pristup mjerenju vrijednosti robne markeThe Značajno Različit Okvir- "Paradigma značajnih razlika" -R & T ). Ovaj model je testiran za ponašanje na određenim tržištima, implementiran na standardnoj osnovi i lako se primjenjuje na druge marketinške smjerove i informacijske sustave za podršku odlučivanju. Drugim riječima, naš model vrijednosnog kapitala marke koji se temelji na anketama (iako nije ograničen na anketu) ima sva svojstva potrebna za prevladavanje nestrukturirane, nepovezane i nesigurne prirode velikih podataka.

Razmotrite podatke o raspoloženju potrošača koje pružaju društvene mreže. Neobrađeni vrhovi i padovi u raspoloženju potrošača vrlo su često u minimalnoj korelaciji s izvanmrežnom vrijednošću robne marke i metrikom ponašanja: jednostavno je previše buke u podacima. Ali tu buku možemo smanjiti primjenom naših modela osjećaja potrošača, diferencijacije robne marke, dinamike i diferencijacije na sirove podatke o raspoloženju potrošača – način obrade i agregiranja podataka društvenih medija u ovim dimenzijama.

Nakon što su podaci organizirani u skladu s našim okvirnim modelom, identificirani trendovi obično se podudaraju s izvanmrežnom vrijednošću robne marke i metrikama ponašanja. U suštini, podaci društvenih medija ne mogu govoriti sami za sebe. Njihovo korištenje u tu svrhu zahtijeva naše iskustvo i modele izgrađene oko robnih marki. Kada nam društveni mediji pružaju jedinstvene informacije izražene na jeziku koji potrošači koriste za opisivanje brendova, moramo koristiti taj jezik u našem istraživanju kako bismo primarno istraživanje učinili mnogo učinkovitijim.

Prednosti izuzetih istraživanja

To nas vraća na činjenicu da veliki podaci ne zamjenjuju istraživanje koliko ga oslobađaju. Istraživači će biti oslobođeni potrebe za stvaranjem nove studije za svaki novi slučaj. Neprestano rastuća sredstva velikih podataka mogu se iskoristiti u više istraživačkih tema, omogućujući naknadnim primarnim istraživanjima da se dublje udube u temu i popune praznine. Istraživači će biti oslobođeni potrebe da se oslanjaju na prenapuhane ankete. Umjesto toga, moći će koristiti kratke ankete i usredotočiti se na najvažnije parametre, što poboljšava kvalitetu podataka.

S ovim izdanjem, istraživači će moći upotrijebiti svoje dokazane principe i ideje kako bi dodali preciznost i značenje velikim podacima, što će dovesti do novih područja istraživanja anketa. Ovaj ciklus bi trebao dovesti do dubljeg razumijevanja niza strateških pitanja i, u konačnici, prema onome što bi uvijek trebao biti naš glavni cilj - informirati i poboljšati kvalitetu odluka vezanih uz brend i komunikacije.

Izraz "Big Date" možda je danas prepoznatljiv, ali još uvijek postoji velika zbrka oko toga što zapravo znači. Istina, koncept se neprestano razvija i revidira jer ostaje pokretačka snaga mnogih tekućih valova digitalne transformacije, uključujući umjetnu inteligenciju, znanost o podacima i internet stvari. Ali što je Big-Data tehnologija i kako mijenja naš svijet? Pokušajmo to shvatiti kako bismo jednostavnim riječima objasnili bit tehnologije Big Data i što ona znači.

Sve je počelo s eksplozijom količine podataka koju smo stvorili od početka digitalnog doba. Za to je uvelike zaslužan razvoj računala, interneta i tehnologija sposobnih „otimati“ podatke iz svijeta oko nas. Podaci sami po sebi nisu novi izum. Čak i prije ere računala i baza podataka koristili smo papirnate transakcijske zapise, evidenciju kupaca i arhivske datoteke, koje su podaci. Računala, posebno proračunske tablice i baze podataka, olakšala su nam pohranu i organiziranje podataka u velikim razmjerima. Odjednom su informacije postale dostupne jednim klikom miša.

Međutim, daleko smo otišli od izvornih tablica i baza podataka. Danas svaka dva dana stvaramo onoliko podataka koliko smo dobili od samog početka do 2000. godine. Tako je, svaka dva dana. A količina podataka koju stvaramo nastavlja brzo rasti; do 2020. količina dostupnih digitalnih informacija povećat će se s oko 5 zetabajta na 20 zetabajta.

U današnje vrijeme gotovo svaka naša akcija ostavlja svoj trag. Podatke generiramo kad god idemo na internet, kada prenosimo svoje pametne telefone opremljene modulom za pretraživanje, kada razgovaramo s prijateljima putem društvenih mreža ili chata itd. Osim toga, količina strojno generiranih podataka također brzo raste. Podaci se generiraju i distribuiraju kada naši pametni kućni uređaji komuniciraju jedni s drugima ili sa svojim kućnim poslužiteljima. Industrijska oprema u tvornicama i tvornicama sve je više opremljena senzorima koji akumuliraju i prenose podatke.

Pojam "Big-Data" odnosi se na prikupljanje svih ovih podataka i našu sposobnost da ih koristimo u našu korist u širokom rasponu područja, uključujući poslovanje.

Kako funkcionira Big-Data tehnologija?

Big Date radi na principu: što više znate o određenoj temi ili fenomenu, to pouzdanije možete doći do novog razumijevanja i predvidjeti što će se dogoditi u budućnosti. Usporedba više podatkovnih točaka stvara odnose koji su prethodno bili skriveni, a ti odnosi nam omogućuju učenje i donošenje boljih odluka. To se najčešće radi kroz proces koji uključuje izgradnju modela iz podataka koje možemo prikupiti, a zatim pokretanje simulacije koja svaki put prilagođava vrijednosti točaka podataka i prati kako one utječu na naše rezultate. Ovaj proces je automatiziran - moderne analitičke tehnologije pokrenut će milijune ovih simulacija, prilagođavajući svaku moguću varijablu dok ne pronađu model - ili ideju - koja će pomoći u rješavanju problema na kojem rade.

Bill Gates visi nad papirnatim sadržajem jednog CD-a

Donedavno su podaci bili ograničeni na proračunske tablice ili baze podataka – i sve je bilo vrlo uredno i uredno. Sve što se nije moglo lako organizirati u retke i stupce smatralo se pretežkim za rad i zanemarivano je. Međutim, napredak u pohrani i analitici znači da možemo uhvatiti, pohraniti i obraditi velike količine podataka različitih vrsta. Kao rezultat toga, "podaci" danas mogu značiti bilo što, od baza podataka do fotografija, videa, zvučnih zapisa, pisanih tekstova i senzorskih podataka.

Kako bi razumjeli sve ove neuredne podatke, projekti temeljeni na Big Datu često koriste vrhunsku analitiku pomoću umjetne inteligencije i strojnog učenja. Podučavajući računala da određuju što su specifični podaci - na primjer, kroz prepoznavanje uzoraka ili obradu prirodnog jezika - možemo ih naučiti identificirati modele mnogo brže i pouzdanije od nas samih.

Kako se koristi Big Date?

Ovaj sve veći protok informacija o senzorskim podacima, tekstu, glasu, fotografijama i videopodacima znači da sada možemo koristiti podatke na načine koje prije nekoliko godina nije bilo moguće zamisliti. Ovo revolucionira poslovni svijet u gotovo svakoj industriji. Današnje tvrtke mogu s nevjerojatnom točnošću predvidjeti koje će određene kategorije kupaca željeti izvršiti kupnju i kada. Big Data također pomaže tvrtkama da svoje poslovanje obavljaju mnogo učinkovitije.

Čak i izvan područja poslovanja, projekti povezani s Big-Data već pomažu promijeniti naš svijet na različite načine:

Poboljšanje zdravstvene skrbi – medicina vođena podacima sposobna je analizirati ogromne količine medicinskih informacija i slika za modele koji mogu pomoći u ranom otkrivanju bolesti i razvoju novih lijekova.
Predviđanje i odgovor na prirodne katastrofe i katastrofe uzrokovane ljudskim djelovanjem. Podaci senzora mogu se analizirati kako bi se predvidjelo gdje će se vjerojatno dogoditi potresi, a obrasci ljudskog ponašanja pružaju tragove koji pomažu organizacijama da pomognu preživjelima. Tehnologija Big Dates također se koristi za praćenje i zaštitu protoka izbjeglica iz ratnih zona diljem svijeta.
Sprječavanje kriminala. Policijske snage sve više koriste strategije temeljene na podacima koje uključuju njihove vlastite obavještajne podatke i informacije otvorenog izvora kako bi bolje iskoristile resurse i destimulirale gdje je to potrebno.

Najbolje knjige o Big-Data tehnologiji

Svi lažu. Tražilice, Big Data i Internet znaju sve o vama.
VELIKI PODACI. Sva tehnologija u jednoj knjizi.
Industrija sreće. Kako veliki podaci i nove tehnologije pomažu u dodavanju emocija proizvodima i uslugama.
Revolucija u analitici. Kako unaprijediti svoje poslovanje u eri velikih podataka uz operativnu analitiku.

Problemi s velikim podacima

Big Date nam pruža neviđene uvide i prilike, ali također postavlja pitanja i pitanja koja treba riješiti:

Povjerljivost podataka – Big-Data koje danas generiramo sadrži puno informacija o našem osobnom životu, na čiju povjerljivost imamo puno pravo. Sve češće se od nas traži da pronađemo ravnotežu između količine osobnih podataka koje otkrivamo i pogodnosti koje nude Big Date aplikacije i usluge.
Zaštita podataka – čak i ako odlučimo da smo zadovoljni činjenicom da netko ima naše podatke za određenu svrhu, možemo li mu povjeriti sigurnost i sigurnost naših podataka?
Diskriminacija podataka – kada su sve informacije poznate, hoće li biti prihvatljivo diskriminirati ljude na temelju podataka iz njihovog osobnog života? Već koristimo kreditne rezultate kako bismo odlučili tko može posuditi novac, a osiguranje također uvelike ovisi o podacima. Trebali bismo očekivati detaljniju analizu i evaluaciju, ali treba paziti da to ne zakomplicira živote onima s manje resursa i ograničenim pristupom informacijama.

Ti su zadaci važan dio Big Dates i trebaju ih rješavati organizacije koje žele koristiti takve podatke. Ako to ne učinite, posao može učiniti ranjivim, ne samo u smislu ugleda, već i s pravne i financijske strane.

Pogled u budućnost

Podaci mijenjaju naš svijet i naše živote brzinom bez presedana. Ako je Big-Data danas sposoban za sve ovo, zamislite za što će biti sposoban sutra. Količina podataka koji su nam dostupni samo će se povećavati, a tehnologija analitike će postati još naprednija.

Za tvrtke, sposobnost primjene Big Dat-a postat će sve važnija u nadolazećim godinama. Samo one tvrtke koje gledaju na podatke kao na stratešku imovinu opstat će i napredovati. Oni koji ignoriraju ovu revoluciju riskiraju da budu ostavljeni.

Svojedobno sam od Germana Grefa (šefa Sberbanke) čuo izraz “Big Data”. Kažu da sada aktivno rade na implementaciji, jer će im to pomoći skratiti vrijeme rada sa svakim klijentom.

Drugi put sam se s ovim konceptom susreo u internetskoj trgovini klijenta, na kojoj smo radili i povećali asortiman s par tisuća na par desetaka tisuća robnih artikala.

Treći put, kada sam vidio da Yandexu treba analitičar velikih podataka. Tada sam odlučio dublje proći u ovu temu i ujedno napisati članak koji će vam reći kakav je to pojam koji uzbuđuje umove top menadžera i internetskog prostora.

VVV ili VVVVV

Obično svaki svoj članak započinjem s objašnjenjem o kakvom se pojmu radi. Ovaj članak neće biti iznimka.

No, to prvenstveno nije uzrokovano željom da pokažem koliko sam pametan, već činjenicom da je tema zaista složena i zahtijeva pažljivo objašnjenje.

Na primjer, možete pročitati što su veliki podaci na Wikipediji, ništa ne razumjeti, a zatim se vratiti na ovaj članak kako biste i dalje razumjeli definiciju i primjenjivost za poslovanje. Dakle, krenimo s opisom, a zatim na poslovne primjere.

Veliki podaci su veliki podaci. Nevjerojatno, ha? Zapravo, ovo se s engleskog prevodi kao "veliki podaci". Ali ova je definicija, moglo bi se reći, za lutke.

Važno... Tehnologija velikih podataka je pristup/metoda za obradu više podataka za dobivanje novih informacija koje je teško obraditi na konvencionalne načine.

Podaci mogu biti ili obrađeni (strukturirani) ili fragmentirani (tj. nestrukturirani).

Sam izraz pojavio se relativno nedavno. Znanstveni časopis je 2008. godine predvidio ovaj pristup kao nešto potrebno za rad s velikom količinom informacija koja se eksponencijalno povećava.

Primjerice, svake se godine za 40% povećava broj informacija na Internetu koje je potrebno pohraniti i obraditi. Opet. + 40% svake godine nove informacije se pojavljuju na internetu.

Ako su tiskani dokumenti razumljivi, a načini njihove obrade također razumljivi (prijenos u elektronički oblik, ušivanje u jednu mapu, broj), što onda učiniti s informacijama koje su predstavljene na potpuno različitim "nosačima" i u drugim svezama:

internetski dokumenti;
blogovi i društvene mreže;
audio/video izvori;
mjerni uređaji;

Postoje karakteristike koje omogućuju klasificiranje informacija i podataka kao velikih podataka.

Odnosno, nisu svi podaci prikladni za analitiku. Upravo su te karakteristike ključni koncept velikog spoja. Svi staju u tri V.

Volume (od engleskog volume). Podaci se mjere u smislu fizičkog volumena “dokumenta” koji se analizira;
Brzina (od engleskog velocity). Podaci ne stoje u razvoju, već stalno rastu, zbog čega ih je potrebno brzo obraditi da bi se dobili rezultati;
Raznolikost (od engleskog varijeteta). Podaci možda nisu u jednom formatu. Odnosno, mogu biti raspršene, strukturirane ili djelomično strukturirane.

Međutim, s vremena na vrijeme se VVV-u dodaje četvrti V (istinitost - pouzdanost / vjerodostojnost podataka), pa čak i peti V (u nekim slučajevima to je održivost - vitalnost, u drugima vrijednost - vrijednost).

Negdje sam čak vidio 7V, što karakterizira podatke vezane za veliki spoj. Ali po mom mišljenju ovo je iz serije (gdje se povremeno dodaje P, iako su početna 4 dovoljna za razumijevanje).

VEĆ IMAMO VIŠE OD 29 000 ljudi.
UPALITI

Kome to treba?

Postavlja se logično pitanje, kako se informacije mogu koristiti (ako ništa, veliki datum je stotine i tisuće terabajta)? Čak ni to.

Evo informacija. Pa zašto ste onda smislili veliki spoj? Koja je upotreba velikih podataka u marketingu i poslovanju?

Obične baze podataka ne mogu pohraniti i obraditi (sada ne govorim čak ni o analitici, već jednostavno o pohrani i obradi) ogromne količine informacija.
Veliki spoj rješava ovaj glavni problem. Uspješno pohranjuje i upravlja velikim količinama informacija;
Strukturira informacije koje dolaze iz različitih izvora (video, slike, audio i tekstualni dokumenti) u jedan, razumljiv i probavljiv oblik;
Formiranje analitike i izrada točnih prognoza na temelju strukturiranih i obrađenih informacija.

Komplicirano je. Jednostavno rečeno, svaki marketer koji razumije da ako proučavate veliku količinu informacija (o vama, vašoj tvrtki, vašim konkurentima, vašoj industriji), možete dobiti vrlo pristojne rezultate:

Potpuno razumijevanje vaše tvrtke i vašeg poslovanja u smislu brojeva;
Proučite svoje konkurente. A to će zauzvrat omogućiti napredovanje zbog prevalencije nad njima;
Saznajte nove informacije o svojim klijentima.

I upravo zato što tehnologija velikih podataka daje sljedeće rezultate, svi žure s njom.

Taj posao pokušavaju uvući u svoju tvrtku kako bi dobili povećanje prodaje i smanjenje troškova. I točnije, onda:

Povećana unakrsna prodaja i dodatna prodaja kroz bolje poznavanje preferencija kupaca;
Potražite popularne proizvode i razloge zašto se kupuju (i obrnuto);
Poboljšanje proizvoda ili usluge;
Poboljšanje razine usluge;
Povećana lojalnost i fokus na kupca;
Sprečavanje prijevara (relevantnije za bankarski sektor);
Smanjenje nepotrebnih troškova.

Najčešći primjer, koji se navodi u svim izvorima, je, naravno, Apple, koji prikuplja podatke o svojim korisnicima (telefon, sat, računalo).

Upravo zbog prisutnosti eko-sustava korporacija toliko zna o svojim korisnicima i to u budućnosti koristi za ostvarivanje profita.

Ove i druge primjere korištenja možete pročitati u bilo kojem drugom članku osim ovog.

Idemo u budućnost

Pričat ću vam o još jednom projektu. Dapače, o osobi koja gradi budućnost koristeći rješenja za velike podatke.

Ovo je Elon Musk i njegova tvrtka Tesla. Njegov glavni san je da automobili budu autonomni, odnosno sjednete za volan, uključite autopilota od Moskve do Vladivostoka i ... zaspite, jer uopće ne trebate voziti auto, jer će on učiniti sve sam.

Činilo bi se fantastično? Ali ne! Elon je upravo učinio mnogo mudriji od Googlea, koji kontrolira automobile koristeći desetke satelita. I otišao je drugim putem:

U svaki prodani automobil ugrađeno je računalo koje prikuplja sve podatke.
Sve općenito znači sve. O vozaču, njegovom stilu vožnje, cestama oko njega, kretanju drugih automobila. Volumen takvih podataka doseže 20-30 GB na sat;
Nadalje, te se informacije putem satelitske komunikacije prenose do središnjeg računala, koje te podatke obrađuje;
Na temelju velikih podataka koje ovo računalo obrađuje napravljen je model bespilotnog vozila.

Inače, ako Googleu ide prilično loše i njihovi automobili stalno upadaju u nesreće, onda Musk, zbog činjenice da je rad s velikim podacima u tijeku, stvari stoje puno bolje, jer testni modeli pokazuju jako dobre rezultate.

Ali... Sve je u ekonomiji. Što se mi svi bavimo profitom, da li profitom? Mnogo toga što veliki spoj može riješiti nema veze sa zaradom i novcem.

Google statistika, koja se temelji na velikim podacima, pokazuje zanimljivost.

Prije nego što liječnici objave početak epidemije bolesti u određenoj regiji, broj pretraga za liječenjem ove bolesti značajno raste u ovoj regiji.

Dakle, ispravno proučavanje podataka i njihova analiza mogu oblikovati predviđanja i predvidjeti početak epidemije (i, sukladno tome, njezinu prevenciju) mnogo brže od zaključka nadležnih tijela i njihovih postupaka.

Primjena u Rusiji

No, Rusija, kao i uvijek, malo "uspori". Dakle, sama definicija velikih podataka u Rusiji se pojavila prije ne više od 5 godina (sada govorim o običnim tvrtkama).

I to unatoč činjenici da je ovo jedno od najbrže rastućih tržišta na svijetu (droga i oružje se nervozno puše sa strane), jer svake godine tržište softvera za prikupljanje i analizu velikih podataka raste za 32%.

Da okarakteriziram tržište velikih podataka u Rusiji, podsjetio sam se na stari vic. Veliki spoj je kao seks ispod 18 godina.

Svi pričaju o tome, puno je hypea i malo prave akcije oko toga, a svi se srame priznati da to sami ne rade. Doista, oko ovoga ima puno hypea, ali malo stvarne akcije.

Iako je poznata istraživačka tvrtka Gartner 2015. godine objavila da big date više nije rastući trend (poput umjetne inteligencije, inače), već potpuno neovisni alati za analizu i razvoj naprednih tehnologija.

Najaktivnije niše u kojima se veliki podaci koriste u Rusiji su banke/osiguranje (ne bez razloga sam započeo članak s šefom Sberbanke), telekomunikacije, maloprodaja, nekretnine i ... javni sektor.

Kao primjer, reći ću vam detaljnije o nekoliko sektora gospodarstva koji koriste algoritme velikih podataka.

Banke

Krenimo od banaka i informacija koje prikupljaju o nama i našim akcijama. Na primjer, uzeo sam TOP 5 ruskih banaka koje aktivno ulažu u velike podatke:

Sberbank;
Gazprombank;
VTB 24;
Alfa banka;
Tinkoff banka.

Posebno je ugodno vidjeti Alfa banku među ruskim čelnicima. U najmanju ruku, lijepo je znati da banka, čiji ste službeni partner, razumije potrebu uvođenja novih marketinških alata u vašu tvrtku.

Ali želim pokazati primjere korištenja i uspješne implementacije velikih podataka u banci, koja mi se sviđa zbog nestandardnog izgleda i postupaka njenog osnivača.

Govorim o Tinkoff banci. Njihov glavni zadatak bio je razviti sustav za analizu velikih podataka u stvarnom vremenu zbog rastuće baze kupaca.

Rezultati: vrijeme unutarnjih procesa smanjeno je za najmanje 10 puta, a za neke - više od 100 puta.

Pa, malo ometanja. Znate li zašto sam počeo govoriti o nestandardnim ludorijama i postupcima Olega Tinkova?

Samo što su mu, po meni, upravo oni pomogli da od prosječnog biznismena, kojih u Rusiji ima tisuće, postane jedan od najpoznatijih i najprepoznatljivijih poduzetnika. Kako biste to dokazali, pogledajte ovaj neobičan i zanimljiv video:

Nekretnina

U nekretninama je sve puno kompliciranije. A to je upravo primjer koji vam želim dati da shvatite veliki datum unutar običnog posla. Početni podaci:

Velika količina tekstualne dokumentacije;
Otvoreni izvor (privatni sateliti koji prenose podatke o promjenama na Zemlji);
Ogromna količina nekontroliranih informacija na Internetu;
Stalne promjene izvora i podataka.

I na temelju toga potrebno je pripremiti i procijeniti vrijednost zemljišne parcele, na primjer, ispod sela Ural. Profesionalcu će trebati tjedan dana.

Ruskom društvu procjenitelja & ROSEKO, koje je zapravo implementiralo analizu velikih podataka pomoću softvera, neće trebati više od 30 minuta ležernog rada. Usporedi, tjedan i 30 minuta. Kolosalna razlika.

Pa za užinu

Naravno, ogromne količine informacija ne mogu se pohraniti i obraditi na jednostavnim tvrdim diskovima.

A softver koji strukturira i analizira podatke općenito je intelektualno vlasništvo i svaki put je autorski. Međutim, postoje alati na temelju kojih se stvara sva ova ljepota:

Hadoop & MapReduce;
NoSQL baze podataka;
Alati klase za otkrivanje podataka.

Iskreno govoreći, ne mogu vam jasno objasniti po čemu se one međusobno razlikuju, budući da se upoznavanje i rad s tim stvarima podučavaju na institutima za fiziku i matematiku.

Zašto sam onda počeo pričati o tome ako ne mogu objasniti? Sjećate se da u svim filmovima pljačkaši uđu u bilo koju banku i vide ogroman broj svakojakih komada željeza spojenih na žice?

Isto vrijedi i za veliki spoj. Primjerice, evo modela koji je trenutno jedan od vodećih na tržištu.

Alat za veliki spoj

Trošak u maksimalnoj konfiguraciji doseže 27 milijuna rubalja po stalku. Ovo je, naravno, deluxe verzija. Želim da unaprijed isprobate stvaranje velikih podataka u svom poslovanju.

Ukratko o glavnom

Možda se pitate zašto vi, mala i srednja tvrtka, trebate raditi s velikim podacima?

Na to ću vam odgovoriti citatom jedne osobe: “U bliskoj budućnosti klijenti će biti traženi za tvrtke koje bolje razumiju njihovo ponašanje i navike i što više im odgovaraju.”

Ali da se razumijemo. Za implementaciju velikih podataka u malom poduzeću potrebno je imati ne samo velike proračune za razvoj i implementaciju softvera, već i za održavanje stručnjaka, barem poput analitičara velikih podataka i sysadmina.

A sad šutim o tome da takve podatke morate imati za obradu.

U REDU. Za male tvrtke ova tema gotovo nije primjenjiva. Ali to ne znači da morate zaboraviti sve što ste pročitali gore.

Samo proučite ne vlastite podatke, već rezultate analize podataka poznatih stranih i ruskih tvrtki.

Primjerice, trgovački lanac Target je pomoću big data analitike doznao da trudnice prije drugog tromjesečja trudnoće (od 1. do 12. tjedna trudnoće) aktivno kupuju nemirisne proizvode.

Zahvaljujući tim informacijama, šalju im kupone za popust za proizvode bez okusa s ograničenim trajanjem.

A ako ste samo jedan vrlo mali kafić, na primjer? Vrlo je jednostavno. Koristite aplikaciju vjernosti.

A nakon nekog vremena i zahvaljujući nagomilanim informacijama, moći ćete ne samo ponuditi kupcima jela koja odgovaraju njihovim potrebama, već i vidjeti najneprodanija i najmarginalnija jela u samo par klikova.

Otuda zaključak. Teško da se isplati implementirati velike podatke za male tvrtke, ali korištenje rezultata i razvoja drugih tvrtki je nužno.

Svaka industrijska revolucija imala je svoje simbole: željezo i para, proizvodnja čelika i linija, polimeri i elektronika, a sljedeća revolucija bit će pod znakom kompozitnih materijala i podataka. Veliki podaci - lažni trag ili budućnost industrije?

20.12.2011. Leonid Černjak

Simboli prve industrijske revolucije bili su lijevano željezo i para, druge - čelik i linijska proizvodnja, treće - plastika, aluminij i elektronika, a sljedeća revolucija bit će pod znakom kompozitnih materijala i podataka. Jesu li veliki podaci lažni trag ili budućnost industrije?

Više od tri godine o tome se mnogo govorilo i pisalo Veliki podaci(Big Data) u kombinaciji s riječju "problem", pojačava misterij ove teme. Tijekom tog vremena "problem" je postao fokusom velike većine velikih proizvođača, stvaraju se brojni startupi u nadi da će pronaći rješenje, a svi vodeći analitičari industrije trube koliko je važna sposobnost rada s velikim količinama podaci sada trebaju osigurati konkurentnost. Takav, ne previše obrazložen, masovni karakter izaziva neslaganje, a na istu temu možete pronaći mnogo skeptičnih izjava, a ponekad se Big Data čak i naziva crvena haringa (doslovno "dimljena haringa" je lažni trag, manevar koji ometa ).

Dakle, što su Big Data? Najlakše je zamisliti Big Data u obliku lavine podataka koja se spontano urušila i niotkuda, ili problem svesti na nove tehnologije koje radikalno mijenjaju informacijsko okruženje ili smo možda zajedno s Big Data doživljava još jednu fazu tehnološke revolucije? Najvjerojatnije i jedno i drugo, i treće, i još uvijek nepoznato. Značajno je da od više od četiri milijuna web stranica koje sadrže izraz Big Data, milijun također sadrži riječ definiciju - barem četvrtina onih koji pišu o Big Data pokušava dati svoju definiciju. Takav masovni interes svjedoči u prilog činjenici da, najvjerojatnije, postoji nešto kvalitativno drugačije u Big Data od onoga prema čemu gura obična svijest.

Pozadina

Činjenica da je velika većina referenci na Big Data na neki način povezana s poslovanjem može dovesti u zabludu. Zapravo, termin nije rođen u korporativnom okruženju, već su ga analitičari posudili iz znanstvenih publikacija. Big Data jedno je od rijetkih imena koje imaju potpuno pouzdan datum svog rođenja - 3. rujna 2008., kada je izašlo posebno izdanje najstarijeg britanskog znanstvenog časopisa Nature, posvećeno pronalaženju odgovora na pitanje “Kako se otvaraju tehnologije Povećanje mogućnosti za rad s velikim količinama može utjecati na budućnost znanosti. podaci?" Posebno izdanje sažima dosadašnje rasprave o ulozi podataka u znanosti općenito, a posebno u e-znanosti.

O ulozi podataka u znanosti se dugo raspravljalo - engleski astronom Thomas Simpson prvi je pisao o obradi podataka u 18. stoljeću u svom djelu "O prednostima korištenja brojeva u astronomskim promatranjima", ali tek krajem prošlog stoljeća zanimanje za ovu temu postalo je primjetno, a obrada podataka došla je do izražaja krajem prošlog stoljeća, kada je otkriveno da se računalne metode mogu primijeniti u gotovo svim znanostima od arheologije do nuklearne fizike . Kao rezultat toga, same znanstvene metode primjetno se mijenjaju. Nije slučajno da se pojavio neologizam knjižnica, nastao od riječi knjižnica i laboratorij, koji odražava promjene u konceptu onoga što se može smatrati rezultatom istraživanja. Do sada su se na prosudbu kolega davali samo konačni rezultati, a ne sirovi eksperimentalni podaci, a sada, kada se raznorazni podaci mogu prevesti u "digitalne", kada postoje razni digitalni mediji, predmet objavljivanje mogu biti različite vrste izmjerenih podataka, a od posebne je važnosti mogućnost ponovne obrade prethodno prikupljenih podataka u knjižnici. A onda se razvija pozitivna povratna informacija, zbog čega se proces prikupljanja znanstvenih podataka stalno ubrzava. Zato je, shvaćajući razmjere nadolazećih promjena, urednik izdanja Nature Clifford Lynch predložio poseban naziv za novu paradigmu Big Data, koju je odabrao po analogiji s metaforama kao što su Big Ref, Big Ore, itd., odražavajući ne toliko količina nečega, koliko je prijelaz iz kvantitete u kvalitetu.

Veliki podaci i poslovanje

Manje od godinu dana kasnije, pojam Big Data dospio je na stranice vodećih poslovnih publikacija, koje su, međutim, koristile potpuno drugačije metafore. Big Data se uspoređuje s mineralnim resursima – novom naftom (nova nafta), goldrush (zlatna groznica), data mining (data mining), čime se naglašava uloga podataka kao izvora skrivenih informacija; s prirodnim katastrofama - podatkovni tornado (uragan podataka), poplava podataka (poplava podataka), plimni val podataka (poplava podataka), smatrajući ih prijetnjom; hvatanje veze s industrijskom proizvodnjom - ispušni plin, vatrogasna crijeva (podatkovno crijevo), industrijska revolucija (industrijska revolucija). U poslovanju, kao i u znanosti, velike količine podataka također nisu nešto sasvim novo – već se dugo govori o potrebi rada s velikim količinama podataka, npr. u vezi sa širenjem radiofrekventne identifikacije (RFID) i društvenim mrežama, a baš kao iu znanosti, nedostajala mu je samo živa metafora koja bi odredila što se događa. Zato su se 2010. godine pojavili prvi proizvodi koji su tvrdili da su uključeni u kategoriju Big Data – postojao je prikladan naziv za već postojeće stvari. Značajno je da su u verziji Hype Cycle iz 2011., koja karakterizira stanje i izglede novih tehnologija, analitičari Gartnera uveli još jednu poziciju Big Data i Extreme Information Processing and Management s procjenom razdoblja masovne implementacije odgovarajućih rješenja od dvije do pet godina.

Zašto su veliki podaci problem?

Prošle su tri godine od pojave pojma Big Data, ali ako je u znanosti sve više-manje jasno, onda je mjesto Big Data u poslovanju i dalje neizvjesno, nije slučajno da se često govori o "Big Data problemu" , i ne samo problem, nego je i sve ostalo loše definirano. Često se problem pojednostavljuje, tumači kao Mooreov zakon, s jedinom razlikom što je u ovom slučaju riječ o fenomenu udvostručavanja količine podataka godišnje, ili hiperboliziranju, predstavljajući gotovo prirodnu katastrofu koju je hitno potrebno riješiti. sa na neki način. Podataka je doista sve više, ali sve to zanemaruje činjenicu da problem nipošto nije vanjski, nego ga uzrokuju ne toliko podaci koji su se urušili u nevjerojatnoj količini, koliko nesposobnost starih metoda da se snađu s novim svezacima, i, što je najvažnije, od nas samih stvorenih. Postoji čudna neravnoteža – sposobnost generiranja podataka jača je od sposobnosti njihove obrade. Razlog za ovu pristranost je, najvjerojatnije, taj što tijekom 65 godina računalne povijesti nismo razumjeli što su podaci i kako su povezani s rezultatima obrade. Začudo, matematičari se stoljećima bave osnovnim konceptima svoje znanosti, kao što su brojevni i brojevni sustavi, privlačeći na to filozofe, a u našem slučaju podaci i informacije, nikako trivijalne stvari, ostaju bez nadzora i prepušteni su milost intuitivne percepcije. Tako se pokazalo da se svih ovih 65 godina stvarna tehnologija rada s podacima razvijala nevjerojatnom brzinom, a kibernetika i teorija informacija jedva da su se razvile, koje su ostale na razini 50-ih, kada su se računala s lampama koristila isključivo za proračune. . Doista, trenutna gužva oko Big Data, uz pomnu pažnju, izaziva skeptičan osmijeh.

Skaliranje i razvrstavanje pohrane

Oblak, veliki podaci, analitika – ova tri čimbenika modernog IT-a ne samo da su međusobno povezana, već danas više ne mogu postojati jedan bez drugog. Rad s velikim podacima nemoguć je bez pohrane u oblaku i računalstva u oblaku – pojava cloud tehnologija ne samo u obliku ideje, već već u obliku dovršenih i provedenih projekata postala je okidač za pokretanje novog kruga spirale sve veći interes za Big Data analitiku. Ako govorimo o utjecaju na industriju u cjelini, danas su povećani zahtjevi za skaliranjem sustava za pohranu postali očiti. To je doista nužan uvjet – uostalom, teško je unaprijed predvidjeti kojim će analitičkim procesima biti potrebni određeni podaci i koliko će se intenzivno učitavati postojeća pohrana. Osim toga, zahtjevi za vertikalno i horizontalno skaliranje postaju jednako važni.

U novoj generaciji svojih sustava za pohranu, Fujitsu je veliku pozornost posvetio upravo aspektima skalabilnosti i višeslojne pohrane. Praksa pokazuje da je danas za obavljanje analitičkih zadataka potrebno jako opteretiti sustave, ali poslovanje zahtijeva da sve usluge, aplikacije i sami podaci uvijek ostanu dostupni. Osim toga, zahtjevi za rezultatima analitičkog istraživanja danas su vrlo visoki - kompetentni, ispravni i pravovremeni analitički procesi mogu značajno poboljšati rezultate poslovanja u cjelini.

– Aleksandar Jakovljev ([e-mail zaštićen]), voditelj marketinga proizvoda Fujitsu (Moskva).

Ignorirajući ulogu podataka i informacija kao predmeta istraživanja, postavljena je ista mina koja je eksplodirala sada, u vrijeme kada su se potrebe promijenile, kada se računsko opterećenje računala pokazalo puno manjim od ostalih vrsta rada na podacima, a svrha ovih radnji je dobivanje novih informacija i novih znanja iz postojećih skupova podataka. Zato je besmisleno govoriti o rješavanju problema Big Data izvan obnavljanja karika lanca "podaci - informacija - znanje". Podaci se obrađuju kako bi se dobila informacija koja bi trebala biti taman toliko da ih osoba može pretvoriti u znanje.

Proteklih desetljeća nije bilo ozbiljnog rada na povezivanju sirovih podataka s korisnim informacijama, a ono što obično nazivamo informacijskom teorijom Claudea Shannona nije ništa drugo do statistička teorija prijenosa signala i nema nikakve veze s informacijama koje percipiraju ljudi. Postoje mnoge zasebne publikacije koje odražavaju određena stajališta, ali ne postoji punopravna moderna teorija informacija. Kao rezultat toga, velika većina stručnjaka uopće ne pravi razliku između podataka i informacija. Okolo svi samo navode da ima puno ili puno podataka, ali nitko nema zrelu ideju o tome što točno postoji, koji načini rješavanja nastalog problema - a to je sve zbog tehničkih mogućnosti rada s podacima koji su očito nadmašili razinu razvijenosti sposobnosti njihovog korištenja. ... Samo jedan autor, urednik Web 2.0 Journala, Dion Hinchcliffe, ima klasifikaciju velikih podataka koja nam omogućuje korelaciju tehnologija s rezultatom koji se očekuje od obrade velikih podataka, ali je daleko od zadovoljavajućeg.

Hinchcliff dijeli pristupe velikim podacima u tri skupine: Brzi podaci, njihov volumen se mjeri u terabajtima; Big Analytics - Petabyte podaci i Deep Insight - Exabytes, zettabytes. Grupe se međusobno razlikuju ne samo po količini podataka kojima se upravlja, već i po kvaliteti rješenja za njihovu obradu.

Obrada za brze podatke ne podrazumijeva stjecanje novih znanja, njeni rezultati koreliraju s apriornim znanjem i omogućuju prosuđivanje kako se pojedini procesi odvijaju, omogućuje vam da na bolji i detaljniji način vidite što se događa, potvrdi ili odbaciti neke hipoteze. Samo mali dio trenutno postojećih tehnologija pogodan je za rješavanje Fast Data zadataka, ovaj popis uključuje neke tehnologije za rad sa pohranom (proizvodi Greenplum, Netezza, Oracle Exadata, Teradata, DBMS poput Verice i kdb). Brzina ovih tehnologija trebala bi se povećavati sinkronizirano s rastom količine podataka.

Zadaci koje rješava Big Analytics primjetno su različiti, i to ne samo kvantitativno, već i kvalitativno, a odgovarajuće tehnologije trebale bi pomoći u stjecanju novih znanja – one služe za transformaciju informacija zapisanih u podacima u nova znanja. No, na ovoj srednjoj razini ne pretpostavlja se prisutnost umjetne inteligencije pri odabiru rješenja niti bilo kakvih autonomnih radnji analitičkog sustava – ona se gradi po principu „učenje s učiteljem“. Drugim riječima, sav njezin analitički potencijal ugrađen je u nju u procesu učenja. Najočitiji primjer je automobil koji igra Jeopardy!. Klasični predstavnici takve analitike su MATLAB, SAS, Revolution R, Apache Hive, SciPy Apache i Mahout.

Najviša razina, Deep Insight, uključuje učenje bez nadzora i korištenje suvremenih analitičkih metoda, kao i različitih metoda vizualizacije. Na ovoj razini moguće je otkriti znanje i obrasce koji su a priori nepoznati.

Analitika velikih podataka

S vremenom se računalne aplikacije sve više približavaju stvarnom svijetu u svoj njegovoj raznolikosti, pa stoga raste količina ulaznih podataka i stoga potreba za njihovom analitikom, i to u načinu rada što je moguće bliže stvarnom vremenu. Konvergencija ova dva trenda dovela je do nastanka pravca Big Data analitika(Big Data Analytics).

Pobjeda Watson računala bila je briljantna demonstracija sposobnosti Big Data Analytics – ulazimo u zanimljivo doba kada se računalo prvi put koristi ne toliko kao alat za ubrzavanje izračuna, već kao pomoćnik koji proširuje ljudske sposobnosti u odabiru informacija i donošenju odluka. Naizgled utopijski planovi Vannevara Busha, Josepha Licklidera i Douga Engelbarta počinju se ostvarivati, ali to se ne događa baš onako kako je viđeno prije nekoliko desetljeća – moć računala nije u superiornosti nad osobom u logičkim sposobnostima, što znanstvenici posebno se nadao, ali u znatno većoj sposobnosti procesirati goleme količine podataka. Nešto slično dogodilo se u sučeljavanju Garryja Kasparova i Deep Bluea, kompjutor nije bio vještiji igrač, ali je brže mogao proći više opcija.

Ogromni volumeni u kombinaciji s velikom brzinom koja razlikuje Big Data Analytics od drugih aplikacija zahtijevaju odgovarajuća računala, a danas gotovo svi veliki proizvođači nude specijalizirane softverske i hardverske sustave: SAP HANA, Oracle Big Data Appliance, Oracle Exadata Database Machine i Oracle Exalytics Business Intelligence Stroj, Teradata Extreme Performance Appliance, NetApp E-Series tehnologija pohrane, IBM Netezza Data Appliance, EMC Greenplum, Vertica Analytics platforma koju pokreće HP konvergentna infrastruktura. Osim toga, mnoge male i start-up tvrtke su ušle u igru: Cloudera, DataStax, Northscale, Splunk, Palantir, Factual, Kognitio, Datameer, TellApart, Paraccel, Hortonworks.

Povratne informacije

Kvalitativno nove aplikacije Big Data Analytics zahtijevaju ne samo nove tehnologije, već i kvalitativno drugačiju razinu razmišljanja sustava, ali s tim postoje poteškoće - programeri Big Data Analytics rješenja često iznova otkrivaju istine poznate od 50-ih godina. Kao rezultat toga, analitiku se često razmatra odvojeno od sredstava za pripremu početnih podataka, vizualizacije i drugih tehnologija za pružanje rezultata osobi. Čak i tako cijenjena organizacija kao što je The Data Warehousing Institute analitiku promatra odvojeno od svega ostalog: prema njezinim podacima, 38% poduzeća već istražuje mogućnost korištenja Advanced Analytics u praksi upravljanja, a još 50% to namjerava učiniti unutar sljedeće tri godine. Takav interes opravdava se donošenjem mnogih argumenata iz poslovanja, iako se može lakše reći - poduzećima u novim uvjetima treba savršeniji sustav upravljanja, a njegovo stvaranje treba započeti uspostavljanjem povratnih informacija, odnosno sustava koji pomaže u donošenju odluka. , a u budućnosti će možda biti moguće automatizirati stvarno donošenje odluka. Začudo, sve rečeno uklapa se u metodologiju izrade automatiziranih sustava upravljanja tehnološkim objektima, koja je poznata još od 60-ih godina.

Potrebni su novi alati za analizu jer nema samo više podataka nego prije, već više njihovih vanjskih i unutarnjih izvora, sada su složeniji i raznolikiji (strukturirani, nestrukturirani i kvazistrukturirani), koriste se različite sheme indeksiranja (relacijske, višedimenzionalni, noSQL). Više nije moguće nositi se s podacima prijašnjim metodama - Big Data Analytics se proteže na velike i složene nizove, stoga koriste i termine Discovery Analytics (analitika otkrića) i Exploratory Analytics (objašnjavajuća analitika). Kako god to nazvali, bit je ista – povratna informacija, koja donositelje odluka u prihvatljivom obliku opskrbljuje informacijama o raznim vrstama procesa.

Komponente

Za prikupljanje sirovih podataka koriste se odgovarajuće hardverske i softverske tehnologije, što točno ovisi o prirodi kontrolnog objekta (RFID, informacije s društvenih mreža, razni tekstualni dokumenti i sl.). Ovi podaci se unose na ulaz analitičkog stroja (regulator u povratnoj petlji, ako nastavimo analogiju s kibernetikom). Ovaj regulator se temelji na hardverskoj i softverskoj platformi na kojoj radi stvarni analitički softver, ne pruža kontrolne radnje dovoljne za automatsku kontrolu, stoga su znanstvenici podataka ili inženjeri podataka uključeni u petlju. Njihova se funkcija može usporediti s ulogom koju imaju, na primjer, inženjeri elektrotehnike, koristeći znanje iz fizike za primjenu na stvaranje električnih strojeva. Posao inženjera je upravljati procesom transformacije podataka u informacije koje se koriste za donošenje odluka – oni također dovršavaju povratnu petlju. Od četiri komponente Big Data Analytics, u ovom slučaju nas zanima samo jedna – softversko-hardverska platforma (sustavi ovog tipa nazivaju se Analytic Appliance ili Data Warehouse Appliance).

Dugi niz godina, Teradata je bio jedini proizvođač specijaliziranih analitičkih strojeva, ali nije bio prvi - još krajem 70-ih, tadašnji lider britanske računalne industrije, ICL, neuspješno je pokušao stvoriti Content-Addressable Data Store.koji se temeljio na IDMS DBMS-u. No Britton-Lee je bio prvi koji je 1983. godine stvorio "motor baze podataka" na temelju višeprocesorske konfiguracije Zilog Z80 obitelji procesora. Nakon toga, Britton-Lee je kupila Teradata, koja je od 1984. proizvodila MPP računala za sustave za podršku odlučivanju i skladišta podataka. A prvi predstavnik nove generacije dobavljača takvih kompleksa bila je Netezza - u svom Netezza Performance Server rješenju korišteni su standardni blade poslužitelji zajedno sa specijaliziranim bladeovima Snippet Processing Unit.

Analitika u DBMS-u

Analitika je tu prije svega prognoza, ili prediktivni(Prediktivna analiza, RA). U većini postojećih implementacija, početni podaci za RA sustave su podaci prethodno akumulirani u skladištima podataka. Za analizu, podaci se prvo premještaju u srednje tržište podataka (IDM), gdje prezentacija podataka ne ovisi o aplikacijama koje ih koriste, a zatim se isti podaci prenose u specijalizirano analitičko tržište (ADM), a stručnjaci već rade s njima.koristeći razne razvojne alate, odnosno data mining (Data Mining). Takav višestupanjski model sasvim je prihvatljiv za relativno male količine podataka, ali s njihovim povećanjem i s povećanim zahtjevima za učinkovitošću, kod takvih se modela otkriva niz nedostataka. Osim potrebe za premještanjem podataka, postojanje brojnih neovisnih ADM-ova dovodi do kompliciranja fizičke i logičke infrastrukture, raste broj korištenih alata za modeliranje, rezultati dobiveni od strane različitih analitičara su nedosljedni, a računalna snaga i kanali su nedosljedni. daleko od optimalnog korištenja. Osim toga, odvojeno postojanje repozitorija i ADM-a čini gotovo nemogućim analitiku u skoro stvarnom vremenu.

Izlaz može biti pristup koji se naziva In-Database Analytics ili No-Copy Analytics, koji pretpostavlja korištenje podataka izravno u bazi podataka za analitičke svrhe. Takvi se DBMS-ovi ponekad nazivaju analitičkim i paralelnim. Pristup je postao posebno atraktivan s pojavom MapReduce i Hadoop tehnologija. U novoj generaciji aplikacija In-Database Analytics, sav data mining i drugi intenzivni rad obavljaju se izravno na podacima u skladištu. Očito, to značajno ubrzava procese i omogućuje primjene u stvarnom vremenu kao što su prepoznavanje uzoraka, grupiranje, regresijska analiza i razne vrste predviđanja. Ubrzanje se postiže ne samo oslobađanjem od premještanja iz skladišta u izloge, već uglavnom korištenjem različitih metoda paralelizacije, uključujući cluster sustave s neograničenim skaliranjem. Rješenja poput In-Database Analytics otvaraju mogućnost korištenja cloud tehnologija u analitičkim aplikacijama. Sljedeći korak može biti tehnologija SAP HANA (High Performance Analytic Appliance) čija je bit stavljanje podataka za analizu u RAM.

Glavni dobavljači...

Do 2010., glavni dobavljači softvera za In-Database Analytics bili su Aster Data (Aster nCluster), Greenplum (Greenplum Database), IBM (InfoSphere Warehouse; IBM DB2), Microsoft (SQL Server 2008), Netezza (Netezza Performance System, PostGresSQL) , Oracle (Oracle Database 11g / 10g, Oracle Exadata), SenSage (SenSage / columnar), Sybase (Sybase IQ), Teradata i Vertica Systems (Vertica Analytic Database). Sve su to poznate tvrtke, s izuzetkom startupa SenSage iz Silicijske doline. Proizvodi se značajno razlikuju po vrsti podataka s kojima mogu raditi, funkcionalnosti, sučeljima, analitičkom softveru koji koriste i sposobnosti rada u oblacima. Teradata je lider u zrelosti rješenja, a Aster Data je lider u avangardi. Popis dobavljača analitičkog softvera je kraći – proizvodi KXEN, SAS, SPSS i TIBCO mogu raditi u lokalnim konfiguracijama, a Amazon, Cascading, Google, Yahoo! i Sloudera.

2010. je bila ključna godina u prediktivnoj analitici, usporediva s 2007., kada je IBM kupio Cognos, SAP je kupio Business Object, a Oracle Hyperion. Sve je počelo tako što je EMC kupio Greenplum, zatim je IBM kupio Netezzu, HP je kupio Verticu, Teradata je kupio Aster Data, a SAP je kupio Sybase.

... i nove prilike

Analitička paradigma otvara temeljno nove mogućnosti, što su uspješno dokazala dva inženjera iz Kölna, koji su stvorili tvrtku ParStream (službeni naziv empulse GmbH). Zajedno su uspjeli stvoriti analitičku platformu baziranu na procesorima opće namjene i GPU procesorima, natječući se sa svojim prethodnicima. Prije četiri godine, Michael Hümmepl i Jorg Bienert, bivši u Accentureu, primili su narudžbu od njemačke putničke tvrtke kojoj je bio potreban sustav za kreiranje obilazaka koji bi mogao odabrati zapis od 20 parametara iz baze podataka od 6 milijardi zapisa u 100 milisekundi. Niti jedno od postojećih rješenja ne može se nositi s takvim zadatkom, iako se slični problemi susreću gdje god je potrebna on-line analiza sadržaja vrlo velikih baza podataka. ParStream je nastao iz premise primjene HPC tehnologija na Big Data Analytics. Hümmepl i Binert započeli su pisanjem vlastitog motora baze podataka, dizajniranog za rad na klasteru x86 arhitekture koji podržava operacije podataka u obliku paralelnih tokova, otuda i naziv ParStream. Odlučili su raditi samo sa strukturiranim podacima kao početnom postavkom, što zapravo otvara mogućnost za relativno jednostavnu paralelizaciju. Po dizajnu je ova baza podataka bliža Googleovom novom Dremel projektu nego MapReduce ili Hadoop, koji ne reagiraju na upite u stvarnom vremenu. Počevši od platforme x86/Linux, Hümmepl i Binert ubrzo su se uvjerili da njihovu bazu podataka mogu podržavati i nVidia Fermi GPU-ovi.

Veliki podaci i obrada podataka

Da bismo razumjeli što očekivati od onoga što se naziva Big Data, treba izaći izvan granica modernog uskog "IT" svjetonazora i pokušati vidjeti što se događa u široj povijesnoj i tehnološkoj retrospektivi, na primjer, pokušati pronaći analogije s tehnologije koje imaju dužu povijest. Uostalom, nakon što smo predmet našeg djelovanja nazvali tehnologijom, moramo ga i tretirati kao tehnologiju. Gotovo sve poznate tehnologije materijala svode se na preradu, preradu ili montažu za njih specifične sirovine ili neke druge komponente kako bi se dobili kvalitativno novi proizvodi - nešto je na ulazu tehnološkog procesa, a nešto na izlazu.

Posebnost nematerijalnih informacijskih tehnologija je da tehnološki lanac ovdje nije toliko očit, nije jasno što je sirovina, što je rezultat, što dolazi na ulaz, a što se dobiva na izlazu. Najlakši način je reći da su ulaz sirovi podaci, a izlaz korisna informacija. U cjelini to je gotovo točno, ali odnos između njih dvoje je iznimno složen; ako ostanemo na razini zdravog pragmatizma, onda se možemo ograničiti na sljedeća razmatranja. Podaci su sirove činjenice, izražene u različitim oblicima, koje same po sebi nemaju korisno značenje dok se ne stave u kontekst, pravilno organiziraju i porede tijekom obrade. Informacija se pojavljuje kao rezultat analize obrađenih podataka od strane osobe, ta analiza daje značenje podacima i daje im potrošačke kvalitete. Podaci su neorganizirane činjenice koje treba pretvoriti u informaciju. Donedavno, ideje o Obrada podataka(obrada podataka) svedeni su na organski krug algoritamskih, logičkih ili statističkih operacija na relativno malim količinama podataka. Međutim, kako se računalna tehnologija približava stvarnom svijetu, potreba za pretvorbom podataka iz stvarnog svijeta u informacije o stvarnom svijetu raste, obrađeni podaci postaju sve veći, a zahtjevi za brzinom obrade rastu.

Logično, informacijske tehnologije se ne razlikuju puno od materijalnih tehnologija, na ulazu sirove podatke, na izlazu - strukturirane, u obliku pogodnijem za ljudsku percepciju, izvlačeći informacije iz njih i pretvarajući informacije u korisno znanje snagom inteligencije. Računala su nazvana računalima zbog svoje sposobnosti brojanja, podsjećamo na prvu aplikaciju za ENIAC - obradu podataka o pucanju iz oružja i pretvaranje u topničke tablice. To jest, računalo je obrađivalo sirove podatke, izvlačilo korisne podatke i zapisivalo ih u obliku prikladnom za upotrebu. Pred nama nije ništa drugo do običan tehnološki proces. Općenito govoreći, točnija obrada podataka trebala bi se češće koristiti umjesto uvriježenog izraza informacijska tehnologija.

Informacijske tehnologije trebale bi podlijegati općim zakonima, u skladu s kojima se razvijaju sve ostale tehnologije, a to je prije svega povećanje količine prerađenih sirovina i poboljšanje kvalitete obrade. To se događa posvuda, bez obzira što točno služi kao sirovina, a što je rezultat, bila to metalurgija, petrokemija, biotehnologija, poluvodičke tehnologije itd. kasnije dolaze momenti ubrzanog razvoja, skokova. Brzi prijelazi mogu se dogoditi u slučajevima kada se potreba javlja izvana, a unutar tehnologija postoji mogućnost da se ona zadovolji. Računala se nisu mogla graditi na vakuumskim cijevima – a pojavili su se poluvodiči, automobilima je potrebno puno benzina – otkriven je proces pucanja, a takvih je primjera mnogo. Tako se pod imenom Big Data javlja kvalitativna tranzicija u računalnim tehnologijama koja može za sobom povući ozbiljne promjene, nije se slučajno nazvala novom industrijskom revolucijom. Big Data je još jedna tehnička revolucija sa svim posljedicama koje iz toga proizlaze.

Prvo iskustvo u obradi podataka datira iz 4. tisućljeća prije Krista, kada se pojavilo piktografsko pisanje. Od tada se razvilo nekoliko glavnih područja rada s podacima, a najmoćnije je bilo i ostalo tekstualno, od prvih glinenih ploča do SSD-a, od knjižnica sredine prvog tisućljeća prije Krista do modernih knjižnica, zatim raznih vrsta matematičkih numeričkih pojavile su se metode, od papirusa s dokazom Pitagorinog teorema i tabličnih tehnika do pojednostavljivanja izračuna do modernih računala. Kako se društvo razvijalo, počele su se gomilati razne vrste tabelarnih podataka, automatizacija rada s kojima je počela s tabličnim računalima, a u 19. i 20. stoljeću predložene su mnoge nove metode stvaranja i prikupljanja podataka. Potreba za radom s velikim količinama podataka bila je shvaćana dugo, ali nije bilo sredstava, pa otuda utopijski projekti poput "Librarium" Paula Otleta ili fantastičnog sustava za prognozu vremena uz rad 60 tisuća ljudi- kalkulatori.

Danas je računalo postalo univerzalni alat za rad s podacima, iako je zamišljeno samo za automatizaciju izračuna. Ideja o korištenju računala za obradu podataka nastala je u IBM-u deset godina nakon izuma digitalnih programabilnih računala, a prije toga za obradu podataka korišteni su uređaji za bušenje Unit Record koje je izumio Herman Hollerith. Zvali su se Jedinični zapisi, odnosno jedan zapis – svaka kartica sadržavala je cijeli zapis vezan za bilo koji objekt. Prva računala nisu znala raditi s velikim podacima – tek s pojavom pogona na diskovima i vrpcama, mogla su se natjecati s računalnim računalnim stanicama koje su postojale do kraja 60-ih. Usput, naslijeđe jediničnog zapisa jasno se prati u relacijskim bazama podataka.

Jednostavnost je ključ uspjeha

Rast količine sirovih podataka, zajedno s potrebom za njihovom analizom u stvarnom vremenu, zahtijeva stvaranje i implementaciju alata koji učinkovito rješavaju takozvani problem Big Data Analytics. Tehnologije Information Builders omogućuju vam rad s podacima iz bilo kojeg izvora u stvarnom vremenu, zahvaljujući raznim adapterima i arhitekturi Enterprise Service Bus-a. Alat WebFOCUS omogućuje analizu podataka u hodu i omogućuje vizualizaciju rezultata na najbolji način za korisnika.

Na temelju RSTAT tehnologije, Information Builders je stvorio proizvod za prediktivnu analizu koji omogućuje predviđanje scenarija što ako i što za slučaj.

Tehnologije poslovne inteligencije došle su u Rusiju, ali samo nekoliko ruskih tvrtki koristi prediktivnu analizu, što je uzrokovano niskom kulturom korištenja poslovne inteligencije u domaćim poduzećima i složenošću percepcije postojećih metoda analize od strane poslovnog korisnika. Imajući to na umu, Information Builders danas nudi proizvode koje Gartner analitičari ocjenjuju kao najlakše za korištenje.

– Mihail Strojev([e-mail zaštićen]), direktor za poslovni razvoj u Rusiji i CIS-u, InfoBuild CIS (Moskva).

Podaci su posvuda

Postupnom transformacijom računala iz računskih uređaja u strojeve za obradu podataka opće namjene, nakon otprilike 1970. godine počeli su se pojavljivati novi pojmovi: podaci kao proizvodi; podatkovni alati; aplikacije koje implementira odgovarajuća organizacija (podatkovna aplikacija); znanost o podacima; znanstvenici podataka pa čak i novinari koji informacije sadržane u podacima iznose široj javnosti (data novinar).

Danas su široko rasprostranjene aplikacije klase aplikacija podataka koje ne samo da izvode operacije nad podacima, već iz njih izvlače dodatne vrijednosti i stvaraju proizvode u obliku podataka. Među prvim aplikacijama ovog tipa je CDDB baza podataka audio diskova, koja je, za razliku od tradicionalnih baza podataka, nastala izdvajanjem podataka s diskova i njihovim kombiniranjem s metapodacima (nazivi diskova, zapisi itd.). Ova baza je u srcu usluge Apple iTunes. Jedan od čimbenika komercijalnog uspjeha Googlea postala je i svijest o ulozi podatkovne aplikacije - vlasništvo nad podacima omogućuje ovoj tvrtki da "zna" mnogo, koristeći podatke koji se nalaze izvan željene stranice (algoritam PageRank) . Google je vrlo jednostavno riješio problem ispravnosti pravopisa - za to se kreira baza pogrešaka i ispravaka, a korisniku se nude ispravci koje može prihvatiti ili odbiti. Sličan pristup koristi se za prepoznavanje tijekom govornog unosa - temelji se na akumuliranim audio podacima.

Tijekom 2009. godine, tijekom izbijanja svinjske gripe, analiza upita tražilicama omogućila je praćenje širenja epidemije. Mnoge tvrtke (Facebook, LinkedIn, Amazon, itd.) slijedile su put Googlea, ne samo pružajući usluge, već i koristeći akumulirane podatke u druge svrhe. Mogućnost obrade ove vrste podataka dala je poticaj nastanku druge znanosti o stanovništvu – znanosti o građanima. Rezultati dobiveni opsežnom analizom podataka o stanovništvu omogućuju mnogo dublje poznavanje ljudi i informiranije administrativne i poslovne odluke. Zbirka podataka i alata za rad s njima danas se naziva infoware.

Stroj za velike podatke

Skladišta podataka, online trgovine, sustavi za naplatu ili bilo koja druga platforma koja se može svrstati u Big Data projekte obično ima jedinstvene specifičnosti, a u dizajnu je glavna stvar integracija s industrijskim podacima, osiguravanje procesa akumulacije podataka, njihova organizacija i analitika.

Oracle je osigurao integrirano rješenje Oracle Big Data Appliance za podršku lancu velikih podataka optimiziranog hardvera s punim softverskim stogom i 18 Sun X4270 M2 poslužitelja. Međusobna povezanost se temelji na 40 Gbps Infiniband i 10 Gigabit Ethernet. Oracle Big Data Appliance uključuje kombinaciju otvorenog koda i vlasničkog softvera tvrtke Oracle.

Ključ-vrijednost ili NoSQL DBMS sustavi za pohranu danas su prepoznati kao glavni u svijetu velikih podataka i optimizirani su za brzo prikupljanje podataka i pristup njima. Kao takav DBMS za Oracle Big Data Appliance koristi se DBMS baziran na Oracle Berkley DB, koji pohranjuje informacije o topologiji sustava pohrane, distribuira podatke i razumije gdje se podaci mogu smjestiti uz najmanje vremena.

Rješenje Oracle Loader za Hadoop koristi tehnologiju MapReduce za stvaranje optimiziranih skupova podataka za učitavanje i analizu u Oracle 11g. Podaci se generiraju u "nativnom" formatu Oracle DBMS-a, što minimizira korištenje resursa sustava. Formatirani podaci se obrađuju na klasteru, a zatim im se može pristupiti s radnih stanica tradicionalnih korisnika RDBMS-a pomoću standardnih SQL naredbi ili alata poslovne inteligencije. Integracija Hadoop podataka i Oracle DBMS-a provodi se pomoću rješenja Oracle Data Integrator.

Oracle Big Data Appliance se isporučuje s distribucijom otvorenog koda Apache Hadoop uključujući HDFS i druge komponente, open source distribucijom R statističkog paketa za analizu sirovih podataka i Oracle Enterprise Linux 5.6. Poduzeća koja već koriste Hadoop mogu integrirati podatke koji se nalaze na HDFS-u u Oracle DBMS koristeći funkcionalnost vanjskih tablica i nema potrebe za odmah učitavanjem podataka u DBMS - vanjski podaci mogu se koristiti zajedno s internim podacima Oracle baze podataka pomoću SQL naredbi .

Infiniband povezivost između Oracle Big Data Appliancea i Oracle Exadata omogućuje prijenos podataka velike brzine za grupnu obradu ili SQL upite. Oracle Exadata pruža performanse koje su vam potrebne i za skladištenje podataka i za online aplikacije za obradu transakcija.

Novi proizvod Oracle Exalytics može se koristiti za rješavanje zadataka poslovne inteligencije i optimiziran je za korištenje Oracle Business Intelligence Enterprise Edition s obradom u memoriji.

– Vladimir Demkin ([e-mail zaštićen]), vodeći konzultant za Oracle Exadata u Oracle CIS (Moskva).

Znanost i specijalisti

Autor izvješća "Što je znanost o podacima?" (Što je znanost o podacima?), Objavljeno u seriji O'Reilly Radar Report, Mike Lukidis je napisao: "Budućnost pripada tvrtkama i ljudima koji podatke mogu pretvoriti u proizvode." Ova izjava nehotice podsjeća na dobro poznate riječi Rothschilda, "Tko posjeduje informacije - on posjeduje svijet", koje je izgovorio kada je ranije od drugih saznao za Napoleonov poraz kod Waterlooa i okrenuo prevaru s vrijednosnim papirima. Danas ovaj aforizam treba preformulirati: "Svijet je u vlasništvu onoga tko posjeduje podatke i tehnologije za njihovu analizu." Karl Marx, koji je živio nešto kasnije, pokazao je da je industrijska revolucija podijelila ljude u dvije skupine - one koji posjeduju sredstva za proizvodnju i one koji rade za njih. Općenito govoreći, nešto slično se događa i sada, ali sada predmet vlasništva i podjele funkcija nisu sredstva za proizvodnju materijalnih vrijednosti, već sredstva za proizvodnju podataka i informacija. I tu nastaju problemi – pokazalo se da je posjedovanje podataka puno teže nego posjedovanje materijalne imovine, one se jednostavno repliciraju i vjerojatnost njihove krađe je puno veća od krađe materijalne imovine. Uz to, postoje i pravne obavještajne tehnike – uz dovoljan volumen i odgovarajuće analitičke metode možete „izračunati“ što je skriveno. Zbog toga se sada toliko pažnje posvećuje Big Data Analytics (pogledajte bočnu traku) i kako se zaštititi od nje.

Razne aktivnosti s podacima, a prije svega poznavanje metoda ekstrakcije informacija, nazivaju se data science, što je, barem u prijevodu na ruski, pomalo dezorijentirajuće, jer se radije ne odnosi na neku novu akademsku znanost, već na interdisciplinarni skup znanja. i vještine potrebne za izvlačenje znanja. Sastav takvog skupa uvelike ovisi o području, ali se mogu razlikovati više ili manje generalizirani kvalifikacijski zahtjevi za stručnjake, koji se nazivaju znanstvenici podataka. To je najbolje uspio Drew Conway, koji je u prošlosti bio uključen u analizu podataka o terorističkim prijetnjama u jednoj od američkih obavještajnih službi. Glavne teze njegova diplomskog rada objavljuju se u tromjesečnom časopisu IQT Quarterly, koji izdaje In-Q-Tel, koji djeluje kao posrednik između američke CIA-e i znanstvenih organizacija.

Conway je svoj model prikazao u obliku Vennovog dijagrama (vidi sliku), koji predstavlja tri područja znanja i vještina koja se moraju ovladati i posjedovati da bi se postao znanstvenik podataka. Vještine hakiranja ne treba shvaćati kao zlonamjerne radnje, u ovom slučaju kombinacija posjedovanja određenih alata s posebnim analitičkim načinom razmišljanja, poput Herculea Poirota, naziva se tako, ili se ova sposobnost može nazvati deduktivnom metodom Sherlocka Holmesa. Za razliku od velikih detektiva, još uvijek morate biti stručnjak u brojnim matematičkim područjima i razumjeti predmet. Strojno učenje nastaje na sjecištu prva dva područja, na sjecištu drugog i trećeg – tradicionalnih metoda. Treće područje raskrižja opasno je zbog spekulativnosti, bez matematičkih metoda ne može biti objektivne vizije. Na sjecištu sve tri zone nalazi se data science.

Conwayev dijagram daje pojednostavljenu sliku; prvo, ne samo da se strojno učenje nalazi na sjecištu hakerskih i matematičkih krugova, i drugo, veličina zadnjeg kruga je puno veća, danas uključuje mnoge discipline i tehnologije. Strojno učenje samo je jedno od područja umjetne inteligencije povezano s konstrukcijom algoritama sposobnih za učenje, podijeljeno je na dva podpodručja: presedan, odnosno induktivno učenje, koje otkriva skrivene obrasce u podacima, i deduktivno, usmjereno na formaliziranje stručnjaka. znanje. Strojno učenje također je podijeljeno na nadzorno učenje, kada se proučavaju metode klasifikacije temeljene na unaprijed pripremljenim skupovima podataka za obuku, i nenadzirano učenje, kada se interni obrasci traže kroz klaster analizu.

Dakle, Big Data nije spekulativno razmišljanje, već simbol tehničke revolucije koja je pretekla. Potreba za analitičkim radom s velikim podacima značajno će promijeniti lice IT industrije i potaknuti pojavu novih softverskih i hardverskih platformi. Već danas se za analizu velikih količina podataka koriste najnaprednije metode: umjetne neuronske mreže – modeli izgrađeni na principu organizacije i funkcioniranja bioloških neuronskih mreža; metode prediktivne analitike, statistike i obrade prirodnog jezika (područja umjetne inteligencije i matematičke lingvistike, proučavanje problema računalne analize i sinteze prirodnih jezika). Koriste se i metode koje privlače ljudske stručnjake, odnosno crowdsourcing, A/B testiranje, analiza sentimenta itd. Za vizualizaciju rezultata koriste se dobro poznate metode, na primjer, oblaci oznaka i potpuno novi Clustergram, Tijek povijesti i Protok prostornih informacija .

Sa strane Big Data tehnologija podržavaju ih distribuirani datotečni sustavi Google File System, Cassandra, HBase, Luster i ZFS, MapReduce i Hadoop softverske konstrukcije i mnoga druga rješenja. Prema mišljenju stručnjaka, poput McKinsey Instituta, pod utjecajem Big Data, sfere proizvodnje, zdravstva, trgovine, administracije i praćenja individualnih kretanja doživjet će najveću transformaciju.