Čo je to analýza veľkých údajov. Ako sa používa Big Date? Najlepšie knihy o technológii Big-Data

Predpovedalo sa, že celkový globálny objem údajov vytvorených a replikovaných v roku 2011 by mohol byť približne 1,8 zettabajtov (1,8 bilióna gigabajtov) – približne 9-krát viac, ako sa vytvorilo v roku 2006.

Zložitejšia definícia

Avšak, ` veľké dáta„zahŕňajú viac než len analýzu obrovského množstva informácií. Problém nie je v tom, že organizácie vytvárajú obrovské množstvá dát, ale v tom, že väčšina z nich je prezentovaná vo formáte, ktorý príliš nekorešponduje s tradičným formátom štruktúrovanej databázy, ako sú weblogy, videá, textové dokumenty, strojový kód alebo napr. , geopriestorové údaje.... To všetko je uložené v mnohých rôznych úložiskách, niekedy aj mimo organizácie. V dôsledku toho môžu mať korporácie prístup k obrovskému množstvu svojich údajov a chýbajú im potrebné nástroje na vytvorenie vzťahov medzi týmito údajmi a vyvodenie zmysluplných záverov z nich. Pridajte k tomu fakt, že dáta sa v súčasnosti aktualizujú čoraz častejšie, a dostanete sa do situácie, v ktorej tradičné metódy informačnej analýzy nedokážu držať krok s obrovskými objemami neustále aktualizovaných dát, čo v konečnom dôsledku otvára cestu technológiám. veľké dáta.

Najlepšia definícia

V podstate koncept veľké dáta znamená pracovať s informáciami obrovského objemu a rôznorodého zloženia, veľmi často aktualizovanými a umiestnenými v rôznych zdrojoch s cieľom zvýšiť efektivitu práce, vytvárať nové produkty a zvyšovať konkurencieschopnosť. Poradenská spoločnosť Forrester sumarizuje: ` Veľké dáta kombinujú techniky a technológie, ktoré dávajú zmysel dátam na extrémnom limite použiteľnosti.

Aký veľký je rozdiel medzi business intelligence a veľkými dátami?

Craig Batey, hlavný marketingový riaditeľ a technologický riaditeľ, Fujitsu Australia, poukázal na to, že obchodná analýza je popisný proces analýzy výsledkov dosiahnutých v podniku za určité časové obdobie pri rýchlosti spracovania. veľké dáta vám umožňuje urobiť analýzu prediktívnou, schopnou ponúknuť obchodné odporúčania do budúcnosti. Veľké údaje vám tiež umožňujú analyzovať viac typov údajov ako nástroje business intelligence, čo vám umožňuje zamerať sa na viac než len štruktúrované úložisko.

Matt Slocum z O "Reilly Radar verí, že hoci veľké dáta a business intelligence majú rovnaký cieľ (nájsť odpovede na otázku), líšia sa od seba v troch aspektoch.

  • Big data sú navrhnuté tak, aby zvládali viac informácií ako business intelligence, a to je, samozrejme, v súlade s tradičnou definíciou veľkých dát.
  • Veľké dáta sú navrhnuté tak, aby spracovávali informácie, ktoré sa prijímajú a menia rýchlejšie, čo znamená hlboké skúmanie a interaktivitu. V niektorých prípadoch sa výsledky generujú rýchlejšie, než sa načíta webová stránka.
  • Veľké údaje sú navrhnuté tak, aby spracovávali neštruktúrované údaje, ktorých spôsoby začíname skúmať až potom, čo sa nám ich podarilo zhromaždiť a uložiť, a potrebujeme algoritmy a schopnosť viesť dialóg na uľahčenie hľadania trendov obsiahnutých v týchto poliach.

Podľa bielej knihy Oracle Information Architecture: An Architect's Guide to Big Data, ktorú vydala spoločnosť Oracle, pristupujeme k informáciám inak pri práci s veľkými údajmi ako pri podnikovej analýze.

Práca s veľkými dátami nie je ako bežný proces business intelligence, kde jednoduché sčítanie známych hodnôt prináša výsledky: napríklad súčet dát na zaplatených faktúrach sa stáva ročným obratom. Pri práci s veľkými údajmi sa výsledok získa v procese ich čistenia pomocou sekvenčného modelovania: najprv sa predloží hypotéza, zostaví sa štatistický, vizuálny alebo sémantický model, na základe ktorého sa overí správnosť vloženia. overí sa dopredná hypotéza a potom sa predloží ďalšia. Tento proces vyžaduje, aby výskumník buď interpretoval vizuálne hodnoty alebo zostavoval interaktívne otázky založené na znalostiach, alebo vyvinul adaptívne algoritmy strojového učenia schopné dosiahnuť požadovaný výsledok. Navyše životnosť takéhoto algoritmu môže byť pomerne krátka.

Techniky analýzy veľkých dát

Existuje mnoho rôznych metód na analýzu súborov údajov, ktoré sú založené na nástrojoch vypožičaných zo štatistiky a informatiky (napríklad strojové učenie). Zoznam si nenárokuje, že je úplný, ale odráža najpopulárnejšie prístupy v rôznych odvetviach. Zároveň je potrebné pochopiť, že výskumníci pokračujú v práci na vytváraní nových metód a zlepšovaní existujúcich. Okrem toho niektoré z vyššie uvedených techník nie sú nevyhnutne použiteľné výlučne na veľké dáta a možno ich úspešne použiť pre menšie polia (napríklad A/B testovanie, regresná analýza). Samozrejme, čím objemnejšie a diverzifikovanejšie je pole analyzované, tým presnejšie a relevantnejšie údaje možno získať na výstupe.

A/B testovanie... Technika, pri ktorej sa kontrolná vzorka porovnáva jedna po druhej s ostatnými. Tak je možné identifikovať optimálnu kombináciu ukazovateľov, aby sa dosiahla napríklad najlepšia odozva spotrebiteľa na marketingový návrh. Veľké dáta umožňujú vykonať veľké množstvo iterácií a získať tak štatisticky spoľahlivý výsledok.

Učenie sa asociačných pravidiel... Súbor techník identifikácie vzťahov, t.j. asociačné pravidlá medzi premennými vo veľkých súboroch údajov. Používaný v data mining.

Klasifikácia... Súbor techník, ktoré umožňujú predpovedať správanie spotrebiteľov v určitom segmente trhu (rozhodovanie o nákupe, odleve, spotrebe atď.). Používaný v data mining.

Zhluková analýza... Štatistická metóda na klasifikáciu objektov do skupín identifikáciou predtým neznámych spoločných znakov. Používaný v data mining.

Crowdsourcing... Metodika zberu údajov z veľkého množstva zdrojov.

Fúzia a integrácia údajov... Súbor techník, ktoré vám umožňujú analyzovať komentáre používateľov sociálnych sietí a porovnávať ich s výsledkami predaja v reálnom čase.

Dolovanie dát... Súbor metód, ktoré umožňujú určiť najvnímavejšie kategórie spotrebiteľov pre propagovaný produkt alebo službu, identifikovať charakteristiky najúspešnejších zamestnancov a predpovedať model správania spotrebiteľov.

Súborové učenie... Táto metóda využíva rôzne prediktívne modely, čím zlepšuje kvalitu predpovedí.

Genetické algoritmy... V tejto technike sú možné riešenia prezentované vo forme „chromozómov“, ktoré sa môžu kombinovať a mutovať. Rovnako ako v procese prirodzenej evolúcie prežije ten najschopnejší.

Strojové učenie... Smer v informatike (historicky sa za ním zasekol názov umelá inteligencia), ktorý si kladie za cieľ vytvárať samoučiace sa algoritmy založené na analýze empirických dát.

Spracovanie prirodzeného jazyka (NLP). Súbor techník na rozpoznávanie prirodzeného jazyka človeka prevzatý z informatiky a lingvistiky.

Sieťová analýza... Súbor metód na analýzu spojení medzi uzlami v sieťach. Aplikovaný na sociálne siete vám umožňuje analyzovať vzťahy medzi jednotlivými používateľmi, spoločnosťami, komunitami atď.

Optimalizácia... Súbor numerických metód na prepracovanie zložitých systémov a procesov na zlepšenie jednej alebo viacerých metrík. Pomáha pri strategických rozhodnutiach, napríklad pri skladbe produktovej rady uvádzanej na trh, pri vykonávaní investičnej analýzy atď.

Rozpoznávanie vzorov... Súbor techník s prvkami samoučenia na predpovedanie vzorcov správania spotrebiteľov.

Prediktívne modelovanie... Súbor techník, ktoré umožňujú vytvoriť matematický model vopred určeného pravdepodobného scenára vývoja udalostí. Napríklad analýza databázy CRM systému pre možné podmienky, ktoré prinútia účastníkov zmeniť poskytovateľa.

Regresia... Súbor štatistických metód na identifikáciu vzorcov medzi zmenou závislej premennej a jednej alebo viacerých nezávislých premenných. Často sa používa na prognózovanie a predpovede. Používa sa pri dolovaní údajov.

Analýza sentimentu... Metódy hodnotenia spotrebiteľského sentimentu sú založené na technológiách na rozpoznávanie prirodzeného jazyka človeka. Umožňujú vám izolovať od všeobecného informačného toku správy súvisiace s predmetom záujmu (napríklad spotrebný tovar). Ďalej zhodnoťte polaritu úsudku (pozitívny alebo negatívny), stupeň emocionality atď.

Spracovanie signálu... Súbor techník prevzatých z rádiového inžinierstva, ktorých cieľom je rozpoznanie signálu na pozadí šumu a jeho ďalšia analýza.

Priestorová analýza... Súbor metód na analýzu priestorových údajov, čiastočne prevzatých zo štatistiky - topológia terénu, geografické súradnice, geometria objektov. Zdroj veľké dáta v tomto prípade sa často využívajú geografické informačné systémy (GIS).

Štatistiky... Veda o zhromažďovaní, organizovaní a interpretácii údajov vrátane navrhovania dotazníkov a vykonávania experimentov. Štatistické metódy sa často používajú na vytváranie hodnotových úsudkov o vzťahoch medzi určitými udalosťami.

Učenie pod dohľadom... Súbor techník založených na technológiách strojového učenia, ktoré vám umožňujú identifikovať funkčné vzťahy v analyzovaných súboroch údajov.

Simulácia... Modelovanie správania zložitých systémov sa často používa na predpovedanie, predpovedanie a vývoj rôznych scenárov pri plánovaní.

Analýza časových radov... Súbor metód na analýzu opakujúcich sa sekvencií údajov v priebehu času, požičaných zo štatistík a digitálneho spracovania signálov. Niektoré zo zrejmých použití sú na sledovanie akciového trhu alebo výskytu pacientov.

Učenie bez dozoru... Súbor techník založených na technológiách strojového učenia, ktoré vám umožňujú odhaliť skryté funkčné vzťahy v analyzovaných súboroch údajov. Má spoločné s Zhluková analýza.

Vizualizácia... Metódy pre grafickú prezentáciu výsledkov analýzy veľkých dát vo forme diagramov alebo animovaných obrázkov na uľahčenie interpretácie a uľahčenie pochopenia získaných výsledkov.


Vizuálna prezentácia výsledkov analýzy veľkých dát má zásadný význam pre ich interpretáciu. Nie je žiadnym tajomstvom, že ľudské vnímanie je obmedzené a vedci pokračujú vo výskume s cieľom zlepšiť moderné metódy prezentácie údajov vo forme obrázkov, diagramov alebo animácií.

Analytické nástroje

Pre rok 2011 niektoré z prístupov uvedených v predchádzajúcej podkapitole alebo ich určitá kombinácia umožňujú uviesť do praxe analytické motory pre prácu s veľkými dátami. Z bezplatných alebo relatívne lacných otvorených systémov na analýzu veľkých dát môžeme odporučiť:

  • Revolution Analytics (založené na jazyku R pre matematické štatistiky).

Na tomto zozname je obzvlášť zaujímavý Apache Hadoop, softvér s otvoreným zdrojom, ktorý za posledných päť rokov vyskúšala a otestovala väčšina sledovačov akcií. Hneď ako Yahoo otvorilo kód Hadoop komunite s otvoreným zdrojovým kódom, okamžite sa v IT priemysle objavil úplne nový produktový rad Hadoop. Takmer všetky moderné analytické nástroje veľké dáta poskytnúť nástroje na integráciu s Hadoop. Ich vývojármi sú startupy aj známe svetové spoločnosti.

Trhy pre riešenia správy veľkých dát

Veľké dátové platformy (BDP, Big Data Platform) ako prostriedok boja proti digitálnym chordingom

Schopnosť analyzovať veľké dáta, familiárne nazývaný Big Data, je vnímaný ako požehnanie, a to jednoznačne. Ale je to naozaj tak? K čomu môže viesť nekontrolovateľné hromadenie údajov? S najväčšou pravdepodobnosťou k tomu, čo domáci psychológovia označujú ako patologické hromadenie človeka, sylogománia alebo obrazne „Pľuškinov syndróm“. V angličtine sa zlomyseľná vášeň zbierať všetko nazýva hording (z anglického hoard - "stock"). Podľa klasifikácie duševných chorôb je Hording klasifikovaný ako duševná porucha. V digitálnej ére sa k tradičnému hromadeniu materiálov pridáva digitálny (Digital Hoarding), ktorým môžu trpieť jednotlivci aj celé podniky a organizácie ().

Svetový a ruský trh

Krajina veľkých dát – hlavní dodávatelia

Záujem o nástroje zberu, spracovania, správy a analýzy veľké dáta ukázali takmer všetky popredné IT spoločnosti, čo je celkom prirodzené. Po prvé, s týmto fenoménom priamo čelia vo svojom vlastnom podnikaní, a po druhé, veľké dáta otvárať vynikajúce príležitosti na rozvoj nových trhových medzier a prilákanie nových zákazníkov.

Na trhu sa objavilo mnoho startupov, ktoré podnikajú na spracovávaní obrovského množstva dát. Niektoré z nich využívajú štandardnú cloudovú infraštruktúru, ktorú poskytujú hlavní hráči ako Amazon.

Teória a prax veľkých dát v odvetviach

História vývoja

2017

Prognóza TmaxSoft: ďalšia „vlna“ veľkých dát si vyžiada modernizáciu DBMS

Firmy vedia, že ich obrovské množstvo údajov obsahuje dôležité informácie o ich firme a zákazníkoch. Ak firma dokáže tieto informácie úspešne aplikovať, bude mať pred konkurenciou značnú výhodu a bude môcť ponúkať lepšie produkty a služby, ako sú ich. Mnohé organizácie však stále nedokážu efektívne využívať veľké dáta vzhľadom na skutočnosť, že ich stará IT infraštruktúra nie je schopná poskytnúť potrebnú úložnú kapacitu, procesy výmeny údajov, nástroje a aplikácie potrebné na spracovanie a analýzu veľkého množstva neštruktúrovaných údajov na extrahovanie cenných informácií z nich, uviedol TmaxSoft.

Navyše, zvýšený výpočtový výkon potrebný na analýzu neustále sa zvyšujúceho množstva údajov môže vyžadovať značné investície do starej IT infraštruktúry organizácie, ako aj dodatočné zdroje údržby, ktoré by sa mohli použiť na vývoj nových aplikácií a služieb.

5. februára 2015 vydal Biely dom správu, ktorá diskutovala o tom, ako spoločnosti využívajú „ veľké dáta„Nastavenie rôznych cien pre rôznych kupujúcich – postup známy ako „cenová diskriminácia“ alebo „diferencované stanovovanie cien“ (prispôsobené stanovovanie cien). Správa popisuje výhody „veľkých dát“ pre predajcov aj kupujúcich a jej autori dospeli k záveru, že mnohé problematické otázky, ktoré vznikli v súvislosti so vznikom veľkých dát a rozdielnych cien, možno vyriešiť v rámci existujúcich anti- diskriminačné zákony a zákony na ochranu práv spotrebiteľov.

V súčasnosti sa v správe uvádza, že existujú len neoficiálne dôkazy o tom, ako spoločnosti využívajú veľké dáta v kontexte personalizovaného marketingu a diferencovaných cien. Tieto informácie ukazujú, že predajcovia používajú metódy tvorby cien, ktoré možno rozdeliť do troch kategórií:

  • štúdium krivky dopytu;
  • Riadenie a diferencovaná tvorba cien na základe demografických údajov; a
  • behaviorálne cielenie a individuálna tvorba cien.

Štúdia krivky dopytu: Obchodníci často experimentujú s dopytom a spotrebiteľským správaním náhodným priraďovaním zákazníkov do jednej z dvoch možných cenových úrovní. „Technicky sú tieto experimenty formou rozdielnych cien, pretože vedú k rozdielnym cenám pre zákazníkov, aj keď sú „nediskriminačné“ v tom zmysle, že všetci zákazníci s rovnakou pravdepodobnosťou „dosiahnu“ vyššiu cenu.“

Riadenie: Ide o prax prezentovania produktov spotrebiteľom na základe ich demografickej skupiny. Webová stránka počítačovej spoločnosti teda môže ponúkať rovnaký notebook rôznym typom kupujúcich za rôzne ceny, stanovené na základe informácií, ktoré o sebe poskytujú (napríklad v závislosti od toho, či je používateľ zástupcom vládnych agentúr, vedeckých alebo komerčných inštitúciami alebo jednotlivcom) alebo z ich geografickej polohy (napríklad určenej IP adresou počítača).

Cielený behaviorálny marketing a personalizované stanovovanie cien: V týchto prípadoch sa osobné údaje kupujúcich používajú na cielenú reklamu a personalizované stanovovanie cien určitých produktov. Napríklad online inzerenti používajú údaje zhromaždené reklamnými sieťami a prostredníctvom súborov cookie tretích strán o aktivite používateľov na internete, aby zacielili svoje reklamy. Tento prístup na jednej strane umožňuje spotrebiteľom dostávať reklamy na tovary a služby, ktoré ich zaujímajú (so zdravotnými a finančnými otázkami) bez ich súhlasu.

Zatiaľ čo cielený behaviorálny marketing je rozšírený, existuje pomerne málo dôkazov o personalizovanom oceňovaní v online prostredí. Správa naznačuje, že to môže byť spôsobené skutočnosťou, že vhodné metódy sa stále vyvíjajú, alebo skutočnosťou, že spoločnosti sa neponáhľajú s použitím individuálnych cien (alebo o tom radšej mlčia) – možno zo strachu z negatívnej reakcie spotrebiteľov. .

Autori správy sa domnievajú, že „pre jednotlivého spotrebiteľa je používanie veľkých dát nepochybne spojené s potenciálnymi výnosmi aj rizikami“. Hoci správa uznáva, že pri používaní veľkých dát existujú problémy s transparentnosťou a diskrimináciou, tvrdí, že existujúce antidiskriminačné zákony a zákony na ochranu spotrebiteľa sú dostatočné na ich riešenie. Správa však tiež zdôrazňuje potrebu „priebežného monitorovania“, keď spoločnosti používajú dôverné informácie nepriehľadným spôsobom alebo spôsobmi, na ktoré sa nevzťahuje existujúci regulačný rámec.

Táto správa je rozšírením úsilia Bieleho domu preskúmať používanie veľkých dát a diskriminačné ceny na internete a ich dôsledky pre amerických spotrebiteľov. Už skôr bolo oznámené, že Pracovná skupina Bieleho domu pre veľké dáta zverejnila svoju správu o tejto otázke v máji 2014. Federálna obchodná komisia (FTC) sa tiež zaoberala týmito otázkami počas svojho seminára o diskriminácii v súvislosti s používaním veľkých dát v septembri 2014.

2014

Gartner vyvracia mýty o veľkých dátach

Gartner's Fall 2014 Policy Brief uvádza množstvo bežných mýtov o veľkých dátach medzi CIO a vyvracia ich.

  • Každý implementuje systémy spracovania veľkých dát rýchlejšie ako my

Záujem o technológie Big Data je rekordne vysoký: 73 % organizácií, ktoré tento rok skúmali analytici spoločnosti Gartner, už investuje alebo sa chystá investovať do súvisiacich projektov. Väčšina z týchto iniciatív je však stále v počiatočnom štádiu a iba 13 % opýtaných už takéto riešenia implementovalo. Najťažšie je prísť na to, ako generovať príjem z veľkých dát, rozhodnúť sa, kde začať. Mnohé organizácie uviaznu v pilotnej fáze, pretože nedokážu spojiť nové technológie s konkrétnymi obchodnými procesmi.

  • Máme toľko dát, že sa v nich netreba báť malých chýb.

Niektorí CIO sa domnievajú, že malé medzery v údajoch nemajú vplyv na celkové výsledky veľkých objemov analýz. Keď je údajov veľa, každá jednotlivá chyba skutočne ovplyvňuje výsledok menej, hovoria analytici, ale samotné chyby sú čoraz početnejšie. Navyše väčšina analyzovaných údajov je externých, neznámej štruktúry alebo pôvodu, takže pravdepodobnosť chýb sa zvyšuje. Vo svete veľkých dát je teda kvalita v skutočnosti oveľa dôležitejšia.

  • Veľké dátové technológie eliminujú potrebu dátovej integrácie

Big Data sľubuje schopnosť spracovávať dáta v ich pôvodnom formáte s automatickým generovaním schém pri ich čítaní. Predpokladá sa, že to umožní analýzu informácií z rovnakých zdrojov pomocou viacerých dátových modelov. Mnohí veria, že to tiež umožní koncovým používateľom interpretovať akýkoľvek súbor údajov podľa vlastného uváženia. V skutočnosti väčšina používateľov často potrebuje tradičný prístup založený na schéme, kde sú údaje vhodne naformátované a existujú dohody o úrovni integrity informácií a o tom, ako by mali súvisieť s prípadom použitia.

  • Nemá zmysel používať dátové sklady na komplexnú analýzu

Mnohí správcovia systémov správy informácií sa domnievajú, že nemá zmysel strácať čas budovaním dátového skladu, keďže zložité analytické systémy využívajú nové typy údajov. V skutočnosti mnohé zložité analytické systémy využívajú informácie z dátového skladu. V iných prípadoch je potrebné nové typy údajov dodatočne pripraviť na analýzu v systémoch spracovania veľkých údajov; musíte rozhodnúť o vhodnosti údajov, princípoch agregácie a požadovanej úrovni kvality - takáto príprava môže prebiehať mimo skladu.

  • Dátové jazerá nahradia dátové sklady

V skutočnosti dodávatelia zavádzajú zákazníkov tým, že umiestňujú dátové jazerá ako náhrady úložiska alebo ako kritickú analytickú infraštruktúru. Základným technológiám dátového jazera chýba zrelosť a šírka funkcií, ktoré sú vlastné úložisku. Lídri správy údajov by preto podľa Gartnera mali počkať, kým jazerá nedosiahnu rovnakú úroveň rozvoja.

Accenture: 92 % užívateľov veľkých dát je s výsledkom spokojných

Medzi hlavné výhody veľkých dát respondenti uviedli:

  • „Hľadajte nové zdroje príjmu“ (56 %),
  • „Zlepšenie zákazníckej skúsenosti“ (51 %),
  • „Nové produkty a služby“ (50 %) a
  • „Príliv nových zákazníkov a udržanie si lojality starých“ (47 %).

Mnoho spoločností čelilo tradičným výzvam pri zavádzaní nových technológií. Pre 51 % bola kameňom úrazu bezpečnosť, pre 47 % rozpočet, pre 41 % nedostatok potrebného personálu a pre 35 % problémy s integráciou do existujúceho systému. Takmer všetky opýtané spoločnosti (okolo 91 %) plánujú čoskoro vyriešiť problém s nedostatkom personálu a najať špecialistov na veľké dáta.

Spoločnosti sú optimistické, pokiaľ ide o budúcnosť technológií veľkých dát. 89 % verí, že zmenia podnikanie rovnako ako internet. 79 % respondentov uviedlo, že spoločnosti, ktoré nerobia veľké dáta, stratia svoju konkurenčnú výhodu.

Respondenti sa však nezhodli na tom, čo presne by sa malo považovať za veľké dáta. 65 % respondentov verí, že ide o „veľké dátové súbory“, 60 % verí, že ide o „pokročilú analýzu a analýzu“ a 50 % verí, že ide o „údaje z vizualizačných nástrojov“.

Madrid vynakladá 14,7 milióna eur na správu veľkých dát

V júli 2014 bolo známe, že Madrid bude využívať technológie veľkých dát na správu mestskej infraštruktúry. Projekt stál 14,7 milióna eur, základom implementovaných riešení budú technológie na analýzu a správu veľkých dát. S ich pomocou bude vedenie mesta manažovať prácu s každým poskytovateľom služieb a podľa toho aj platiť v závislosti od úrovne služieb.

Hovoríme o zhotoviteľoch správy, ktorí monitorujú stav ulíc, osvetlenie, závlahy, zeleň, čistia územie a odvážajú, ale aj recyklujú odpad. Počas projektu bolo pre špeciálne určených inšpektorov vypracovaných 300 kľúčových ukazovateľov výkonnosti mestských služieb, na základe ktorých sa bude denne vykonávať 1,5 tisíc rôznych kontrol a meraní. Mesto navyše začne využívať inovatívnu technologickú platformu s názvom Madrid iNTeligente (MiNT) – Smarter Madrid.

2013

Experti: Big Data Peak Fashion

Bez výnimky všetci predajcovia na trhu správy dát v súčasnosti vyvíjajú technológie pre správu veľkých dát. O tomto novom technologickom trende aktívne diskutuje aj odborná komunita, vývojári a priemyselní analytici a potenciálni spotrebitelia takýchto riešení.

Ako zistil Datashift, od januára 2013 sa strhla vlna diskusií okolo „ veľké dáta„Presiahol všetky mysliteľné rozmery. Po analýze počtu zmienok o Big Data na sociálnych sieťach Datashift vypočítal, že v roku 2012 bol tento výraz použitý asi 2 miliardy krát v príspevkoch vytvorených asi 1 miliónom rôznych autorov po celom svete. To je ekvivalent 260 príspevkov za hodinu, pričom maximum je 3 070 zmienok za hodinu.

Gartner: Každý druhý CIO je pripravený minúť na veľké dáta

Po niekoľkých rokoch experimentovania s Big data technológiami a prvých implementáciách v roku 2013 sa adaptácia takýchto riešení výrazne zvýši, predpovedá Gartner. Výskumníci robili prieskum medzi IT lídrami na celom svete a zistili, že 42 % respondentov už investovalo do Big data technológií alebo plánuje takéto investície uskutočniť v priebehu budúceho roka (údaje z marca 2013).

Spoločnosti sú nútené míňať peniaze na technológie spracovania veľké dáta keďže sa informačné prostredie rýchlo mení, vyžadujem nové prístupy k spracovaniu informácií. Mnoho spoločností si už uvedomilo, že veľké dáta sú kritické a práca s nimi vám umožňuje dosiahnuť výhody, ktoré nie sú dostupné pomocou tradičných zdrojov informácií a metód ich spracovania. Okrem toho neustále zveličovanie témy „veľkých dát“ v médiách podnecuje záujem o relevantné technológie.

Frank Buytendijk, viceprezident spoločnosti Gartner, dokonca vyzval spoločnosti, aby zmiernili svoje nadšenie, pretože niektorí sa obávajú, že zaostávajú za konkurentmi v prijímaní veľkých dát.

„Netreba sa obávať, možnosti implementácie nápadov založených na technológiách Big Data sú prakticky nekonečné,“ povedal.

Gartner predpovedá, že do roku 2015 bude mať 20 % z 1000 globálnych spoločností strategické zameranie na „informačnú infraštruktúru“.

V očakávaní nových príležitostí, ktoré so sebou prinesú technológie spracovania veľkých dát, mnohé organizácie už organizujú proces zhromažďovania a uchovávania rôznych druhov informácií.

Pre vzdelávacie a vládne organizácie, ako aj spoločnosti v tomto odvetví, najväčší potenciál pre transformáciu podnikania spočíva v kombinácii nahromadených dát s takzvanými tmavými dátami (doslova „dark data“), medzi ktoré patria e-maily, multimédiá a iné podobné obsahu. V dátových pretekoch, tvrdí Gartner, vyhrajú tí, ktorí sa naučia zaobchádzať so širokou škálou informačných zdrojov.

Prieskum Cisco: Veľké dáta pomôžu zvýšiť rozpočty na IT

V prieskume Cisco Connected World Technology Report z jari 2013, ktorý v 18 krajinách uskutočnila nezávislá analytická firma InsightExpress, sa zúčastnilo 1 800 vysokoškolákov a podobný počet mladých profesionálov vo veku 18 – 30 rokov. Prieskum bol realizovaný s cieľom zistiť úroveň pripravenosti IT oddelení na realizáciu projektov Veľké dáta a získať prehľad o súvisiacich výzvach, technologických medzerách a strategickej hodnote takýchto projektov.

Väčšina spoločností zbiera, zaznamenáva a analyzuje údaje. V správe sa však uvádza, že mnohé spoločnosti čelia v súvislosti s veľkými dátami celému radu zložitých výziev v oblasti podnikania a informačných technológií. Napríklad 60 percent opýtaných pripúšťa, že Big Data riešenia môžu zlepšiť rozhodovacie procesy a zvýšiť konkurencieschopnosť, ale len 28 percent uviedlo, že už teraz získavajú skutočné strategické výhody z nahromadených informácií.

Viac ako polovica opýtaných IT manažérov verí, že Big Data projekty pomôžu zvýšiť IT rozpočty v ich organizáciách, keďže budú zvýšené požiadavky na technológie, personál a odborné zručnosti. Viac ako polovica opýtaných zároveň očakáva, že takéto projekty už v roku 2012 zvýšia IT rozpočty v ich firmách. 57 percent je presvedčených, že Big Data zvýšia svoje rozpočty v priebehu nasledujúcich troch rokov.

81 percent respondentov uviedlo, že všetky (alebo aspoň niektoré) projekty veľkých dát si budú vyžadovať cloud computing. Šírenie cloudových technológií teda môže ovplyvniť rýchlosť distribúcie Big Data riešení a hodnotu týchto riešení pre biznis.

Spoločnosti zhromažďujú a používajú údaje širokej škály typov, štruktúrované aj neštruktúrované. Tu sú zdroje, z ktorých účastníci prieskumu získavajú svoje údaje (Cisco Connected World Technology Report):

Takmer polovica (48 percent) riaditeľov IT predpovedá, že zaťaženie ich sietí sa v priebehu nasledujúcich dvoch rokov zdvojnásobí. (Platí to najmä v Číne, kde zastáva tento názor 68 percent opýtaných a v Nemecku 60 percent.) 23 percent opýtaných očakáva, že zaťaženie siete sa v najbližších dvoch rokoch strojnásobí. Len 40 percent opýtaných zároveň deklarovalo pripravenosť na explozívny rast objemu sieťovej prevádzky.

27 percent opýtaných priznalo, že potrebujú lepšie IT politiky a opatrenia na bezpečnosť informácií.

21 percent potrebuje väčšiu šírku pásma.

Big Data otvárajú IT oddeleniam nové príležitosti na pridanie hodnoty a budovanie silných vzťahov s obchodnými jednotkami, čím zvyšujú výnosy a posilňujú finančnú pozíciu spoločnosti. Big Data projekty robia z IT oddelení strategického partnera obchodných oddelení.

Podľa 73 percent opýtaných sa práve IT oddelenie stane hlavnou lokomotívou implementácie Big Data stratégie. Respondenti zároveň veria, že do implementácie tejto stratégie budú zapojené aj ďalšie rezorty. V prvom rade ide o rezort financií (uviedlo ho 24 percent opýtaných), výskumu a vývoja (20 percent), prevádzky (20 percent), inžinierstva (19 percent), ako aj marketingu (15 percent) resp. tržby (14 percent).

Gartner: Na správu veľkých dát sú potrebné milióny nových pracovných miest

Svetové výdavky na IT dosiahnu do roku 2013 3,7 miliardy USD, čo je o 3,8 % viac ako výdavky na informačné technológie v roku 2012 (predpoveď na koniec roka je 3,6 miliardy USD). Segment veľké dáta(veľké dáta) porastú oveľa rýchlejším tempom, podľa správy Gartner.

Do roku 2015 bude vytvorených 4,4 milióna pracovných miest v oblasti informačných technológií na obsluhu veľkých dát, z čoho bude 1,9 milióna pracovných miest. Navyše každé takéto pracovné miesto vytvorí tri ďalšie pracovné miesta mimo IT sektora, takže len v Spojených štátoch bude v nasledujúcich štyroch rokoch pracovať na podpore informačnej ekonomiky 6 miliónov ľudí.

Podľa odborníkov z Gartneru je hlavným problémom to, že v tomto odvetví nie je dostatok talentov: súkromný ani štátny vzdelávací systém, napríklad v Spojených štátoch, nie je schopný dodať tomuto odvetviu dostatočný počet kvalifikovaných pracovníkov. personál. Takže zo spomínaných nových pracovných miest v IT bude personálne zabezpečená len jedna z troch.

Analytici sa domnievajú, že úlohu kultivácie kvalifikovaného IT personálu by mali prevziať priamo spoločnosti, ktoré ich nevyhnutne potrebujú, keďže títo zamestnanci sa pre nich stanú vstupnou bránou do novej informačnej ekonomiky budúcnosti.

2012

Prvý skepticizmus ohľadom veľkých dát

Analytici zo spoločností Ovum a Gartner to navrhujú ako trendovú tému roku 2012 veľké dáta možno je čas uvoľniť ilúziu.

Pojem „veľké dáta“ sa v súčasnosti zvyčajne vzťahuje na neustále rastúci objem informácií prichádzajúcich online zo sociálnych médií, zo sietí senzorov a iných zdrojov, ako aj na rastúci rozsah nástrojov používaných na spracovanie údajov a identifikáciu dôležitých podnikov – trendy.

„Kvôli humbuku (alebo napriek tomu) ohľadom myšlienky veľkých dát sa výrobcovia v roku 2012 pozerali na tento trend s veľkou nádejou,“ povedal Tony Bayer, analytik spoločnosti Ovum.

Bayer uviedol, že DataSift vykonal retrospektívnu analýzu zmien veľkých dát

Kedysi som od Germana Grefa (šéfa Sberbank) počul výraz „Big Data“. Hovoria, že teraz aktívne pracujú na implementácii, pretože im to pomôže skrátiť čas práce s každým klientom.

Druhýkrát som sa s týmto konceptom stretol v internetovom obchode klienta, na ktorom sme zapracovali a rozšírili sortiment z pár tisíc na pár desiatok tisíc tovarových položiek.

Tretíkrát, keď som videl, že Yandex potrebuje analytika veľkých dát. Potom som sa rozhodol preniknúť hlbšie do tejto témy a zároveň napísať článok, ktorý prezradí, aký je to pojem, ktorý vzrušuje mysle top manažérov a internetový priestor.

VVV alebo VVVVV

Každý z mojich článkov zvyčajne začínam vysvetlením, čo tento pojem je. Tento článok nebude výnimkou.

Nie je to však spôsobené predovšetkým túžbou ukázať, aký som šikovný, ale tým, že téma je skutočne zložitá a vyžaduje si dôkladné vysvetlenie.

Môžete si napríklad prečítať, čo sú veľké dáta na Wikipédii, ničomu nerozumieť a potom sa vrátiť k tomuto článku, aby ste pochopili definíciu a použiteľnosť pre podnikanie. Začnime teda popisom a potom k obchodným príkladom.

Veľké údaje sú veľké údaje. Úžasné, čo? V skutočnosti sa to z angličtiny prekladá ako „veľké dáta“. Ale táto definícia je, dalo by sa povedať, pre figuríny.

Dôležité... Big data technology je prístup/metóda na spracovanie väčšieho množstva údajov na získanie nových informácií, ktoré je ťažké spracovať konvenčnými spôsobmi.

Dáta môžu byť spracované (štruktúrované) alebo fragmentované (to znamená neštruktúrované).

Samotný termín sa objavil relatívne nedávno. V roku 2008 vedecký časopis predpovedal tento prístup ako niečo nevyhnutné na prácu s veľkým množstvom informácií, ktoré exponenciálne pribúdajú.

Napríklad každý rok sa počet informácií na internete, ktoré je potrebné uchovávať a spracovávať, zvyšuje o 40 %. Opäť. + 40 % každý rok sa na internete objavia nové informácie.

Ak sú tlačené dokumenty zrozumiteľné a zrozumiteľné sú aj spôsoby ich spracovania (prenos do elektronickej podoby, spojenie do jedného priečinka, číslo), tak čo robiť s informáciami, ktoré sú prezentované v úplne iných „nosičoch“ a v iných zväzkoch:

  • internetové dokumenty;
  • blogy a sociálne siete;
  • audio / video zdroje;
  • meracie zariadenia;

Existujú charakteristiky, ktoré umožňujú klasifikovať informácie a dáta ako veľké dáta.

To znamená, že nie všetky údaje môžu byť vhodné na analýzu. Tieto charakteristiky obsahujú kľúčový koncept veľkého rande. Všetky sa zmestia do troch V.

  1. Volume (z anglického volume). Údaje sa merajú z hľadiska fyzického objemu „dokumentu“, ktorý sa má analyzovať;
  2. Velocity (z anglického velocity). Dáta nestoja v jeho vývoji, ale neustále rastú, preto je potrebné ich rýchlo spracovať, aby sa získali výsledky;
  3. Odroda (z anglického variety). Údaje nemusia byť v jednom formáte. To znamená, že môžu byť rozptýlené, štruktúrované alebo čiastočne štruktúrované.

Periodicky sa však k VVV pridáva štvrté V (pravdivosť) a dokonca aj piate V (v niektorých prípadoch je to životaschopnosť, v iných je to hodnota).

Niekde som dokonca videl 7V, ktoré charakterizujú údaje súvisiace s veľkým dátumom. Ale podľa mňa je to zo série (kde sa pravidelne pridáva P, aj keď na pochopenie postačia počiatočné 4).

JE NÁS UŽ VIAC AKO 29 000 ľudí.
ZAPNÚŤ

kto to potrebuje?

Vynára sa logická otázka, ako sa dajú informácie použiť (ak vôbec, veľký dátum sú stovky a tisíce terabajtov)? Ani to nie.

Tu sú informácie. Tak prečo si potom vymyslel veľké rande? Aké je využitie veľkých dát v marketingu a obchode?

  1. Bežné databázy nedokážu uchovávať a spracovávať (teraz nehovorím ani o analytike, ale jednoducho o ukladaní a spracovaní) obrovského množstva informácií.

    Big Date rieši tento hlavný problém. Úspešne ukladá a spravuje informácie s veľkým objemom;

  2. Štruktúruje informácie pochádzajúce z rôznych zdrojov (video, obrázky, zvukové a textové dokumenty) do jednej, zrozumiteľnej a stráviteľnej formy;
  3. Tvorba analytiky a tvorba presných prognóz na základe štruktúrovaných a spracovaných informácií.

Je to komplikované. Zjednodušene povedané, každý obchodník, ktorý chápe, že ak si naštudujete veľké množstvo informácií (o vás, vašej spoločnosti, vašich konkurentoch, vašom odvetví), môžete dosiahnuť veľmi slušné výsledky:

  • Úplné pochopenie vašej spoločnosti a vášho podnikania z hľadiska čísel;
  • Študujte svojich konkurentov. A to zase umožní dostať sa dopredu kvôli prevahe nad nimi;
  • Zistite nové informácie o svojich zákazníkoch.

A práve preto, že technológia veľkých dát poskytuje nasledujúce výsledky, každý sa s ňou ponáhľa.

Snažia sa naskrutkovať tento biznis do svojej firmy, aby dosiahli zvýšenie tržieb a zníženie nákladov. A konkrétnejšie potom:

  1. Zvýšený krížový predaj a dodatočný predaj vďaka lepšej znalosti preferencií zákazníkov;
  2. Vyhľadajte obľúbené produkty a dôvody, prečo ich kupujete (a naopak);
  3. Zlepšenie produktu alebo služby;
  4. Zlepšenie úrovne služieb;
  5. Zvýšená lojalita a zameranie na zákazníka;
  6. Predchádzanie podvodom (dôležitejšie pre bankový sektor);
  7. Zníženie zbytočných nákladov.

Najčastejším príkladom uvádzaným vo všetkých zdrojoch je samozrejme Apple, ktorý zbiera údaje o svojich užívateľoch (telefón, hodinky, počítač).

Je to kvôli prítomnosti ekosystému, že spoločnosť vie toľko o svojich používateľoch a v budúcnosti to využíva na vytváranie zisku.

Tieto a ďalšie príklady použitia si môžete prečítať v ktoromkoľvek inom článku okrem tohto.

Ideme do budúcnosti

Poviem vám o ďalšom projekte. Skôr o človeku, ktorý buduje budúcnosť pomocou big data riešení.

Toto je Elon Musk a jeho spoločnosť Tesla. Jeho hlavným snom je urobiť autá autonómnymi, to znamená, že sadnete za volant, zapnete autopilota z Moskvy do Vladivostoku a ... zaspíte, pretože nemusíte vôbec riadiť auto, pretože on urobí všetko sám.

Zdalo by sa to fantastické? Ale nie! Elon jednoducho urobil oveľa múdrejšie ako Google, ktorý ovláda autá pomocou desiatok satelitov. A šiel inou cestou:

  1. V každom predávanom aute je nainštalovaný počítač, ktorý zbiera všetky informácie.

    Všetko vo všeobecnosti znamená všetko. O vodičovi, jeho štýle jazdy, cestách okolo neho, pohybe iných áut. Objem takýchto dát dosahuje 20-30 GB za hodinu;

  2. Ďalej sa tieto informácie prenášajú cez satelitnú komunikáciu do centrálneho počítača, ktorý sa zaoberá spracovaním týchto údajov;
  3. Na základe veľkých dát, ktoré tento počítač spracováva, sa zostavuje model bezpilotného prostriedku.

Mimochodom, ak je na tom Google dosť zle a ich autá sa neustále dostávajú k nehodám, tak Musk, vďaka tomu, že práca s veľkými dátami prebieha, je na tom oveľa lepšie, pretože testovacie modely vykazujú veľmi dobré výsledky.

Ale... Všetko je to o ekonomike. Čo nám všetkým ide o zisk, áno o zisk? Veľa vecí, ktoré môže vyriešiť veľké rande, nemá nič spoločné so zárobkami a peniazmi.

Štatistiky Google, ktoré sú založené na veľkých dátach, ukazujú zaujímavú vec.

Kým lekári ohlásia začiatok epidémie choroby v určitom regióne, počet vyhľadávaní liečby tohto ochorenia v tomto regióne výrazne stúpa.

Správne štúdium údajov a ich analýza teda môže vytvárať predpovede a predpovedať nástup epidémie (a teda aj jej prevenciu) oveľa rýchlejšie ako závery úradov a ich konanie.

Aplikácia v Rusku

Rusko však ako vždy trochu „spomalí“. Takže samotná definícia veľkých dát v Rusku sa objavila nie viac ako pred 5 rokmi (teraz hovorím o bežných spoločnostiach).

A to aj napriek tomu, že ide o jeden z najrýchlejšie rastúcich trhov na svete (drogy a zbrane nervózne fajčia na vedľajšej koľaji), pretože každý rok trh so softvérom na zber a analýzu veľkých dát rastie o 32 %.

Aby som charakterizoval trh s veľkými dátami v Rusku, pripomínam si starý vtip. Veľké rande je ako sex do 18 rokov.

Všetci o tom hovoria, je okolo toho veľa humbuku a málo skutočnej akcie a každý sa hanbí priznať, že sám to nerobí. V skutočnosti je okolo toho veľa humbuku, ale málo skutočnej akcie.

Aj keď známa výskumná spoločnosť Gartner v roku 2015 oznámila, že big date už nie je rastúci trend (mimochodom ako umelá inteligencia), ale úplne nezávislé nástroje na analýzu a vývoj pokročilých technológií.

Najaktívnejšie miesta, kde sa v Rusku používajú veľké dáta, sú banky / poistenie (nie bezdôvodne som začal článok so šéfom Sberbank), telekomunikácie, maloobchod, nehnuteľnosti a ... verejný sektor.

Ako príklad vám poviem podrobnejšie o niekoľkých odvetviach hospodárstva, ktoré používajú algoritmy veľkých dát.

banky

Začnime bankami a informáciami, ktoré o nás a našom konaní zhromažďujú. Napríklad som zobral TOP 5 ruských bánk, ktoré aktívne investujú do veľkých dát:

  1. Sberbank;
  2. Gazprombank;
  3. VTB 24;
  4. banka Alfa;
  5. Banka Tinkoff.

Je obzvlášť príjemné vidieť Alfa Bank medzi ruskými lídrami. Prinajmenšom je príjemné vedieť, že banka, ktorej ste oficiálnym partnerom, chápe potrebu zavádzania nových marketingových nástrojov do vašej spoločnosti.

Chcem ale ukázať príklady využitia a úspešnej implementácie veľkých dát na banke, ktorá sa mi páči pre neštandardný vzhľad a počínanie jej zakladateľa.

Hovorím o Tinkoff Bank. Ich hlavnou úlohou bolo vyvinúť systém na analýzu veľkých dát v reálnom čase vzhľadom na rastúcu zákaznícku základňu.

Výsledky: čas vnútorných procesov sa skrátil najmenej 10-krát a pre niektorých - viac ako 100-krát.

No, trochu rozptýlenia. Viete, prečo som začal hovoriť o neštandardných vyčíňaniach a činoch Olega Tiňkova?

Podľa mňa to boli práve oni, ktorí mu pomohli premeniť sa z priemerného obchodníka, akých sú v Rusku tisíce, na jedného z najznámejších a najuznávanejších podnikateľov. Aby ste to dokázali, pozrite si toto nezvyčajné a zaujímavé video:

Vlastníctvo

V realitách je všetko oveľa komplikovanejšie. A toto je presne ten príklad, ktorý vám chcem dať, aby ste pochopili veľké rande v rámci bežného podnikania. Počiatočné údaje:

  1. Veľké množstvo textovej dokumentácie;
  2. Open source (súkromné ​​satelity vysielajúce údaje o zmene Zeme);
  3. Obrovské množstvo nekontrolovaných informácií na internete;
  4. Neustále zmeny v zdrojoch a údajoch.

A na základe toho je potrebné pripraviť a zhodnotiť hodnotu pozemku, napríklad v blízkosti dediny Ural. Profesionálovi to zaberie týždeň.

Ruská spoločnosť odhadcov & ROSEKO, ktorá skutočne implementovala analýzu veľkých dát pomocou softvéru, nezaberie viac ako 30 minút pokojnej práce. Porovnajte, týždeň a 30 minút. Kolosálny rozdiel.

No na občerstvenie

Samozrejme, obrovské množstvo informácií nemožno uložiť a spracovať na jednoduché pevné disky.

A softvér, ktorý štruktúruje a analyzuje údaje, je vo všeobecnosti duševným vlastníctvom a zakaždým ide o autorský vývoj. Existujú však nástroje, na základe ktorých je celá táto krása vytvorená:

  • Hadoop & MapReduce;
  • databázy NoSQL;
  • Nástroje triedy zisťovania údajov.

Úprimne povedané, nemôžem vám jasne vysvetliť, ako sa navzájom líšia, pretože oboznámenie sa s týmito vecami a práca s nimi sa vyučuje na fyzikálnych a matematických ústavoch.

Prečo som o tom začal hovoriť, keď to neviem vysvetliť? Pamätáte si, že vo všetkých filmoch lupiči vstúpili do ktorejkoľvek banky a videli obrovské množstvo najrôznejších kusov železa pripojených k drôtom?

To isté platí pre veľké rande. Tu je napríklad model, ktorý je momentálne jedným z lídrov na trhu.

Nástroj na veľké rande

Náklady v maximálnej konfigurácii dosahujú 27 miliónov rubľov na stojan. Toto je samozrejme luxusná verzia. Chcem, aby ste si vopred vyskúšali vytváranie veľkých dát vo svojom podnikaní.

Stručne o hlavnej veci

Možno sa pýtate, prečo vy, malý a stredný podnik, potrebujete pracovať s veľkými dátami?

Na to vám odpoviem citátom jedného človeka: „V blízkej budúcnosti budú klienti žiadaní po spoločnostiach, ktoré lepšie rozumejú ich správaniu a zvykom a najlepšie sa k nim prispôsobujú.“

Ale priznajme si. Na implementáciu veľkých dát v malom podniku je potrebné mať nielen veľké rozpočty na vývoj a implementáciu softvéru, ale aj na údržbu špecialistov, aspoň akými sú analytik veľkých dát a sysadmin.

A teraz mlčím o tom, že takéto údaje na spracovanie musíte mať.

OK Pre malé podniky je téma takmer nepoužiteľná. To však neznamená, že musíte zabudnúť na všetko, čo ste si prečítali vyššie.

Neštudujte svoje vlastné údaje, ale výsledky analýzy údajov od známych zahraničných a ruských spoločností.

Napríklad maloobchodný reťazec Target pomocou analýzy veľkých dát zistil, že tehotné ženy pred druhým trimestrom tehotenstva (od 1. do 12. týždňa tehotenstva) aktívne nakupujú neparfumované produkty.

Vďaka týmto informáciám im posielajú zľavové kupóny na neochutené produkty s obmedzenou dobou trvania.

A ak ste napríklad len veľmi malá kaviareň? Je to veľmi jednoduché. Použite vernostnú aplikáciu.

A po chvíli a vďaka nahromadeným informáciám budete môcť svojim zákazníkom nielen ponúknuť jedlá, ktoré zodpovedajú ich potrebám, ale aj tie najnepredávanejšie a najkrajnejšie jedlá na pár kliknutí.

Preto ten záver. Implementácia veľkých dát pre malý podnik sa sotva oplatí, ale využitie výsledkov a vývoja iných spoločností je nevyhnutnosťou.

Neustále zrýchľovanie rastu dát je neoddeliteľnou súčasťou dnešnej reality. Sociálne siete, mobilné zariadenia, dáta z meracích zariadení, obchodné informácie sú len zopár typov zdrojov, ktoré dokážu generovať gigantické množstvá dát.

V dnešnej dobe sa pojem Big Data (Big Data) stal pomerne bežným. Nie každý si stále uvedomuje, ako rýchlo a hlboko menia technológie spracovania veľkých dát najrôznejšie aspekty spoločnosti. V rôznych oblastiach prebiehajú zmeny, ktoré vyvolávajú nové problémy a výzvy, a to aj v oblasti informačnej bezpečnosti, kde by mali byť v popredí také dôležité aspekty, ako dôvernosť, integrita, dostupnosť atď.

Bohužiaľ, veľa moderných spoločností sa uchyľuje k technológii veľkých dát bez toho, aby na to vytvorili správnu infraštruktúru, ktorá by mohla poskytnúť spoľahlivé ukladanie obrovského množstva údajov, ktoré zhromažďujú a ukladajú. Na druhej strane sa v súčasnosti rýchlo rozvíja technológia blockchain, ktorá je určená na riešenie tohto a mnohých ďalších problémov.

Čo sú veľké dáta?

V skutočnosti je definícia tohto pojmu na povrchu: „veľké údaje“ znamenajú spravovanie a analýzu veľmi veľkého množstva údajov. V širšom zmysle ide o informácie, ktoré nie je možné pre veľký objem spracovať klasickými metódami.

Samotný pojem Big Data sa objavil pomerne nedávno. Podľa služby Google Trends došlo ku koncu roka 2011 k aktívnemu nárastu popularity výrazu:

V roku 2010 sa začali objavovať prvé produkty a riešenia priamo súvisiace so spracovaním veľkých dát. Do roku 2011 väčšina najväčších IT spoločností vrátane IBM, Oracle, Microsoft a Hewlett-Packard aktívne používa termín Big Data vo svojich obchodných stratégiách. Postupne začínajú analytici trhu informačných technológií tento koncept aktívne skúmať.

V súčasnosti si tento výraz získal významnú popularitu a aktívne sa používa v rôznych oblastiach. Nedá sa však s istotou tvrdiť, že Big Data sú nejakým zásadne novým fenoménom – práve naopak, zdroje veľkých dát existujú už dlhé roky. V marketingu ide o databázy nákupov zákazníkov, úverovú históriu, životný štýl atď. V priebehu rokov analytici tieto údaje používali na to, aby pomohli spoločnostiam predpovedať budúce potreby zákazníkov, odhadnúť riziká, utvárať preferencie spotrebiteľov a podobne.

V súčasnosti sa situácia zmenila v dvoch smeroch:

- existujú sofistikovanejšie nástroje a metódy na analýzu a porovnávanie rôznych súborov údajov;
- analytické nástroje boli doplnené o mnoho nových zdrojov údajov v dôsledku rozsiahleho prechodu na digitálne technológie, ako aj nových metód zberu a merania údajov.

Výskumníci predpovedajú, že technológie Big Data budú najaktívnejšie využívané vo výrobe, zdravotníctve, obchode, vláde a v rôznych iných oblastiach a odvetviach.

Veľké dáta nie sú žiadne špecifické pole dát, ale súbor metód na ich spracovanie. Charakteristickým znakom veľkých dát je nielen ich objem, ale aj ďalšie kategórie, ktoré charakterizujú náročné procesy spracovania a analýzy dát.

Počiatočné údaje na spracovanie môžu byť napr.

- záznamy správania používateľov internetu;
- Internet vecí;
- sociálne médiá;
- meteorologické údaje;
- digitalizované knihy najväčších knižníc;
- GPS signály z vozidiel;
- informácie o transakciách klientov bánk;
- údaje o polohe účastníkov mobilnej siete;
- informácie o nákupoch vo veľkých obchodných reťazcoch a pod.

Postupom času množstvo údajov a počet ich zdrojov neustále rastie a na tomto pozadí sa zdokonaľujú nové aj existujúce spôsoby spracovania informácií.

Základné princípy Big Data:

- Horizontálna škálovateľnosť – súbory údajov môžu byť obrovské, čo znamená, že systém spracovania veľkých údajov sa musí dynamicky rozširovať so zvyšujúcim sa objemom.
- Odolnosť voči poruchám - aj v prípade poruchy niektorých prvkov zariadenia musí zostať celý systém funkčný.
- Dátová lokalita. Vo veľkých distribuovaných systémoch sú dáta zvyčajne rozložené na veľkom počte strojov. Údaje sa však často spracúvajú na rovnakom serveri, na ktorom sú uložené, aby sa ušetrili zdroje.

Pre stabilné fungovanie všetkých troch princípov, a teda aj vysokú efektivitu ukladania a spracovania veľkých dát, sú potrebné nové prelomové technológie, ako je napríklad blockchain.

Na čo slúžia Big Data?

Rozsah veľkých dát sa neustále rozširuje:

- Big data sa dajú využiť v medicíne. Preto je možné stanoviť diagnózu pre pacienta nielen na základe analýzy anamnézy, ale aj s prihliadnutím na skúsenosti iných lekárov, informácie o environmentálnej situácii v oblasti bydliska pacienta a mnohé ďalšie faktory.
- Big Data technológie môžu byť použité na organizáciu pohybu bezpilotných vozidiel.
- Spracovaním veľkého množstva údajov môžete rozpoznať tváre vo fotografických a video materiáloch.
- Big Data technológie môžu využívať maloobchodníci - obchodné spoločnosti môžu aktívne využívať dátové polia zo sociálnych sietí na efektívne prispôsobenie svojich reklamných kampaní, ktoré môžu byť maximálne zacielené na konkrétny spotrebiteľský segment.
- Táto technológia sa aktívne používa pri organizácii volebných kampaní, vrátane analýzy politických preferencií v spoločnosti.
- Využitie Big Data technológií je relevantné pre riešenia triedy garancie príjmu (RA), ktoré zahŕňajú nástroje na odhaľovanie nezrovnalostí a hĺbkovú analýzu dát, ktoré umožňujú včas identifikovať možné straty alebo skreslenia informácií, ktoré môžu viesť k zníženiu vo finančných výsledkoch.
- Poskytovatelia telekomunikácií môžu agregovať veľké dáta vrátane geolokácie; tieto informácie môžu byť zasa komerčne zaujímavé pre reklamné agentúry, ktoré ich môžu použiť na zobrazovanie cielenej a miestnej reklamy, ako aj pre maloobchodníkov a banky.
„Veľké dáta môžu hrať dôležitú úlohu pri rozhodovaní o otvorení maloobchodnej predajne v konkrétnom mieste na základe údajov o prítomnosti silného cieľového toku ľudí.

Najzrejmejšia praktická aplikácia technológie Big Data teda leží v oblasti marketingu. S rozvojom internetu a rozšírením všetkých druhov komunikačných zariadení sú údaje o správaní (napríklad počet hovorov, nákupné návyky a nákupy) dostupné v reálnom čase.

Technológie veľkých dát možno efektívne využiť aj vo financiách, v sociálnom výskume a v mnohých iných oblastiach. Odborníci tvrdia, že všetky tieto príležitosti na využitie veľkých dát sú len viditeľnou časťou ľadovca, keďže tieto technológie sa používajú v oveľa väčšom objeme v spravodajstve a kontrarozviedke, vo vojenských záležitostiach, ako aj vo všetkom, čo sa zvyčajne nazýva informačné vojny.

Vo všeobecnosti postupnosť práce s veľkými údajmi pozostáva zo zbierania údajov, štruktúrovania získaných informácií pomocou správ a dashboardov, ako aj následnej formulácie odporúčaní na akciu.

Poďme sa v krátkosti zamyslieť nad možnosťami využitia Big Data technológií v marketingu. Ako viete, pre obchodníka sú informácie hlavným nástrojom na prognózovanie a tvorbu stratégií. Analýza veľkých dát sa už dlho úspešne používa na určenie cieľového publika, záujmov, dopytu a aktivity spotrebiteľov. Najmä analýza veľkých dát umožňuje zobrazovať reklamy (na základe aukčného modelu RTB - Real Time Bidding) len tým spotrebiteľom, ktorí majú záujem o produkt alebo službu.

Použitie veľkých dát v marketingu umožňuje podnikateľom:

- lepšie spoznajte svojich spotrebiteľov, prilákajte podobné publikum na internete;
- posúdiť mieru spokojnosti zákazníka;
- pochopiť, či ponúkaná služba spĺňa očakávania a potreby;
- nájsť a implementovať nové spôsoby na zvýšenie dôvery zákazníkov;
- vytvárať projekty, po ktorých je dopyt atď.

Napríklad služba Google.trends môže obchodníkovi poskytnúť predpoveď sezónneho dopytu po konkrétnom produkte, výkyvov a geografickej polohy kliknutí. Ak porovnáte tieto informácie so štatistickými údajmi zhromaždenými príslušným doplnkom na vašej vlastnej stránke, môžete zostaviť plán rozdelenia reklamného rozpočtu s uvedením mesiaca, regiónu a ďalších parametrov.

Podľa mnohých výskumníkov je úspech Trumpovej predvolebnej kampane práve v segmentácii a využívaní veľkých dát. Tím budúceho prezidenta USA dokázal správne rozdeliť publikum, pochopiť jeho túžby a ukázať presne to posolstvo, ktoré chcú voliči vidieť a počuť. Takže podľa Iriny Belyshevovej z Data-Centric Alliance bolo Trumpovo víťazstvo do značnej miery možné vďaka neštandardnému prístupu k internetovému marketingu, ktorý bol založený na veľkých dátach, psycho-behaviorálnej analýze a personalizovanej reklame.

Trumpovi politickí stratégovia a marketéri použili špeciálne vyvinutý matematický model, ktorý umožnil hĺbkovú analýzu údajov všetkých amerických voličov, aby ich systematizovali, čo umožnilo ultra presné zacielenie nielen podľa geografie, ale aj podľa zámerov, záujmov voličov, ich psychotypu, Charakteristiky správania atď. Po Týmto spôsobom marketingoví pracovníci organizovali personalizovanú komunikáciu s každou zo skupín občanov na základe ich potrieb, nálad, politických názorov, psychologických charakteristík a dokonca aj farby pleti, pričom používali svoje vlastné posolstvo pre takmer každého jednotlivého voliča.

Pokiaľ ide o Hillary Clintonovú, vo svojej kampani použila „časom overené“ metódy založené na sociologických údajoch a štandardnom marketingu, pričom voličov rozdelila len na formálne homogénne skupiny (muži, ženy, Afroameričania, Hispánci, chudobní, bohatí atď.). )...

Výsledkom bolo, že víťazom sa stal ten, kto ocenil potenciál nových technológií a metód analýzy. Je pozoruhodné, že náklady na kampaň Hillary Clintonovej boli dvakrát vyššie ako náklady jej protikandidáta:

Údaje: Pew Research

Hlavné problémy používania veľkých dát

Okrem vysokých nákladov je jedným z hlavných faktorov, ktoré bránia implementácii veľkých dát v rôznych oblastiach, problém výberu dát, ktoré sa majú spracovať: teda určiť, ktoré dáta je potrebné extrahovať, uložiť a analyzovať a ktoré neberú do úvahy.

Ďalší problém veľkých dát je etický. Inými slovami, vyvstáva prirodzená otázka: možno takýto zber údajov (najmä bez vedomia používateľa) považovať za porušenie hraníc súkromia?

Nie je žiadnym tajomstvom, že informácie uložené vo vyhľadávačoch Google a Yandex umožňujú IT gigantom neustále zdokonaľovať svoje služby, robiť ich užívateľsky prívetivými a vytvárať nové interaktívne aplikácie. Vyhľadávače k ​​tomu zhromažďujú údaje používateľov o aktivite používateľov na internete, IP adresy, údaje o geolokácii, záujmoch a online nákupoch, osobné údaje, e-mailové správy atď. To všetko vám umožňuje zobrazovať kontextovú reklamu v súlade so správaním používateľov na internetu. Zároveň sa na to zvyčajne nevyžaduje súhlas používateľov a nie je daná voľba, aké informácie o sebe poskytnúť. To znamená, že v predvolenom nastavení Big Data zhromažďuje všetko, čo sa potom uloží na servery týchto stránok.

To vedie k ďalšiemu dôležitému problému súvisiacemu so zaistením bezpečnosti ukladania a používania údajov. Je napríklad zabezpečená konkrétna analytická platforma, na ktorú spotrebitelia automaticky prenášajú svoje údaje? Okrem toho mnohí obchodní zástupcovia zaznamenávajú nedostatok vysokokvalifikovaných analytikov a obchodníkov, ktorí dokážu efektívne pracovať s veľkým množstvom údajov a s ich pomocou riešiť špecifické obchodné problémy.

Napriek všetkým ťažkostiam s implementáciou Big Data má biznis v úmysle zvýšiť investície do tejto oblasti. Podľa štúdie Gartner sú lídrami v odvetviach investujúcich do veľkých dát mediálne, maloobchodné, telekomunikačné, bankové a servisné spoločnosti.

Vyhliadky na interakciu blockchainových technológií a veľkých dát

Integrácia s veľkými dátami má synergický efekt a otvára široké spektrum nových príležitostí pre podnikanie vrátane umožnenia:

- získať prístup k podrobným informáciám o preferenciách spotrebiteľov, na základe ktorých je možné zostaviť podrobné analytické profily pre konkrétnych dodávateľov, tovary a komponenty produktov;
- integrovať podrobné údaje o transakciách a štatistike spotreby určitých skupín tovaru rôznymi kategóriami používateľov;
- dostávať podrobné analytické údaje o dodávateľských a spotrebných reťazcoch, kontrolovať straty produktov počas prepravy (napríklad úbytok hmotnosti v dôsledku vysychania a vyparovania určitých druhov tovaru);
- bojovať proti falšovaniu výrobkov, zvýšiť účinnosť boja proti praniu špinavých peňazí a podvodom atď.

Prístup k detailným údajom o využívaní a spotrebe tovarov výrazne odhalí potenciál technológie Big Data na optimalizáciu kľúčových obchodných procesov, zníženie regulačných rizík a odhalenie nových príležitostí na monetizáciu a tvorbu produktov, ktoré budú najlepšie spĺňať aktuálne preferencie spotrebiteľov.

Ako viete, o technológiu blockchain už prejavujú značný záujem zástupcovia najväčších finančných inštitúcií vrátane atď.. Podľa Olivera Bussmanna, IT manažéra švajčiarskeho finančného holdingu UBS, je technológia blockchain schopná „skrátiť čas spracovania transakcie od niekoľkých dní do niekoľkých minút.“ ...

Potenciál analýzy blockchainu pomocou technológie Big Data je obrovský. Technológia distribuovanej účtovnej knihy zaisťuje integritu informácií, ako aj spoľahlivé a transparentné uchovávanie celej histórie transakcií. Big Data zase poskytujú nové nástroje na efektívnu analýzu, prognózovanie, ekonomické modelovanie, a teda otvárajú nové príležitosti na prijímanie vyváženejších manažérskych rozhodnutí.

Tandem blockchainu a Big Data možno úspešne využiť v zdravotníctve. Ako viete, nedokonalé a neúplné údaje o zdravotnom stave pacienta výrazne zvyšujú riziko nesprávnej diagnózy a nesprávnej liečby. Kritické údaje o zdravotnom stave klientov zdravotníckych zariadení by mali byť čo najbezpečnejšie, mali by mať vlastnosti nemennosti, byť overiteľné a nemali by podliehať žiadnej manipulácii.

Informácie v blockchaine spĺňajú všetky uvedené požiadavky a môžu slúžiť ako vysokokvalitné a spoľahlivé počiatočné dáta pre hĺbkovú analýzu pomocou nových technológií Big Data. Navyše, pomocou blockchainu by si zdravotnícke inštitúcie mohli vymieňať spoľahlivé údaje s poisťovňami, justičnými orgánmi, zamestnávateľmi, vedeckými inštitúciami a ďalšími organizáciami, ktoré potrebujú lekárske informácie.

Big Data a informačná bezpečnosť

V širšom zmysle je informačná bezpečnosť ochrana informácií a podpornej infraštruktúry pred náhodnými alebo úmyselnými negatívnymi vplyvmi prírodného alebo umelého charakteru.

V oblasti informačnej bezpečnosti čelia Big Data nasledujúcim výzvam:

- problémy ochrany údajov a zabezpečenia ich integrity;
- riziko vonkajšieho zasahovania a úniku dôverných informácií;
- nesprávne uchovávanie dôverných informácií;
- riziko straty informácií, napríklad v dôsledku niekoho zlomyseľného konania;
- riziko zneužitia osobných údajov tretími stranami a pod.

Jeden z hlavných problémov veľkých dát, ktorý má blockchain riešiť, spočíva v oblasti informačnej bezpečnosti. Technológia distribuovanej účtovnej knihy, ktorá zaisťuje súlad so všetkými svojimi základnými princípmi, môže zaručiť integritu a spoľahlivosť údajov a vďaka absencii jediného bodu zlyhania robí blockchain prevádzku informačných systémov stabilnú. Technológia distribuovanej účtovnej knihy môže pomôcť vyriešiť problém dôveryhodnosti údajov, ako aj poskytnúť možnosť ich univerzálnej výmeny.

Informácie sú cenným aktívom, čo znamená, že zabezpečenie hlavných aspektov informačnej bezpečnosti by malo byť v popredí. Aby spoločnosti prežili v konkurencii, musia držať krok s dobou, čo znamená, že nemôžu ignorovať potenciálne príležitosti a výhody, ktoré technológia blockchain a nástroje Big Data ponúkajú.

Len leniví nehovoria o veľkých dátach, ale je nepravdepodobné, že by pochopili, čo to je a ako to funguje. Začnime tým najjednoduchším – terminológiou. Keď hovoríme po rusky, veľké údaje sú rôzne nástroje, prístupy a metódy na spracovanie štruktúrovaných aj neštruktúrovaných údajov s cieľom ich použitia na konkrétne úlohy a účely.

Neštruktúrované údaje sú informácie, ktoré nemajú vopred definovanú štruktúru alebo nie sú usporiadané v určitom poradí.

Pojem „veľké dáta“ zaviedol redaktor časopisu Nature Clifford Lynch v roku 2008 v špeciálnom vydaní venovanom explozívnemu rastu svetových objemov informácií. Aj keď, samozrejme, samotné veľké dáta existovali aj predtým. Väčšina dátových tokov nad 100 GB za deň patrí podľa odborníkov do kategórie Big data.

Prečítajte si tiež:

Dnes sa pod týmto jednoduchým pojmom ukrývajú len dve slová – ukladanie a spracovanie dát.

Veľké dáta – jednoduchými slovami

V modernom svete sú Big data sociálno-ekonomickým fenoménom, ktorý súvisí so skutočnosťou, že sa objavili nové technologické príležitosti na analýzu obrovského množstva údajov.

Prečítajte si tiež:

Pre ľahšie pochopenie si predstavte supermarket, v ktorom nie je všetok tovar vo vašom obvyklom poradí. Chlieb vedľa ovocia, paradajkový pretlak vedľa mrazenej pizze, zapaľovač pred stojanom na tampóny s avokádom, tofu alebo hubami shiitake a iné. Big data dajú všetko na svoje miesto a pomôžu vám nájsť orechové mlieko, zistiť cenu a dátum spotreby a tiež, kto okrem vás takéto mlieko kupuje a prečo je lepšie ako kravské.

Kenneth Kukier: Veľké dáta sú najlepšie dáta

Technológia veľkých dát

Spracováva sa obrovské množstvo údajov, aby človek mohol získať konkrétne a potrebné výsledky pre ich ďalšie efektívne využitie.

Prečítajte si tiež:

V skutočnosti sú Big data riešením problémov a alternatívou k tradičným systémom správy údajov.

Techniky a metódy analýzy použiteľné pre veľké dáta podľa McKinseyho:

  • Crowdsourcing;

    Miešanie a integrácia údajov;

    strojové učenie;

    Umelé neurónové siete;

    Rozpoznávanie vzorov;

    Prediktívna analytika;

    Simulačné modelovanie;

    Priestorová analýza;

    Štatistická analýza;

  • Vizualizácia analytických údajov.

Horizontálna škálovateľnosť, ktorá umožňuje spracovanie dát, je základným princípom spracovania veľkých dát. Údaje sú distribuované do výpočtových uzlov a spracovanie prebieha bez zníženia výkonu. McKinsey do kontextu použiteľnosti zahrnul aj systémy relačného manažmentu a Business Intelligence.

technológie:

  • NoSQL;
  • MapReduce;
  • hadoop;
  • Hardvérové ​​riešenia.

Prečítajte si tiež:

Pre veľké dáta existujú tradičné definujúce charakteristiky vyvinuté skupinou Meta už v roku 2001, ktoré sa nazývajú „ Tri V»:

  1. Objem- veľkosť fyzického objemu.
  2. Rýchlosť- rýchlosť rastu a potreba rýchleho spracovania údajov na získanie výsledkov.
  3. Rozmanitosť- schopnosť súčasne spracovávať rôzne typy údajov.

Veľké dáta: aplikácie a príležitosti

Nie je možné spracovať objemy heterogénnych a rýchlo prichádzajúcich digitálnych informácií pomocou tradičných nástrojov. Samotná analýza údajov vám umožňuje vidieť určité a nepostrehnuteľné vzorce, ktoré človek nevidí. To nám umožňuje optimalizovať všetky oblasti nášho života – od vlády až po výrobu a telekomunikácie.

Niektoré firmy napríklad pred pár rokmi chránili svojich klientov pred podvodmi a starostlivosť o peniaze klienta bola starostlivosťou o ich vlastné.

Susan Etleiger: A čo veľké dáta?

Riešenia založené na veľkých dátach: Sberbank, Beeline a ďalšie spoločnosti

Beeline má obrovské množstvo údajov o predplatiteľoch, ktoré využívajú nielen na prácu s nimi, ale aj na vytváranie analytických produktov, ako je externé poradenstvo alebo analytika IPTV. Beeline segmentoval databázu a chránil zákazníkov pred peňažnými podvodmi a vírusmi pomocou HDFS a Apache Spark na ukladanie a Rapidminer a Python na spracovanie údajov.

Prečítajte si tiež:

Alebo si spomeňte na Sberbank s ich starým prípadom s názvom AS SAFI. Ide o systém, ktorý analyzuje fotografie na identifikáciu klientov banky a zabraňuje podvodom. Systém bol predstavený už v roku 2014, jadrom systému je porovnávanie fotografií z databázy, ktoré sa tam dostávajú z webkamier na stojanoch vďaka počítačovému videniu. Základom systému je biometrická platforma. Vďaka tomu sa počet podvodov znížil 10-krát.

Veľké dáta vo svete

Do roku 2020 podľa predpovedí ľudstvo vygeneruje 40-44 zettabajtov informácií. A do roku 2025 porastie 10-krát, podľa správy The Data Age 2025, ktorú pripravili analytici IDC. V správe sa uvádza, že väčšinu údajov vygenerujú samotné podniky, nie spotrebitelia.

Výskumní analytici veria, že údaje sa stanú životne dôležitým aktívom a bezpečnosť sa stane kritickým základom života. Autori práce sú tiež presvedčení, že technológia zmení ekonomické prostredie a priemerný používateľ bude komunikovať s pripojenými zariadeniami približne 4800-krát denne.

Veľký dátový trh v Rusku

Veľké dáta zvyčajne pochádzajú z troch zdrojov:

  • Internet (sociálne siete, fóra, blogy, médiá a iné stránky);
  • Firemné archívy dokumentov;
  • Údaje zo senzorov, prístrojov a iných zariadení.

Veľké dáta v bankách

Okrem vyššie opísaného systému v stratégii Sberbank na roky 2014-2018. hovorí o dôležitosti analýzy obrovského množstva údajov pre kvalitný zákaznícky servis, riadenie rizík a optimalizáciu nákladov. Teraz banka využíva Big data na riadenie rizík, boj proti podvodom, segmentáciu a hodnotenie bonity klientov, personálny manažment, predpovedanie radov v pobočkách, výpočet bonusov pre zamestnancov a ďalšie úlohy.

VTB24 používa veľké dáta na segmentáciu a správu odchodu zákazníkov, generovanie finančných výkazov, analýzu recenzií na sociálnych sieťach a fórach. Na tento účel využíva riešenia Teradata, SAS Visual Analytics a SAS Marketing Optimizer.

Pojem Big Data zvyčajne znamená akékoľvek množstvo štruktúrovaných, pološtruktúrovaných a neštruktúrovaných údajov. Druhý a tretí však môžu a mali by byť objednané na následnú analýzu informácií. Veľké dáta sa nerovnajú žiadnemu skutočnému objemu, ale keď hovoríme o veľkých dátach, vo väčšine prípadov máme na mysli terabajty, petabajty a dokonca extrabajty informácií. Takýto objem údajov sa môže časom nahromadiť v akomkoľvek podniku, alebo v prípadoch, keď spoločnosť potrebuje prijímať veľa informácií, v reálnom čase.

Analýza veľkých dát

Keď hovoríme o analýze veľkých dát, v prvom rade mám na mysli zhromažďovanie a uchovávanie informácií z rôznych zdrojov. Napríklad údaje o zákazníkoch, ktorí nakupovali, ich charakteristika, informácie o spustených reklamných kampaniach a hodnotení ich efektívnosti, údaje kontaktného centra. Áno, všetky tieto informácie je možné porovnávať a analyzovať. Je to možné a potrebné. Na to však musíte nastaviť systém, ktorý vám umožní zhromažďovať a transformovať informácie bez skreslenia, ukladať ich a nakoniec ich vizualizovať. Súhlasíte s tým, že pri veľkých dátach tabuľky vytlačené na niekoľko tisíc strán pri obchodných rozhodnutiach veľmi nepomôžu.

1. Príchod veľkých dát

Väčšina služieb, ktoré zhromažďujú informácie o akciách používateľov, má možnosť exportu. Na to, aby vstúpili do spoločnosti v štruktúrovanej forme, sa používajú rôzne, napríklad Alteryx. Tento softvér umožňuje automaticky prijímať informácie, spracovávať ich, ale hlavne - prevádzať ich do požadovanej podoby a formátu bez toho, aby došlo k ich skresleniu.

2. Ukladanie a spracovanie veľkých dát

Takmer vždy pri zhromažďovaní veľkého množstva informácií vzniká problém s ich ukladaním. Zo všetkých platforiem, ktoré sme študovali, naša spoločnosť uprednostňuje Verticu. Na rozdiel od iných produktov je Vertica schopná rýchlo „rozdať“ informácie v nej uložené. Medzi nevýhody patrí dlhý záznam, no pri analýze veľkých dát sa do popredia dostáva rýchlosť uploadu. Napríklad, ak hovoríme o kompilácii pomocou petabajtov informácií, rýchlosť nahrávania je jednou z najdôležitejších charakteristík.

3. Vizualizácia veľkých dát

A nakoniec, tretia fáza analýzy veľkého množstva údajov -. To si vyžaduje platformu, ktorá je schopná vizuálne odrážať všetky prijaté informácie vo vhodnej forme. Podľa nášho názoru sa s touto úlohou dokáže vyrovnať iba jeden softvérový produkt - Tableau. Nepochybne jedno z najlepších riešení súčasnosti, ktoré je schopné vizuálne zobraziť akékoľvek informácie, premieňať prácu spoločnosti na trojrozmerný model, zhromažďovať akcie všetkých oddelení do jedného vzájomne závislého reťazca (viac o schopnostiach Tableau si môžete prečítať) .

Namiesto zhrnutia si všimneme, že takmer každá spoločnosť si teraz môže vytvoriť vlastné veľké dáta. Analýza veľkých dát už nie je zložitý a nákladný proces. Od vedenia spoločnosti sa teraz vyžaduje, aby správne formulovalo otázky k zozbieraným informáciám, pričom prakticky nezostali žiadne neviditeľné šedé oblasti.

Stiahnite si Tableau

Stiahnite si ZDARMA plnú verziu Tableau Desktop na 14 dní a získajte ZDARMA školiace materiály Tableau BI

Zdieľajte to