Big data analýza veľkých dát. Jednoduchosť je kľúčom k úspechu

Na základe materiálov z výskumu a trendov

Big Data, „Big Data“ sa v IT a marketingovej tlači hovorí už niekoľko rokov. A je to pochopiteľné: digitálne technológie prenikli do života moderného človeka, „všetko je napísané“. Rastie objem údajov o rôznych aspektoch života a zároveň rastú aj možnosti ukladania informácií.

Globálne technológie na ukladanie informácií

Zdroj: Hilbert a Lopez, „Svetová technologická kapacita na ukladanie, komunikáciu a výpočet informácií“, Science, 2011 Global.

Väčšina odborníkov súhlasí s tým, že zrýchlenie rastu dát je objektívnou realitou. Sociálne siete, mobilné zariadenia, údaje z meracích zariadení, obchodné informácie sú len niektoré z typov zdrojov, ktoré dokážu generovať obrovské množstvo informácií. Podľa výskumu IDCDigitálny vesmír zverejnené v roku 2012, počas nasledujúcich 8 rokov objem dát na svete dosiahne 40 Zb (zettabajtov), čo je ekvivalent 5200 GB na každého obyvateľa planéty.

Rast zhromaždených digitálnych informácií v Spojených štátoch

Zdroj: IDC

Významnú časť informácií nevytvárajú ľudia, ale roboty, ktoré interagujú navzájom aj s inými dátovými sieťami, ako sú napríklad senzory a inteligentné zariadenia. S takým tempom rastu sa množstvo údajov vo svete podľa predpovedí výskumníkov každoročne zdvojnásobí. Počet virtuálnych a fyzických serverov vo svete desaťnásobne narastie vďaka rozširovaniu a vytváraniu nových dátových centier. V tejto súvislosti narastá potreba efektívneho využívania a monetizácie týchto údajov. Keďže používanie veľkých dát v podnikaní vyžaduje veľa investícií, musíte jasne pochopiť situáciu. A je to v podstate jednoduché: môžete zvýšiť efektivitu svojho podnikania znížením nákladov a / a zvýšením predaja.

Na čo slúžia Big Data?

Paradigma veľkých dát definuje tri hlavné typy úloh.

Ukladanie a správa stoviek terabajtov alebo petabajtov údajov, ktoré bežné relačné databázy nedokážu efektívne využiť.
Organizácia neštruktúrovaných informácií pozostávajúcich z textu, obrázkov, videí a iných typov údajov.
Analýza veľkých dát, ktorá vyvoláva otázku, ako pracovať s neštruktúrovanými informáciami, vytvárať analytické správy a implementovať prediktívne modely.

Trh projektov Big Data sa prelína s trhom business intelligence (BA), ktorého objem vo svete podľa odborníkov v roku 2012 predstavoval približne 100 miliárd dolárov. Zahŕňa komponenty sieťovej technológie, servery, softvér a technické služby.

Využitie Big Data technológií je relevantné aj pre riešenia triedy garancie príjmu (RA), ktoré sú určené na automatizáciu činnosti firiem. Moderné systémy garancie príjmu obsahujú nástroje na odhaľovanie nezrovnalostí a hĺbkovú analýzu dát, ktoré umožňujú včas odhaliť prípadné straty alebo skreslenie informácií, ktoré môžu viesť k poklesu finančných výsledkov. Na tomto pozadí ruské spoločnosti, ktoré potvrdzujú dopyt po technológiách veľkých dát na domácom trhu, poznamenávajú, že faktory, ktoré stimulujú rozvoj veľkých dát v Rusku, sú rast dát, zrýchlenie manažérskeho rozhodovania a zvýšenie ich objemu. kvalitu.

Čo bráni práci s veľkými dátami

Dnes sa analyzuje iba 0,5 % nahromadených digitálnych údajov, a to aj napriek tomu, že objektívne existujú celoodvetvové úlohy, ktoré by bolo možné vyriešiť pomocou analytických riešení triedy Big Data. Rozvinuté IT trhy už majú výsledky, ktoré možno použiť na posúdenie očakávaní spojených s akumuláciou a spracovaním veľkých dát.

Okrem vysokých nákladov sa zvažuje jeden z hlavných faktorov, ktorý bráni implementácii projektov Big Data problém výberu údajov na spracovanie: to znamená určenie, ktoré údaje je potrebné získať, uložiť a analyzovať a ktoré by sa nemali brať do úvahy.

Mnohí obchodní zástupcovia poznamenávajú, že ťažkosti pri implementácii projektov Big Data súvisia s nedostatkom špecialistov - obchodníkov a analytikov. Miera návratnosti investícií do veľkých dát priamo závisí od kvality práce zamestnancov zapojených do hĺbkovej a prediktívnej analýzy. Obrovský potenciál údajov, ktoré už v organizácii existujú, často nedokážu efektívne využiť samotní marketéri z dôvodu zastaraných obchodných procesov alebo interných predpisov. Preto sú projekty veľkých dát často vnímané podnikmi ako náročné nielen pri implementácii, ale aj pri hodnotení výsledkov: hodnoty zozbieraných dát. Špecifiká práce s údajmi vyžadujú, aby obchodníci a analytici prešli od technológie a vytvárali správy na riešenie konkrétnych obchodných problémov.

Vzhľadom na veľký objem a vysokú rýchlosť dátového toku proces zberu dát zahŕňa ETL procedúry v reálnom čase. Pre informáciu:ETL - odAngličtinaVýťažok, Transformovať, Naložiť- doslova "extrakcia, transformácia, načítanie") - jeden z hlavných procesov v manažmente dátové sklady, čo zahŕňa: extrakciu údajov z externých zdrojov, ich transformáciu a čistenie podľa potrieb ETL by sa malo vnímať nielen ako proces prenosu údajov z jednej aplikácie do druhej, ale aj ako nástroj na prípravu údajov na analýzu.

A potom otázky zabezpečenia bezpečnosti dát pochádzajúcich z externých zdrojov musia mať riešenia zodpovedajúce množstvu zhromaždených informácií. Keďže metódy analýzy veľkých dát sa vyvíjajú zatiaľ len v nadväznosti na rast objemu dát, dôležitú úlohu zohráva vlastnosť analytických platforiem využívať nové metódy prípravy a agregácie dát. To naznačuje, že na riešenie rôznych problémov môžu byť zaujímavé napríklad údaje o potenciálnych zákazníkoch alebo masívny dátový sklad s históriou preklikov na stránkach internetového obchodu.

Ťažkosti neustávajú

Napriek všetkým ťažkostiam s implementáciou Big Data má biznis v úmysle zvýšiť investície do tejto oblasti. Ako vyplýva z údajov Gartneru, v roku 2013 už 64 % najväčších svetových spoločností investovalo alebo plánuje investovať do nasadenia technológií v oblasti Big Data pre svoj biznis, pričom v roku 2012 to bolo 58 %. Podľa štúdie spoločnosti Gartner sú lídrami v odvetviach investujúcich do veľkých dát mediálne spoločnosti, telekomunikačné spoločnosti, bankovníctvo a spoločnosti poskytujúce služby. Úspešné výsledky implementácie Big Data už dosiahli mnohí veľkí hráči v maloobchodnom sektore z hľadiska využívania údajov získaných pomocou nástrojov rádiofrekvenčnej identifikácie, logistických a replikačných systémov (z angl. doplnenie- akumulácia, doplňovanie - R&T), ako aj z vernostných programov. Úspešné maloobchodné skúsenosti stimulujú ostatné odvetvia na trhu, aby našli nové a efektívne spôsoby speňažovania veľkých dát, aby sa ich analýza zmenila na zdroj, ktorý funguje pre rozvoj podnikania. Vďaka tomu podľa predpovedí odborníkov v období do roku 2020 klesnú investície do správy a ukladania dát na gigabajt dát z 2 USD na 0,2 USD, no štúdium a analýza technologických vlastností Big Data porastú len o 40 %.

Náklady prezentované v rôznych investičných projektoch v oblasti Big Data sú rôzneho charakteru. Nákladové položky závisia od typov produktov, ktoré sa vyberajú na základe určitých rozhodnutí. Najväčšia časť nákladov pri investičných projektoch pripadá podľa odborníkov na produkty súvisiace so zberom, štruktúrovaním dát, čistením a správou informácií.

Ako sa to robí

Existuje mnoho kombinácií softvéru a hardvéru, ktoré vám umožňujú vytvárať efektívne Big Data riešenia pre rôzne obchodné disciplíny, od sociálnych médií a mobilných aplikácií až po dolovanie a vizualizáciu podnikových dát. Dôležitou výhodou Big Data je kompatibilita nových nástrojov s databázami široko používanými v podnikaní, čo je obzvlášť dôležité pri práci s medziodborovými projektmi, ako je organizovanie viackanálového predaja a zákaznícka podpora.

Postupnosť práce s veľkými údajmi pozostáva zo zhromažďovania údajov, štruktúrovania prijatých informácií pomocou správ a panelov, vytvárania prehľadov a kontextov a formulovania odporúčaní na akciu. Keďže práca s veľkými údajmi znamená vysoké náklady na zber údajov, ktorých výsledok nie je vopred známy, hlavnou úlohou je jasne pochopiť, na čo sú údaje určené, a nie koľko z nich je k dispozícii. V tomto prípade sa zber údajov mení na proces získavania informácií, ktoré sú výlučne potrebné na riešenie konkrétnych problémov.

Napríklad poskytovatelia telekomunikačných služieb zhromažďujú obrovské množstvo údajov vrátane geolokačných údajov, ktoré sa neustále aktualizujú. Tieto informácie môžu byť komerčne zaujímavé pre reklamné agentúry, ktoré ich môžu použiť na poskytovanie cielených a miestnych reklám, ako aj pre maloobchodníkov a banky. Takéto údaje môžu hrať dôležitú úlohu pri rozhodovaní o otvorení maloobchodnej predajne v určitej lokalite na základe údajov o prítomnosti silného cieľového toku ľudí. Existuje príklad merania účinnosti billboardovej reklamy v Londýne. Teraz je možné dosah takejto reklamy merať iba umiestnením ľudí so špeciálnym zariadením, ktoré počíta okoloidúcich v blízkosti reklamných stavieb. V porovnaní s týmto typom merania efektivity reklamy má mobilný operátor oveľa viac možností – presne pozná polohu svojich účastníkov, pozná ich demografické charakteristiky, pohlavie, vek, rodinný stav atď.

Na základe takýchto údajov sa v budúcnosti záujemca otvára na zmenu obsahu reklamného posolstva s využitím preferencií konkrétnej osoby prechádzajúcej okolo billboardu. Ak údaje ukazujú, že okoloidúci človek veľa cestuje, môže sa mu zobraziť reklama na rezort. Organizátori futbalového zápasu vedia odhadnúť počet fanúšikov, až keď prídu na zápas. Ak by však mali možnosť požiadať mobilného operátora o informáciu, kde boli návštevníci hodinu, deň alebo mesiac pred zápasom, organizátori by si tak mohli naplánovať miesta pre reklamu na najbližšie zápasy.

Ďalším príkladom je, ako môžu banky použiť Big Data na zabránenie podvodom. Ak klient tvrdí, že stratil kartu a pri nákupe s ňou banka vidí v reálnom čase polohu telefónu klienta v nákupnej zóne, kde sa transakcia uskutočňuje, banka môže na požiadanie klienta tieto informácie skontrolovať aby zistil, či sa ho pokúsil podviesť. Alebo opačná situácia, keď zákazník nakúpi v obchode, banka vidí, že karta použitá na transakciu a telefón zákazníka sú na rovnakom mieste, banka môže usúdiť, že kartu používa jej majiteľ. Vďaka týmto výhodám Big Data sa rozširujú hranice, ktorými sú tradičné dátové sklady obdarené.

Na úspešné rozhodnutie o implementácii Big Data riešení potrebuje spoločnosť vypočítať investičný prípad, čo spôsobuje veľké ťažkosti kvôli mnohým neznámym komponentom. V takýchto prípadoch je paradoxom analytiky predpovedanie budúcnosti na základe minulosti, pre ktorú často chýbajú údaje. V tomto prípade je dôležitým faktorom jasné plánovanie vašich počiatočných akcií:

Najprv je potrebné určiť jeden konkrétny biznis problém, na riešenie ktorého budú použité Big Data technológie, táto úloha sa stane jadrom určenia správnosti zvoleného konceptu. Musíte sa zamerať na zhromažďovanie údajov, ktoré sú špecifické pre túto úlohu, a overenie koncepcie vám umožní používať rôzne nástroje, procesy a techniky riadenia, ktoré vám pomôžu robiť informovanejšie rozhodnutia v budúcnosti.
Po druhé, je nepravdepodobné, že spoločnosť bez zručností a skúseností v oblasti analýzy údajov bude schopná úspešne implementovať projekt Big Data. Potrebné znalosti vždy vychádzajú z predchádzajúcich skúseností v analytike, ktorá je hlavným faktorom ovplyvňujúcim kvalitu práce s dátami. Kultúra používania údajov je dôležitá, pretože analýza informácií často odhalí krutú pravdu o podnikaní a na prijatie tejto pravdy a prácu s ňou potrebujete vyvinuté metódy práce s údajmi.
Po tretie, hodnota technológií veľkých dát spočíva v poskytovaní prehľadov. Dobrých analytikov je na trhu stále nedostatok. Je zvykom označovať ich za špecialistov, ktorí hlboko rozumejú komerčnému významu údajov a vedia ich správne používať. Analýza údajov je prostriedkom na dosiahnutie obchodných cieľov a na pochopenie hodnoty veľkých údajov potrebujete vhodný model správania a pochopenie svojich činov. Big data v tomto prípade poskytnú množstvo užitočných informácií o spotrebiteľoch, na základe ktorých môžete robiť rozhodnutia užitočné pre váš biznis.

Napriek tomu, že ruský Big Data market sa len začína formovať, jednotlivé projekty v tejto oblasti sa už pomerne úspešne realizujú. Niektoré z nich sú úspešné v oblasti zberu údajov, ako napríklad projekty pre Federálnu daňovú službu a Tinkoff Credit Systems Bank, iné v oblasti analýzy údajov a praktickej aplikácie jej výsledkov: ide o projekt Synqera.

Tinkoff Credit Systems Bank realizovala projekt implementácie platformy EMC2 Greenplum, ktorá je nástrojom pre masívne paralelné výpočty. Banka v posledných rokoch zvýšila požiadavky na rýchlosť spracovania nahromadených informácií a analýzy dát v reálnom čase, čo je spôsobené vysokým tempom rastu počtu používateľov kreditných kariet. Banka oznámila plány na rozšírenie využívania technológií Big Data, najmä na spracovanie neštruktúrovaných dát a prácu s podnikovými informáciami získanými z rôznych zdrojov.

Federálna daňová služba Ruska v súčasnosti vytvára analytickú vrstvu pre federálny dátový sklad. Na jej základe sa vytvára jednotný informačný priestor a technológia pre prístup k daňovým údajom na štatistické a analytické spracovanie. Počas realizácie projektu sa pracuje na centralizácii analytických informácií s viac ako 1200 zdrojmi miestnej úrovne Federálnej daňovej inšpekcie.

Ďalším zaujímavým príkladom analýzy veľkých dát v reálnom čase je ruský startup Synqera, ktorý vyvinul platformu Simplate. Riešenie je založené na spracovaní veľkého množstva dát, program analyzuje informácie o zákazníkoch, ich nákupnú históriu, vek, pohlavie a dokonca aj náladu. Pri pokladniach v sieti kozmetických predajní boli nainštalované dotykové obrazovky so senzormi, ktoré rozpoznávajú emócie zákazníkov. Program zisťuje náladu človeka, analyzuje informácie o ňom, určuje dennú dobu a skenuje databázu zliav v obchode, potom kupujúcemu posiela cielené správy o akciách a špeciálnych ponukách. Toto riešenie zvyšuje lojalitu zákazníkov a zvyšuje tržby maloobchodníkov.

Ak hovoríme o úspešných zahraničných prípadoch, tak v tomto smere sú zaujímavé skúsenosti s využívaním Big Data technológií v Dunkin`Donuts, ktorá využíva dáta v reálnom čase na predaj produktov. Digitálne displeje v predajniach zobrazujú ponuky, ktoré sa striedajú každú minútu v závislosti od dennej doby a dostupnosti produktov. Spoločnosť získava údaje z pokladničných dokladov, ktoré ponuky zaznamenali najväčšiu odozvu kupujúcich. Tento prístup k spracovaniu dát umožnil zvýšiť zisky a obrat tovaru v sklade.

Ako ukazujú skúsenosti s implementáciou Big Data projektov, táto oblasť je navrhnutá tak, aby úspešne riešila moderné obchodné problémy. Zároveň dôležitým faktorom pri dosahovaní komerčných cieľov pri práci s veľkými dátami je výber správnej stratégie, ktorá zahŕňa analytiku identifikujúcu požiadavky spotrebiteľov, ako aj využitie inovatívnych technológií v oblasti veľkých dát.

Podľa globálneho prieskumu, ktorý od roku 2012 každoročne uskutočňujú spoločnosti Econsultancy a Adobe medzi marketingovými pracovníkmi spoločností, „veľké dáta“ o tom, ako sa ľudia správajú na internete, dokážu veľa. Dokážu optimalizovať offline obchodné procesy, pomôcť pochopiť, ako ich majitelia mobilných zariadení využívajú na vyhľadávanie informácií, alebo jednoducho „vylepšiť marketing“, tzn. viac efektívny. Navyše, posledná funkcia je z roka na rok čoraz populárnejšia, ako vyplýva z diagramu, ktorý sme uviedli.

Kľúčové oblasti práce internetových marketérov z hľadiska vzťahov so zákazníkmi

Zdroj: Econsultancy a Adobe, publikované- emarketer.com

Všimnite si, že na národnosti respondentov príliš nezáleží. Podľa prieskumu KPMG v roku 2013 podiel „optimistov“, t.j. z tých, ktorí využívajú veľké dáta pri vývoji obchodnej stratégie, je 56 % a fluktuácie medzi regiónmi sú malé: od 63 % v krajinách Severnej Ameriky po 50 % v regióne EMEA.

Používanie veľkých dát v rôznych regiónoch sveta

Zdroj: KPMG, publikované- emarketer.com

Medzitým postoj obchodníkov k takýmto „módnym trendom“ trochu pripomína známu anekdotu:

Povedz, Vano, máš rád paradajky?
- Rád jem, ale nejem.

Napriek tomu, že marketéri verbálne „milujú“ Big Data a zdá sa, že ich aj používajú, v skutočnosti je „všetko komplikované“, ako píšu o svojej srdečnej náklonnosti na sociálnych sieťach.

Podľa prieskumu Circle Research v januári 2014 medzi európskymi marketérmi 4 z 5 opýtaných nepoužívajú Big Data (napriek tomu, že ich, samozrejme, „milujú“). Dôvody sú rôzne. Zarytých skeptikov je málo – 17 % a presne rovnaký počet ako ich protinožcov, t.j. tí, ktorí s istotou odpovedajú „áno“. Zvyšok je váhavý a pochybovačný, „močiarny“. Vyhýbajú sa priamym odpovediam pod hodnovernými zámienkami ako „ešte nie, ale čoskoro“ alebo „počkáme, kým začnú ostatní“.

Používanie veľkých dát obchodníkmi, Európa, január 2014

Zdroj:dnx, publikovaný -emarketer.com

Čo ich mätie? Čisté drobnosti. Niektorí (presne polovica z nich) týmto údajom jednoducho neverí. Ostatným (tiež je ich veľa – 55 %) je ťažké navzájom spájať súbory „údajov“ a „používateľov“. Niektorí ľudia jednoducho (povedzme to politicky korektne) majú vnútorný firemný chaos: dáta sa potulujú medzi marketingovými oddeleniami a IT štruktúrami. Iným zase softvér nával práce nezvládne. Atď. Keďže celkové podiely výrazne presahujú 100 %, je zrejmé, že k situácii „viacnásobných bariér“ dochádza pomerne často.

Bariéry brániace využitiu veľkých dát v marketingu

Zdroj:dnx, publikovaný -emarketer.com

Musíme teda priznať, že zatiaľ čo „Big Data“ sú veľkým potenciálom, ktorý treba ešte využiť. To môže byť mimochodom dôvod, prečo Big Data strácajú aureolu „módneho trendu“, o čom svedčia aj údaje prieskumu, ktorý realizovala už spomínaná spoločnosť Econsultancy.

Najvýznamnejšie trendy v digitálnom marketingu 2013-2014

Zdroj: Ecosultancy a Adobe

Nahrádza ich iný kráľ – content marketing. Ako dlho?

To neznamená, že veľké dáta sú nejakým zásadne novým fenoménom. Veľké zdroje údajov existujú už roky: databázy o nákupoch zákazníkov, úverová história, životný štýl. A už roky vedci využívajú tieto údaje, aby pomohli spoločnostiam posúdiť riziká a predpovedať budúce potreby zákazníkov. Dnes sa však situácia zmenila v dvoch aspektoch:

Objavili sa sofistikovanejšie nástroje a techniky na analýzu a kombinovanie rôznych súborov údajov;

Tieto analytické nástroje sú doplnené o lavínu nových dátových zdrojov poháňaných digitalizáciou prakticky všetkých metód zberu dát a merania.

Rozsah dostupných informácií je pre výskumníkov, ktorí vyrástli v štruktúrovanom výskumnom prostredí, inšpirujúci aj zastrašujúci. Spotrebiteľský sentiment zachytávajú webové stránky a všetky druhy sociálnych médií. Skutočnosť prezerania reklám zaznamenávajú nielen set-top boxy, ale aj digitálne značky a mobilné zariadenia, ktoré komunikujú s televízorom.

Údaje o správaní (ako sú počty hovorov, nákupné návyky a nákupy) sú teraz dostupné v reálnom čase. Veľa z toho, čo bolo predtým dostupné prostredníctvom výskumu, sa teda teraz dá naučiť prostredníctvom veľkých dátových zdrojov. A všetky tieto informačné aktíva sú generované neustále, bez ohľadu na akékoľvek výskumné procesy. Tieto zmeny nás nútia uvažovať, či veľké dáta dokážu nahradiť klasický prieskum trhu.

Nie je to o údajoch, ale o otázkach a odpovediach

Skôr než nariadime umieračik klasickým štúdiám, musíme si pripomenúť, že kritická nie je prítomnosť žiadneho konkrétneho dátového aktíva, ale niečo iné. Čo presne? Naša schopnosť odpovedať na otázky je čo. Jedna zábavná vec na novom svete veľkých dát je, že výsledky z nových informačných aktív vedú k ešte viac otázkam a tieto otázky zvyčajne najlepšie odpovie tradičný výskum. Ako teda veľké dáta rastú, vidíme paralelný rast dostupnosti a dopytu po “malých dátach”, ktoré môžu poskytnúť odpovede na otázky zo sveta veľkých dát.

Zvážte situáciu: veľký inzerent neustále monitoruje návštevnosť obchodu a predaj v reálnom čase. Existujúce výskumné techniky (v rámci ktorých sa panelistov pýtame na ich nákupnú motiváciu a POS správanie) nám pomáhajú lepšie zacieliť na konkrétne segmenty zákazníkov. Tieto techniky je možné rozšíriť tak, aby zahŕňali širšiu škálu veľkých dátových aktív až do bodu, kedy sa veľké dáta stanú nástrojom pasívneho dohľadu a výskum je metódou neustále zameraného výskumu zmien alebo udalostí, ktoré si vyžadujú štúdium. Takto môžu veľké dáta zbaviť problémov výskumu. Primárny výskum by sa už nemal zameriavať na to, čo sa deje (veľké dáta budú). Namiesto toho sa primárny výskum môže zamerať na vysvetlenie, prečo vidíme trendy alebo odchýlky od trendov. Výskumník bude môcť menej myslieť na získavanie údajov a viac na to, ako ich analyzovať a použiť.

Zároveň vidíme, že veľké dáta riešia jeden z našich najväčších problémov – problém príliš dlhého výskumu. Skúmanie samotných štúdií ukázalo, že príliš nafúknuté výskumné nástroje majú negatívny vplyv na kvalitu dát. Zatiaľ čo mnohí odborníci tento problém už dlho uznávajú, vždy odpovedali slovami: „Ale potrebujem tieto informácie pre vrcholový manažment,“ a dlhé prieskumy pokračovali.

Vo svete veľkých dát, kde je možné kvantitatívne ukazovatele získať pasívnym pozorovaním, sa táto otázka stáva kontroverznou. Opäť sa pozrime na všetky tieto štúdie súvisiace so spotrebou. Ak nám big data dávajú pohľad na spotrebu prostredníctvom pasívneho pozorovania, tak primárny výskum vo forme prieskumov už nemusí zbierať tento druh informácií a konečne môžeme podporiť našu víziu krátkych prieskumov nielen želaním dobrého, ale aj niečím reálny.

Big Data potrebujú vašu pomoc

Napokon, „veľký“ je len jednou z charakteristík veľkých dát. Charakteristika „veľký“ sa vzťahuje na veľkosť a rozsah údajov. Samozrejme, toto je hlavná charakteristika, keďže množstvo týchto údajov presahuje čokoľvek, s čím sme doteraz pracovali. Dôležité sú však aj ďalšie charakteristiky týchto nových dátových tokov: často sú zle naformátované, neštruktúrované (alebo v najlepšom prípade čiastočne štruktúrované) a plné nejednoznačností. Vznikajúca oblasť správy údajov, vhodne nazvaná analytika entít, má za cieľ vyriešiť problém prekonania šumu vo veľkých údajoch. Jeho úlohou je analyzovať tieto súbory údajov a zistiť, koľko pozorovaní je pre tú istú osobu, ktoré pozorovania sú aktuálne a ktoré sú použiteľné.

Tento typ čistenia dát je potrebný na odstránenie šumu alebo chybných dát pri práci s veľkými alebo malými dátovými aktívami, ale nestačí. Potrebujeme tiež vytvoriť kontext okolo veľkých dátových aktív na základe našich predchádzajúcich skúseností, analýz a znalostí kategórií. V skutočnosti mnohí analytici poukazujú na schopnosť riadiť neistotu obsiahnutú vo veľkých dátach ako na zdroj konkurenčnej výhody, pretože umožňuje lepšie rozhodnutia.

A tu sa primárny výskum nielenže oslobodzuje od rutiny veľkých dát, ale prispieva aj k tvorbe a analýze obsahu v rámci veľkých dát.

Hlavným príkladom je aplikácia nášho zásadne odlišného rámca hodnoty značky na sociálne médiá. (hovoríme o rozvinutom inMillward Hnedánový prístup k meraniu hodnoty značkyThe Zmysluplne Rôzne rámec- "Paradigma významných rozdielov" -R & T ). Tento model bol testovaný na správanie na konkrétnych trhoch, štandardne implementovaný a je ľahko aplikovateľný v iných marketingových smeroch a informačných systémoch na podporu rozhodovania. Inými slovami, náš model hodnoty značky založený na prieskume (hoci sa neobmedzuje len na prieskum) má všetky vlastnosti potrebné na prekonanie neštruktúrovaného, nesúrodého a neistého charakteru veľkých dát.

Zvážte údaje o nálade spotrebiteľov, ktoré poskytujú sociálne médiá. Hrubé vrcholy a minimá v spotrebiteľskom sentimente veľmi často minimálne korelujú s offline hodnotami značky a metrikami správania: v údajoch je jednoducho príliš veľa šumu. Tento hluk však môžeme znížiť aplikáciou našich modelov zmyslu pre spotrebiteľov, diferenciácie značky, dynamiky a diferenciácie na nespracované údaje o spotrebiteľskom sentimente – spôsob spracovania a agregácie údajov sociálnych médií v rámci týchto dimenzií.

Keď sú údaje usporiadané podľa nášho rámcového modelu, identifikované trendy sa zvyčajne zhodujú s offline hodnotami značky a metrikami správania. Údaje sociálnych médií v podstate nemôžu hovoriť samé za seba. Ich použitie na tento účel si vyžaduje naše odborné znalosti a modely zamerané na značku. Keď nám sociálne médiá poskytujú jedinečné informácie vyjadrené v jazyku, ktorý spotrebitelia používajú na opis značiek, musíme tento jazyk použiť v našom výskume, aby bol primárny výskum oveľa efektívnejší.

Výhody vyňatého výskumu

To nás privádza späť k faktu, že veľké dáta ani tak nenahrádzajú výskum, ako skôr ho uvoľňujú. Výskumníci budú odbremenení od potreby vytvárať novú štúdiu pre každý nový prípad. Neustále rastúce aktíva veľkých dát možno využiť vo viacerých výskumných témach, čo umožňuje následnému primárnemu výskumu hlbšie sa ponoriť do témy a vyplniť medzery. Výskumníci sa zbavia potreby spoliehať sa na prehnané prieskumy. Namiesto toho môžu využiť krátke prieskumy a zamerať sa na najdôležitejšie parametre, čo zvyšuje kvalitu dát.

S týmto vydaním budú môcť výskumníci využiť svoje osvedčené princípy a nápady na spresnenie a význam veľkých dátových aktív, čo povedie k novým oblastiam prieskumu. Tento cyklus by mal viesť k hlbšiemu pochopeniu radu strategických otázok a v konečnom dôsledku k posunu smerom k tomu, čo by malo byť vždy naším hlavným cieľom – informovať a zlepšovať kvalitu rozhodnutí týkajúcich sa značky a komunikácie.

Pojem „veľké rande“ možno už dnes spoznáte, no stále je okolo neho veľa nejasností, čo vlastne znamená. V skutočnosti sa tento koncept neustále vyvíja a reviduje, pretože zostáva hnacou silou mnohých prebiehajúcich vĺn digitálnej transformácie, vrátane umelej inteligencie, dátovej vedy a internetu vecí. Čo je to však technológia Big-Data a ako mení náš svet? Pokúsme sa na to prísť, aby sme jednoduchými slovami vysvetlili podstatu technológie veľkých dát a čo to znamená.

Všetko to začalo výbuchom množstva dát, ktoré sme vytvorili od začiatku digitálneho veku. Vo veľkej miere za to môže rozvoj počítačov, internetu a technológií schopných „vytrhávať“ dáta zo sveta okolo nás. Samotné dáta nie sú novým vynálezom. Ešte pred érou počítačov a databáz sme používali papierovú evidenciu transakcií, evidenciu zákazníkov a archívne súbory, čo sú dáta. Počítače, najmä tabuľky a databázy, nám uľahčili ukladanie a organizovanie údajov vo veľkom meradle. Zrazu boli informácie dostupné jediným kliknutím myši.

Od pôvodných tabuliek a databáz sme sa však dostali veľmi ďaleko. Dnes každé dva dni vytvárame toľko dát, koľko sme dostali od úplného začiatku až do roku 2000. Presne tak, každé dva dni. A množstvo údajov, ktoré vytvárame, stále rýchlo rastie; do roku 2020 sa množstvo dostupných digitálnych informácií zvýši z približne 5 zettabajtov na 20 zettabajtov.

V dnešnej dobe takmer každý náš čin zanechá stopy. Údaje generujeme vždy, keď sme online, keď prenášame naše smartfóny vybavené vyhľadávacím modulom, keď sa rozprávame s priateľmi cez sociálne siete alebo chaty atď. Okrem toho rýchlo rastie aj množstvo strojovo generovaných dát. Údaje sa generujú a distribuujú, keď naše inteligentné domáce zariadenia komunikujú medzi sebou alebo so svojimi domácimi servermi. Priemyselné zariadenia v továrňach a továrňach sú čoraz viac vybavené senzormi, ktoré akumulujú a prenášajú údaje.

Pojem „Big-Data“ sa vzťahuje na zhromažďovanie všetkých týchto údajov a našu schopnosť využiť ich v náš prospech v širokej škále oblastí vrátane podnikania.

Ako funguje technológia Big-Data?

Big Date funguje na princípe: čím viac viete o konkrétnom predmete alebo fenoméne, tým spoľahlivejšie môžete dosiahnuť nové pochopenie a predpovedať, čo sa stane v budúcnosti. Porovnanie viacerých údajových bodov vytvára vzťahy, ktoré boli predtým skryté, a tieto vzťahy nám umožňujú učiť sa a robiť lepšie rozhodnutia. Najčastejšie sa to robí prostredníctvom procesu, ktorý zahŕňa vytváranie modelov z údajov, ktoré môžeme zhromaždiť, a následné spustenie simulácie, ktorá zakaždým upraví hodnoty údajových bodov a sleduje, ako ovplyvňujú naše výsledky. Tento proces je automatizovaný – moderné analytické technológie spustia milióny týchto simulácií a upravia každú možnú premennú, kým nenájdu model – alebo nápad – ktorý pomôže vyriešiť problém, na ktorom pracujú.

Bill Gates visí nad papierovým obsahom jedného CD

Až donedávna boli údaje obmedzené na tabuľky alebo databázy – a všetko bolo veľmi usporiadané a upratané. Všetko, čo sa nedalo ľahko usporiadať do riadkov a stĺpcov, sa považovalo za príliš náročné na prácu a ignorovalo sa. Pokroky v ukladaní a analytike však znamenajú, že môžeme zachytávať, uchovávať a spracovávať veľké množstvo údajov rôznych typov. Výsledkom je, že „údaje“ dnes môžu znamenať čokoľvek od databáz po fotografie, videá, zvukové nahrávky, písané texty a údaje zo senzorov.

Na pochopenie všetkých týchto chaotických údajov projekty založené na Big Dat často využívajú špičkovú analýzu využívajúcu umelú inteligenciu a strojové učenie. Tým, že počítače učíme určovať, čo sú konkrétne údaje – napríklad pomocou rozpoznávania vzorov alebo spracovania prirodzeného jazyka – ich môžeme naučiť identifikovať modely oveľa rýchlejšie a spoľahlivejšie ako my sami.

Ako sa používa Big Date?

Tento neustále sa zvyšujúci tok informácií o údajoch zo senzorov, textových, hlasových, fotografických a video údajoch znamená, že teraz môžeme údaje využívať spôsobmi, ktoré si pred niekoľkými rokmi nebolo možné predstaviť. Spôsobuje revolúciu vo svete podnikania takmer v každom odvetví. Dnešné podniky dokážu s neuveriteľnou presnosťou predpovedať, ktoré konkrétne typy zákazníkov budú chcieť uskutočniť nákup a kedy. Big Data tiež pomáhajú spoločnostiam robiť ich biznis oveľa efektívnejšie.

Aj mimo sféry podnikania už projekty súvisiace s Big-Data pomáhajú meniť náš svet rôznymi spôsobmi:

Zlepšenie zdravotnej starostlivosti – Medicína založená na údajoch je schopná analyzovať obrovské množstvo lekárskych informácií a obrázkov pre modely, ktoré môžu pomôcť včas odhaliť ochorenie a vyvinúť nové lieky.
Predpovedanie a reagovanie na prírodné katastrofy a katastrofy spôsobené ľudskou činnosťou. Dáta zo senzorov možno analyzovať, aby bolo možné predpovedať, kde sa pravdepodobne vyskytnú zemetrasenia, a vzorce ľudského správania poskytujú vodítka, ktoré organizáciám pomôžu pomôcť preživším. Technológia Big Dates sa používa aj na sledovanie a ochranu toku utečencov z vojnových zón po celom svete.
Predchádzanie kriminalite. Policajné sily čoraz viac prijímajú stratégie založené na údajoch, ktoré zahŕňajú ich vlastné spravodajstvo a informácie z otvorených zdrojov, aby lepšie využívali zdroje a v prípade potreby odrádzali.

Najlepšie knihy o technológii Big-Data

Každý klame. Vyhľadávače, veľké dáta a internet o vás vedia všetko.
VEĽKÉ DÁTA. Všetky technológie v jednej knihe.
Priemysel šťastia. Ako veľké dáta a nové technológie pomáhajú pridať emócie do produktov a služieb.
Revolúcia v analytike. Ako zlepšiť svoje podnikanie v ére veľkých dát pomocou prevádzkovej analýzy.

Problémy s Big-Data

Big Date nám poskytuje bezprecedentné poznatky a príležitosti, no zároveň vyvoláva problémy a otázky, ktoré je potrebné riešiť:

Dôvernosť údajov – Big-Data, ktoré dnes generujeme, obsahuje množstvo informácií o našom osobnom živote, na dôvernosť ktorých máme plné právo. Čoraz častejšie sa od nás vyžaduje, aby sme našli rovnováhu medzi množstvom osobných údajov, ktoré zverejňujeme, a pohodlím, ktoré ponúkajú aplikácie a služby Big Date.
Ochrana údajov – aj keď sa rozhodneme, že sme spokojní s tým, že niekto má naše údaje na konkrétny účel, môžeme mu dôverovať v bezpečnosť a zabezpečenie našich údajov?
Diskriminácia údajov – keď budú známe všetky informácie, bude prijateľné diskriminovať ľudí na základe údajov z ich osobného života? Na rozhodovanie o tom, kto si môže požičať peniaze, už používame kreditné skóre a poistenie je tiež výrazne závislé od údajov. Mali by sme očakávať, že budeme analyzovať a hodnotiť podrobnejšie, ale treba dbať na to, aby to neskomplikovalo život tým, ktorí majú menej zdrojov a obmedzený prístup k informáciám.

Dokončenie týchto úloh je dôležitou súčasťou Big Dates a musia sa nimi zaoberať organizácie, ktoré chcú takéto údaje využívať. V opačnom prípade môže byť podnik zraniteľný nielen z hľadiska jeho dobrého mena, ale aj z právnej a finančnej stránky.

Pohľad do budúcnosti

Dáta menia náš svet a naše životy bezprecedentnou rýchlosťou. Ak je toto všetko dnes Big-Data schopná, len si predstavte, čoho bude schopná zajtra. Množstvo údajov, ktoré máme k dispozícii, sa bude len zvyšovať a technológia analýzy bude ešte pokročilejšia.

Pre podniky bude v nadchádzajúcich rokoch čoraz dôležitejšia možnosť aplikovať Big Dat. Len tie spoločnosti, ktoré vnímajú dáta ako strategické aktívum, prežijú a prosperujú. Tí, ktorí ignorujú túto revolúciu, riskujú, že zostanú pozadu.

Kedysi som od Germana Grefa (šéfa Sberbank) počul výraz „Big Data“. Hovoria, že teraz aktívne pracujú na implementácii, pretože im to pomôže skrátiť čas práce s každým klientom.

Druhýkrát som sa s týmto konceptom stretol v internetovom obchode klienta, na ktorom sme zapracovali a rozšírili sortiment z pár tisíc na pár desiatok tisíc tovarových položiek.

Tretíkrát, keď som videl, že Yandex potrebuje analytika veľkých dát. Potom som sa rozhodol preniknúť hlbšie do tejto témy a zároveň napísať článok, ktorý povie, aký je to pojem, ktorý vzrušuje mysle top manažérov a internetového priestoru.

VVV alebo VVVVV

Každý z mojich článkov zvyčajne začínam vysvetlením, čo tento pojem je. Tento článok nebude výnimkou.

Nie je to však spôsobené predovšetkým túžbou ukázať, aký som šikovný, ale tým, že téma je skutočne zložitá a vyžaduje si dôkladné vysvetlenie.

Môžete si napríklad prečítať, čo sú veľké dáta na Wikipédii, ničomu nerozumieť a potom sa vrátiť k tomuto článku, aby ste pochopili definíciu a použiteľnosť pre podnikanie. Začnime teda popisom a potom k obchodným príkladom.

Veľké údaje sú veľké údaje. Úžasné, čo? V skutočnosti sa to z angličtiny prekladá ako „veľké dáta“. Ale táto definícia je, dalo by sa povedať, pre figuríny.

Dôležité... Big data technology je prístup/metóda na spracovanie väčšieho množstva údajov na získanie nových informácií, ktoré je ťažké spracovať konvenčnými spôsobmi.

Dáta môžu byť spracované (štruktúrované) alebo fragmentované (to znamená neštruktúrované).

Samotný termín sa objavil relatívne nedávno. V roku 2008 vedecký časopis predpovedal tento prístup ako niečo nevyhnutné na prácu s veľkým množstvom informácií, ktoré exponenciálne pribúdajú.

Napríklad každý rok sa počet informácií na internete, ktoré je potrebné uchovávať a spracovávať, zvyšuje o 40 %. Opäť. + 40 % každý rok sa na internete objavia nové informácie.

Ak sú tlačené dokumenty zrozumiteľné a zrozumiteľné sú aj spôsoby ich spracovania (prenos do elektronickej podoby, spojenie do jedného priečinka, číslo), tak čo robiť s informáciami, ktoré sú prezentované v úplne iných „nosičoch“ a v iných zväzkoch:

internetové dokumenty;
blogy a sociálne siete;
audio / video zdroje;
meracie zariadenia;

Existujú charakteristiky, ktoré umožňujú klasifikovať informácie a dáta ako veľké dáta.

To znamená, že nie všetky údaje môžu byť vhodné na analýzu. Tieto charakteristiky obsahujú kľúčový koncept veľkého rande. Všetky sa zmestia do troch V.

Volume (z anglického volume). Údaje sa merajú z hľadiska fyzického objemu „dokumentu“, ktorý sa má analyzovať;
Velocity (z anglického velocity). Dáta nestoja v jeho vývoji, ale neustále rastú, preto je potrebné ich rýchlo spracovať, aby sa získali výsledky;
Odroda (z anglického variety). Údaje nemusia byť v jednom formáte. To znamená, že môžu byť rozptýlené, štruktúrované alebo čiastočne štruktúrované.

Periodicky sa však k VVV pridáva štvrté V (pravdivosť) a dokonca aj piate V (v niektorých prípadoch je to životaschopnosť, v iných je to hodnota).

Niekde som dokonca videl 7V, ktoré charakterizujú údaje súvisiace s veľkým dátumom. Ale podľa mňa je to zo série (kde sa pravidelne pridáva P, aj keď na pochopenie postačia počiatočné 4).

JE NÁS UŽ VIAC AKO 29 000 ľudí.
ZAPNÚŤ

kto to potrebuje?

Vynára sa logická otázka, ako sa dajú informácie použiť (ak vôbec, veľký dátum sú stovky a tisíce terabajtov)? Ani to nie.

Tu sú informácie. Tak prečo si potom vymyslel veľké rande? Aké je využitie veľkých dát v marketingu a obchode?

Bežné databázy nedokážu uchovávať a spracovávať (teraz nehovorím ani o analytike, ale jednoducho o ukladaní a spracovaní) obrovského množstva informácií.
Big Date rieši tento hlavný problém. Úspešne ukladá a spravuje informácie s veľkým objemom;
Štruktúruje informácie pochádzajúce z rôznych zdrojov (video, obrázky, zvukové a textové dokumenty) do jednej, zrozumiteľnej a stráviteľnej formy;
Tvorba analytiky a tvorba presných prognóz na základe štruktúrovaných a spracovaných informácií.

Je to komplikované. Zjednodušene povedané, každý obchodník, ktorý chápe, že ak si naštudujete veľké množstvo informácií (o vás, vašej spoločnosti, vašich konkurentoch, vašom odvetví), môžete dosiahnuť veľmi slušné výsledky:

Úplné pochopenie vašej spoločnosti a vášho podnikania z hľadiska čísel;
Študujte svojich konkurentov. A to zase umožní dostať sa dopredu kvôli prevahe nad nimi;
Zistite nové informácie o svojich zákazníkoch.

A práve preto, že technológia veľkých dát poskytuje nasledujúce výsledky, každý sa s ňou ponáhľa.

Snažia sa naskrutkovať tento biznis do svojej firmy, aby dosiahli zvýšenie tržieb a zníženie nákladov. A konkrétnejšie potom:

Zvýšený krížový predaj a dodatočný predaj vďaka lepšej znalosti preferencií zákazníkov;
Vyhľadajte obľúbené produkty a dôvody, prečo ich kupujete (a naopak);
Zlepšenie produktu alebo služby;
Zlepšenie úrovne služieb;
Zvýšená lojalita a zameranie na zákazníka;
Predchádzanie podvodom (dôležitejšie pre bankový sektor);
Zníženie zbytočných nákladov.

Najčastejším príkladom uvádzaným vo všetkých zdrojoch je samozrejme Apple, ktorý zbiera údaje o svojich užívateľoch (telefón, hodinky, počítač).

Je to kvôli prítomnosti ekosystému, že spoločnosť vie toľko o svojich používateľoch a v budúcnosti to využíva na vytváranie zisku.

Tieto a ďalšie príklady použitia si môžete prečítať v ktoromkoľvek inom článku okrem tohto.

Ideme do budúcnosti

Poviem vám o ďalšom projekte. Skôr o človeku, ktorý buduje budúcnosť pomocou big data riešení.

Toto je Elon Musk a jeho spoločnosť Tesla. Jeho hlavným snom je urobiť autá autonómnymi, to znamená, že sadnete za volant, zapnete autopilota z Moskvy do Vladivostoku a ... zaspíte, pretože vôbec nepotrebujete riadiť auto, pretože on urobí všetko sám.

Zdalo by sa to fantastické? Ale nie! Elon jednoducho urobil oveľa múdrejšie ako Google, ktorý ovláda autá pomocou desiatok satelitov. A šiel inou cestou:

V každom predávanom aute je nainštalovaný počítač, ktorý zbiera všetky informácie.
Všetko vo všeobecnosti znamená všetko. O vodičovi, jeho štýle jazdy, cestách okolo neho, pohybe iných áut. Objem takýchto dát dosahuje 20-30 GB za hodinu;
Ďalej sa tieto informácie prenášajú cez satelitnú komunikáciu do centrálneho počítača, ktorý sa zaoberá spracovaním týchto údajov;
Na základe veľkých dát, ktoré tento počítač spracováva, sa zostavuje model bezpilotného prostriedku.

Mimochodom, ak je na tom Google dosť zle a ich autá sa neustále dostávajú k nehodám, tak Muskovi sa vďaka tomu, že pracujú s veľkými dátami, darí oveľa lepšie, pretože testovacie modely vykazujú veľmi dobré výsledky.

Ale... Všetko je to o ekonomike. Čo nám všetkým ide o zisk, áno o zisk? Veľa vecí, ktoré môže vyriešiť veľké rande, nemá nič spoločné so zárobkami a peniazmi.

Štatistiky Google, ktoré sú založené na veľkých dátach, ukazujú zaujímavú vec.

Kým lekári ohlásia začiatok epidémie choroby v určitom regióne, počet vyhľadávaní liečby tohto ochorenia v tomto regióne výrazne stúpa.

Správne štúdium údajov a ich analýza teda môže vytvárať predpovede a predpovedať nástup epidémie (a teda aj jej prevenciu) oveľa rýchlejšie ako závery úradov a ich konanie.

Aplikácia v Rusku

Rusko však ako vždy trochu „spomalí“. Takže samotná definícia veľkých dát v Rusku sa objavila nie viac ako pred 5 rokmi (teraz hovorím o bežných spoločnostiach).

A to aj napriek tomu, že ide o jeden z najrýchlejšie rastúcich trhov na svete (drogy a zbrane nervózne fajčia na vedľajšej koľaji), pretože každý rok trh so softvérom na zber a analýzu veľkých dát rastie o 32 %.

Aby som charakterizoval trh s veľkými dátami v Rusku, pripomínam si starý vtip. Veľké rande je ako sex do 18 rokov.

Všetci o tom hovoria, je okolo toho veľa humbuku a málo skutočnej akcie a každý sa hanbí priznať, že sám to nerobí. V skutočnosti je okolo toho veľa humbuku, ale málo skutočnej akcie.

Aj keď známa výskumná spoločnosť Gartner v roku 2015 oznámila, že big date už nie je rastúci trend (mimochodom ako umelá inteligencia), ale úplne nezávislé nástroje na analýzu a vývoj pokročilých technológií.

Najaktívnejšie miesta, kde sa v Rusku používajú veľké dáta, sú banky / poistenie (nie bezdôvodne som začal článok so šéfom Sberbank), telekomunikácie, maloobchod, nehnuteľnosti a ... verejný sektor.

Ako príklad vám poviem podrobnejšie o niekoľkých odvetviach hospodárstva, ktoré používajú algoritmy veľkých dát.

banky

Začnime bankami a informáciami, ktoré o nás a našom konaní zhromažďujú. Napríklad som zobral TOP 5 ruských bánk, ktoré aktívne investujú do veľkých dát:

Sberbank;
Gazprombank;
VTB 24;
banka Alfa;
Banka Tinkoff.

Je obzvlášť príjemné vidieť Alfa Bank medzi ruskými lídrami. Prinajmenšom je príjemné vedieť, že banka, ktorej ste oficiálnym partnerom, chápe potrebu zavádzania nových marketingových nástrojov do vašej spoločnosti.

Chcem ale ukázať príklady využitia a úspešnej implementácie veľkých dát na banke, ktorá sa mi páči pre neštandardný vzhľad a počínanie jej zakladateľa.

Hovorím o Tinkoff Bank. Ich hlavnou úlohou bolo vyvinúť systém na analýzu veľkých dát v reálnom čase vzhľadom na rastúcu zákaznícku základňu.

Výsledky: čas vnútorných procesov sa skrátil najmenej 10-krát a pre niektorých - viac ako 100-krát.

No, trochu rozptýlenia. Viete, prečo som začal hovoriť o neštandardných vyčíňaniach a činoch Olega Tiňkova?

Podľa mňa to boli práve oni, ktorí mu pomohli premeniť sa z priemerného obchodníka, akých sú v Rusku tisíce, na jedného z najznámejších a najuznávanejších podnikateľov. Aby ste to dokázali, pozrite si toto nezvyčajné a zaujímavé video:

Nehnuteľnosť

V realitách je všetko oveľa komplikovanejšie. A toto je presne ten príklad, ktorý vám chcem dať, aby ste pochopili veľké rande v rámci bežného podnikania. Počiatočné údaje:

Veľké množstvo textovej dokumentácie;
Open source (súkromné satelity vysielajúce údaje o zmenách Zeme);
Obrovské množstvo nekontrolovaných informácií na internete;
Neustále zmeny v zdrojoch a údajoch.

A na základe toho je potrebné pripraviť a zhodnotiť hodnotu pozemku, napríklad v blízkosti dediny Ural. Profesionálovi to zaberie týždeň.

Ruská spoločnosť odhadcov & ROSEKO, ktorá skutočne implementovala analýzu veľkých dát pomocou softvéru, nezaberie viac ako 30 minút pokojnej práce. Porovnajte, týždeň a 30 minút. Kolosálny rozdiel.

No na občerstvenie

Samozrejme, obrovské množstvo informácií nemožno uložiť a spracovať na jednoduché pevné disky.

A softvér, ktorý štruktúruje a analyzuje údaje, je vo všeobecnosti duševným vlastníctvom a zakaždým ide o autorský vývoj. Existujú však nástroje, na základe ktorých je celá táto krása vytvorená:

Hadoop & MapReduce;
databázy NoSQL;
Nástroje triedy zisťovania údajov.

Úprimne povedané, nemôžem vám jasne vysvetliť, ako sa navzájom líšia, pretože oboznámenie sa s týmito vecami a práca s nimi sa vyučuje na fyzikálnych a matematických ústavoch.

Prečo som o tom začal hovoriť, keď to neviem vysvetliť? Pamätáte si, že vo všetkých filmoch lupiči vstúpili do ktorejkoľvek banky a videli obrovské množstvo najrôznejších kusov železa pripojených k drôtom?

To isté platí pre veľké rande. Tu je napríklad model, ktorý je momentálne jedným z lídrov na trhu.

Nástroj na veľké rande

Náklady v maximálnej konfigurácii dosahujú 27 miliónov rubľov na stojan. Toto je samozrejme luxusná verzia. Chcem, aby ste si vopred vyskúšali vytváranie veľkých dát vo svojom podnikaní.

Stručne o hlavnej veci

Možno sa pýtate, prečo vy, malý a stredný podnik, potrebujete pracovať s veľkými dátami?

Na to vám odpoviem citátom jedného človeka: „V blízkej budúcnosti budú klienti žiadaní po spoločnostiach, ktoré lepšie rozumejú ich správaniu a zvykom a najlepšie sa k nim prispôsobujú.“

Ale priznajme si. Na implementáciu veľkých dát v malom podniku je potrebné mať nielen veľké rozpočty na vývoj a implementáciu softvéru, ale aj na údržbu špecialistov, aspoň akými sú analytik veľkých dát a sysadmin.

A teraz mlčím o tom, že takéto údaje na spracovanie musíte mať.

OK Pre malé podniky je téma takmer nepoužiteľná. To však neznamená, že musíte zabudnúť na všetko, čo ste si prečítali vyššie.

Neštudujte svoje vlastné údaje, ale výsledky analýzy údajov od známych zahraničných a ruských spoločností.

Napríklad maloobchodný reťazec Target pomocou analýzy veľkých dát zistil, že tehotné ženy pred druhým trimestrom tehotenstva (od 1. do 12. týždňa tehotenstva) aktívne nakupujú neparfumované produkty.

Vďaka týmto informáciám im posielajú zľavové kupóny na neochutené produkty s obmedzenou dobou trvania.

A ak ste napríklad len veľmi malá kaviareň? Je to veľmi jednoduché. Použite vernostnú aplikáciu.

A po chvíli a vďaka nahromadeným informáciám budete môcť svojim zákazníkom nielen ponúknuť jedlá, ktoré zodpovedajú ich potrebám, ale aj tie najnepredávanejšie a najkrajnejšie jedlá na pár kliknutí.

Preto ten záver. Implementácia veľkých dát pre malý podnik sa sotva oplatí, ale využitie výsledkov a vývoja iných spoločností je nevyhnutnosťou.

Každá priemyselná revolúcia mala svoje symboly: železo a para, oceľ a linkovú výrobu, polyméry a elektroniku a ďalšia revolúcia sa bude niesť v znamení kompozitných materiálov a dát. Big Data – falošná stopa alebo budúcnosť odvetvia?

20.12.2011 Leonid Chernyak

Symboly prvej priemyselnej revolúcie boli liatina a para, druhá - výroba ocele a tokov, tretia - plasty, hliník a elektronika a ďalšia revolúcia sa bude niesť v znamení kompozitných materiálov a dát. Sú veľké dáta falošnou stopou alebo budúcnosťou odvetvia?

Už viac ako tri roky sa o tom veľa hovorí a píše Veľké dáta(Big Data) v kombinácii so slovom „problém“ umocňuje záhadnosť tejto témy. Počas tejto doby sa „problém“ stal stredobodom pozornosti veľkej väčšiny veľkých výrobcov, vzniká veľa startupov v nádeji, že nájdu riešenie a všetci poprední analytici v tomto odvetví vytrubujú, aká dôležitá je schopnosť pracovať s veľkým množstvom údaje na zabezpečenie konkurencieschopnosti sú teraz. Takáto, nie príliš zdôvodnená, masová postava vyvoláva nesúhlas a na tú istú tému nájdete množstvo skeptických vyhlásení a niekedy sa o Big Data dokonca hovorí ako o červenom sleďovi (doslova „údený sleď“ je falošná stopa, napr. rozptýlenie).

Čo sú teda veľké dáta? Najjednoduchšie je predstaviť si Big Data vo forme lavíny dát, ktorá sa z ničoho nič samovoľne zrútila, alebo zredukovať problém na nové technológie, ktoré radikálne menia informačné prostredie, alebo možno spolu s Big Data sme zažíva ďalšiu etapu technologickej revolúcie? S najväčšou pravdepodobnosťou jeden aj druhý a tretí a stále neznámy. Je príznačné, že z viac ako štyroch miliónov webových stránok obsahujúcich slovné spojenie Big Data, jeden milión obsahuje aj definíciu slova – aspoň štvrtina tých, ktorí píšu o Big Data, sa pokúša uviesť svoju definíciu. Takýto masový záujem svedčí v prospech toho, že s najväčšou pravdepodobnosťou je v Big Data niečo kvalitatívne iné, než k čomu tlačí každodenné vedomie.

Pozadie

Skutočnosť, že prevažná väčšina odkazov na Big Data nejako súvisí s podnikaním, môže byť zavádzajúca. V skutočnosti sa tento termín nezrodil v podnikovom prostredí, ale analytici ho požičali z vedeckých publikácií. Big Data sú jedným z mála mien, ktoré majú úplne spoľahlivý dátum svojho narodenia – 3. september 2008, kedy vyšlo špeciálne číslo najstaršieho britského vedeckého časopisu Nature, venované hľadaniu odpovede na otázku „Ako sa otvárajú technológie Príležitosti na prácu s veľkými objemami môžu ovplyvniť budúcnosť vedy. Toto špeciálne vydanie sumarizuje predchádzajúce diskusie o úlohe údajov vo vede vo všeobecnosti a najmä v elektronickej vede.

Úloha údajov vo vede sa stala predmetom diskusie na veľmi dlhú dobu – o spracovaní údajov ako prvý písal anglický astronóm Thomas Simpson v 18. storočí vo svojej práci „O výhodách používania čísel v astronomických pozorovaniach“ spracovanie údajov sa dostali do popredia koncom minulého storočia, keď sa zistilo, že počítačové metódy je možné aplikovať takmer vo všetkých vedách od archeológie až po jadrovú fyziku. V dôsledku toho sa samotné vedecké metódy výrazne menia. Nie náhodou sa objavila knižnica neologizmu vytvorená zo slov knižnica a laboratórium, ktorá odráža zmeny v koncepcii toho, čo možno považovať za výsledok výskumu. Doteraz boli kolegom predložené len konečné získané výsledky a nie nespracované experimentálne údaje, a teraz, keď je možné rôzne údaje preložiť do „digitálnej podoby“, keď existujú rôzne digitálne médiá, potom objekt publikácií môžu byť rôzne druhy nameraných údajov a obzvlášť dôležitá je možnosť opätovného spracovania predtým nazhromaždených údajov v knižnici. A potom sa vyvíja pozitívna spätná väzba, vďaka ktorej sa proces hromadenia vedeckých údajov neustále zrýchľuje. Preto, uvedomujúc si rozsah nadchádzajúcich zmien, redaktor časopisu Nature Clifford Lynch navrhol špeciálny názov pre novú paradigmu Big Data, ktorý zvolil analogicky s takými metaforami ako Big Ref, Big Ore atď. ani nie tak množstvo niečoho, koľko je prechod od kvantity ku kvalite.

Veľké dáta a biznis

O necelý rok sa na stránky popredných biznis publikácií dostal pojem Big Data, ktorý však používal úplne iné metafory. Big Data sa porovnávajú s nerastnými zdrojmi – nová ropa (nová ropa), zlatá horúčka (zlatá horúčka), dolovanie dát (data mining), čo zdôrazňuje úlohu dát ako zdroja skrytých informácií; s prírodnými katastrofami - dátové tornádo (údajový hurikán), záplava dát (záplava dát), prílivová vlna (záplava dát), vnímanie ich ako hrozby; zachytenie prepojenia na priemyselnú výrobu - dátový výfuk, hasičská hadica, Priemyselná revolúcia. V biznise, podobne ako vo vede, tiež veľké množstvo dát nie je niečím úplne novým – už dlho sa hovorí o potrebe práce s veľkým množstvom dát, napríklad v súvislosti so šírením rádiofrekvenčnej identifikácie (RFID) a tzv. sociálne siete a rovnako ako vo vede, chýbala mu iba živá metafora na určenie toho, čo sa deje. Preto sa v roku 2010 objavili prvé produkty, ktoré si tvrdili, že sú zaradené do kategórie Big Data – existoval vhodný názov pre už existujúce veci. Je indikatívne, že vo verzii Hype Cycle z roku 2011, ktorá charakterizuje stav a perspektívy nových technológií, zaviedli analytici Gartner ďalšiu pozíciu Big Data a Extreme Information Processing and Management s odhadom obdobia pre masovú implementáciu zodpovedajúcich riešení z dvoch do piatich rokov.

Prečo sa veľké dáta ukázali ako problém?

Od objavenia sa termínu Big Data ubehli tri roky, no ak je vo vede všetko viac-menej jasné, potom miesto Big Data v biznise zostáva neisté, nie je náhoda, že sa často hovorí o „probleme veľkých dát“ a nie je to len problém, ale aj všetko ostatné je zle definované. Problém je často zjednodušený, interpretovaný ako Moorov zákon, len s tým rozdielom, že v tomto prípade máme do činenia s fenoménom zdvojnásobenia množstva dát za rok, prípadne hyperbolizovaný, prezentujeme ho takmer ako prírodnú katastrofu, ktorú treba urgentne riešiť. s nejakým spôsobom. Dát je skutočne stále viac, ale to všetko prehliada skutočnosť, že problém nie je v žiadnom prípade vonkajší, ale nie je spôsobený ani tak údajmi, ktoré sa zrútili v neuveriteľnom množstve, ale neschopnosťou starých metód sa vyrovnať s novými zväzkami, a čo je najdôležitejšie, nami, ktoré sme sami vytvorili. Je tu zvláštna nerovnováha – schopnosť generovať dáta je silnejšia ako schopnosť ich spracovať. Dôvodom tejto zaujatosti je s najväčšou pravdepodobnosťou to, že za 65 rokov počítačovej histórie sme ešte nepochopili, čo sú dáta a ako súvisia s výsledkami spracovania. Je zvláštne, že po stáročia sa matematici zaoberali základnými pojmami svojej vedy, ako sú čísla a číselné sústavy, čím k tomu priťahujú filozofov a v našom prípade sú dáta a informácie, v žiadnom prípade triviálne veci, ponechané bez dozoru. milosrdenstvo intuitívneho vnímania. Ukázalo sa teda, že celých tých 65 rokov sa skutočná technológia práce s údajmi vyvíjala neuveriteľným tempom a kybernetika a teória informácie sa takmer nerozvinuli, čo zostalo na úrovni 50-tych rokov, keď sa lampové počítače používali výlučne na výpočty. . Skutočne, súčasný rozruch okolo veľkých dát pri dôkladnej pozornosti vyvoláva skeptický úsmev.

Škálovanie a vrstvenie skladovania

Cloud, veľké dáta, analytika – tieto tri faktory moderného IT sú nielen vzájomne prepojené, ale dnes už bez seba ani nemôžu existovať. Práca s veľkými dátami nie je možná bez cloudového úložiska a cloud computingu – nástup cloudových technológií nielen v podobe nápadu, ale už v podobe dokončených a realizovaných projektov sa stal spúšťačom na spustenie nového kola špirály rastúci záujem o analýzu veľkých dát. Ak hovoríme o dopade na priemysel ako celok, potom sa dnes ukázali zvýšené požiadavky na škálovateľné úložné systémy. Je to naozaj nevyhnutná podmienka – je predsa ťažké vopred predpovedať, ktoré analytické procesy budú potrebovať určité dáta a ako intenzívne bude zaťažené existujúce úložisko. Okrem toho sa požiadavky na vertikálne aj horizontálne škálovanie stávajú rovnako dôležitými.

V novej generácii svojich úložných systémov Fujitsu venovalo veľkú pozornosť práve aspektom škálovateľnosti a vrstveného úložiska. Prax ukazuje, že dnes je na vykonávanie analytických úloh potrebné veľké zaťaženie systémov, ale podnikanie vyžaduje, aby všetky služby, aplikácie a samotné údaje zostali vždy dostupné. Okrem toho sú dnes požiadavky na výsledky analytického výskumu veľmi vysoké - kompetentne, správne a včas vedené analytické procesy môžu výrazne zlepšiť výsledky podniku ako celku.

– Alexander Jakovlev ([e-mail chránený]), manažér produktového marketingu Fujitsu (Moskva).

Ignorovaním úlohy údajov a informácií ako predmetov výskumu bola položená tá istá baňa, ktorá explodovala teraz, v čase, keď sa potreby zmenili, keď sa ukázalo, že výpočtové zaťaženie počítačov je oveľa menšie ako iné typy práce s údajmi, a cieľom týchto akcií je získať nové informácie a nové poznatky z existujúcich súborov údajov. Preto nemá zmysel hovoriť o riešení problému veľkých dát mimo obnovy väzieb reťazca „dáta – informácie – znalosti“. Údaje sa spracúvajú na získanie informácií, ktorých by malo byť akurát toľko, aby ich človek mohol premeniť na poznatky.

V posledných desaťročiach sa nevykonala žiadna seriózna práca na prepojení nespracovaných údajov s užitočnými informáciami a to, čo bežne nazývame informačná teória Clauda Shannona, nie je nič iné ako štatistická teória prenosu signálu a nemá nič spoločné s informáciami vnímanými ľudí. Existuje mnoho samostatných publikácií odrážajúcich konkrétne uhly pohľadu, no neexistuje žiadna plnohodnotná moderná teória informácie. Výsledkom je, že veľká väčšina odborníkov vôbec nerozlišuje medzi údajmi a informáciami. Každý len tvrdí, že existuje veľa alebo veľa údajov, ale nikto nemá zrelú predstavu o tom, čo presne existuje, aké spôsoby riešenia vzniknutého problému - a to všetko preto, že technické možnosti práce s údajmi jasne predbehli úroveň rozvoja schopnosti ich používať.... Iba jeden autor, Dion Hinchcliffe, editor časopisu Web 2.0 Journal, má klasifikáciu veľkých dát, ktorá nám umožňuje korelovať technológie s výsledkom, ktorý sa očakáva od spracovania veľkých dát, ale nie je ani zďaleka uspokojivá.

Hinchcliff rozdeľuje prístupy k Big Data do troch skupín: Fast Data, ich objem sa meria v terabajtoch; Big Analytics – údaje petabajtov a Deep Insight – exabajty, zettabajty. Skupiny sa medzi sebou líšia nielen objemami prevádzkovaných dát, ale aj kvalitou riešenia ich spracovania.

Spracovanie pre rýchle dáta neznamená získavanie nových poznatkov, jeho výsledky korelujú s apriórnymi poznatkami a umožňujú posúdiť, ako určité procesy prebiehajú, umožňuje lepšie a detailnejšie vidieť, čo sa deje, potvrdiť, resp. odmietnuť niektoré hypotézy. Na riešenie úloh Fast Data je vhodná len malá časť v súčasnosti existujúcich technológií, do tohto zoznamu patria aj niektoré technológie ukladania (produkty Greenplum, Netezza, Oracle Exadata, Teradata, DBMS ako Verica a kdb). Rýchlosť týchto technológií by sa mala zvyšovať v súlade s rastom objemu dát.

Úlohy, ktoré Big Analytics rieši, sú výrazne odlišné, a to nielen kvantitatívne, ale aj kvalitatívne a zodpovedajúce technológie by mali pomôcť pri získavaní nových poznatkov - slúžia na transformáciu informácií zaznamenaných v dátach na nové poznatky. Na tejto strednej úrovni sa však nepredpokladá prítomnosť umelej inteligencie pri výbere riešení alebo akýchkoľvek autonómnych akcií analytického systému – je postavená na princípe „učenia sa s učiteľom“. Inými slovami, všetok jej analytický potenciál je vložený do procesu učenia. Najzrejmejším príkladom je auto hrajúce Jeopardy!. Klasickými predstaviteľmi takejto analytiky sú MATLAB, SAS, Revolution R, Apache Hive, SciPy Apache a Mahout.

Najvyššia úroveň, Deep Insight, zahŕňa učenie bez dozoru a používanie moderných analytických metód, ako aj rôznych metód vizualizácie. Na tejto úrovni je možné objaviť poznatky a vzorce, ktoré sú a priori neznáme.

Big Data Analytics

Postupom času sa počítačové aplikácie približujú k reálnemu svetu v celej jeho rozmanitosti, čím rastie objem vstupných dát a tým aj potreba ich analýzy, a to v režime čo najbližšom k reálnemu času. Konvergencia týchto dvoch trendov viedla k vzniku smeru Analýza veľkých dát(Big Data Analytics).

Víťazstvo počítača Watson bolo brilantnou demonštráciou schopností Big Data Analytics – vstupujeme do zaujímavej éry, keď sa počítač po prvýkrát nepoužíva ani tak ako nástroj na zrýchlenie výpočtov, ale ako asistent, ktorý rozširuje ľudské schopnosti pri výbere informácií a rozhodovaní. Zdanlivo utopické predstavy Vannevara Busha, Josepha Licklidera a Douga Engelbarta sa začínajú napĺňať, no nedeje sa to presne tak, ako to bolo vidieť pred desiatkami rokov – sila počítača nie je v nadradenosti človeka v logických schopnostiach, čo vedci najmä dúfal, ale vo výrazne väčšej schopnosti spracovávať gigantické množstvá dát. Niečo podobné sa stalo aj pri konfrontácii Garryho Kasparova s Deep Blue, počítač nebol šikovnejším hráčom, no dokázal rýchlejšie prejsť viacerými možnosťami.

Gigantické objemy v kombinácii s vysokou rýchlosťou, ktorá odlišuje analýzu veľkých dát od iných aplikácií, si vyžadujú vhodné počítače a dnes takmer všetci hlavní výrobcovia ponúkajú špecializované softvérové a hardvérové systémy: SAP HANA, Oracle Big Data Appliance, Oracle Exadata Database Machine a Oracle Exalytics Business Intelligence. Stroj, zariadenie Teradata Extreme Performance, technológia úložiska NetApp E-Series, zariadenie IBM Netezza Data Appliance, EMC Greenplum, platforma Vertica Analytics poháňaná konvergovanou infraštruktúrou HP. Okrem toho do hry vstúpilo mnoho malých a začínajúcich spoločností: Cloudera, DataStax, Northscale, Splunk, Palantir, Factual, Kognitio, Datameer, TellApart, Paraccel, Hortonworks.

Spätná väzba

Kvalitatívne nové aplikácie Big Data Analytics si vyžadujú nielen nové technológie, ale aj kvalitatívne inú úroveň systémového myslenia, no sú s tým ťažkosti – vývojári riešení Big Data Analytics často znovu objavujú pravdy známe už od 50. rokov. V dôsledku toho sa analytika často považuje za izolovanú od prostriedkov na prípravu počiatočných údajov, vizualizácie a iných technológií na poskytovanie výsledkov osobe. Dokonca aj taká rešpektovaná organizácia, akou je The Data Warehousing Institute, považuje analytiku za izolovanú od všetkého ostatného: podľa jej údajov už 38 % podnikov skúma možnosť využitia Advanced Analytics v manažérskej praxi a ďalších 50 % tak zamýšľa urobiť v rámci nasledujúce tri roky. Tento záujem sa ospravedlňuje tým, že prináša mnohé argumenty z biznisu, aj keď možno povedať jednoduchšie - podniky v nových podmienkach potrebujú dokonalejší systém riadenia a jeho tvorba musí začať stanovením spätnej väzby, teda systému, ktorý pomáha pri rozhodovaní. a v budúcnosti možno bude možné zautomatizovať samotné rozhodovanie. Všetko, čo bolo povedané, prekvapivo zapadá do metodiky tvorby automatizovaných systémov riadenia technologických objektov, ktorá je známa už od 60. rokov.

Nové nástroje na analýzu sú potrebné, pretože existuje nielen viac údajov ako predtým, ale viac ich externých a interných zdrojov, teraz sú komplexnejšie a rozmanitejšie (štruktúrované, neštruktúrované a kvázi štruktúrované), používajú sa rôzne indexovacie schémy (relačné , viacrozmerný, noSQL). Už nie je možné narábať s dátami starými spôsobmi – Big Data Analytics sa rozširuje na veľké a zložité polia, preto používajú aj výrazy Discovery Analytics (analytika objavovania) a Exploratory Analytics (vysvetľujúca analytika). Nech už to nazvete akokoľvek, podstata je rovnaká – spätná väzba, ktorá dodáva rozhodovateľom prijateľnou formou informácie o rôznych procesoch.

Komponenty

Na zber nespracovaných dát sa používajú vhodné hardvérové a softvérové technológie, ktoré presne závisia od charakteru objektu ovládania (RFID, informácie zo sociálnych sietí, rôzne textové dokumenty a pod.). Tieto údaje sú privádzané na vstup analytického stroja (regulátor v spätnoväzbovej slučke, ak pokračujeme v analógii s kybernetikou). Tento regulátor je založený na hardvérovej a softvérovej platforme, na ktorej beží skutočný analytický softvér, neposkytuje riadiace činnosti dostatočné na automatické riadenie, preto sú do slučky zapojení dátoví vedci alebo dátoví inžinieri. Ich funkciu možno prirovnať k úlohe, ktorú zohrávajú napríklad elektrotechnici, využívajúci poznatky z fyziky na uplatnenie pri tvorbe elektrických strojov. Úlohou inžinierov je riadiť proces transformácie údajov na informácie používané pri rozhodovaní – dokončia tiež spätnú väzbu. Zo štyroch komponentov Big Data Analytics nás v tomto prípade zaujíma len jeden – softvérová a hardvérová platforma (systémy tohto typu sa nazývajú Analytic Appliance alebo Data Warehouse Appliance).

Teradata bola niekoľko rokov jediným výrobcom špecializovaných analytických strojov, ale nebola prvým – koncom 70. rokov vtedajší líder britského počítačového priemyslu ICL neúspešne pokúsil vytvoriť Content-Addressable. Data Store, ktorý bol založený na IDMS DBMS. Britton-Lee však ako prvý vytvoril v roku 1983 „databázový stroj“ založený na konfigurácii viacerých procesorov rodiny procesorov Zilog Z80. Následne spoločnosť Britton-Lee kúpila spoločnosť Teradata, ktorá od roku 1984 vyrábala počítače MPP pre systémy na podporu rozhodovania a dátové sklady. A prvým zástupcom novej generácie dodávateľov takýchto systémov bola Netezza - v jej riešení Netezza Performance Server boli použité štandardné blade servery spolu so špecializovanými blade servermi Snippet Processing Unit.

Analytika v DBMS

Analytics je tu predovšetkým predpoveď, alebo prediktívne(Prediktívna analýza, RA). Vo väčšine existujúcich implementácií sú počiatočnými údajmi pre systémy RA údaje, ktoré sa predtým zhromaždili v dátových skladoch. Na analýzu sa údaje najskôr presunú do stredného dátového obchodu (IDM), kde prezentácia údajov nezávisí od aplikácií, ktoré ich používajú, a potom sa rovnaké údaje prenesú do špecializovaného analytického obchodu (ADM) a špecialisti sú už prácu s nimi.pomocou rôznych vývojových nástrojov, alebo data miningu (Data Mining). Takýto viacstupňový model je celkom prijateľný pre relatívne malé množstvá údajov, ale s ich nárastom a so zvýšenými požiadavkami na efektivitu v takýchto modeloch sa odhaľuje množstvo nevýhod. Okrem potreby presúvať dáta vedie existencia mnohých nezávislých ADM ku komplikáciám fyzickej a logickej infraštruktúry, rastie počet používaných modelovacích nástrojov, výsledky získané rôznymi analytikmi sú nekonzistentné a výpočtový výkon a kanály sú nejednotné. ďaleko od optimálneho využitia. Oddelená existencia úložísk a ADM navyše takmer znemožňuje analýzu takmer v reálnom čase.

Východiskom môže byť prístup nazývaný In-Database Analytics alebo No-Copy Analytics, ktorý predpokladá použitie údajov priamo v databáze na analytické účely. Takéto DBMS sa niekedy nazývajú analytické a paralelné. Tento prístup sa stal obzvlášť atraktívnym s príchodom technológií MapReduce a Hadoop. V novej generácii aplikácií triedy In-Database Analytics sa všetky typy vývoja dát a ďalšie typy intenzívnej práce vykonávajú priamo na dátach umiestnených v sklade. Je zrejmé, že to výrazne urýchľuje procesy a umožňuje aplikácie v reálnom čase, ako je rozpoznávanie vzorov, klastrovanie, regresná analýza a rôzne druhy prognóz. Zrýchlenie je dosiahnuté nielen vďaka zbaveniu sa presunov z úložiska do obchodov, ale najmä vďaka použitiu rôznych paralelizačných metód vrátane klastrových systémov s neobmedzeným škálovaním. Riešenia ako In-Database Analytics otvárajú možnosť využitia cloudových technológií v analytických aplikáciách. Ďalším krokom môže byť technológia SAP HANA (High Performance Analytic Appliance), ktorej podstatou je umiestňovanie dát na analýzu do pamäte RAM.

Významní dodávatelia...

Do roku 2010 boli hlavnými poskytovateľmi softvéru pre analýzu v rámci databázy Aster Data (Aster nCluster), Greenplum (databáza Greenplum), IBM (InfoSphere Warehouse; IBM DB2), Microsoft (SQL Server 2008), Netezza (Netezza Performance System, PostGresSQL) , Oracle (databáza Oracle 11g / 10g, Oracle Exadata), SenSage (SenSage / stĺpcová), Sybase (Sybase IQ), Teradata a Vertica Systems (analytická databáza Vertica). Všetko sú to známe spoločnosti, s výnimkou startupu SenSage zo Silicon Valley. Produkty sa výrazne líšia typom údajov, s ktorými dokážu pracovať, funkčnosťou, rozhraniami, analytickým softvérom, ktorý používajú, a schopnosťou pracovať v cloude. Teradata je lídrom v zrelosti riešení a Aster Data je predvojom. Zoznam dodávateľov analytického softvéru je kratší – produkty od KXEN, SAS, SPSS a TIBCO môžu pracovať v lokálnych konfiguráciách a Amazon, Cascading, Google, Yahoo! a Сloudera.

Rok 2010 bol kľúčovým rokom v prediktívnej analytike, porovnateľný s rokom 2007, keď IBM získala Cognos, SAP získal Business Object a Oracle získal Hyperion. Všetko to začalo akvizíciou spoločnosti EMC Greenplum, potom IBM akvizíciou spoločnosti Netezza, HP akvizíciou Vertica, Teradata akvizíciou Aster Data a SAP akvizíciou Sybase.

...a nové príležitosti

Analytická paradigma otvára zásadne nové možnosti, čo úspešne dokázali dvaja inžinieri z Kolína nad Rýnom, ktorí vytvorili spoločnosť ParStream (oficiálny názov je empulse GmbH). Spoločne sa im podarilo vytvoriť analytickú platformu založenú na univerzálnych aj GPU procesoroch, ktorá konkuruje svojim predchodcom. Pred štyrmi rokmi dostali Michael Hümmepl a Jorg Bienert, obaja bývalí v Accenture, objednávku od nemeckej cestovnej kancelárie, ktorá potrebovala systém na vytváranie zájazdov, ktorý by dokázal vybrať 20-parametrový záznam z databázy 6 miliárd záznamov za 100 milisekúnd. Žiadne z existujúcich riešení si s takouto úlohou neporadí, hoci s podobnými problémami sa stretávame všade tam, kde je potrebná on-line analýza obsahu veľmi rozsiahlych databáz. ParStream sa zrodil z predpokladu aplikácie technológií HPC do analýzy veľkých dát. Hümmepl a Binert začali napísaním vlastného databázového nástroja, ktorý bol navrhnutý tak, aby fungoval na x86-architektúrnom klastri, ktorý podporuje dátové operácie vo forme paralelných tokov, odtiaľ názov ParStream. Ako prvotné nastavenie si zvolili prácu len so štruktúrovanými dátami, čo vlastne otvára možnosť relatívne jednoduchej paralelizácie. Dizajnovo je táto databáza bližšie k novému projektu Google Dremel ako MapReduce alebo Hadoop, ktoré nereagujú na dopyty v reálnom čase. Počnúc platformou x86 / Linux sa Hümmepl a Binert čoskoro presvedčili, že ich databázu môžu podporovať aj GPU nVidia Fermi.

Veľké dáta a spracovanie dát

Aby sme pochopili, čo možno očakávať od toho, čo sa nazýva Big Data, mali by sme ísť za hranice moderného úzkeho „IT“ svetonázoru a pokúsiť sa vidieť, čo sa deje v širšej historickej a technologickej retrospektíve, pokúsiť sa nájsť analógie s technológie, ktoré majú dlhšiu históriu. Koniec koncov, keď sme predmet našej činnosti nazvali technológiou, musíme s ňou aj zaobchádzať ako s technológiou. Takmer všetky známe materiálové technológie sa redukujú na spracovanie, spracovanie alebo montáž pre ne špecifických surovín alebo niektorých iných komponentov s cieľom získať kvalitatívne nové produkty – niečo je na vstupe technologického procesu a niečo na výstupe.

Zvláštnosťou nehmotných informačných technológií je, že technologický reťazec tu nie je taký zrejmý, nie je jasné, čo je surovina, čo je výsledkom, čo prichádza na vstupe a čo sa získava na výstupe. Najjednoduchším spôsobom je povedať, že vstupom sú nespracované údaje a výstupom sú užitočné informácie. Celkovo je to takmer pravda, ale vzťah medzi nimi je mimoriadne zložitý; ak zostaneme na úrovni zdravého pragmatizmu, potom sa môžeme obmedziť na nasledujúce úvahy. Údaje sú hrubé fakty vyjadrené v rôznych formách, ktoré samy osebe nemajú užitočný význam, kým nie sú vložené do kontextu, správne usporiadané a usporiadané počas spracovania. Informácie sa objavujú ako výsledok analýzy spracovaných údajov osobou, táto analýza dáva údajom význam a poskytuje im spotrebiteľské kvality. Dáta sú neusporiadané fakty, ktoré je potrebné premeniť na informácie. Donedávna predstavy o spracovanie dát(spracovanie údajov) sa zredukovali na organický okruh algoritmických, logických alebo štatistických operácií s relatívne malým množstvom údajov. S približovaním sa výpočtovej techniky k reálnemu svetu sa však zvyšuje potreba transformácie údajov z reálneho sveta na informácie o reálnom svete, zväčšujú sa spracovávané údaje a zvyšujú sa požiadavky na rýchlosť spracovania.

Logicky sa informačné technológie príliš nelíšia od materiálových technológií, na vstupe nespracované dáta, na výstupe - štruktúrované, vo forme vhodnejšej pre ľudské vnímanie, získavajú z nich informácie a premieňajú informácie na užitočné poznatky silou inteligencie. Počítače sa nazývali počítače pre ich schopnosť počítať, pripomíname si prvú aplikáciu pre ENIAC - spracovanie údajov o streľbe z pištole a ich premenu na delostrelecké tabuľky. To znamená, že počítač spracoval nespracované údaje, extrahoval užitočné údaje a zapísal ich do formy vhodnej na použitie. Pred nami nie je nič iné ako obyčajný technologický proces. Vo všeobecnosti by sa namiesto zakoreneného pojmu informačné technológie malo častejšie používať presnejšie Spracovanie údajov.

Informačné technológie by mali podliehať všeobecným zákonom, v súlade s ktorými sa vyvíjajú všetky ostatné technológie, a to je predovšetkým zvýšenie množstva spracovávaných surovín a zlepšenie kvality spracovania. Deje sa to všade, bez ohľadu na to, čo presne slúži ako surovina a aký je výsledok, či už je to metalurgia, petrochémia, biotechnológia, polovodičové technológie atď., neskôr nastávajú momenty zrýchleného vývoja, skoky. K rýchlym prechodom môže dôjsť vtedy, keď potreba vyvstane navonok a v rámci technológií existuje schopnosť ju uspokojiť. Počítače sa nedali postaviť na vákuových trubiciach – a objavili sa polovodiče, autá potrebujú veľa benzínu – bol objavený proces krakovania a takýchto príkladov je veľa. Pod názvom Big Data sa teda v počítačovej technológii objavuje kvalitatívny prechod, ktorý môže znamenať vážne zmeny, nie náhodou sa tomu hovorí nová priemyselná revolúcia. Big Data sú ďalšou technickou revolúciou so všetkými z toho vyplývajúcimi dôsledkami.

Prvé skúsenosti so spracovaním údajov sa datujú do 4. tisícročia pred Kristom, kedy sa objavilo piktografické písmo. Odvtedy sa rozvinulo niekoľko hlavných oblastí práce s dátami, najsilnejší bol a zostal text, od prvých hlinených tabuliek až po SSD, od knižníc polovice prvého tisícročia pred Kristom až po moderné knižnice, potom rôzne druhy matematických čísel. sa objavili metódy, od papyrusov s dôkazom Pytagorovej vety a tabuľkové techniky na zjednodušenie výpočtov až po moderné počítače. Ako sa spoločnosť vyvíjala, začali sa hromadiť rôzne druhy tabuľkových údajov, automatizácia práce sa začala tabuľovačmi a v 19. a 20. storočí boli navrhnuté mnohé nové metódy vytvárania a zhromažďovania údajov. Potreba pracovať s veľkým množstvom údajov sa dlho chápala, no neboli financie, preto tie utopické projekty ako „Librarium“ od Paula Otleta alebo fantastický systém na predpovedanie počasia s využitím práce 60-tisíc ľudí. - kalkulačky.

Počítač sa dnes stal univerzálnym nástrojom na prácu s údajmi, hoci bol koncipovaný len na automatizáciu výpočtov. Myšlienka použiť počítač na spracovanie údajov vznikla v IBM desať rokov po vynájdení digitálnych programovateľných počítačov a predtým sa na spracovanie údajov používali dierovacie zariadenia Unit Record, ktoré vynašiel Herman Hollerith. Nazývali sa Unit Records, teda jeden záznam – každá karta obsahovala celý záznam týkajúci sa akéhokoľvek jedného objektu. Prvé počítače nevedeli pracovať s veľkými dátami – až s príchodom jednotiek na diskoch a páskach boli schopné konkurovať počítačovo-výpočtovým staniciam, ktoré existovali do konca 60. rokov. Mimochodom, odkaz Unit Record je jasne vysledovateľný v relačných databázach.

Jednoduchosť je kľúčom k úspechu

Rast objemov nespracovaných dát spolu s potrebou ich analýzy v reálnom čase si vyžaduje vytvorenie a implementáciu nástrojov, ktoré umožnia efektívne riešiť takzvaný problém Big Data Analytics. Technológie Information Builders vám umožňujú pracovať s údajmi z akéhokoľvek zdroja v reálnom čase vďaka rôznym adaptérom a architektúre Enterprise Service Bus. Nástroj WebFOCUS vám umožňuje analyzovať údaje za chodu a umožňuje vám vizualizovať výsledky tým najlepším spôsobom pre používateľa.

Na základe technológie RSTAT vytvoril Information Builders produkt prediktívnej analýzy, ktorý umožňuje prediktívne predpovedanie scenára typu „čo ak“ a „čo pre prípad“.

Technológie business intelligence prišli do Ruska, ale len niekoľko ruských spoločností používa prediktívnu analýzu, čo je spôsobené nízkou kultúrou využívania business intelligence v domácich podnikoch a zložitosťou vnímania existujúcich analytických metód obchodným používateľom. S ohľadom na túto skutočnosť dnes Information Builders ponúka produkty, ktoré analytici Gartner považujú za najjednoduchšie na používanie.

– Michail Strojev([e-mail chránený]), riaditeľ pre rozvoj podnikania v Rusku a SNŠ, InfoBuild CIS (Moskva).

Dáta sú všade

S postupnou transformáciou počítačov z počítacích zariadení na stroje na všeobecné spracovanie údajov sa približne po roku 1970 začali objavovať nové pojmy: údaje ako produkty; dátové nástroje; aplikácie implementované príslušnou organizáciou (údajová aplikácia); veda o údajoch; dátových vedcov a dokonca aj novinárov, ktorí prinášajú informácie obsiahnuté v dátach širokej verejnosti (dátový novinár).

Dnes sa rozšírili aplikácie triedy dátových aplikácií, ktoré nevykonávajú iba operácie s dátami, ale extrahujú z nich ďalšie hodnoty a vytvárajú produkty vo forme dát. Medzi prvé aplikácie tohto typu patrí databáza audio diskov CDDB, ktorá na rozdiel od tradičných databáz vznikla extrakciou údajov z diskov a ich spojením s metadátami (názvy diskov, skladieb a pod.). Táto základňa leží v srdci služby Apple iTunes. Jedným z faktorov komerčného úspechu Google bolo aj uvedomenie si úlohy dátovej aplikácie – vlastníctvo dát umožňuje tejto spoločnosti veľa „vedieť“ pomocou dát, ktoré sa nachádzajú mimo požadovanej stránky (algoritmus PageRank). Google problém správneho pravopisu vyriešil celkom jednoducho – na tento účel sa vytvorí databáza chýb a opráv a používateľovi sa ponúknu opravy, ktoré môže prijať alebo odmietnuť. Podobný prístup sa používa na rozpoznávanie počas hlasového vstupu - je založený na nahromadených zvukových údajoch.

V roku 2009, počas vypuknutia prasacej chrípky, analýza dopytov do vyhľadávačov umožnila sledovať šírenie epidémie. Mnoho spoločností (Facebook, LinkedIn, Amazon atď.) sa vydalo cestou Google, ktoré nielen poskytujú služby, ale nahromadené dáta využívajú aj na iné účely. Schopnosť spracovávať tento typ údajov dala impulz vzniku ďalšej vedy o populácii – občianskej vedy. Výsledky získané komplexnou analýzou údajov o populácii poskytujú oveľa hlbšie poznatky o ľuďoch a lepšie informované administratívne a obchodné rozhodnutia. Zber údajov a nástrojov na prácu s nimi sa dnes nazýva infoware.

Big Data Machine

Dátové sklady, internetové obchody, fakturačné systémy alebo akákoľvek iná platforma, ktorú možno zaradiť medzi Big Data projekty, má zvyčajne jedinečné špecifiká a pri ich návrhu je hlavnou vecou integrácia s priemyselnými dátami, ktorá zabezpečuje procesy akumulácie dát, ich organizáciu a analytiku.

Spoločnosť Oracle poskytla integrované riešenie Oracle Big Data Appliance na podporu Big Data reťazca optimalizovaného hardvéru s úplným softvérovým balíkom a 18 servermi Sun X4270 M2. Prepojenie je založené na 40 Gbps Infiniband a 10-gigabitovom Ethernete. Oracle Big Data Appliance zahŕňa kombináciu open source a proprietárneho softvéru od Oracle.

Úložné systémy Key-value alebo NoSQL DBMS sú dnes uznávané ako hlavné vo svete veľkých dát a sú optimalizované na rýchle zhromažďovanie dát a prístup k nim. Ako taký DBMS pre Oracle Big Data Appliance sa používa DBMS založený na Oracle Berkley DB, ktorý ukladá informácie o topológii úložného systému, distribuuje údaje a chápe, kam možno údaje umiestniť s čo najmenším časom.

Riešenie Oracle Loader for Hadoop využíva technológiu MapReduce na vytváranie optimalizovaných množín údajov na načítanie a analýzu v Oracle 11g. Dáta sú generované v „natívnom“ formáte Oracle DBMS, čo minimalizuje využitie systémových zdrojov. Naformátované údaje sa spracujú v klastri a potom je možné k údajom pristupovať z pracovných staníc tradičných používateľov RDBMS pomocou štandardných príkazov SQL alebo nástrojov business intelligence. Integrácia údajov Hadoop a Oracle DBMS sa vykonáva pomocou riešenia Oracle Data Integrator.

Oracle Big Data Appliance sa dodáva s open source distribúciou Apache Hadoop vrátane HDFS a ďalších komponentov, open source distribúciou štatistického balíka R pre analýzu nespracovaných údajov a Oracle Enterprise Linux 5.6. Podniky, ktoré už Hadoop používajú, môžu integrovať dáta hostované na HDFS do Oracle DBMS pomocou funkcionality externých tabuliek a nie je potrebné okamžite načítať dáta do DBMS – externé dáta je možné použiť v spojení s internými dátami databázy Oracle pomocou SQL príkazov.

Infiniband konektivita medzi Oracle Big Data Appliance a Oracle Exadata poskytuje vysokorýchlostné dátové prenosy pre dávkové spracovanie alebo SQL dotazy. Oracle Exadata poskytuje výkon, ktorý potrebujete pre dátové sklady a online aplikácie na spracovanie transakcií.

Nový produkt Oracle Exalytics možno použiť na riešenie úloh business intelligence a je optimalizovaný na používanie Oracle Business Intelligence Enterprise Edition so spracovaním v pamäti.

– Vladimír Demkin ([e-mail chránený]), hlavný konzultant pre Oracle Exadata v Oracle CIS (Moskva).

Veda a špecialisti

Autor správy "What is Data Science?" (What is Data Science?), Publikované v sérii O'Reilly Radar Report, Mike Lukidis napísal: "Budúcnosť patrí spoločnostiam a ľuďom, ktorí dokážu premeniť dáta na produkty." Tento výrok mimovoľne pripomína známe slová Rothschilda: „Kto vlastní informácie – ten vlastní svet“, ktoré vyslovil, keď sa o Napoleonovej porážke pri Waterloo dozvedel skôr ako ostatní a obrátil podvod s cennými papiermi. Dnes stojí za to preformulovať tento aforizmus: "Svet vlastní ten, kto vlastní údaje a technológie na ich analýzu." Karl Marx, ktorý žil o niečo neskôr, ukázal, že priemyselná revolúcia rozdelila ľudí na dve skupiny – tých, ktorí vlastnia výrobné prostriedky a tých, ktorí pre nich pracujú. Vo všeobecnosti sa niečo podobné deje aj teraz, ale predmetom vlastníctva a delenia funkcií teraz nie sú prostriedky výroby materiálnych hodnôt, ale prostriedky produkcie údajov a informácií. A práve tu vznikajú problémy – ukazuje sa, že vlastniť dáta je oveľa náročnejšie ako vlastniť hmotný majetok, tie prvé sa jednoducho replikujú a pravdepodobnosť ich krádeže je oveľa vyššia ako krádeže hmotného majetku. Okrem toho existujú techniky legálneho spravodajstva - s dostatočným objemom a vhodnými analytickými metódami môžete "vypočítať", čo sa skrýva. To je dôvod, prečo sa teraz venuje toľko pozornosti analýze veľkých dát (pozri bočný panel) a tomu, ako sa pred ňou chrániť.

Rôzne aktivity s údajmi a predovšetkým poznatky o metódach extrakcie informácií sa nazývajú data science, čo je prinajmenšom v preklade do ruštiny trochu dezorientujúce, pretože sa netýka nejakej novej akademickej vedy, ale interdisciplinárneho súboru poznatkov. a zručnosti potrebné na získanie vedomostí. Zloženie takéhoto súboru do značnej miery závisí od oblasti, no možno rozlíšiť viac-menej zovšeobecnené kvalifikačné požiadavky na špecialistov, ktorí sa nazývajú dátoví vedci. Najlepšie to dokázal Drew Conway, ktorý sa v minulosti podieľal na analýze údajov o teroristických hrozbách v jednej z amerických spravodajských služieb. Hlavné tézy jeho dizertačnej práce sú publikované v štvrťročnom časopise IQT Quarterly, ktorý vydáva In-Q-Tel, ktorý pôsobí ako sprostredkovateľ medzi americkou CIA a vedeckými organizáciami.

Conway znázornil svoj model ako Vennov diagram (pozri obrázok) predstavujúci tri oblasti vedomostí a zručností, ktoré je potrebné ovládať a mať, aby sa stal dátovým vedcom. Hackerské schopnosti by sa nemali chápať ako zlomyseľné činy, v tomto prípade sa to nazýva kombinácia vlastnenia určitého súboru nástrojov so špeciálnym analytickým myslením, akým je Hercule Poirot, alebo možno túto schopnosť možno nazvať deduktívnou metódou Sherlocka Holmesa. Na rozdiel od skvelých detektívov stále musíte byť odborníkom na množstvo matematických oblastí a rozumieť danej problematike. Strojové učenie sa tvorí na priesečníku prvých dvoch oblastí, na priesečníku druhej a tretej - tradičných metód. Tretia oblasť priesečníka je nebezpečná pre špekulatívnosť, bez matematických metód nemôže existovať objektívna vízia. Na priesečníku všetkých troch zón leží dátová veda.

Conwayov diagram poskytuje zjednodušený obraz; po prvé, nielen strojové učenie leží na priesečníku hackerských a matematických kruhov a po druhé, veľkosť posledného kruhu je oveľa väčšia, dnes zahŕňa mnoho disciplín a technológií. Strojové učenie je len jednou z oblastí umelej inteligencie spojenej s konštrukciou algoritmov schopných učenia sa, delí sa na dve podoblasti: precedenčné alebo induktívne učenie, ktoré odhaľuje skryté vzorce v dátach, a deduktívne, zamerané na formalizáciu odborných znalostí. Strojové učenie sa tiež delí na supervizované učenie, pri ktorom sa študujú klasifikačné metódy založené na vopred pripravených trénovacích dátových súboroch, a na učenie bez dozoru, pri ktorom sa pomocou zhlukovej analýzy hľadajú interné vzorce.

Big Data teda nie sú špekulatívne myslenie, ale symbol predbiehajúcej technickej revolúcie. Potreba analytickej práce s veľkými dátami dramaticky zmení tvár IT priemyslu a podnieti vznik nových softvérových a hardvérových platforiem. Už dnes sa na analýzu veľkého množstva údajov používajú najpokročilejšie metódy: umelé neurónové siete – modely postavené na princípe organizácie a fungovania biologických neurónových sietí; metódy prediktívnej analytiky, štatistiky a spracovania prirodzeného jazyka (oblasť umelej inteligencie a matematickej lingvistiky, štúdium problematiky počítačovej analýzy a syntézy prirodzených jazykov). Používajú sa aj metódy, ktoré priťahujú ľudských expertov, alebo crowdsourcing, A/B testovanie, analýza sentimentu atď. Na vizualizáciu výsledkov sa používajú známe metódy, napríklad tag clouds a úplne nový Clustergram, History Flow a Spatial Information Flow .

Zo strany Big Data technológií ich podporujú distribuované súborové systémy Google File System, Cassandra, HBase, Luster a ZFS, softvérové konštrukcie MapReduce a Hadoop a mnohé ďalšie riešenia. Podľa odborníkov, ako je McKinsey Institute, pod vplyvom Big Data prejdú najväčšou premenou sféry výroby, zdravotníctva, obchodu, administratívy a sledovania jednotlivých pohybov.