बड़ा डेटा बड़ा डेटा विश्लेषण। सादगी ही सफलता की कुंजी है

अनुसंधान और प्रवृत्तियों से सामग्री के आधार पर

बिग डेटा, "बिग डेटा" कई वर्षों से आईटी और मार्केटिंग प्रेस में शहर की चर्चा बन गया है। और यह समझ में आता है: डिजिटल प्रौद्योगिकियों ने एक आधुनिक व्यक्ति के जीवन में प्रवेश किया है, "सब कुछ लिखा है"। जीवन के विभिन्न पहलुओं पर डेटा की मात्रा बढ़ रही है, और साथ ही, जानकारी संग्रहीत करने की संभावनाएं बढ़ रही हैं।

जानकारी संग्रहीत करने के लिए वैश्विक प्रौद्योगिकियां

स्रोत: हिल्बर्ट और लोपेज़, 'दुनिया की तकनीकी क्षमता स्टोर करने, संचार करने और जानकारी की गणना करने के लिए,' विज्ञान, 2011 ग्लोबल।

अधिकांश विशेषज्ञ इस बात से सहमत हैं कि डेटा वृद्धि का त्वरण एक वस्तुनिष्ठ वास्तविकता है। सामाजिक नेटवर्क, मोबाइल उपकरण, माप उपकरणों से डेटा, व्यावसायिक जानकारी कुछ ऐसे स्रोत हैं जो बड़ी मात्रा में जानकारी उत्पन्न कर सकते हैं। शोध के अनुसार आईडीसीडिजिटल ब्रह्मांड 2012 में प्रकाशित, अगले 8 वर्षों में दुनिया में डेटा की मात्रा 40 Zb (zettabytes) तक पहुंच जाएगी, जो कि ग्रह के प्रत्येक निवासी के लिए 5200 GB के बराबर है।

संयुक्त राज्य अमेरिका में एकत्रित डिजिटल सूचना का विकास

स्रोत: आईडीसी

जानकारी का एक महत्वपूर्ण हिस्सा लोगों द्वारा नहीं, बल्कि रोबोट द्वारा बनाया जाता है जो एक दूसरे के साथ और अन्य डेटा नेटवर्क के साथ बातचीत करते हैं, जैसे, उदाहरण के लिए, सेंसर और स्मार्ट डिवाइस। इस तरह की वृद्धि दर के साथ, दुनिया में डेटा की मात्रा, शोधकर्ताओं के पूर्वानुमान के अनुसार, सालाना दोगुनी हो जाएगी। नए डेटा केंद्रों के विस्तार और निर्माण के कारण दुनिया में आभासी और भौतिक सर्वरों की संख्या दस गुना बढ़ जाएगी। इस संबंध में, इस डेटा के प्रभावी उपयोग और मुद्रीकरण की आवश्यकता बढ़ रही है। चूंकि व्यवसाय में बिग डेटा के उपयोग के लिए बहुत अधिक निवेश की आवश्यकता होती है, इसलिए आपको स्थिति को स्पष्ट रूप से समझने की आवश्यकता है। और यह, संक्षेप में, सरल है: आप लागत कम करके और / और बिक्री बढ़ाकर अपने व्यवसाय की दक्षता बढ़ा सकते हैं।

बिग डेटा किसके लिए है?

बिग डेटा प्रतिमान तीन मुख्य प्रकार के कार्यों को परिभाषित करता है।

सैकड़ों टेराबाइट्स या डेटा के पेटाबाइट्स का भंडारण और प्रबंधन जो पारंपरिक रिलेशनल डेटाबेस प्रभावी ढंग से उपयोग नहीं कर सकते हैं।
पाठ, छवियों, वीडियो और अन्य प्रकार के डेटा से युक्त असंरचित जानकारी का संगठन।
बिग डेटा विश्लेषण, जो इस सवाल को उठाता है कि असंरचित जानकारी के साथ कैसे काम किया जाए, विश्लेषणात्मक रिपोर्ट तैयार की जाए और भविष्य कहनेवाला मॉडल लागू किया जाए।

बिग डेटा प्रोजेक्ट मार्केट बिजनेस इंटेलिजेंस (बीए) मार्केट के साथ प्रतिच्छेद करता है, जिसकी मात्रा दुनिया में, विशेषज्ञों के अनुसार, 2012 में लगभग 100 बिलियन डॉलर थी। इसमें नेटवर्किंग तकनीक, सर्वर, सॉफ्टवेयर और तकनीकी सेवाओं के घटक शामिल हैं।

साथ ही, कंपनियों की गतिविधियों को स्वचालित करने के लिए डिज़ाइन की गई आय गारंटी (आरए) वर्ग के समाधान के लिए बिग डेटा प्रौद्योगिकियों का उपयोग प्रासंगिक है। आधुनिक आय गारंटी प्रणालियों में विसंगतियों का पता लगाने और गहन डेटा विश्लेषण के लिए उपकरण शामिल हैं, जो संभावित नुकसान या सूचना के विरूपण का समय पर पता लगाने की अनुमति देते हैं जिससे वित्तीय परिणामों में कमी आ सकती है। इस पृष्ठभूमि के खिलाफ, रूसी कंपनियां, घरेलू बाजार में बिग डेटा प्रौद्योगिकियों की मांग की पुष्टि करती हैं, ध्यान दें कि रूस में बिग डेटा के विकास को प्रोत्साहित करने वाले कारक डेटा की वृद्धि, प्रबंधकीय निर्णय लेने में तेजी और उनकी वृद्धि में वृद्धि हैं। गुणवत्ता।

बिग डेटा के साथ काम करने से क्या रोकता है

आज, संचित डिजिटल डेटा का केवल 0.5% विश्लेषण किया जाता है, इस तथ्य के बावजूद कि वस्तुनिष्ठ रूप से उद्योग-व्यापी कार्य हैं जिन्हें बिग डेटा वर्ग के विश्लेषणात्मक समाधानों का उपयोग करके हल किया जा सकता है। विकसित आईटी बाजारों में पहले से ही ऐसे परिणाम हैं जिनका उपयोग बड़े डेटा के संचय और प्रसंस्करण से जुड़ी अपेक्षाओं का आकलन करने के लिए किया जा सकता है।

उच्च लागत के अलावा, बिग डेटा परियोजनाओं के कार्यान्वयन में बाधा डालने वाले मुख्य कारकों में से एक माना जाता है संसाधित किए जाने वाले डेटा को चुनने की समस्या: यानी, यह निर्धारित करना कि कौन से डेटा को पुनर्प्राप्त, संग्रहीत और विश्लेषण किया जाना चाहिए, और जिसे ध्यान में नहीं रखा जाना चाहिए।

कई व्यवसाय प्रतिनिधि ध्यान देते हैं कि बिग डेटा परियोजनाओं को लागू करने में कठिनाइयाँ विशेषज्ञों - विपणक और विश्लेषकों की कमी से जुड़ी हैं। बिग डेटा में निवेश पर वापसी की दर सीधे गहरे और भविष्य कहनेवाला विश्लेषण में लगे कर्मचारियों के काम की गुणवत्ता पर निर्भर करती है। किसी संगठन में पहले से मौजूद डेटा की विशाल क्षमता अक्सर पुरानी व्यावसायिक प्रक्रियाओं या आंतरिक नियमों के कारण स्वयं विपणक द्वारा प्रभावी ढंग से उपयोग नहीं की जा सकती है। इसलिए, बिग डेटा परियोजनाओं को अक्सर व्यवसायों द्वारा न केवल कार्यान्वयन में, बल्कि परिणामों का आकलन करने में भी मुश्किल माना जाता है: एकत्रित डेटा का मूल्य। डेटा के साथ काम करने की बारीकियों के लिए विपणक और विश्लेषकों को प्रौद्योगिकी से अपना ध्यान हटाने और विशिष्ट व्यावसायिक समस्याओं को हल करने के लिए रिपोर्ट बनाने की आवश्यकता होती है।

बड़ी मात्रा में और डेटा प्रवाह की उच्च गति के कारण, डेटा संग्रह की प्रक्रिया में वास्तविक समय में ईटीएल प्रक्रियाएं शामिल होती हैं। सन्दर्भ के लिए:ईटीएल - सेअंग्रेज़ीनिचोड़, परिवर्तन, भार- शाब्दिक रूप से "निष्कर्षण, परिवर्तन, लोडिंग") - प्रबंधन में मुख्य प्रक्रियाओं में से एक डेटा वेयरहाउस, जिसमें शामिल हैं: बाहरी स्रोतों से डेटा निकालना, उन्हें बदलना और जरूरतों को पूरा करने के लिए सफाई ईटीएल को न केवल एक एप्लिकेशन से दूसरे एप्लिकेशन में डेटा ट्रांसफर करने की प्रक्रिया के रूप में देखा जाना चाहिए, बल्कि विश्लेषण के लिए डेटा तैयार करने के एक उपकरण के रूप में भी देखा जाना चाहिए।

और फिर बाहरी स्रोतों से आने वाले डेटा की सुरक्षा सुनिश्चित करने के मुद्दों में एकत्रित जानकारी की मात्रा के अनुरूप समाधान होना चाहिए। चूंकि बिग डेटा विश्लेषण के तरीके अब तक केवल डेटा की मात्रा में वृद्धि के बाद विकसित हो रहे हैं, डेटा तैयार करने और एकत्रीकरण के नए तरीकों का उपयोग करने के लिए विश्लेषणात्मक प्लेटफार्मों की संपत्ति द्वारा एक महत्वपूर्ण भूमिका निभाई जाती है। इससे पता चलता है कि, उदाहरण के लिए, संभावित ग्राहकों का डेटा या ऑनलाइन स्टोर साइटों पर क्लिक के इतिहास के साथ एक विशाल डेटा वेयरहाउस विभिन्न समस्याओं को हल करने के लिए दिलचस्प हो सकता है।

मुश्किलें नहीं रुकती

बिग डेटा के कार्यान्वयन के साथ सभी कठिनाइयों के बावजूद, व्यवसाय इस क्षेत्र में निवेश बढ़ाने का इरादा रखता है। गार्टनर के आंकड़ों के अनुसार, 2013 में दुनिया की 64% सबसे बड़ी कंपनियों ने पहले ही निवेश कर दिया है, या अपने व्यवसाय के लिए बिग डेटा के क्षेत्र में प्रौद्योगिकियों की तैनाती में निवेश करने की योजना बना रही है, जबकि 2012 में यह 58% थी। गार्टनर के एक अध्ययन के अनुसार, बिग डेटा में निवेश करने वाले उद्योगों के नेता मीडिया कंपनियां, दूरसंचार, बैंकिंग और सेवा कंपनियां हैं। रेडियो फ्रीक्वेंसी आइडेंटिफिकेशन टूल्स, लॉजिस्टिक्स और प्रतिकृति सिस्टम (अंग्रेजी से। फिर से भरना- संचय, पुनःपूर्ति - आर एंड टी), साथ ही वफादारी कार्यक्रमों से। सफल खुदरा अनुभव बाजार में अन्य उद्योगों को बड़े डेटा का मुद्रीकरण करने के लिए नए और प्रभावी तरीके खोजने के लिए प्रोत्साहित करते हैं ताकि उनके विश्लेषण को ऐसे संसाधन में बदल सकें जो व्यवसाय विकास के लिए काम करता है। इसके लिए धन्यवाद, विशेषज्ञों के पूर्वानुमानों के अनुसार, 2020 तक की अवधि में, प्रबंधन और भंडारण में निवेश प्रति गीगाबाइट डेटा $ 2 से घटकर $ 0.2 हो जाएगा, लेकिन बिग डेटा के तकनीकी गुणों का अध्ययन और विश्लेषण केवल बढ़ेगा 40%।

बिग डेटा के क्षेत्र में विभिन्न निवेश परियोजनाओं में प्रस्तुत लागत एक अलग प्रकृति की है। लागत आइटम कुछ निर्णयों के आधार पर चुने गए उत्पादों के प्रकारों पर निर्भर करते हैं। विशेषज्ञों के अनुसार, निवेश परियोजनाओं में लागत का सबसे बड़ा हिस्सा डेटा एकत्र करने, संरचित करने, सफाई और प्रबंधन से संबंधित उत्पादों पर पड़ता है।

यह कैसे किया है

सॉफ्टवेयर और हार्डवेयर के कई संयोजन हैं जो आपको सोशल मीडिया और मोबाइल एप्लिकेशन से लेकर बिजनेस डेटा माइनिंग और विज़ुअलाइज़ेशन तक विभिन्न व्यावसायिक विषयों के लिए प्रभावी बिग डेटा समाधान बनाने की अनुमति देते हैं। बिग डेटा का एक महत्वपूर्ण लाभ व्यापार में व्यापक रूप से उपयोग किए जाने वाले डेटाबेस के साथ नए टूल की संगतता है, जो विशेष रूप से क्रॉस-डिसिप्लिनरी प्रोजेक्ट्स के साथ काम करते समय महत्वपूर्ण है, उदाहरण के लिए, जैसे मल्टी-चैनल बिक्री और ग्राहक सहायता का आयोजन।

बिग डेटा के साथ काम करने के क्रम में डेटा एकत्र करना, रिपोर्ट और डैशबोर्ड का उपयोग करके प्राप्त जानकारी को संरचित करना, अंतर्दृष्टि और संदर्भ बनाना और कार्रवाई के लिए सिफारिशें तैयार करना शामिल है। चूंकि बिग डेटा के साथ काम करने का तात्पर्य डेटा एकत्र करने के लिए उच्च लागत है, जिसके परिणाम पहले से ज्ञात नहीं हैं, मुख्य कार्य यह स्पष्ट रूप से समझना है कि डेटा किस लिए है, न कि यह कितना उपलब्ध है। इस मामले में, डेटा का संग्रह जानकारी प्राप्त करने की प्रक्रिया में बदल जाता है जो विशिष्ट समस्याओं को हल करने के लिए विशेष रूप से आवश्यक है।

उदाहरण के लिए, दूरसंचार प्रदाता जियोलोकेशन डेटा सहित बड़ी मात्रा में डेटा एकत्र करते हैं, जिसे लगातार अपडेट किया जाता है। यह जानकारी विज्ञापन एजेंसियों के लिए व्यावसायिक हित की हो सकती है जो इसका उपयोग लक्षित और स्थानीय विज्ञापनों के साथ-साथ खुदरा विक्रेताओं और बैंकों की सेवा के लिए कर सकती हैं। इस तरह के डेटा लोगों के एक शक्तिशाली लक्ष्य प्रवाह की उपस्थिति पर डेटा के आधार पर एक निश्चित स्थान पर खुदरा आउटलेट खोलने का निर्णय लेने में महत्वपूर्ण भूमिका निभा सकते हैं। लंदन में बिलबोर्ड विज्ञापन की प्रभावशीलता को मापने का एक उदाहरण है। अब इस तरह के विज्ञापन की पहुंच को केवल लोगों को एक विशेष उपकरण के साथ रखकर मापा जा सकता है जो विज्ञापन संरचनाओं के पास राहगीरों की गणना करता है। विज्ञापन की प्रभावशीलता को मापने के इस प्रकार की तुलना में, एक मोबाइल ऑपरेटर के पास बहुत अधिक अवसर होते हैं - यह अपने ग्राहकों का स्थान जानता है, यह उनकी जनसांख्यिकीय विशेषताओं, लिंग, आयु, वैवाहिक स्थिति आदि को जानता है।

इस तरह के डेटा के आधार पर, भविष्य में, बिलबोर्ड से गुजरने वाले किसी विशेष व्यक्ति की प्राथमिकताओं का उपयोग करके, विज्ञापन संदेश की सामग्री को बदलने की संभावना खुलती है। यदि डेटा से पता चलता है कि एक व्यक्ति बहुत यात्रा करता है, तो उन्हें एक रिसॉर्ट के लिए एक विज्ञापन दिखाया जा सकता है। एक फुटबॉल मैच के आयोजक प्रशंसकों की संख्या का अनुमान तभी लगा सकते हैं जब वे मैच में आएं। लेकिन अगर वे मैच से एक घंटे पहले, दिन या महीने में आगंतुक कहां थे, इस बारे में जानकारी के लिए मोबाइल ऑपरेटर से पूछने में सक्षम थे, तो इससे आयोजकों को अगले मैचों के विज्ञापन के लिए स्थानों की योजना बनाने का मौका मिलेगा।

एक और उदाहरण है कि कैसे बैंक धोखाधड़ी को रोकने के लिए बिग डेटा का उपयोग कर सकते हैं। यदि कोई ग्राहक कार्ड खो जाने का दावा करता है, और इसके साथ खरीदारी करते समय, बैंक वास्तविक समय में ग्राहक के फोन का स्थान खरीद क्षेत्र में देखता है जहां लेनदेन होता है, तो बैंक ग्राहक के अनुरोध पर जानकारी की जांच कर सकता है। यह देखने के लिए कि क्या उसने उसे धोखा देने की कोशिश की है। या विपरीत स्थिति, जब कोई ग्राहक किसी स्टोर में खरीदारी करता है, तो बैंक देखता है कि लेन-देन के लिए इस्तेमाल किया गया कार्ड और ग्राहक का फोन एक ही स्थान पर है, बैंक यह निष्कर्ष निकाल सकता है कि कार्ड का उपयोग उसके मालिक द्वारा किया गया है। बिग डेटा के इन लाभों के लिए धन्यवाद, पारंपरिक डेटा वेयरहाउस जिन सीमाओं से संपन्न हैं, उनका विस्तार हो रहा है।

बिग डेटा समाधानों के कार्यान्वयन पर सफलतापूर्वक निर्णय लेने के लिए, एक कंपनी को एक निवेश मामले की गणना करने की आवश्यकता होती है और यह कई अज्ञात घटकों के कारण बड़ी कठिनाइयों का कारण बनता है। ऐसे मामलों में, विश्लेषिकी का विरोधाभास अतीत के आधार पर भविष्य की भविष्यवाणी कर रहा है, जिसके लिए अक्सर डेटा की कमी होती है। इस मामले में, आपके प्रारंभिक कार्यों की स्पष्ट योजना एक महत्वपूर्ण कारक है:

सबसे पहले, एक विशिष्ट व्यावसायिक समस्या को निर्धारित करना आवश्यक है, जिसके समाधान के लिए बिग डेटा तकनीकों का उपयोग किया जाएगा, यह कार्य चुने हुए अवधारणा की शुद्धता का निर्धारण करने का मूल बन जाएगा। आपको इस कार्य के लिए विशिष्ट डेटा एकत्र करने पर ध्यान केंद्रित करने की आवश्यकता है, और अवधारणा का प्रमाण आपको भविष्य में अधिक सूचित निर्णय लेने में मदद करने के लिए विभिन्न उपकरणों, प्रक्रियाओं और प्रबंधन तकनीकों का उपयोग करने में सक्षम करेगा।
दूसरा, यह संभावना नहीं है कि डेटा एनालिटिक्स कौशल और अनुभव के बिना एक कंपनी बिग डेटा प्रोजेक्ट को सफलतापूर्वक लागू करने में सक्षम होगी। आवश्यक ज्ञान हमेशा विश्लेषिकी में पिछले अनुभव से उपजा है, जो डेटा के साथ काम करने की गुणवत्ता को प्रभावित करने वाला मुख्य कारक है। डेटा का उपयोग करने की संस्कृति महत्वपूर्ण है क्योंकि अक्सर जानकारी के विश्लेषण से व्यवसाय के बारे में कठोर सच्चाई का पता चलता है, और इस सच्चाई को स्वीकार करने और इसके साथ काम करने के लिए, आपको डेटा के साथ काम करने के विकसित तरीकों की आवश्यकता होती है।
तीसरा, बिग डेटा प्रौद्योगिकियों का मूल्य अंतर्दृष्टि प्रदान करने में निहित है।अच्छे विश्लेषक बाजार में कम आपूर्ति में रहते हैं। उन्हें ऐसे विशेषज्ञों के रूप में संदर्भित करने की प्रथा है, जिन्हें डेटा के व्यावसायिक अर्थ की गहरी समझ है और यह जानते हैं कि इसका सही उपयोग कैसे किया जाए। डेटा विश्लेषण व्यावसायिक लक्ष्यों को प्राप्त करने का एक साधन है, और बिग डेटा के मूल्य को समझने के लिए, आपको अपने कार्यों के व्यवहार और समझ के उपयुक्त मॉडल की आवश्यकता है। इस मामले में, बड़ा डेटा उपभोक्ताओं के बारे में उपयोगी जानकारी का खजाना प्रदान करेगा, जिसके आधार पर आप अपने व्यवसाय के लिए उपयोगी निर्णय ले सकते हैं।

इस तथ्य के बावजूद कि रूसी बिग डेटा बाजार अभी बनना शुरू हो रहा है, इस क्षेत्र में व्यक्तिगत परियोजनाएं पहले से ही काफी सफलतापूर्वक लागू की जा रही हैं। उनमें से कुछ डेटा संग्रह के क्षेत्र में सफल हैं, जैसे कि फ़ेडरल टैक्स सर्विस और टिंकॉफ़ क्रेडिट सिस्टम्स बैंक के लिए प्रोजेक्ट, अन्य डेटा विश्लेषण और इसके परिणामों के व्यावहारिक अनुप्रयोग के संदर्भ में: यह Synqera प्रोजेक्ट है।

Tinkoff क्रेडिट सिस्टम्स बैंक ने EMC2 ग्रीनप्लम प्लेटफॉर्म को लागू करने के लिए एक परियोजना लागू की, जो व्यापक समानांतर कंप्यूटिंग के लिए एक उपकरण है। हाल के वर्षों में, बैंक ने क्रेडिट कार्ड उपयोगकर्ताओं की संख्या की उच्च वृद्धि दर के कारण, संचित जानकारी को संसाधित करने और वास्तविक समय में डेटा का विश्लेषण करने की गति के लिए आवश्यकताओं में वृद्धि की है। बैंक ने विशेष रूप से असंरचित डेटा को संसाधित करने और विभिन्न स्रोतों से प्राप्त कॉर्पोरेट जानकारी के साथ काम करने के लिए बिग डेटा प्रौद्योगिकियों के उपयोग का विस्तार करने की योजना की घोषणा की।

रूस की संघीय कर सेवा वर्तमान में संघीय डेटा वेयरहाउस के लिए एक विश्लेषणात्मक परत बना रही है। इसके आधार पर, सांख्यिकीय और विश्लेषणात्मक प्रसंस्करण के लिए कर डेटा तक पहुंच के लिए एक एकीकृत सूचना स्थान और प्रौद्योगिकी का निर्माण किया जा रहा है। परियोजना के कार्यान्वयन के दौरान, संघीय कर सेवा निरीक्षणालय के स्थानीय स्तर के 1200 से अधिक स्रोतों के साथ विश्लेषणात्मक जानकारी को केंद्रीकृत करने के लिए काम किया जा रहा है।

वास्तविक समय के बड़े डेटा विश्लेषण का एक और दिलचस्प उदाहरण रूसी स्टार्टअप सिंकेरा है, जिसने सिम्पलेट प्लेटफॉर्म विकसित किया है। समाधान बड़ी मात्रा में डेटा को संसाधित करने पर आधारित है; कार्यक्रम ग्राहकों, उनके खरीद इतिहास, आयु, लिंग और यहां तक कि मूड के बारे में जानकारी का विश्लेषण करता है। कॉस्मेटिक स्टोर के नेटवर्क में चेकआउट काउंटरों पर, सेंसर के साथ टच स्क्रीन स्थापित किए गए थे जो ग्राहकों की भावनाओं को पहचानते थे। कार्यक्रम किसी व्यक्ति के मूड का पता लगाता है, उसके बारे में जानकारी का विश्लेषण करता है, दिन का समय निर्धारित करता है और स्टोर के डिस्काउंट डेटाबेस को स्कैन करता है, जिसके बाद यह खरीदार को प्रचार और विशेष प्रस्तावों के बारे में लक्षित संदेश भेजता है। यह समाधान ग्राहकों की वफादारी बढ़ाता है और खुदरा बिक्री बढ़ाता है।

यदि हम सफल विदेशी मामलों के बारे में बात करते हैं, तो इस संबंध में, डंकिन डोनट्स में बिग डेटा तकनीकों का उपयोग करने का अनुभव दिलचस्प है, जो उत्पादों को बेचने के लिए रीयल-टाइम डेटा का उपयोग करता है। स्टोर डिस्प्ले में डिजिटल डिस्प्ले दिन के समय और उत्पाद की उपलब्धता के आधार पर हर मिनट वैकल्पिक पेशकश करता है। कंपनी को कैशियर की रसीदों से डेटा प्राप्त होता है, जिसे खरीदारों से सबसे बड़ी प्रतिक्रिया मिली है। डेटा प्रोसेसिंग के इस दृष्टिकोण ने गोदाम में माल के मुनाफे और कारोबार को बढ़ाने की अनुमति दी।

जैसा कि बिग डेटा परियोजनाओं को लागू करने के अनुभव से पता चलता है, इस क्षेत्र को आधुनिक व्यावसायिक समस्याओं को सफलतापूर्वक हल करने के लिए डिज़ाइन किया गया है। उसी समय, बड़े डेटा के साथ काम करते समय व्यावसायिक लक्ष्यों को प्राप्त करने में एक महत्वपूर्ण कारक सही रणनीति का चयन करना है, जिसमें ऐसे विश्लेषण शामिल हैं जो उपभोक्ता मांगों की पहचान करते हैं, साथ ही साथ बिग डेटा के क्षेत्र में नवीन तकनीकों का उपयोग भी करते हैं।

2012 के बाद से कंपनी मार्केटर्स के बीच इकोन्सल्टेंसी और एडोब द्वारा सालाना किए गए एक वैश्विक सर्वेक्षण के अनुसार, इंटरनेट पर लोग कैसे व्यवहार करते हैं, इस बारे में "बड़ा डेटा" बहुत कुछ कर सकता है। वे ऑफ़लाइन व्यावसायिक प्रक्रियाओं को अनुकूलित करने में सक्षम हैं, यह समझने में मदद करते हैं कि मोबाइल उपकरणों के मालिक उनका उपयोग जानकारी खोजने के लिए कैसे करते हैं, या बस "विपणन को बेहतर बनाते हैं", अर्थात। अधिक कुशल। इसके अलावा, अंतिम फ़ंक्शन साल-दर-साल अधिक से अधिक लोकप्रिय होता है, जैसा कि हमारे द्वारा दिए गए आरेख से होता है।

ग्राहक संबंधों के संदर्भ में इंटरनेट विपणक के लिए कार्य के प्रमुख क्षेत्र

एक स्रोत: परामर्श और एडोब, प्रकाशित- emarketer.com

ध्यान दें कि उत्तरदाताओं की राष्ट्रीयता ज्यादा मायने नहीं रखती है। 2013 में केपीएमजी द्वारा किए गए एक सर्वेक्षण के अनुसार, "आशावादी" का हिस्सा, अर्थात। व्यापार रणनीति विकसित करने में बिग डेटा का उपयोग करने वालों की संख्या 56% है, और एक क्षेत्र से दूसरे क्षेत्र में उतार-चढ़ाव छोटे हैं: उत्तरी अमेरिकी देशों में 63% से ईएमईए में 50% तक।

दुनिया के विभिन्न क्षेत्रों में बिग डेटा का उपयोग करना

एक स्रोत: केपीएमजी, प्रकाशित- emarketer.com

इस बीच, इस तरह के "फैशन के रुझान" के लिए विपणक का रवैया कुछ हद तक प्रसिद्ध किस्से की याद दिलाता है:

मुझे बताओ, वानो, क्या तुम्हें टमाटर पसंद हैं?
- मुझे खाना पसंद है, लेकिन मैं नहीं।

इस तथ्य के बावजूद कि विपणक मौखिक रूप से बिग डेटा को "प्यार" करते हैं और इसका उपयोग भी करते हैं, वास्तव में, "सब कुछ जटिल है," जैसा कि वे सोशल नेटवर्क पर अपने हार्दिक स्नेह के बारे में लिखते हैं।

सर्किल रिसर्च द्वारा जनवरी 2014 में यूरोपीय विपणक के बीच किए गए एक सर्वेक्षण के अनुसार, 5 में से 4 उत्तरदाता बिग डेटा का उपयोग नहीं करते हैं (इस तथ्य के बावजूद कि वे निश्चित रूप से इसे "प्यार" करते हैं)। कारण अलग हैं। कुछ अडिग संशयवादी हैं - 17% और उनके एंटीपोड के समान ही, अर्थात। जो आत्मविश्वास से "हाँ" का उत्तर देते हैं। बाकी झिझकते और शंकालु हैं, "दलदल"। वे "अभी तक नहीं, लेकिन जल्द ही" या "चलो अन्य शुरू होने तक प्रतीक्षा करें" जैसे प्रशंसनीय बहाने के तहत सीधे उत्तर से बचते हैं।

विपणक द्वारा बिग डेटा का उपयोग, यूरोप, जनवरी 2014

एक स्रोत:डीएनएक्स, प्रकाशित -ई-विपणककॉम

उन्हें क्या भ्रमित करता है? सरासर trifles। कुछ (उनमें से बिल्कुल आधे) बस इस डेटा पर विश्वास नहीं करते हैं। अन्य (उनमें से बहुत सारे हैं - 55%) को "डेटा" और "उपयोगकर्ताओं" के सेट को एक दूसरे से जोड़ना मुश्किल लगता है। कुछ लोग (इसे राजनीतिक रूप से सही कहते हैं) आंतरिक कॉर्पोरेट अराजकता है: डेटा मार्केटिंग विभागों और आईटी संरचनाओं के बीच घूम रहा है। दूसरों के लिए, सॉफ्टवेयर काम के प्रवाह का सामना नहीं कर सकता है। आदि। चूंकि कुल शेयर काफी हद तक 100% से अधिक हैं, इसलिए यह स्पष्ट है कि "एकाधिक बाधाओं" की स्थिति अक्सर होती है।

मार्केटिंग में बिग डेटा के उपयोग में आने वाली बाधाएं

एक स्रोत:डीएनएक्स, प्रकाशित -ई-विपणककॉम

इस प्रकार, हमें यह स्वीकार करना होगा कि "बिग डेटा" एक बड़ी क्षमता है जिसका अभी भी उपयोग करने की आवश्यकता है। संयोग से, यही कारण हो सकता है कि बिग डेटा "फैशन प्रवृत्ति" के प्रभामंडल को खो रहा है, जैसा कि पहले से ही उल्लिखित कंपनी इकोन्सल्टेंसी द्वारा किए गए एक सर्वेक्षण के आंकड़ों से पता चलता है।

डिजिटल मार्केटिंग में सबसे महत्वपूर्ण रुझान 2013-2014

एक स्रोत: परामर्श और एडोब

उनकी जगह एक और राजा - कंटेंट मार्केटिंग ले रहा है। कितना लंबा?

यह कहना नहीं है कि बिग डेटा किसी प्रकार की मौलिक रूप से नई घटना है। बड़े डेटा स्रोत लगभग वर्षों से हैं: ग्राहक खरीद, क्रेडिट इतिहास, जीवन शैली पर डेटाबेस। और वर्षों से, वैज्ञानिकों ने इस डेटा का उपयोग कंपनियों को जोखिम का आकलन करने और भविष्य की ग्राहक आवश्यकताओं की भविष्यवाणी करने में मदद करने के लिए किया है। हालाँकि, आज स्थिति दो पहलुओं में बदल गई है:

विभिन्न डेटासेट के विश्लेषण और संयोजन के लिए अधिक परिष्कृत उपकरण और तकनीकें सामने आई हैं;

ये विश्लेषणात्मक उपकरण लगभग सभी डेटा संग्रह और माप विधियों के डिजिटलीकरण द्वारा संचालित नए डेटा स्रोतों के हिमस्खलन द्वारा पूरक हैं।

उपलब्ध जानकारी का दायरा एक संरचित शोध वातावरण में उठाए गए शोधकर्ताओं के लिए प्रेरक और डराने वाला दोनों है। वेबसाइटों और सभी प्रकार के सोशल मीडिया द्वारा उपभोक्ता भावना को पकड़ लिया जाता है। विज्ञापनों को देखने का तथ्य न केवल सेट-टॉप बॉक्स द्वारा रिकॉर्ड किया जाता है, बल्कि डिजिटल टैग और टीवी के साथ संचार करने वाले मोबाइल उपकरणों का भी उपयोग किया जाता है।

व्यवहार संबंधी डेटा (जैसे कॉल की संख्या, खरीदारी की आदतें और खरीदारी) अब वास्तविक समय में उपलब्ध है। इस प्रकार, जो कुछ पहले अनुसंधान के माध्यम से उपलब्ध था, उसे अब बड़े डेटा स्रोतों के माध्यम से सीखा जा सकता है। और ये सभी सूचना परिसंपत्तियां किसी भी शोध प्रक्रिया की परवाह किए बिना लगातार उत्पन्न होती हैं। ये परिवर्तन हमें आश्चर्यचकित करते हैं कि क्या बड़ा डेटा क्लासिक मार्केट रिसर्च की जगह ले सकता है।

यह डेटा के बारे में नहीं है, यह सवालों और जवाबों के बारे में है

क्लासिक अध्ययनों की मौत की घंटी का आदेश देने से पहले, हमें खुद को याद दिलाना चाहिए कि यह किसी विशेष डेटा संपत्ति की उपस्थिति महत्वपूर्ण नहीं है, बल्कि कुछ और है। वास्तव में क्या? सवालों के जवाब देने की हमारी क्षमता क्या है। बड़े डेटा की नई दुनिया के बारे में एक मज़ेदार बात यह है कि नई सूचना संपत्तियों के परिणाम और भी अधिक प्रश्न पैदा करते हैं, और इन सवालों का आमतौर पर पारंपरिक शोध द्वारा सबसे अच्छा उत्तर दिया जाता है। इस प्रकार, जैसे-जैसे बड़ा डेटा बढ़ता है, हम "छोटे डेटा" की उपलब्धता और मांग में समानांतर वृद्धि देखते हैं जो बड़े डेटा की दुनिया से सवालों के जवाब प्रदान कर सकती है।

एक स्थिति पर विचार करें: एक बड़ा विज्ञापनदाता वास्तविक समय में स्टोर ट्रैफ़िक और बिक्री पर लगातार नज़र रखता है। मौजूदा शोध तकनीकें (जिसमें हम पैनलिस्ट से उनकी खरीदारी की प्रेरणा और पीओएस व्यवहार के बारे में पूछते हैं) हमें विशिष्ट ग्राहक खंडों को बेहतर ढंग से लक्षित करने में मदद करते हैं। इन तकनीकों का विस्तार बड़ी डेटा संपत्तियों की एक विस्तृत श्रृंखला को शामिल करने के लिए किया जा सकता है, उस बिंदु तक जहां बड़ा डेटा एक निष्क्रिय निगरानी उपकरण बन जाता है, और अनुसंधान उन परिवर्तनों या घटनाओं पर लगातार केंद्रित अनुसंधान का एक तरीका है जिनके लिए अध्ययन की आवश्यकता होती है। इस तरह बड़ा डेटा शोध के झंझट से मुक्त कर सकता है। प्राथमिक अनुसंधान को अब इस बात पर ध्यान केंद्रित नहीं करना चाहिए कि क्या हो रहा है (बड़ा डेटा होगा)। इसके बजाय, प्राथमिक शोध यह समझाने पर ध्यान केंद्रित कर सकता है कि हम रुझानों से रुझान या विचलन क्यों देखते हैं। शोधकर्ता डेटा प्राप्त करने के बारे में कम और इसका विश्लेषण और उपयोग करने के तरीके के बारे में अधिक सोचने में सक्षम होगा।

साथ ही, हम देखते हैं कि बड़ा डेटा हमारी सबसे बड़ी समस्याओं में से एक को हल करता है - अत्यधिक लंबे शोध की समस्या। अध्ययनों की जांच करने से पता चला है कि अत्यधिक फुलाए गए शोध उपकरण डेटा गुणवत्ता पर नकारात्मक प्रभाव डालते हैं। जबकि कई विशेषज्ञों ने इस समस्या को लंबे समय से स्वीकार किया है, उन्होंने हमेशा यह कहकर जवाब दिया, "लेकिन मुझे वरिष्ठ प्रबंधन के लिए यह जानकारी चाहिए," और लंबे समय तक चुनाव जारी रहे।

बड़े डेटा की दुनिया में, जहां निष्क्रिय अवलोकन के माध्यम से मात्रात्मक संकेतक प्राप्त किए जा सकते हैं, यह मुद्दा विवादास्पद हो जाता है। आइए फिर से उपभोग से संबंधित इन सभी अध्ययनों पर एक नजर डालते हैं। यदि बिग डेटा हमें निष्क्रिय अवलोकन के माध्यम से खपत के बारे में अंतर्दृष्टि देता है, तो सर्वेक्षण के रूप में प्राथमिक शोध को अब इस तरह की जानकारी एकत्र करने की आवश्यकता नहीं है, और हम अंत में न केवल शुभकामनाओं के साथ, बल्कि कुछ के साथ भी लघु सर्वेक्षण के अपने दृष्टिकोण का समर्थन कर सकते हैं। असली।

बिग डेटा को आपकी मदद की जरूरत है

अंत में, "बड़ा" बड़े डेटा की विशेषताओं में से एक है। विशेषता "बड़ा" डेटा के आकार और पैमाने को संदर्भित करता है। बेशक, यह मुख्य विशेषता है, क्योंकि इस डेटा की मात्रा हमारे द्वारा पहले काम की गई किसी भी चीज़ से आगे निकल जाती है। लेकिन इन नई डेटा धाराओं की अन्य विशेषताएं भी महत्वपूर्ण हैं: वे अक्सर खराब स्वरूपित, असंरचित (या, सबसे अच्छा, आंशिक रूप से संरचित) और अस्पष्टता से भरी होती हैं। डेटा प्रबंधन का उभरता हुआ क्षेत्र, जिसे उपयुक्त रूप से इकाई विश्लेषिकी नाम दिया गया है, का उद्देश्य बड़े डेटा में शोर पर काबू पाने की समस्या को हल करना है। इसका कार्य इन डेटासेट का विश्लेषण करना और यह पता लगाना है कि एक ही व्यक्ति के लिए कितने अवलोकन हैं, कौन से अवलोकन वर्तमान हैं, और कौन से उपयोग योग्य हैं।

बड़ी या छोटी डेटा संपत्तियों के साथ काम करते समय शोर या गलत डेटा को हटाने के लिए इस प्रकार की डेटा सफाई आवश्यक है, लेकिन यह पर्याप्त नहीं है। हमें अपने पिछले अनुभव, विश्लेषण और श्रेणी ज्ञान के आधार पर बड़ी डेटा संपत्तियों के संदर्भ में भी संदर्भ बनाने की आवश्यकता है। वास्तव में, कई विश्लेषक प्रतिस्पर्धात्मक लाभ के स्रोत के रूप में बड़े डेटा में निहित अनिश्चितता को प्रबंधित करने की क्षमता की ओर इशारा करते हैं, क्योंकि यह बेहतर निर्णय लेने में सक्षम बनाता है।

और यहीं पर प्राथमिक अनुसंधान न केवल बड़े डेटा द्वारा खुद को दिनचर्या से मुक्त पाता है, बल्कि बड़े डेटा के ढांचे के भीतर सामग्री निर्माण और विश्लेषण में भी योगदान देता है।

इसका एक प्रमुख उदाहरण सोशल मीडिया पर हमारे मौलिक रूप से भिन्न ब्रांड इक्विटी ढांचे का अनुप्रयोग है। (हम विकसित के बारे में बात कर रहे हैंमिलवर्ड भूराब्रांड वैल्यू मापने का एक नया तरीका सार्थक विभिन्न ढांचा- "महत्वपूर्ण अंतर का प्रतिमान" -आर & टी ) इस मॉडल को विशिष्ट बाजारों में व्यवहार के लिए परीक्षण किया गया है, एक मानक आधार पर लागू किया गया है, और निर्णय समर्थन के लिए अन्य विपणन दिशाओं और सूचना प्रणालियों में लागू करना आसान है। दूसरे शब्दों में, हमारे सर्वेक्षण-संचालित ब्रांड इक्विटी मॉडल (यद्यपि सर्वेक्षण तक सीमित नहीं है) में बड़े डेटा की असंरचित, असंबद्ध और अनिश्चित प्रकृति को दूर करने के लिए आवश्यक सभी गुण हैं।

सोशल मीडिया द्वारा प्रदान किए गए उपभोक्ता भावना के आंकड़ों पर विचार करें। उपभोक्ता भावना में कच्ची चोटियों और घाटियों को अक्सर ऑफ़लाइन ब्रांड इक्विटी और व्यवहार मेट्रिक्स के साथ न्यूनतम रूप से सहसंबद्ध किया जाता है: डेटा में बस बहुत अधिक शोर होता है। लेकिन हम उपभोक्ता भावना, ब्रांड भेदभाव, गतिशीलता, और कच्चे उपभोक्ता भावना डेटा के भेदभाव के हमारे मॉडल को लागू करके उस शोर को कम कर सकते हैं - इन आयामों में सोशल मीडिया डेटा को संसाधित करने और एकत्र करने का एक तरीका।

एक बार जब डेटा हमारे फ्रेमवर्क मॉडल के अनुसार व्यवस्थित हो जाता है, तो पहचाने गए रुझान आमतौर पर ऑफ़लाइन ब्रांड इक्विटी और व्यवहार मेट्रिक्स के साथ मेल खाते हैं। अनिवार्य रूप से, सोशल मीडिया डेटा अपने लिए नहीं बोल सकता। इस उद्देश्य के लिए उनका उपयोग करने के लिए हमारी विशेषज्ञता और ब्रांड-केंद्रित मॉडल की आवश्यकता होती है। जब सोशल मीडिया हमें उस भाषा में व्यक्त की गई अनूठी जानकारी प्रदान करता है जिसका उपयोग उपभोक्ता ब्रांडों का वर्णन करने के लिए करते हैं, तो हमें प्राथमिक शोध को और अधिक प्रभावी बनाने के लिए अपने शोध में उस भाषा का उपयोग करना चाहिए।

छूट अनुसंधान के लाभ

यह हमें इस तथ्य पर वापस लाता है कि बड़ा डेटा अनुसंधान को इतना प्रतिस्थापित नहीं करता है जितना कि यह इसे मुक्त करता है। शोधकर्ताओं को प्रत्येक नए मामले के लिए एक नया अध्ययन बनाने की आवश्यकता से राहत मिलेगी। लगातार बढ़ती बड़ी डेटा संपत्तियों का कई शोध विषयों में लाभ उठाया जा सकता है, जिससे बाद के प्राथमिक शोध विषय में गहराई से उतर सकते हैं और अंतराल को भर सकते हैं। शोधकर्ताओं को अत्यधिक मतदान पर भरोसा करने की आवश्यकता से राहत मिलेगी। इसके बजाय, वे छोटे सर्वेक्षणों का उपयोग कर सकते हैं और सबसे महत्वपूर्ण मापदंडों पर ध्यान केंद्रित कर सकते हैं, जिससे डेटा की गुणवत्ता में सुधार होता है।

इस रिलीज के साथ, शोधकर्ता बड़े डेटा परिसंपत्तियों में सटीकता और अर्थ जोड़ने के लिए अपने सिद्ध सिद्धांतों और विचारों का उपयोग करने में सक्षम होंगे, जिससे सर्वेक्षण अनुसंधान के लिए नए क्षेत्रों की ओर अग्रसर होगा। इस चक्र से रणनीतिक मुद्दों की एक श्रृंखला पर गहरी समझ पैदा होनी चाहिए और अंततः, हमेशा हमारा मुख्य लक्ष्य क्या होना चाहिए - ब्रांड और संचार के संबंध में निर्णयों की गुणवत्ता को सूचित करना और सुधारना।

"बिग डेट" शब्द आज भले ही पहचाना जा सकता है, लेकिन इसके बारे में अभी भी बहुत भ्रम है कि इसका वास्तव में क्या अर्थ है। सच में, अवधारणा लगातार विकसित और संशोधित हो रही है क्योंकि यह कृत्रिम बुद्धिमत्ता, डेटा विज्ञान और इंटरनेट ऑफ थिंग्स सहित डिजिटल परिवर्तन की कई लहरों के पीछे प्रेरक शक्ति बनी हुई है। लेकिन बिग-डेटा तकनीक क्या है और यह हमारी दुनिया को कैसे बदल रही है? आइए इसे समझने की कोशिश करें कि बिग डेटा तकनीक का सार और सरल शब्दों में इसका क्या अर्थ है।

यह सब डिजिटल युग की शुरुआत के बाद से हमारे द्वारा बनाए गए डेटा की मात्रा में एक विस्फोट के साथ शुरू हुआ। यह काफी हद तक कंप्यूटर, इंटरनेट और हमारे आसपास की दुनिया से डेटा "छीनने" में सक्षम प्रौद्योगिकियों के विकास के कारण है। अकेले डेटा कोई नया आविष्कार नहीं है। कंप्यूटर और डेटाबेस के युग से पहले भी, हम कागजी लेनदेन रिकॉर्ड, ग्राहक रिकॉर्ड और संग्रह फ़ाइलों का उपयोग करते थे, जो डेटा हैं। कंप्यूटर, विशेष रूप से स्प्रेडशीट और डेटाबेस ने हमारे लिए बड़े पैमाने पर डेटा को स्टोर और व्यवस्थित करना आसान बना दिया है। अचानक, माउस के एक क्लिक से जानकारी उपलब्ध हो गई।

हालांकि, हम मूल तालिकाओं और डेटाबेस से एक लंबा सफर तय कर चुके हैं। आज हम हर दो दिन में उतना ही डेटा बनाते हैं, जितना हमें शुरुआत से लेकर साल 2000 तक मिला था। यह सही है, हर दो दिन में। और हमारे द्वारा निर्मित डेटा की मात्रा तेजी से बढ़ती जा रही है; 2020 तक, उपलब्ध डिजिटल जानकारी की मात्रा लगभग 5 ज़ेटाबाइट्स से बढ़कर 20 ज़ेटाबाइट्स हो जाएगी।

आजकल हम जो भी कार्य करते हैं वह अपनी छाप छोड़ जाता है। जब भी हम ऑनलाइन जाते हैं, जब हम अपने स्मार्टफोन को सर्च मॉड्यूल से लैस करते हैं, जब हम अपने दोस्तों के साथ सोशल नेटवर्क या चैट आदि के जरिए बात करते हैं तो हम डेटा जेनरेट करते हैं। इसके अलावा, मशीन से उत्पन्न डेटा की मात्रा भी तेजी से बढ़ रही है। डेटा तब उत्पन्न और वितरित किया जाता है जब हमारे स्मार्ट होम डिवाइस एक दूसरे के साथ या उनके होम सर्वर के साथ संचार करते हैं। कारखानों और कारखानों में औद्योगिक उपकरण तेजी से सेंसर से लैस हैं जो डेटा जमा और संचारित करते हैं।

शब्द "बिग-डेटा" इस सभी डेटा के संग्रह और व्यापार सहित क्षेत्रों की एक विस्तृत श्रृंखला में हमारे लाभ के लिए इसका उपयोग करने की हमारी क्षमता को संदर्भित करता है।

बिग-डेटा तकनीक कैसे काम करती है?

बिग डेट सिद्धांत पर काम करता है: जितना अधिक आप किसी विशेष विषय या घटना के बारे में जानते हैं, उतना ही मज़बूती से आप एक नई समझ तक पहुँच सकते हैं और भविष्यवाणी कर सकते हैं कि भविष्य में क्या होगा। अधिक डेटा बिंदुओं की तुलना करने से ऐसे संबंध बनते हैं जो पहले छिपे हुए थे, और ये संबंध हमें सीखने और बेहतर निर्णय लेने की अनुमति देते हैं। यह अक्सर एक प्रक्रिया के माध्यम से किया जाता है जिसमें हमारे द्वारा एकत्र किए जा सकने वाले डेटा से मॉडल बनाना और फिर एक सिमुलेशन चलाना शामिल होता है जो हर बार डेटा बिंदुओं के मूल्यों को समायोजित करता है और ट्रैक करता है कि वे हमारे परिणामों को कैसे प्रभावित करते हैं। यह प्रक्रिया स्वचालित है - आधुनिक विश्लेषिकी प्रौद्योगिकियां इन लाखों सिमुलेशन को चलाएगी, हर संभव चर को तब तक समायोजित करेगी जब तक कि उन्हें एक मॉडल - या एक विचार नहीं मिल जाता है - जो उस समस्या को हल करने में मदद करेगा जिस पर वे काम कर रहे हैं।

बिल गेट्स एक सीडी की कागजी सामग्री पर लटके रहते हैं

कुछ समय पहले तक, डेटा स्प्रेडशीट या डेटाबेस तक सीमित था - और सब कुछ बहुत व्यवस्थित और सुव्यवस्थित था। जो कुछ भी आसानी से पंक्तियों और स्तंभों में व्यवस्थित नहीं किया जा सकता था, उसके साथ काम करना बहुत कठिन माना जाता था और इसे अनदेखा कर दिया जाता था। हालांकि, भंडारण और विश्लेषण में प्रगति का मतलब है कि हम बड़ी मात्रा में विभिन्न प्रकार के डेटा को कैप्चर, स्टोर और संसाधित कर सकते हैं। नतीजतन, आज "डेटा" का मतलब डेटाबेस से लेकर तस्वीरों, वीडियो, साउंड रिकॉर्डिंग, लिखित टेक्स्ट और सेंसर डेटा तक कुछ भी हो सकता है।

इन सभी गड़बड़ डेटा को समझने के लिए, बिग डेटा पर आधारित प्रोजेक्ट अक्सर आर्टिफिशियल इंटेलिजेंस और मशीन लर्निंग का उपयोग करके अत्याधुनिक एनालिटिक्स का उपयोग करते हैं। विशिष्ट डेटा क्या है, यह निर्धारित करने के लिए कंप्यूटरों को सिखाकर - उदाहरण के लिए, पैटर्न पहचान या प्राकृतिक भाषा प्रसंस्करण के माध्यम से - हम उन्हें अपने से अधिक तेज़ और अधिक मज़बूती से मॉडल की पहचान करना सिखा सकते हैं।

बिग डेट का उपयोग कैसे किया जाता है?

सेंसर डेटा, टेक्स्ट, वॉयस, फोटो और वीडियो डेटा के बारे में जानकारी के इस लगातार बढ़ते प्रवाह का मतलब है कि अब हम डेटा का उपयोग उन तरीकों से कर सकते हैं जिनकी कुछ साल पहले कल्पना करना संभव नहीं था। यह लगभग हर उद्योग में व्यापार जगत में क्रांति ला रहा है। व्यवसाय आज अविश्वसनीय सटीकता के साथ भविष्यवाणी कर सकते हैं कि कौन से विशिष्ट प्रकार के ग्राहक खरीदारी करना चाहेंगे, और कब। बिग डेटा कंपनियों को अपना व्यवसाय अधिक कुशलता से करने में भी मदद करता है।

व्यवसाय के दायरे से बाहर भी, बिग-डेटा से संबंधित परियोजनाएं पहले से ही हमारी दुनिया को विभिन्न तरीकों से बदलने में मदद कर रही हैं:

स्वास्थ्य देखभाल में सुधार - डेटा-संचालित दवा उन मॉडलों के लिए बड़ी मात्रा में चिकित्सा जानकारी और छवियों का विश्लेषण करने में सक्षम है जो बीमारी का जल्द पता लगाने और नई दवाओं को विकसित करने में मदद कर सकते हैं।
प्राकृतिक और मानव निर्मित आपदाओं का पूर्वानुमान और प्रतिक्रिया देना। भूकंप आने की संभावना का अनुमान लगाने के लिए सेंसर डेटा का विश्लेषण किया जा सकता है, और मानव व्यवहार पैटर्न संगठनों को जीवित बचे लोगों की सहायता करने में मदद करने के लिए सुराग प्रदान करते हैं। दुनिया भर के युद्ध क्षेत्रों से शरणार्थियों के प्रवाह को ट्रैक और संरक्षित करने के लिए बिग डेट्स तकनीक का भी उपयोग किया जाता है।
अपराध को रोकना। पुलिस बल तेजी से डेटा-संचालित रणनीतियों को अपना रहे हैं जिसमें संसाधनों का बेहतर उपयोग करने और जहां आवश्यक हो, निरुत्साहित करने के लिए अपनी स्वयं की खुफिया और खुले स्रोत की जानकारी शामिल होती है।

बिग-डेटा तकनीक पर सर्वश्रेष्ठ पुस्तकें

सब लोग झूठ बोलते हैं। सर्च इंजन, बिग डेटा और इंटरनेट आपके बारे में सब कुछ जानते हैं।
बड़ा डेटा। एक किताब में सारी तकनीक।
खुशी का उद्योग। कैसे बिग डेटा और नई प्रौद्योगिकियां उत्पादों और सेवाओं में भावना जोड़ने में मदद करती हैं।
विश्लेषिकी में एक क्रांति। ऑपरेशनल एनालिटिक्स के साथ बिग डेटा युग में अपने व्यवसाय को कैसे सुधारें।

बिग-डेटा के साथ समस्याएं

बिग डेट हमें अभूतपूर्व अंतर्दृष्टि और अवसर प्रदान करता है, लेकिन यह उन मुद्दों और प्रश्नों को भी उठाता है जिन्हें संबोधित करने की आवश्यकता है:

डेटा गोपनीयता - आज हम जो बिग-डेटा उत्पन्न करते हैं, उसमें हमारे व्यक्तिगत जीवन के बारे में बहुत सारी जानकारी होती है, जिसकी गोपनीयता पर हमारा पूरा अधिकार है। तेजी से, हमें अपने द्वारा प्रकट किए गए व्यक्तिगत डेटा की मात्रा और बिग डेट ऐप्स और सेवाओं की सुविधा के बीच संतुलन खोजने के लिए कहा जाता है।
डेटा सुरक्षा - भले ही हम यह तय कर लें कि हम इस तथ्य से खुश हैं कि किसी के पास एक विशिष्ट उद्देश्य के लिए हमारा डेटा है, क्या हम अपने डेटा की सुरक्षा और सुरक्षा के साथ उन पर भरोसा कर सकते हैं?
डेटा के खिलाफ भेदभाव - जब सभी जानकारी ज्ञात हो, तो क्या लोगों के साथ उनके व्यक्तिगत जीवन के डेटा के आधार पर भेदभाव करना स्वीकार्य होगा? हम पहले से ही क्रेडिट स्कोर का उपयोग यह तय करने के लिए करते हैं कि कौन पैसा उधार ले सकता है, और बीमा भी डेटा पर बहुत अधिक निर्भर है। हमें अधिक विस्तार से विश्लेषण और मूल्यांकन की उम्मीद करनी चाहिए, लेकिन यह सुनिश्चित करने के लिए ध्यान रखा जाना चाहिए कि यह कम संसाधनों और सूचना तक सीमित पहुंच वाले लोगों के जीवन को जटिल नहीं बनाता है।

इन कार्यों को पूरा करना बिग डेट्स का एक महत्वपूर्ण हिस्सा है, और उन्हें ऐसे संगठनों द्वारा संबोधित करने की आवश्यकता है जो इस तरह के डेटा का उपयोग करना चाहते हैं। ऐसा करने में विफलता न केवल उसकी प्रतिष्ठा के संदर्भ में, बल्कि कानूनी और वित्तीय पक्ष से भी व्यवसाय को कमजोर बना सकती है।

भविष्य पर विचार करते हुए

डेटा हमारी दुनिया और हमारे जीवन को अभूतपूर्व दर से बदल रहा है। अगर बिग-डेटा आज यह सब करने में सक्षम है, तो ज़रा सोचिए कि यह कल क्या करने में सक्षम होगा। हमारे लिए उपलब्ध डेटा की मात्रा केवल बढ़ेगी, और विश्लेषण की तकनीक और भी उन्नत हो जाएगी।

व्यवसायों के लिए, आने वाले वर्षों में बिग डेटा लागू करने की क्षमता तेजी से महत्वपूर्ण हो जाएगी। केवल वे कंपनियाँ जो डेटा को एक रणनीतिक संपत्ति के रूप में देखती हैं, जीवित रहेंगी और फलेंगी। जो लोग इस क्रांति की उपेक्षा करते हैं, वे पीछे छूटने का जोखिम उठाते हैं।

एक समय में, मैंने जर्मन ग्रीफ (सर्बैंक के प्रमुख) से "बिग डेटा" शब्द सुना। वे कहते हैं कि वे अब सक्रिय रूप से कार्यान्वयन पर काम कर रहे हैं, क्योंकि इससे उन्हें प्रत्येक ग्राहक के साथ काम करने में लगने वाले समय को कम करने में मदद मिलेगी।

दूसरी बार जब मैं इस अवधारणा के बारे में आया तो एक ग्राहक के ऑनलाइन स्टोर में था, जिस पर हमने काम किया और वर्गीकरण को कुछ हज़ार से बढ़ाकर दसियों हज़ार कमोडिटी आइटम कर दिया।

तीसरी बार जब मैंने देखा कि यांडेक्स को एक बड़े डेटा विश्लेषक की जरूरत है। फिर मैंने इस विषय में गहराई से जाने का फैसला किया और साथ ही एक लेख भी लिखा जो बताएगा कि यह किस तरह का शब्द है जो शीर्ष प्रबंधकों और इंटरनेट स्पेस के दिमाग को उत्साहित करता है।

वीवीवी या वीवीवीवीवी

आमतौर पर मैं अपने किसी भी लेख की शुरुआत इस बात की व्याख्या के साथ करता हूं कि यह शब्द क्या है। यह लेख कोई अपवाद नहीं होगा।

हालांकि, यह मुख्य रूप से यह दिखाने की इच्छा के कारण नहीं है कि मैं कितना स्मार्ट हूं, लेकिन इस तथ्य से कि विषय वास्तव में जटिल है और सावधानीपूर्वक स्पष्टीकरण की आवश्यकता है।

उदाहरण के लिए, आप विकिपीडिया पर कितना बड़ा डेटा पढ़ सकते हैं, कुछ भी नहीं समझ सकते हैं, और फिर व्यापार के लिए परिभाषा और प्रयोज्यता को समझने के लिए इस लेख पर वापस आ सकते हैं। तो, चलिए एक विवरण के साथ शुरू करते हैं, और फिर व्यावसायिक उदाहरणों पर चलते हैं।

बड़ा डेटा बड़ा डेटा है। अद्भुत, हुह? वास्तव में, यह अंग्रेजी से "बड़ा डेटा" के रूप में अनुवाद करता है। लेकिन यह परिभाषा है, कोई कह सकता है, डमी के लिए।

जरूरी... बड़ी डेटा प्रौद्योगिकी नई जानकारी प्राप्त करने के लिए अधिक डेटा को संसाधित करने के लिए एक दृष्टिकोण/विधि है जिसे पारंपरिक तरीकों से संसाधित करना मुश्किल है।

डेटा या तो संसाधित (संरचित) या खंडित (अर्थात, असंरचित) हो सकता है।

यह शब्द अपेक्षाकृत हाल ही में सामने आया। 2008 में, एक वैज्ञानिक पत्रिका ने इस दृष्टिकोण को बड़ी मात्रा में जानकारी के साथ काम करने के लिए आवश्यक कुछ के रूप में भविष्यवाणी की थी जो तेजी से बढ़ रही है।

उदाहरण के लिए, हर साल इंटरनेट पर जो जानकारी संग्रहीत और संसाधित करने की आवश्यकता होती है, उसमें 40% की वृद्धि होती है। फिर से। + 40% हर साल इंटरनेट पर नई जानकारी दिखाई देती है।

यदि मुद्रित दस्तावेज़ समझ में आते हैं और उन्हें संसाधित करने के तरीके भी समझ में आते हैं (इलेक्ट्रॉनिक रूप में स्थानांतरण, एक फ़ोल्डर, संख्या में सिलाई), तो पूरी तरह से अलग "वाहक" और अन्य संस्करणों में प्रस्तुत जानकारी का क्या करना है:

इंटरनेट दस्तावेज़;
ब्लॉग और सामाजिक नेटवर्क;
ऑडियो / वीडियो स्रोत;
उपकरणों को मापने;

ऐसी विशेषताएं हैं जो सूचना और डेटा को बड़े डेटा के रूप में वर्गीकृत करना संभव बनाती हैं।

अर्थात्, सभी डेटा विश्लेषण के लिए उपयुक्त नहीं हो सकते हैं। इन विशेषताओं में बड़ी तारीख की प्रमुख अवधारणा है। वे सभी तीन वी में फिट होते हैं।

वॉल्यूम (अंग्रेजी वॉल्यूम से)। डेटा का विश्लेषण किए जाने वाले "दस्तावेज़" की भौतिक मात्रा के संदर्भ में मापा जाता है;
वेग (अंग्रेजी वेग से)। डेटा अपने विकास में खड़ा नहीं होता है, लेकिन लगातार बढ़ रहा है, यही कारण है कि परिणाम प्राप्त करने के लिए उन्हें जल्दी से संसाधित करने की आवश्यकता होती है;
किस्म (अंग्रेजी किस्म से)। डेटा एकल प्रारूप नहीं हो सकता है। यही है, वे बिखरे हुए, संरचित या आंशिक रूप से संरचित हो सकते हैं।

हालांकि, चौथा वी (सत्यता) और यहां तक कि पांचवां वी (कुछ मामलों में यह व्यवहार्यता है, दूसरों में यह मूल्य है) समय-समय पर वीवीवी में जोड़ा जाता है।

कहीं न कहीं मैंने 7V भी देखा, जो बड़ी तारीख से संबंधित डेटा की विशेषता है। लेकिन मेरी राय में यह एक श्रृंखला से है (जहां पी समय-समय पर जोड़ा जाता है, हालांकि शुरुआती 4 समझने के लिए पर्याप्त हैं)।

हम पहले से ही 29,000 से अधिक लोग हैं।
चालू करो

इसकी जरूरत किसे है?

एक तार्किक प्रश्न उठता है कि जानकारी का उपयोग कैसे किया जा सकता है (यदि कुछ है, तो बड़ी तिथि सैकड़ों और हजारों टेराबाइट्स है)? वह भी नहीं।

यह जानकारी है। तो फिर आप बड़ी तारीख क्यों लेकर आए? मार्केटिंग और बिजनेस में बिग डेटा का क्या उपयोग है?

साधारण डेटाबेस बड़ी मात्रा में सूचनाओं को संग्रहीत और संसाधित नहीं कर सकते (मैं अब विश्लेषिकी के बारे में भी नहीं, बल्कि केवल भंडारण और प्रसंस्करण के बारे में बात कर रहा हूं)।
बड़ी तारीख इस मुख्य समस्या को हल करती है। बड़ी मात्रा में जानकारी को सफलतापूर्वक संग्रहीत और प्रबंधित करता है;
विभिन्न स्रोतों (वीडियो, छवियों, ऑडियो और टेक्स्ट दस्तावेज़) से आने वाली संरचनाओं की जानकारी एक एकल, समझने योग्य और सुपाच्य रूप में;
संरचित और संसाधित जानकारी के आधार पर विश्लेषण और सटीक पूर्वानुमानों का निर्माण।

यह जटिल है। सीधे शब्दों में कहें, कोई भी बाज़ारिया जो यह समझता है कि यदि आप बड़ी मात्रा में जानकारी (आपके बारे में, आपकी कंपनी, आपके प्रतिस्पर्धियों, आपके उद्योग) का अध्ययन करते हैं, तो आप बहुत अच्छे परिणाम प्राप्त कर सकते हैं:

संख्या के संदर्भ में आपकी कंपनी और आपके व्यवसाय की पूरी समझ;
अपने प्रतिस्पर्धियों का अध्ययन करें। और यह, बदले में, उन पर व्यापकता के कारण आगे बढ़ना संभव बना देगा;
अपने ग्राहकों के बारे में नई जानकारी प्राप्त करें।

और ठीक है क्योंकि बड़ी डेटा तकनीक निम्नलिखित परिणाम देती है, हर कोई इसके साथ भागता है।

वे बिक्री में वृद्धि और लागत में कमी लाने के लिए इस व्यवसाय को अपनी कंपनी में पेंच करने की कोशिश कर रहे हैं। और अधिक विशेष रूप से, तब:

ग्राहक वरीयताओं के बेहतर ज्ञान के माध्यम से क्रॉस-सेलिंग और अतिरिक्त बिक्री में वृद्धि;
लोकप्रिय उत्पादों की खोज करें और उन्हें क्यों खरीदा जाता है (और इसके विपरीत);
किसी उत्पाद या सेवा में सुधार;
सेवा के स्तर में सुधार;
वफादारी और ग्राहक फोकस में वृद्धि;
धोखाधड़ी की रोकथाम (बैंकिंग क्षेत्र के लिए अधिक प्रासंगिक);
अनावश्यक लागत में कमी।

सभी स्रोतों में दिया गया सबसे आम उदाहरण, निश्चित रूप से, Apple है, जो अपने उपयोगकर्ताओं (फोन, घड़ी, कंप्यूटर) के बारे में डेटा एकत्र करता है।

यह इको-सिस्टम की उपस्थिति के कारण है कि निगम अपने उपयोगकर्ताओं के बारे में बहुत कुछ जानता है और भविष्य में इसका उपयोग लाभ कमाने के लिए करता है।

आप इन और उपयोग के अन्य उदाहरणों को इसके अलावा किसी अन्य लेख में पढ़ सकते हैं।

हम भविष्य में जाते हैं

मैं आपको एक और प्रोजेक्ट के बारे में बताता हूँ। बल्कि, एक ऐसे व्यक्ति के बारे में जो बिग डेटा सॉल्यूशंस का उपयोग करके भविष्य का निर्माण कर रहा है।

यह एलोन मस्क और उनकी टेस्ला कंपनी है। उसका मुख्य सपना कारों को स्वायत्त बनाना है, यानी आप पहिया के पीछे हो जाते हैं, मास्को से व्लादिवोस्तोक तक ऑटोपायलट चालू करते हैं और ... सो जाते हैं, क्योंकि आपको कार चलाने की बिल्कुल भी आवश्यकता नहीं है, क्योंकि वह सब कुछ करेगा वह स्वयं।

यह शानदार लगेगा? लेकिन कोई नहीं! एलोन ने Google की तुलना में बहुत अधिक बुद्धिमानी से काम किया, जो दर्जनों उपग्रहों का उपयोग करके कारों को नियंत्रित करता है। और वह दूसरी तरफ चला गया:

बेची जाने वाली प्रत्येक कार में एक कंप्यूटर लगा होता है, जो सारी जानकारी एकत्र करता है।
सब कुछ का मतलब सामान्य रूप से सब कुछ है। ड्राइवर के बारे में, उसकी ड्राइविंग शैली, उसके आस-पास की सड़कें, अन्य कारों की आवाजाही के बारे में। ऐसे डेटा की मात्रा प्रति घंटे 20-30 जीबी तक पहुंच जाती है;
इसके अलावा, यह जानकारी उपग्रह संचार के माध्यम से केंद्रीय कंप्यूटर को प्रेषित की जाती है, जो इस डेटा के प्रसंस्करण में लगा हुआ है;
यह कंप्यूटर जिस बड़े डेटा को प्रोसेस करता है, उसके आधार पर एक मानव रहित वाहन का एक मॉडल बनाया जा रहा है।

वैसे, अगर Google बहुत बुरा कर रहा है और उनकी कारें हर समय दुर्घटनाओं में आती हैं, तो मस्क, इस तथ्य के कारण कि बड़े डेटा के साथ काम चल रहा है, चीजें बहुत बेहतर हैं, क्योंकि परीक्षण मॉडल बहुत अच्छे परिणाम दिखाते हैं।

लेकिन ... यह सब अर्थव्यवस्था के बारे में है। हम सभी लाभ के बारे में क्या हैं, हाँ लाभ के बारे में? बड़ी तारीख जो बहुत कुछ हल कर सकती है उसका कमाई और पैसे से कोई लेना-देना नहीं है।

बड़े डेटा पर आधारित Google के आंकड़े एक दिलचस्प बात दिखाते हैं.

इससे पहले कि डॉक्टर एक निश्चित क्षेत्र में किसी बीमारी की महामारी की शुरुआत की घोषणा करें, इस क्षेत्र में इस बीमारी के इलाज के लिए खोजों की संख्या काफी बढ़ जाती है।

इस प्रकार, डेटा का सही अध्ययन और उनका विश्लेषण भविष्यवाणियां बना सकता है और अधिकारियों के निष्कर्ष और उनके कार्यों की तुलना में महामारी की शुरुआत (और, तदनुसार, इसकी रोकथाम) की भविष्यवाणी कर सकता है।

रूस में आवेदन

हालांकि, रूस, हमेशा की तरह, थोड़ा "धीमा" करता है। तो रूस में बड़े डेटा की परिभाषा 5 साल से अधिक पहले नहीं दिखाई दी (मैं अब सामान्य कंपनियों के बारे में बात कर रहा हूं)।

और यह इस तथ्य के बावजूद है कि यह दुनिया में सबसे तेजी से बढ़ते बाजारों में से एक है (दवाओं और हथियारों को किनारे पर धूम्रपान किया जाता है), क्योंकि हर साल बड़े डेटा एकत्र करने और विश्लेषण करने के लिए सॉफ्टवेयर का बाजार 32% बढ़ रहा है।

रूस में बड़े डेटा बाजार की विशेषता बताने के लिए, मुझे एक पुराना चुटकुला याद आ रहा है। बिग डेट 18 साल से कम उम्र के सेक्स की तरह है।

हर कोई इसके बारे में बात कर रहा है, इसके चारों ओर बहुत अधिक प्रचार और थोड़ी वास्तविक कार्रवाई है, और सभी को यह स्वीकार करने में शर्म आती है कि वे स्वयं ऐसा नहीं कर रहे हैं। वास्तव में, इसके आसपास बहुत प्रचार है, लेकिन वास्तविक कार्रवाई बहुत कम है।

हालांकि प्रसिद्ध शोध कंपनी गार्टनर ने 2015 में घोषणा की कि बड़ी तारीख अब बढ़ती प्रवृत्ति नहीं है (जैसे कृत्रिम बुद्धि, वैसे), लेकिन उन्नत प्रौद्योगिकियों के विश्लेषण और विकास के लिए पूरी तरह से स्वतंत्र उपकरण।

सबसे सक्रिय निचे जहां रूस में बड़े डेटा का उपयोग किया जाता है, वे हैं बैंक / बीमा (बिना किसी कारण के मैंने Sberbank के प्रमुख के साथ लेख शुरू किया), दूरसंचार, खुदरा, अचल संपत्ति और ... सार्वजनिक क्षेत्र।

उदाहरण के तौर पर, मैं आपको अर्थव्यवस्था के कुछ क्षेत्रों के बारे में विस्तार से बताऊंगा जो बड़े डेटा एल्गोरिदम का उपयोग करते हैं।

बैंकों

आइए बैंकों और उनके द्वारा हमारे और हमारे कार्यों के बारे में एकत्र की जाने वाली जानकारी से शुरू करें। उदाहरण के लिए, मैंने शीर्ष 5 रूसी बैंकों को लिया जो सक्रिय रूप से बड़े डेटा में निवेश करते हैं:

सर्बैंक;
गज़प्रॉमबैंक;
वीटीबी 24;
अल्फा बैंक;
टिंकॉफ बैंक।

अल्फा बैंक को रूसी नेताओं के बीच देखना विशेष रूप से सुखद है। कम से कम, यह जानकर अच्छा लगा कि जिस बैंक के आप आधिकारिक भागीदार हैं, वह आपकी कंपनी में नए मार्केटिंग टूल पेश करने की आवश्यकता को समझता है।

लेकिन मैं बैंक पर बड़े डेटा के उपयोग और सफल कार्यान्वयन के उदाहरण दिखाना चाहता हूं, जो मुझे इसके संस्थापक के गैर-मानक रूप और कार्यों के लिए पसंद है।

मैं बात कर रहा हूं टिंकॉफ बैंक की। उनका मुख्य कार्य बढ़ते ग्राहक आधार के कारण वास्तविक समय में बड़े डेटा का विश्लेषण करने के लिए एक प्रणाली विकसित करना था।

परिणाम: आंतरिक प्रक्रियाओं का समय कम से कम 10 गुना कम हो गया, और कुछ के लिए - 100 गुना से अधिक।

खैर, थोड़ा व्याकुलता। क्या आप जानते हैं कि मैंने ओलेग टिंकोव की गैर-मानक हरकतों और कार्यों के बारे में क्यों बात करना शुरू किया?

यह सिर्फ इतना है, मेरी राय में, यह वे थे जिन्होंने उन्हें एक औसत व्यवसायी से बदलने में मदद की, जिनमें से हजारों रूस में हैं, सबसे प्रसिद्ध और पहचानने योग्य उद्यमियों में से एक में। इसे साबित करने के लिए देखें यह असामान्य और दिलचस्प वीडियो:

संपत्ति

अचल संपत्ति में, सब कुछ बहुत अधिक जटिल है। और यह ठीक वही उदाहरण है जो मैं आपको साधारण व्यवसाय के भीतर बड़ी तारीख को समझने के लिए देना चाहता हूं। आरंभिक डेटा:

बड़ी मात्रा में पाठ्य प्रलेखन;
खुला स्रोत (पृथ्वी परिवर्तन डेटा संचारित करने वाले निजी उपग्रह);
इंटरनेट पर बड़ी मात्रा में अनियंत्रित जानकारी;
स्रोतों और डेटा में लगातार परिवर्तन।

और इसके आधार पर, भूमि भूखंड के मूल्य को तैयार करना और मूल्यांकन करना आवश्यक है, उदाहरण के लिए, यूराल गांव के पास। इसमें एक पेशेवर को एक सप्ताह का समय लगेगा।

रशियन सोसाइटी ऑफ़ एप्राइज़र्स एंड रोसेको, जिसने वास्तव में सॉफ़्टवेयर का उपयोग करके बड़े डेटा विश्लेषण को लागू किया, 30 मिनट से अधिक इत्मीनान से काम नहीं करेगा। तुलना करें, सप्ताह और 30 मिनट। एक बड़ा अंतर।

खैर, नाश्ते के लिए

बेशक, बड़ी मात्रा में जानकारी को साधारण हार्ड ड्राइव पर संग्रहीत और संसाधित नहीं किया जा सकता है।

और सॉफ्टवेयर जो डेटा की संरचना और विश्लेषण करता है वह आम तौर पर बौद्धिक संपदा होता है और हर बार यह एक लेखक का विकास होता है। हालाँकि, ऐसे उपकरण हैं जिनके आधार पर यह सारी सुंदरता बनाई जाती है:

Hadoop और MapReduce;
नोएसक्यूएल डेटाबेस;
डेटा डिस्कवरी क्लास टूल्स।

सच कहूं, तो मैं आपको स्पष्ट रूप से यह नहीं समझा सकता कि वे एक-दूसरे से कैसे भिन्न हैं, क्योंकि इन चीजों से परिचित होना और काम करना भौतिकी और गणित संस्थानों में पढ़ाया जाता है।

जब मैं समझा नहीं सकता तो मैंने इस बारे में बात करना क्यों शुरू किया? याद रखें कि सभी फिल्मों में लुटेरे किसी भी बैंक में प्रवेश करते हैं और तारों से जुड़े लोहे के सभी प्रकार के टुकड़ों को बड़ी संख्या में देखते हैं?

वही बड़ी तारीख के लिए जाता है। उदाहरण के लिए, यहां एक मॉडल है जो वर्तमान में बाजार के नेताओं में से एक है।

बिग डेट टूल

अधिकतम कॉन्फ़िगरेशन में लागत प्रति रैक 27 मिलियन रूबल तक पहुंचती है। यह, निश्चित रूप से, डीलक्स संस्करण है। मैं चाहता हूं कि आप अपने व्यवसाय में पहले से बड़ा डेटा बनाने का प्रयास करें।

संक्षेप में मुख्य बात के बारे में

आप पूछ सकते हैं कि आपको, एक छोटे और मध्यम आकार के व्यवसाय को बड़े डेटा के साथ काम करने की आवश्यकता क्यों है?

इसके लिए मैं आपको एक व्यक्ति के उद्धरण के साथ उत्तर दूंगा: "निकट भविष्य में, ग्राहकों की उन कंपनियों की मांग होगी जो उनके व्यवहार और आदतों को बेहतर ढंग से समझती हैं और उनसे सबसे अच्छी तरह मेल खाती हैं।"

लेकिन चलो इसका सामना करते हैं। एक छोटे व्यवसाय में बड़े डेटा को लागू करने के लिए, सॉफ्टवेयर के विकास और कार्यान्वयन के लिए न केवल बड़े बजट होना आवश्यक है, बल्कि विशेषज्ञों के रखरखाव के लिए भी, कम से कम जैसे कि एक बड़ा डेटा विश्लेषक और एक सिसडमिन।

और अब मैं इस तथ्य के बारे में चुप हूं कि प्रसंस्करण के लिए आपके पास ऐसा डेटा होना चाहिए।

ठीक है। छोटे व्यवसायों के लिए, विषय लगभग लागू नहीं होता है। लेकिन इसका मतलब यह नहीं है कि आपको वह सब कुछ भूल जाने की जरूरत है जो आपने ऊपर पढ़ा है।

केवल अपने स्वयं के डेटा का अध्ययन न करें, बल्कि प्रसिद्ध विदेशी और रूसी कंपनियों के डेटा विश्लेषण के परिणामों का अध्ययन करें।

उदाहरण के लिए, टारगेट रिटेल चेन ने बिग डेटा एनालिटिक्स का उपयोग करते हुए पाया कि गर्भावस्था की दूसरी तिमाही (गर्भावस्था के पहले से 12वें सप्ताह तक) से पहले गर्भवती महिलाएं सक्रिय रूप से गैर-सुगंधित उत्पाद खरीद रही हैं।

इस जानकारी के लिए धन्यवाद, वे उन्हें सीमित अवधि के बिना स्वाद वाले उत्पादों के लिए डिस्काउंट कूपन भेजते हैं।

और अगर आप उदाहरण के लिए सिर्फ एक बहुत छोटा कैफे हैं? यह बहुत सरल है। लॉयल्टी ऐप का इस्तेमाल करें।

और थोड़ी देर के बाद और संचित जानकारी के लिए धन्यवाद, आप न केवल अपने ग्राहकों को उनकी आवश्यकताओं के लिए प्रासंगिक व्यंजन पेश करने में सक्षम होंगे, बल्कि कुछ ही क्लिक में सबसे अधिक बिकने वाले और सबसे सीमांत व्यंजन भी देख पाएंगे।

इसलिए निष्कर्ष। एक छोटे व्यवसाय के लिए बड़े डेटा को लागू करना शायद ही इसके लायक है, लेकिन अन्य कंपनियों के परिणामों और विकास का उपयोग करना आवश्यक है।

प्रत्येक औद्योगिक क्रांति के अपने प्रतीक थे: लोहा और भाप, स्टील और लाइन उत्पादन, पॉलिमर और इलेक्ट्रॉनिक्स, और अगली क्रांति मिश्रित सामग्री और डेटा के संकेत के तहत होगी। बिग डेटा - एक झूठा निशान या उद्योग का भविष्य?

12/20/2011 लियोनिद चेर्न्याकी

पहली औद्योगिक क्रांति के प्रतीक थे कच्चा लोहा और भाप, दूसरा - स्टील और प्रवाह उत्पादन, तीसरा - प्लास्टिक, एल्यूमीनियम और इलेक्ट्रॉनिक्स, और अगली क्रांति मिश्रित सामग्री और डेटा के संकेत के तहत होगी। क्या बिग डेटा एक गलत राह है या उद्योग का भविष्य है?

तीन साल से अधिक समय से, के बारे में बहुत कुछ कहा और लिखा गया है बड़ा डेटा(बिग डेटा) शब्द "समस्या" के साथ मिलकर इस विषय के रहस्य को बढ़ाता है। इस समय के दौरान, "समस्या" बड़े निर्माताओं के विशाल बहुमत का फोकस बन गया है, समाधान खोजने की उम्मीद में कई स्टार्टअप बनाए जा रहे हैं, और सभी प्रमुख उद्योग विश्लेषकों ने तुरही की है कि बड़ी मात्रा में काम करने की क्षमता कितनी महत्वपूर्ण है प्रतिस्पर्धा सुनिश्चित करने के लिए डेटा अब है। इस तरह, बहुत अच्छी तरह से तर्कसंगत नहीं, सामूहिक चरित्र असंतोष को उकसाता है, और आप एक ही विषय पर बहुत सारे संदेहजनक बयान पा सकते हैं, और कभी-कभी बिग डेटा को रेड हेरिंग के रूप में भी जाना जाता है (शाब्दिक रूप से "स्मोक्ड हेरिंग" एक झूठा निशान है, ए व्याकुलता)।

तो बिग डेटा क्या है? सबसे आसान तरीका है कि बिग डेटा को डेटा के हिमस्खलन के रूप में कल्पना करना जो अनायास ढह गया और कहीं से भी बाहर हो गया है, या समस्या को नई तकनीकों तक कम करने के लिए जो सूचना के माहौल को मौलिक रूप से बदल देती हैं, या शायद, बिग डेटा के साथ, हम हैं तकनीकी क्रांति में एक और चरण का अनुभव? सबसे अधिक संभावना है, दोनों एक और दूसरा, और तीसरा, और अभी भी अज्ञात। यह महत्वपूर्ण है कि बिग डेटा वाक्यांश वाले चार मिलियन से अधिक वेब पेजों में से एक मिलियन में शब्द परिभाषा भी है - बिग डेटा के बारे में लिखने वालों में से कम से कम एक चौथाई अपनी परिभाषा देने की कोशिश कर रहे हैं। इस तरह की जन रुचि इस तथ्य के पक्ष में गवाही देती है कि, सबसे अधिक संभावना है, बिग डेटा में गुणात्मक रूप से कुछ अलग है जो रोजमर्रा की चेतना की ओर धकेलती है।

पृष्ठभूमि

तथ्य यह है कि बिग डेटा के अधिकांश संदर्भ किसी न किसी तरह व्यवसाय से संबंधित हैं, भ्रामक हो सकते हैं। वास्तव में, यह शब्द कॉर्पोरेट वातावरण में पैदा नहीं हुआ था, लेकिन विश्लेषकों द्वारा वैज्ञानिक प्रकाशनों से उधार लिया गया था। बिग डेटा उन कुछ नामों में से एक है जिनके जन्म की पूरी तरह से विश्वसनीय तारीख है - 3 सितंबर, 2008, जब सबसे पुरानी ब्रिटिश वैज्ञानिक पत्रिका नेचर का एक विशेष अंक जारी किया गया था, जो इस सवाल का जवाब खोजने के लिए समर्पित है कि "प्रौद्योगिकियां कैसे खुलती हैं बड़ी मात्रा में काम करने के अवसर विज्ञान के भविष्य को प्रभावित कर सकते हैं। डेटा?" यह विशेष अंक सामान्य रूप से विज्ञान में और विशेष रूप से ई-विज्ञान में डेटा की भूमिका के बारे में पिछली चर्चाओं को सारांशित करता है।

विज्ञान में डेटा की भूमिका बहुत लंबे समय तक चर्चा का विषय बनी रही - अंग्रेजी खगोलशास्त्री थॉमस सिम्पसन ने 18 वीं शताब्दी में अपने काम "एस्ट्रोनॉमिकल ऑब्जर्वेशन में नंबरों के उपयोग के लाभों पर" डेटा प्रोसेसिंग में डेटा प्रोसेसिंग के बारे में सबसे पहले लिखा था। पिछली शताब्दी के अंत में सामने आया, जब यह पता चला कि पुरातत्व से लेकर परमाणु भौतिकी तक लगभग सभी विज्ञानों में कंप्यूटर विधियों को लागू किया जा सकता है। नतीजतन, वैज्ञानिक तरीके स्वयं काफ़ी बदल रहे हैं। यह कोई संयोग नहीं है कि पुस्तकालय और प्रयोगशाला शब्दों से बना नवविज्ञान पुस्तकालय दिखाई दिया, जो इस अवधारणा में परिवर्तन को दर्शाता है जिसे अनुसंधान का परिणाम माना जा सकता है। अब तक, केवल प्राप्त अंतिम परिणाम, और कच्चे प्रयोगात्मक डेटा नहीं, सहयोगियों के निर्णय के लिए प्रस्तुत किए गए हैं, और अब, जब विभिन्न प्रकार के डेटा को "डिजिटल" में अनुवादित किया जा सकता है, जब विभिन्न डिजिटल मीडिया होते हैं, तो वस्तु प्रकाशन के विभिन्न प्रकार के मापा डेटा हो सकते हैं, और विशेष महत्व पुस्तकालय में पहले से संचित डेटा को पुन: संसाधित करने की संभावना है। और फिर एक सकारात्मक प्रतिक्रिया विकसित होती है, जिसके कारण वैज्ञानिक डेटा जमा करने की प्रक्रिया लगातार तेज हो रही है। इसीलिए, आगामी परिवर्तनों के पैमाने को महसूस करते हुए, नेचर इश्यू के संपादक क्लिफोर्ड लिंच ने नए प्रतिमान बिग डेटा के लिए एक विशेष नाम का प्रस्ताव रखा, जिसे उन्होंने बिग रेफ, बिग ओरे, आदि जैसे रूपकों के अनुरूप चुना, जो दर्शाता है। किसी चीज की मात्रा इतनी नहीं, मात्रा से गुणवत्ता में संक्रमण कितना है।

बड़ा डेटा और व्यवसाय

एक साल से भी कम समय के बाद, बिग डेटा शब्द ने प्रमुख व्यावसायिक प्रकाशनों के पन्नों को हिट कर दिया, हालांकि, पूरी तरह से अलग रूपकों का इस्तेमाल किया। बिग डेटा की तुलना खनिज संसाधनों से की जाती है - नया तेल (नया तेल), गोल्डरश (गोल्ड रश), डेटा माइनिंग (डेटा माइनिंग), जो छिपी हुई जानकारी के स्रोत के रूप में डेटा की भूमिका पर जोर देता है; प्राकृतिक आपदाओं के साथ - डेटा बवंडर (डेटा तूफान), डेटा जलप्रलय (डेटा बाढ़), डेटा ज्वारीय लहर (डेटा बाढ़), उन्हें एक खतरे के रूप में देखना; औद्योगिक उत्पादन के कनेक्शन पर कब्जा करना - डेटा निकास, फायरहोज, औद्योगिक क्रांति। व्यापार में, विज्ञान की तरह, बड़ी मात्रा में डेटा भी पूरी तरह से नया नहीं है - वे लंबे समय से बड़ी मात्रा में डेटा के साथ काम करने की आवश्यकता के बारे में बात कर रहे हैं, उदाहरण के लिए, रेडियो फ्रीक्वेंसी आइडेंटिफिकेशन (RFID) के प्रसार के संबंध में और सामाजिक नेटवर्क, और जैसे और विज्ञान में, यह निर्धारित करने के लिए कि क्या हो रहा था, केवल एक विशद रूपक का अभाव था। यही कारण है कि 2010 में बिग डेटा श्रेणी में शामिल होने का दावा करते हुए पहले उत्पाद सामने आए - पहले से मौजूद चीजों के लिए एक उपयुक्त नाम था। यह महत्वपूर्ण है कि 2011 के हाइप साइकिल संस्करण में, जो राज्य और नई प्रौद्योगिकियों की संभावनाओं की विशेषता है, गार्टनर विश्लेषकों ने संबंधित समाधानों के बड़े पैमाने पर कार्यान्वयन की अवधि के अनुमान के साथ बिग डेटा और चरम सूचना प्रसंस्करण और प्रबंधन की एक और स्थिति पेश की है। दो से पांच साल।

बिग डेटा एक समस्या क्यों बन गया है?

बिग डेटा शब्द की उपस्थिति के तीन साल बीत चुके हैं, लेकिन अगर विज्ञान में सब कुछ कमोबेश स्पष्ट है, तो व्यापार में बिग डेटा का स्थान अनिश्चित रहता है, यह कोई संयोग नहीं है कि वे अक्सर "बिग डेटा समस्या" के बारे में बात करते हैं। , और न केवल एक समस्या है, बल्कि बाकी सब कुछ भी परिभाषित नहीं है। समस्या को अक्सर सरल बनाया जाता है, मूर के कानून की तरह व्याख्या की जाती है, केवल इस अंतर के साथ कि इस मामले में हम प्रति वर्ष डेटा की मात्रा को दोगुना करने की घटना से निपट रहे हैं, या हाइपरबोलाइज्ड, इसे लगभग एक प्राकृतिक आपदा के रूप में प्रस्तुत करते हैं जिसे तत्काल निपटने की आवश्यकता है के साथ किसी तरह। वास्तव में अधिक से अधिक डेटा है, लेकिन यह सब इस तथ्य की अनदेखी करता है कि समस्या किसी भी तरह से बाहरी नहीं है, यह डेटा के कारण इतना अधिक नहीं है जो अविश्वसनीय मात्रा में ढह गया है, बल्कि पुराने तरीकों से निपटने में असमर्थता के कारण है। नए संस्करणों के साथ, और, सबसे महत्वपूर्ण बात, हमारे द्वारा स्वयं निर्मित। एक अजीब असंतुलन है - डेटा उत्पन्न करने की क्षमता इसे संसाधित करने की क्षमता से अधिक मजबूत है। इस पूर्वाग्रह का कारण, सबसे अधिक संभावना है, कंप्यूटर के 65 वर्षों के इतिहास में, हम अभी तक यह नहीं समझ पाए हैं कि डेटा क्या है और यह प्रसंस्करण के परिणामों से कैसे संबंधित है। आश्चर्यजनक रूप से, सदियों से गणितज्ञ अपने विज्ञान की बुनियादी अवधारणाओं, जैसे संख्या और संख्या प्रणाली के साथ काम कर रहे हैं, दार्शनिकों को इस ओर आकर्षित करते हैं, और हमारे मामले में, डेटा और जानकारी, किसी भी तरह से तुच्छ चीजों को नजरअंदाज नहीं किया जाता है और दया पर छोड़ दिया जाता है। अंतर्ज्ञानी धारणा का। तो यह पता चला कि इन सभी 65 वर्षों में, डेटा के साथ काम करने की प्रौद्योगिकियां अविश्वसनीय गति से विकसित हुई हैं, और साइबरनेटिक्स और सूचना सिद्धांत शायद ही विकसित हुए हैं, जो 50 के दशक के स्तर पर बने रहे, जब लैंप कंप्यूटर का उपयोग विशेष रूप से गणना के लिए किया जाता था। वास्तव में, बिग डेटा के बारे में वर्तमान उपद्रव, सावधानीपूर्वक ध्यान देने पर, एक संदेहपूर्ण मुस्कान पैदा करता है।

स्केलिंग और स्टोरेज टियरिंग

क्लाउड, बिग डेटा, एनालिटिक्स - आधुनिक आईटी के ये तीन कारक न केवल आपस में जुड़े हुए हैं, बल्कि आज वे एक दूसरे के बिना मौजूद नहीं रह सकते। क्लाउड स्टोरेज और क्लाउड कंप्यूटिंग के बिना बिग डेटा के साथ काम करना असंभव है - क्लाउड प्रौद्योगिकियों का उद्भव न केवल एक विचार के रूप में, बल्कि पहले से ही पूर्ण और कार्यान्वित परियोजनाओं के रूप में सर्पिल के एक नए दौर को शुरू करने के लिए एक ट्रिगर बन गया है। बिग डेटा एनालिटिक्स में बढ़ती दिलचस्पी। अगर हम समग्र रूप से उद्योग पर प्रभाव के बारे में बात करते हैं, तो आज भंडारण प्रणालियों को बढ़ाने के लिए बढ़ी हुई आवश्यकताएं स्पष्ट हो गई हैं। यह वास्तव में एक आवश्यक शर्त है - आखिरकार, पहले से भविष्यवाणी करना मुश्किल है कि किन विश्लेषणात्मक प्रक्रियाओं को कुछ डेटा की आवश्यकता होगी और मौजूदा भंडारण को कितनी तीव्रता से लोड किया जाएगा। इसके अलावा, लंबवत और क्षैतिज दोनों स्केलिंग आवश्यकताएं समान रूप से महत्वपूर्ण हो जाती हैं।

अपने भंडारण प्रणालियों की नई पीढ़ी में, फुजित्सु ने मापनीयता और स्तरीय भंडारण के पहलुओं पर बहुत ध्यान दिया है। अभ्यास से पता चलता है कि आज, विश्लेषणात्मक कार्यों को करने के लिए, सिस्टम को भारी लोड करने की आवश्यकता होती है, लेकिन व्यवसाय के लिए आवश्यक है कि सभी सेवाएं, एप्लिकेशन और डेटा स्वयं हमेशा उपलब्ध रहें। इसके अलावा, आज विश्लेषणात्मक अनुसंधान के परिणामों की आवश्यकताएं बहुत अधिक हैं - सक्षम रूप से, सही ढंग से और समय पर आयोजित विश्लेषणात्मक प्रक्रियाएं समग्र रूप से व्यवसाय के परिणामों में काफी सुधार कर सकती हैं।

– एलेक्ज़ेंडर याकोवले ([ईमेल संरक्षित]), उत्पाद विपणन प्रबंधक फुजित्सु (मास्को)।

अनुसंधान के विषयों के रूप में डेटा और सूचना की भूमिका को नजरअंदाज करते हुए, वही खदान रखी गई थी जो अब विस्फोट हो गई थी, ऐसे समय में जब जरूरतें बदल गईं, जब कंप्यूटर पर गणना भार डेटा पर किए गए अन्य प्रकार के कार्यों की तुलना में बहुत कम निकला, और इन कार्यों का उद्देश्य मौजूदा डेटा सेट से नई जानकारी और नया ज्ञान प्राप्त करना है। इसलिए "डेटा - सूचना - ज्ञान" श्रृंखला के लिंक को पुनर्स्थापित करने के बाहर बिग डेटा समस्या को हल करने के बारे में बात करना व्यर्थ है। जानकारी प्राप्त करने के लिए डेटा को संसाधित किया जाता है, जो कि पर्याप्त होना चाहिए ताकि एक व्यक्ति इसे ज्ञान में बदल सके।

पिछले दशकों में, उपयोगी जानकारी के साथ कच्चे डेटा के संबंध पर कोई गंभीर काम नहीं हुआ है, और जिसे हम आदतन क्लाउड शैनन का सूचना सिद्धांत कहते हैं, वह सिग्नल ट्रांसमिशन के एक सांख्यिकीय सिद्धांत से ज्यादा कुछ नहीं है, और इसके द्वारा कथित जानकारी से कोई लेना-देना नहीं है। मनुष्य। कई अलग-अलग प्रकाशन हैं जो विशेष दृष्टिकोण को दर्शाते हैं, लेकिन कोई पूर्ण आधुनिक सूचना सिद्धांत नहीं है। नतीजतन, अधिकांश पेशेवर डेटा और सूचना के बीच बिल्कुल भी अंतर नहीं करते हैं। लगभग हर कोई केवल यह कहता है कि बहुत अधिक या बहुत अधिक डेटा है, लेकिन किसी के पास परिपक्व विचार नहीं है कि वास्तव में क्या है, जो समस्या उत्पन्न हुई है उसे हल करने के तरीके - और यह सब काम करने की तकनीकी क्षमताओं के कारण है डेटा के साथ उनका उपयोग करने की क्षमता के विकास के स्तर को स्पष्ट रूप से पीछे छोड़ दिया। ... केवल एक लेखक, वेब 2.0 जर्नल के संपादक, डायोन हिंचक्लिफ के पास बिग डेटा का एक वर्गीकरण है जो हमें बिग डेटा प्रोसेसिंग से अपेक्षित परिणाम के साथ प्रौद्योगिकियों को सहसंबंधित करने की अनुमति देता है, लेकिन यह संतोषजनक नहीं है।

हिंचक्लिफ बिग डेटा के दृष्टिकोण को तीन समूहों में विभाजित करता है: फास्ट डेटा, उनकी मात्रा टेराबाइट्स में मापी जाती है; बिग एनालिटिक्स - पेटाबाइट डेटा और डीप इनसाइट - एक्साबाइट्स, ज़ेटाबाइट्स। न केवल संचालित किए जा रहे डेटा की मात्रा में, बल्कि उनके प्रसंस्करण के लिए समाधान की गुणवत्ता में भी समूह आपस में भिन्न होते हैं।

फास्ट डेटा के लिए प्रसंस्करण का मतलब नए ज्ञान का अधिग्रहण नहीं है, इसके परिणाम एक प्राथमिक ज्ञान के साथ सहसंबद्ध होते हैं और यह तय करना संभव बनाते हैं कि कुछ प्रक्रियाएं कैसे आगे बढ़ती हैं, यह आपको यह देखने की अनुमति देता है कि क्या हो रहा है, पुष्टि करने के लिए या अधिक विस्तृत तरीके से। कुछ परिकल्पनाओं को अस्वीकार करें। वर्तमान में मौजूद तकनीकों का केवल एक छोटा सा हिस्सा फास्ट डेटा कार्यों को हल करने के लिए उपयुक्त है; कुछ भंडारण प्रौद्योगिकियां (उत्पाद ग्रीनप्लम, नेटेज़ा, ओरेकल एक्साडेटा, टेराडाटा, डीबीएमएस जैसे वेरिका और केडीबी) इस सूची में आते हैं। डेटा की मात्रा में वृद्धि के साथ इन प्रौद्योगिकियों की गति में वृद्धि होनी चाहिए।

बिग एनालिटिक्स द्वारा हल किए गए कार्य अलग-अलग हैं, और न केवल मात्रात्मक रूप से, बल्कि गुणात्मक रूप से भी, और संबंधित तकनीकों को नए ज्ञान प्राप्त करने में मदद करनी चाहिए - वे डेटा में दर्ज जानकारी को नए ज्ञान में बदलने का काम करते हैं। हालांकि, इस मध्य स्तर पर, समाधान या विश्लेषणात्मक प्रणाली के किसी भी स्वायत्त कार्यों का चयन करते समय कृत्रिम बुद्धि की उपस्थिति को नहीं माना जाता है - यह "शिक्षक के साथ सीखने" के सिद्धांत पर बनाया गया है। दूसरे शब्दों में, उसकी सारी विश्लेषणात्मक क्षमता सीखने की प्रक्रिया में उसमें अंतर्निहित है। सबसे स्पष्ट उदाहरण एक कार है जो खतरे में है! ऐसे एनालिटिक्स के क्लासिक प्रतिनिधि हैं MATLAB, SAS, Revolution R, Apache Hive, SciPy Apache और Mahout।

उच्चतम स्तर, डीप इनसाइट, में अनुपयोगी शिक्षण और आधुनिक विश्लेषणात्मक विधियों के उपयोग के साथ-साथ विभिन्न विज़ुअलाइज़ेशन विधियों का उपयोग शामिल है। इस स्तर पर, ज्ञान और पैटर्न की खोज करना संभव है जो पहले से अज्ञात हैं।

बिग डेटा एनालिटिक्स

समय के साथ, कंप्यूटर अनुप्रयोग अपनी सभी विविधता में वास्तविक दुनिया के करीब आ रहे हैं, इसलिए इनपुट डेटा की मात्रा में वृद्धि और इसलिए उनके विश्लेषण की आवश्यकता है, और वास्तविक समय के जितना संभव हो सके मोड में। इन दोनों प्रवृत्तियों के अभिसरण से दिशा का उदय हुआ है बिग डेटा एनालिटिक्स(बिग डेटा एनालिटिक्स)।

वाटसन कंप्यूटर की जीत बिग डेटा एनालिटिक्स की क्षमताओं का एक शानदार प्रदर्शन था - हम एक दिलचस्प युग में प्रवेश कर रहे हैं जब पहली बार कंप्यूटर का उपयोग गणना को गति देने के लिए एक उपकरण के रूप में नहीं, बल्कि एक सहायक के रूप में किया जाता है जो विस्तार करता है सूचना चुनने और निर्णय लेने में मानवीय क्षमताएँ। वन्नेवर बुश, जोसेफ लिक्लिडर और डग एंगेलबार्ट के प्रतीत होने वाले यूटोपियन विचार सच होने लगे हैं, लेकिन यह ठीक वैसा नहीं होता जैसा दशकों पहले देखा गया था - कंप्यूटर की शक्ति तार्किक क्षमताओं में एक व्यक्ति पर श्रेष्ठता में नहीं है, जिसे वैज्ञानिक विशेष रूप से उम्मीद की जाती है, लेकिन काफी अधिक क्षमता में डेटा की विशाल मात्रा में प्रक्रिया होती है। डीप ब्लू के साथ गैरी कास्परोव के टकराव में भी कुछ ऐसा ही हुआ, कंप्यूटर अधिक कुशल खिलाड़ी नहीं था, लेकिन यह अधिक विकल्पों के माध्यम से तेजी से जा सकता था।

अन्य अनुप्रयोगों से बिग डेटा एनालिटिक्स को अलग करने वाली उच्च गति के साथ संयुक्त विशाल संस्करणों के लिए उपयुक्त कंप्यूटर की आवश्यकता होती है, और आज लगभग सभी प्रमुख निर्माता विशेष सॉफ्टवेयर और हार्डवेयर सिस्टम प्रदान करते हैं: SAP HANA, Oracle Big Data Appliance, Oracle Exadata Database Machine और Oracle Exalytics Business Intelligence मशीन, टेराडाटा एक्सट्रीम परफॉर्मेंस एप्लायंसेज, नेटएप ई-सीरीज स्टोरेज टेक्नोलॉजी, आईबीएम नेटेजा डेटा एप्लायंसेज, ईएमसी ग्रीनप्लम, वर्टिका एनालिटिक्स प्लेटफॉर्म जो एचपी कन्वर्ज्ड इंफ्रास्ट्रक्चर द्वारा संचालित है। इसके अलावा, कई छोटी और स्टार्ट-अप कंपनियों ने खेल में प्रवेश किया है: क्लौडेरा, डेटास्टैक्स, नॉर्थस्केल, स्प्लंक, पलंतिर, फैक्टुअल, कॉग्निटियो, डेटामीर, टेलअपार्ट, पैरासेल, हॉर्टनवर्क्स।

प्रतिपुष्टि

गुणात्मक रूप से नए बिग डेटा एनालिटिक्स अनुप्रयोगों के लिए न केवल नई तकनीकों की आवश्यकता होती है, बल्कि गुणात्मक रूप से भिन्न स्तर की सिस्टम सोच की भी आवश्यकता होती है, लेकिन इसके साथ कठिनाइयाँ होती हैं - बिग डेटा एनालिटिक्स समाधानों के डेवलपर्स अक्सर 50 के दशक से ज्ञात सत्य को फिर से खोज लेते हैं। नतीजतन, एनालिटिक्स को अक्सर किसी व्यक्ति को परिणाम प्रदान करने के लिए प्रारंभिक डेटा, विज़ुअलाइज़ेशन और अन्य तकनीकों को तैयार करने के साधनों से अलग माना जाता है। यहां तक कि डेटा वेयरहाउसिंग इंस्टीट्यूट के रूप में इस तरह का एक सम्मानित संगठन एनालिटिक्स को बाकी सब चीजों से अलग मानता है: इसके डेटा के अनुसार, 38% उद्यम पहले से ही प्रबंधन अभ्यास में उन्नत एनालिटिक्स का उपयोग करने की संभावना तलाश रहे हैं, और अन्य 50% ऐसा करने का इरादा रखते हैं। अगले तीन साल। व्यवसाय से कई तर्क लाकर इस रुचि को उचित ठहराया जा सकता है, हालांकि इसे आसान कहा जा सकता है - नई परिस्थितियों में उद्यमों को एक अधिक परिपूर्ण प्रबंधन प्रणाली की आवश्यकता होती है, और इसका निर्माण फीडबैक स्थापित करने के साथ शुरू होना चाहिए, यानी एक ऐसी प्रणाली के साथ जो निर्णय लेने में मदद करती है -मेकिंग, और भविष्य में, वास्तविक निर्णय लेने को स्वचालित करना संभव होगा। आश्चर्यजनक रूप से, जो कुछ कहा गया है वह तकनीकी वस्तुओं के लिए स्वचालित नियंत्रण प्रणाली बनाने की पद्धति में फिट बैठता है, जिसे 60 के दशक से जाना जाता है।

विश्लेषण के लिए नए उपकरणों की आवश्यकता है क्योंकि पहले की तुलना में न केवल अधिक डेटा है, बल्कि उनके बाहरी और आंतरिक स्रोत अधिक हैं, अब वे अधिक जटिल और अधिक विविध (संरचित, असंरचित और अर्ध-संरचित) हैं, विभिन्न अनुक्रमण योजनाओं का उपयोग किया जाता है (संबंधपरक , बहुआयामी, नोएसक्यूएल)। पुराने तरीकों से डेटा का सामना करना अब संभव नहीं है - बिग डेटा एनालिटिक्स बड़े और जटिल सरणियों तक फैला हुआ है, इसलिए वे डिस्कवरी एनालिटिक्स (डिस्कवरी एनालिटिक्स) और एक्सप्लोरेटरी एनालिटिक्स (व्याख्यात्मक एनालिटिक्स) शब्दों का भी उपयोग करते हैं। आप इसे जो भी कहें, सार एक ही है - फीडबैक, जो विभिन्न प्रक्रियाओं के बारे में जानकारी के साथ निर्णय लेने वालों को स्वीकार्य रूप में आपूर्ति करता है।

अवयव

कच्चे डेटा को इकट्ठा करने के लिए, उपयुक्त हार्डवेयर और सॉफ्टवेयर तकनीकों का उपयोग किया जाता है, जो वास्तव में नियंत्रण वस्तु की प्रकृति (आरएफआईडी, सामाजिक नेटवर्क से जानकारी, विभिन्न पाठ दस्तावेज़, आदि) पर निर्भर करता है। ये डेटा विश्लेषणात्मक मशीन के इनपुट (फीडबैक लूप में एक नियामक, यदि हम साइबरनेटिक्स के साथ सादृश्य जारी रखते हैं) को खिलाया जाता है। यह नियामक एक हार्डवेयर और सॉफ्टवेयर प्लेटफॉर्म पर आधारित है, जिस पर वास्तविक विश्लेषणात्मक सॉफ्टवेयर चलता है, यह स्वचालित नियंत्रण के लिए पर्याप्त नियंत्रण क्रियाएं प्रदान नहीं करता है, इसलिए डेटा वैज्ञानिक या डेटा इंजीनियर लूप में शामिल होते हैं। उनके कार्य की तुलना विद्युत इंजीनियरों द्वारा निभाई गई भूमिका से की जा सकती है, विद्युत मशीनों के निर्माण के लिए भौतिकी से ज्ञान का उपयोग करके। इंजीनियरों का काम निर्णय लेने के लिए उपयोग की जाने वाली जानकारी में डेटा को बदलने की प्रक्रिया का प्रबंधन करना है - वे फीडबैक लूप भी पूरा करते हैं। बिग डेटा एनालिटिक्स के चार घटकों में से, इस मामले में, हम केवल एक में रुचि रखते हैं - सॉफ्टवेयर और हार्डवेयर प्लेटफॉर्म (इस प्रकार के सिस्टम को एनालिटिक एप्लायंस या डेटा वेयरहाउस एप्लायंस कहा जाता है)।

कई वर्षों तक, टेराडाटा विशेष विश्लेषणात्मक मशीनों का एकमात्र निर्माता था, लेकिन यह पहला नहीं था - 70 के दशक के उत्तरार्ध में, ब्रिटिश कंप्यूटर उद्योग के तत्कालीन नेता, आईसीएल ने एक सामग्री-पता योग्य बनाने का असफल प्रयास किया। डाटा स्टोर जो आईडीएमएस डीबीएमएस पर आधारित था। लेकिन ब्रिटन-ली ने 1983 में Zilog Z80 परिवार के प्रोसेसर के मल्टीप्रोसेसर कॉन्फ़िगरेशन के आधार पर "डेटाबेस इंजन" बनाने वाले पहले व्यक्ति थे। इसके बाद, ब्रिटन-ली को टेराडेटा द्वारा खरीदा गया, जिसने 1984 से निर्णय समर्थन प्रणालियों और डेटा गोदामों के लिए एमपीपी कंप्यूटरों का उत्पादन किया। और इस तरह के सिस्टम के आपूर्तिकर्ताओं की एक नई पीढ़ी का पहला प्रतिनिधि Netezza था - इसके Netezza प्रदर्शन सर्वर समाधान में, विशेष स्निपेट प्रोसेसिंग यूनिट ब्लेड के साथ मानक ब्लेड सर्वर का उपयोग किया गया था।

डीबीएमएस में विश्लेषिकी

विश्लेषिकी यहाँ सबसे पहले है पूर्वानुमान, या भविष्य कहनेवाला(भविष्य कहनेवाला विश्लेषण, आरए)। अधिकांश मौजूदा कार्यान्वयन में, आरए सिस्टम के लिए प्रारंभिक डेटा डेटा वेयरहाउस में पहले जमा किया गया डेटा होता है। विश्लेषण के लिए, डेटा को पहले इंटरमीडिएट डेटा मार्ट (आईडीएम) में ले जाया जाता है, जहां डेटा की प्रस्तुति इसका उपयोग करने वाले अनुप्रयोगों पर निर्भर नहीं होती है, और फिर उसी डेटा को विशेष विश्लेषणात्मक मार्ट (एडीएम) में स्थानांतरित कर दिया जाता है, और विशेषज्ञ पहले से ही साथ काम कर रहे हैं उन्हें विभिन्न विकास उपकरण, या डेटा माइनिंग (डेटा माइनिंग) का उपयोग करना। ऐसा बहु-चरण मॉडल अपेक्षाकृत कम मात्रा में डेटा के लिए काफी स्वीकार्य है, लेकिन उनकी वृद्धि के साथ और ऐसे मॉडलों में दक्षता के लिए बढ़ी हुई आवश्यकताओं के साथ, कई नुकसान सामने आते हैं। डेटा को स्थानांतरित करने की आवश्यकता के अलावा, कई स्वतंत्र एडीएम के अस्तित्व से भौतिक और तार्किक बुनियादी ढांचे की जटिलता होती है, उपयोग किए जाने वाले मॉडलिंग टूल की संख्या बढ़ रही है, विभिन्न विश्लेषकों द्वारा प्राप्त परिणाम असंगत हैं, और कंप्यूटिंग शक्ति और चैनल हैं इष्टतम उपयोग से दूर। इसके अलावा, रिपॉजिटरी और एडीएम का अलग अस्तित्व वास्तविक समय के करीब एनालिटिक्स के लिए इसे लगभग असंभव बना देता है।

इन-डेटाबेस एनालिटिक्स या नो-कॉपी एनालिटिक्स नामक एक तरीका हो सकता है, जो एनालिटिक्स उद्देश्यों के लिए सीधे डेटाबेस में डेटा के उपयोग को मानता है। ऐसे डीबीएमएस को कभी-कभी विश्लेषणात्मक और समानांतर कहा जाता है। MapReduce और Hadoop प्रौद्योगिकियों के आगमन के साथ दृष्टिकोण विशेष रूप से आकर्षक हो गया है। इन-डेटाबेस एनालिटिक्स वर्ग के अनुप्रयोगों की नई पीढ़ी में, सभी प्रकार के डेटा विकास और अन्य प्रकार के गहन कार्य सीधे वेयरहाउस में स्थित डेटा पर किए जाते हैं। जाहिर है, यह प्रक्रियाओं को महत्वपूर्ण रूप से गति देता है और वास्तविक समय के अनुप्रयोगों जैसे पैटर्न पहचान, क्लस्टरिंग, प्रतिगमन विश्लेषण और विभिन्न प्रकार के पूर्वानुमान की अनुमति देता है। त्वरण न केवल भंडारण से स्टोरफ्रंट तक की चाल से छुटकारा पाने के कारण प्राप्त किया जाता है, बल्कि मुख्य रूप से असीमित स्केलिंग वाले क्लस्टर सिस्टम सहित विभिन्न समानांतरकरण विधियों के उपयोग के कारण होता है। इन-डेटाबेस एनालिटिक्स जैसे समाधान एनालिटिक्स अनुप्रयोगों में क्लाउड प्रौद्योगिकियों के उपयोग की संभावना को खोलते हैं। अगला कदम SAP HANA (हाई परफॉर्मेंस एनालिटिक एप्लायंस) तकनीक हो सकता है, जिसका सार रैम में विश्लेषण के लिए डेटा रखना है।

प्रमुख आपूर्तिकर्ता...

2010 तक, इन-डेटाबेस एनालिटिक्स के लिए मुख्य सॉफ्टवेयर प्रदाता एस्टर डेटा (एस्टर एनक्लस्टर), ग्रीनप्लम (ग्रीनप्लम डेटाबेस), आईबीएम (इन्फोस्फेयर वेयरहाउस; आईबीएम डीबी 2), माइक्रोसॉफ्ट (एसक्यूएल सर्वर 2008), नेटेज़ा (नेटेज़ा परफॉर्मेंस सिस्टम, पोस्टग्रेएसक्यूएल) थे। , Oracle (Oracle Database 11g / 10g, Oracle Exadata), SenSage (SenSage / columnar), Sybase (Sybase IQ), Teradata, और Vertica Systems (Vertica Analytic Database)। सिलिकॉन वैली स्टार्टअप सेनसेज को छोड़कर ये सभी जानी-मानी कंपनियां हैं। उत्पाद डेटा के प्रकार में, कार्यक्षमता में, इंटरफेस में, उनके द्वारा उपयोग किए जाने वाले विश्लेषणात्मक सॉफ़्टवेयर में और बादलों में काम करने की उनकी क्षमता में स्पष्ट रूप से भिन्न होते हैं। Teradata समाधान परिपक्वता में अग्रणी है, और Aster Data सबसे आगे है। विश्लेषणात्मक सॉफ्टवेयर विक्रेताओं की सूची छोटी है - KXEN, SAS, SPSS और TIBCO के उत्पाद स्थानीय कॉन्फ़िगरेशन में काम कर सकते हैं, और Amazon, Cascading, Google, Yahoo! और एलोडेरा।

2010 भविष्य कहनेवाला विश्लेषिकी में एक महत्वपूर्ण वर्ष था, 2007 की तुलना में जब आईबीएम ने कॉग्नोस का अधिग्रहण किया, एसएपी ने बिजनेस ऑब्जेक्ट का अधिग्रहण किया, और ओरेकल ने हाइपरियन का अधिग्रहण किया। यह सब ईएमसी के ग्रीनप्लम के अधिग्रहण के साथ शुरू हुआ, फिर आईबीएम ने नेटेज़ा का अधिग्रहण किया, एचपी ने वर्टिका का अधिग्रहण किया, टेराडाटा ने एस्टर डेटा प्राप्त किया, और एसएपी ने साइबेस का अधिग्रहण किया।

... और नए अवसर

विश्लेषणात्मक प्रतिमान मौलिक रूप से नई संभावनाओं को खोलता है, जिसे कोलोन के दो इंजीनियरों द्वारा सफलतापूर्वक साबित किया गया था, जिन्होंने कंपनी ParStream (आधिकारिक नाम empulse GmbH) बनाया था। साथ में, वे अपने पूर्ववर्तियों के साथ प्रतिस्पर्धा करते हुए, सामान्य-उद्देश्य और GPU प्रोसेसर दोनों के आधार पर एक विश्लेषणात्मक मंच बनाने में कामयाब रहे। चार साल पहले, माइकल हम्मेपल और जोर्ग बिएनर्ट, जो पहले एक्सेंचर में थे, को एक जर्मन ट्रैवल कंपनी से एक ऑर्डर मिला, जिसे टूर बनाने के लिए एक सिस्टम की आवश्यकता थी जो 100 मिलीसेकंड में 6 बिलियन रिकॉर्ड के डेटाबेस से 20-पैरामीटर रिकॉर्ड का चयन कर सके। मौजूदा समाधानों में से कोई भी इस तरह के कार्य का सामना नहीं कर सकता है, हालांकि बहुत बड़े डेटाबेस की सामग्री के ऑनलाइन विश्लेषण की आवश्यकता होने पर समान समस्याओं का सामना करना पड़ता है। ParStream का जन्म बिग डेटा एनालिटिक्स में HPC तकनीकों को लागू करने के आधार से हुआ था। Hümmepl और Binert ने अपने स्वयं के डेटाबेस इंजन को लिखकर शुरू किया, जिसे x86-आर्किटेक्चर क्लस्टर पर चलाने के लिए डिज़ाइन किया गया था जो समानांतर धाराओं के रूप में डेटा संचालन का समर्थन करता है, इसलिए इसका नाम ParStream है। उन्होंने अपने प्रारंभिक सेटअप के रूप में केवल संरचित डेटा के साथ काम करना चुना, जो वास्तव में अपेक्षाकृत सरल समानांतरकरण की संभावना को खोलता है। डिज़ाइन के अनुसार, यह डेटाबेस MapReduce या Hadoop की तुलना में नए Google Dremel प्रोजेक्ट के करीब है, जो वास्तविक समय के प्रश्नों के लिए उत्तरदायी नहीं हैं। X86 / Linux प्लेटफॉर्म से शुरू होकर, Hümmepl और Binert जल्द ही आश्वस्त हो गए कि उनके डेटाबेस को nVidia Fermi GPU द्वारा भी समर्थित किया जा सकता है।

बिग डेटा और डेटा प्रोसेसिंग

यह समझने के लिए कि बिग डेटा कहे जाने वाले से क्या उम्मीद की जाए, किसी को आधुनिक संकीर्ण "आईटी" विश्वदृष्टि की सीमाओं से परे जाना चाहिए और यह देखने की कोशिश करनी चाहिए कि व्यापक ऐतिहासिक और तकनीकी पूर्वव्यापी में क्या हो रहा है, उदाहरण के लिए, समानताएं खोजने का प्रयास करें प्रौद्योगिकियां जिनका लंबा इतिहास है। आखिरकार, अपनी गतिविधि के विषय को एक तकनीक कहते हुए, हमें इसे एक तकनीक के रूप में भी मानना चाहिए। गुणात्मक रूप से नए उत्पादों को प्राप्त करने के लिए लगभग सभी ज्ञात सामग्री प्रौद्योगिकियों को उनके या कुछ अन्य घटकों के लिए विशिष्ट कच्चे माल के प्रसंस्करण, प्रसंस्करण या संयोजन के लिए कम कर दिया जाता है - तकनीकी प्रक्रिया के इनपुट पर कुछ और आउटपुट पर कुछ होता है।

अमूर्त सूचना प्रौद्योगिकी की ख़ासियत यह है कि तकनीकी श्रृंखला यहाँ इतनी स्पष्ट नहीं है, यह स्पष्ट नहीं है कि कच्चा माल क्या है, परिणाम क्या है, इनपुट पर क्या आता है और आउटपुट पर क्या प्राप्त होता है। कहने का सबसे आसान तरीका यह है कि इनपुट कच्चा डेटा है, और आउटपुट उपयोगी जानकारी है। कुल मिलाकर यह लगभग सच है, लेकिन दोनों के बीच का रिश्ता बेहद जटिल है; यदि हम स्वस्थ व्यावहारिकता के स्तर पर बने रहें, तो हम स्वयं को निम्नलिखित बातों तक सीमित रख सकते हैं। डेटा कच्चे तथ्य होते हैं, जिन्हें विभिन्न रूपों में व्यक्त किया जाता है, जो अपने आप में तब तक उपयोगी अर्थ नहीं रखते हैं जब तक कि उन्हें संदर्भ में नहीं रखा जाता है, प्रसंस्करण के दौरान ठीक से व्यवस्थित और व्यवस्थित नहीं किया जाता है। सूचना किसी व्यक्ति द्वारा संसाधित डेटा के विश्लेषण के परिणामस्वरूप प्रकट होती है, यह विश्लेषण डेटा को अर्थ देता है और उन्हें उपभोक्ता गुण प्रदान करता है। डेटा अव्यवस्थित तथ्य हैं जिन्हें सूचना में बदलने की आवश्यकता है। कुछ समय पहले तक, के बारे में विचार डाटा प्रासेसिंग(डेटा प्रोसेसिंग) अपेक्षाकृत कम मात्रा में डेटा पर एल्गोरिथम, तार्किक या सांख्यिकीय संचालन के एक कार्बनिक सर्कल में कम हो गए थे। हालाँकि, जैसे-जैसे कंप्यूटर तकनीक वास्तविक दुनिया में पहुँचती है, वास्तविक दुनिया से डेटा को वास्तविक दुनिया के बारे में जानकारी में बदलने की आवश्यकता बढ़ जाती है, संसाधित डेटा बड़ा हो जाता है, और प्रसंस्करण गति की आवश्यकताएँ बढ़ जाती हैं।

तार्किक रूप से, सूचना प्रौद्योगिकियां भौतिक प्रौद्योगिकियों से बहुत अलग नहीं हैं, इनपुट कच्चे डेटा पर, आउटपुट पर संरचित, मानव धारणा के लिए अधिक सुविधाजनक रूप में, उनसे जानकारी निकालने और जानकारी को बुद्धि की शक्ति से उपयोगी ज्ञान में बदलना। कंप्यूटरों को गिनने की उनकी क्षमता के लिए कंप्यूटर कहा गया है, ENIAC के लिए पहला एप्लिकेशन - गन फायरिंग डेटा को संसाधित करना और उन्हें आर्टिलरी टेबल में परिवर्तित करना। अर्थात्, कंप्यूटर ने कच्चे डेटा को संसाधित किया, उपयोगी डेटा निकाला, और इसे उपयोग के लिए उपयुक्त रूप में लिखा। हमारे सामने एक साधारण तकनीकी प्रक्रिया से ज्यादा कुछ नहीं है। सामान्यतया, अधिक सटीक डेटा प्रोसेसिंग का उपयोग सूचना प्रौद्योगिकी शब्द के बजाय अधिक बार किया जाना चाहिए।

सूचना प्रौद्योगिकियां सामान्य कानूनों के अधीन होनी चाहिए, जिसके अनुसार अन्य सभी प्रौद्योगिकियां विकसित होती हैं, और यह सबसे पहले, संसाधित कच्चे माल की मात्रा में वृद्धि और प्रसंस्करण की गुणवत्ता में सुधार है। यह हर जगह होता है, भले ही कच्चे माल के रूप में वास्तव में क्या कार्य करता है, और परिणाम क्या होता है, चाहे वह धातु विज्ञान, पेट्रोकेमिस्ट्री, जैव प्रौद्योगिकी, अर्धचालक प्रौद्योगिकियां इत्यादि हो। बाद में त्वरित विकास के क्षण आते हैं। जब कोई आवश्यकता बाहरी रूप से उत्पन्न होती है, तो तीव्र परिवर्तन हो सकते हैं, और प्रौद्योगिकियों के भीतर इसे संतुष्ट करने की क्षमता होती है। कंप्यूटर वैक्यूम ट्यूबों पर नहीं बनाए जा सकते थे - और अर्धचालक दिखाई दिए, कारों को बहुत अधिक गैसोलीन की आवश्यकता होती है - क्रैकिंग प्रक्रिया की खोज की गई थी, और ऐसे कई उदाहरण हैं। इस प्रकार, बिग डेटा नाम के तहत, कंप्यूटर प्रौद्योगिकी में एक उभरता हुआ गुणात्मक संक्रमण है जो गंभीर परिवर्तन ला सकता है, यह संयोग से नहीं है कि इसे एक नई औद्योगिक क्रांति कहा जाता है। बिग डेटा सभी आगामी परिणामों के साथ एक और तकनीकी क्रांति है।

डेटा प्रोसेसिंग में पहला अनुभव 4 वीं सहस्राब्दी ईसा पूर्व का है, जब चित्रात्मक लेखन दिखाई दिया। तब से, डेटा के साथ काम करने के कई मुख्य क्षेत्र विकसित हुए हैं, सबसे शक्तिशाली था और पाठ बनी हुई है, पहली मिट्टी की गोलियों से एसएसडी तक, पहली सहस्राब्दी ईसा पूर्व के मध्य के पुस्तकालयों से लेकर आधुनिक पुस्तकालयों तक, फिर विभिन्न प्रकार के गणितीय संख्यात्मक आधुनिक कंप्यूटरों की गणना को सरल बनाने के लिए पाइथागोरस प्रमेय और सारणीबद्ध तकनीकों के प्रमाण के साथ पपीरी से विधियां दिखाई दीं। जैसे-जैसे समाज विकसित हुआ, विभिन्न प्रकार के सारणीबद्ध डेटा जमा होने लगे, काम का स्वचालन जिसके साथ टेबुलेटर्स के साथ शुरू हुआ, और 19 वीं और 20 वीं शताब्दी में, डेटा बनाने और जमा करने के कई नए तरीके प्रस्तावित किए गए। बड़ी मात्रा में डेटा के साथ काम करने की आवश्यकता को लंबे समय तक समझा गया था, लेकिन कोई धन नहीं था, इसलिए यूटोपियन परियोजनाएं जैसे पॉल ओटलेट द्वारा "लाइब्रेरियम", या 60 हजार लोगों के श्रम का उपयोग करके मौसम की भविष्यवाणी करने के लिए एक शानदार प्रणाली - कैलकुलेटर।

आज कंप्यूटर डेटा के साथ काम करने का एक सार्वभौमिक उपकरण बन गया है, हालांकि इसकी कल्पना केवल गणनाओं को स्वचालित करने के लिए की गई थी। डेटा प्रोसेसिंग के लिए कंप्यूटर का उपयोग करने का विचार आईबीएम में डिजिटल प्रोग्रामेबल कंप्यूटरों के आविष्कार के दस साल बाद उत्पन्न हुआ, और इससे पहले, हरमन होलेरिथ द्वारा आविष्कार किए गए यूनिट रिकॉर्ड पंचिंग उपकरणों का उपयोग डेटा को संसाधित करने के लिए किया जाता था। उन्हें यूनिट रिकॉर्ड कहा जाता था, यानी एक रिकॉर्ड - प्रत्येक कार्ड में किसी एक वस्तु से संबंधित संपूर्ण रिकॉर्ड होता था। पहले कंप्यूटर बिग डेटा के साथ काम करना नहीं जानते थे - केवल डिस्क और टेप पर ड्राइव के आगमन के साथ, वे कंप्यूटर-गणना स्टेशनों के साथ प्रतिस्पर्धा करने में सक्षम थे जो 60 के दशक के अंत तक मौजूद थे। वैसे, संबंधपरक डेटाबेस में यूनिट रिकॉर्ड विरासत का स्पष्ट रूप से पता लगाया जाता है।

सादगी ही सफलता की कुंजी है

कच्चे डेटा की मात्रा में वृद्धि, वास्तविक समय में उनका विश्लेषण करने की आवश्यकता के साथ, ऐसे उपकरणों के निर्माण और कार्यान्वयन की आवश्यकता होती है जो तथाकथित बिग डेटा एनालिटिक्स समस्या को प्रभावी ढंग से हल करने की अनुमति देते हैं। सूचना निर्माता प्रौद्योगिकियां आपको वास्तविक समय में किसी भी स्रोत से डेटा के साथ काम करने की अनुमति देती हैं, विभिन्न प्रकार के एडेप्टर और एंटरप्राइज सर्विस बस की वास्तुकला के लिए धन्यवाद। WebFOCUS टूल आपको तुरंत डेटा का विश्लेषण करने की अनुमति देता है और आपको उपयोगकर्ता के लिए सर्वोत्तम तरीके से परिणामों की कल्पना करने की अनुमति देता है।

RSTAT तकनीक के आधार पर, सूचना बिल्डर्स ने एक भविष्य कहनेवाला विश्लेषण उत्पाद बनाया है जो भविष्य कहनेवाला क्या-क्या और क्या-के-मामले परिदृश्य भविष्यवाणी को सक्षम बनाता है।

व्यापार खुफिया प्रौद्योगिकियां रूस में आईं, लेकिन केवल कुछ रूसी कंपनियां ही भविष्य कहनेवाला विश्लेषण का उपयोग करती हैं, जो घरेलू उद्यमों में व्यावसायिक बुद्धिमत्ता का उपयोग करने की कम संस्कृति और एक व्यावसायिक उपयोगकर्ता द्वारा मौजूदा विश्लेषण विधियों की धारणा की जटिलता के कारण होती है। इस बात को ध्यान में रखते हुए, सूचना निर्माता आज ऐसे उत्पाद पेश करते हैं जिन्हें गार्टनर के विश्लेषक उपयोग में सबसे आसान मानते हैं।

– मिखाइल स्ट्रोयेव([ईमेल संरक्षित]), रूस और CIS में व्यवसाय विकास निदेशक, InfoBuild CIS (मास्को)।

डेटा हर जगह है

गणना उपकरणों से कंप्यूटर के सामान्य-उद्देश्य डेटा प्रोसेसिंग मशीनों में क्रमिक परिवर्तन के साथ, लगभग 1970 के बाद, नए शब्द सामने आने लगे: डेटा उत्पादों के रूप में; डेटा उपकरण; संबंधित संगठन (डेटा एप्लिकेशन) द्वारा लागू किए गए एप्लिकेशन; डेटा विज्ञान; डेटा वैज्ञानिक और यहां तक कि पत्रकार जो डेटा में निहित जानकारी को आम जनता (डेटा पत्रकार) तक पहुंचाते हैं।

डेटा एप्लिकेशन वर्ग के अनुप्रयोग आज व्यापक हो गए हैं, जो न केवल डेटा पर संचालन करते हैं, बल्कि उनसे अतिरिक्त मूल्य निकालते हैं और डेटा के रूप में उत्पाद बनाते हैं। इस प्रकार के पहले अनुप्रयोगों में सीडीडीबी ऑडियो डिस्क डेटाबेस है, जो पारंपरिक डेटाबेस के विपरीत, डिस्क से डेटा निकालने और उन्हें मेटाडेटा (डिस्क, ट्रैक, आदि के नाम) के साथ जोड़कर बनाया गया था। यह आधार Apple iTunes सेवा के केंद्र में है। Google की व्यावसायिक सफलता के कारकों में से एक डेटा एप्लिकेशन की भूमिका के बारे में जागरूकता भी रही है - डेटा का स्वामित्व इस कंपनी को वांछित पृष्ठ (पेजरैंक एल्गोरिथम) के बाहर डेटा का उपयोग करके बहुत कुछ "जानने" की अनुमति देता है। Google ने सही वर्तनी की समस्या को काफी सरलता से हल किया है - इसके लिए, त्रुटियों और सुधारों का एक डेटाबेस बनाया गया है, और उपयोगकर्ता को सुधार की पेशकश की जाती है जिसे वह स्वीकार या अस्वीकार कर सकता है। भाषण इनपुट के दौरान मान्यता के लिए एक समान दृष्टिकोण का उपयोग किया जाता है - यह संचित ऑडियो डेटा पर आधारित होता है।

2009 में, स्वाइन फ्लू के प्रकोप के दौरान, खोज इंजनों के प्रश्नों के विश्लेषण ने महामारी के प्रसार का पता लगाना संभव बना दिया। कई कंपनियों (Facebook, LinkedIn, Amazon, आदि) ने न केवल सेवाएं प्रदान करते हुए, बल्कि अन्य उद्देश्यों के लिए संचित डेटा का उपयोग करते हुए, Google के मार्ग का अनुसरण किया है। इस प्रकार के डेटा को संसाधित करने की क्षमता ने जनसंख्या के बारे में एक और विज्ञान के उद्भव को गति दी - नागरिक विज्ञान। जनसंख्या डेटा के व्यापक विश्लेषण के माध्यम से प्राप्त परिणाम लोगों का बहुत गहरा ज्ञान और बेहतर सूचित प्रशासनिक और व्यावसायिक निर्णय प्रदान करते हैं। उनके साथ काम करने के लिए डेटा और टूल्स के संग्रह को अब इन्फोवेयर कहा जाता है।

बिग डेटा मशीन

डेटा वेयरहाउस, ऑनलाइन स्टोर, बिलिंग सिस्टम, या कोई अन्य प्लेटफ़ॉर्म जिसे बिग डेटा प्रोजेक्ट के रूप में वर्गीकृत किया जा सकता है, में आमतौर पर विशिष्ट विशिष्टताएँ होती हैं, और इसके डिज़ाइन में, मुख्य बात औद्योगिक डेटा के साथ एकीकरण, डेटा संचय प्रक्रियाओं, उनके संगठन और विश्लेषण को सुनिश्चित करना है।

Oracle ने एक पूर्ण सॉफ़्टवेयर स्टैक और 18 Sun X4270 M2 सर्वर के साथ अनुकूलित हार्डवेयर की बिग डेटा श्रृंखला का समर्थन करने के लिए एक एकीकृत Oracle बिग डेटा उपकरण समाधान प्रदान किया है। इंटरकनेक्शन 40 जीबीपीएस इनफिनिबैंड और 10-गीगाबिट ईथरनेट पर आधारित है। Oracle Big Data Appliance में Oracle के ओपन सोर्स और मालिकाना सॉफ़्टवेयर दोनों का संयोजन शामिल है।

की-वैल्यू या नोएसक्यूएल डीबीएमएस स्टोरेज सिस्टम आज बिग डेटा की दुनिया में मुख्य के रूप में पहचाने जाते हैं और तेजी से डेटा संचय और उन तक पहुंच के लिए अनुकूलित हैं। जैसे Oracle बिग डेटा एप्लायंसेज के लिए DBMS, Oracle बर्कले DB पर आधारित DBMS का उपयोग किया जाता है, जो स्टोरेज सिस्टम टोपोलॉजी के बारे में जानकारी संग्रहीत करता है, डेटा वितरित करता है और समझता है कि डेटा को कम से कम समय के साथ कहाँ रखा जा सकता है।

Hadoop समाधान के लिए Oracle लोडर, Oracle 11g में लोडिंग और विश्लेषण के लिए अनुकूलित डेटासेट बनाने के लिए MapReduce तकनीक का उपयोग करता है। डेटा Oracle DBMS के "मूल" प्रारूप में उत्पन्न होता है, जो सिस्टम संसाधनों के उपयोग को कम करता है। स्वरूपित डेटा को क्लस्टर पर संसाधित किया जाता है, और फिर डेटा को मानक SQL कमांड या व्यावसायिक खुफिया टूल का उपयोग करके पारंपरिक RDBMS उपयोगकर्ताओं के वर्कस्टेशन से एक्सेस किया जा सकता है। Hadoop डेटा और Oracle DBMS का एकीकरण Oracle डेटा इंटीग्रेटर समाधान का उपयोग करके किया जाता है।

Oracle बिग डेटा उपकरण HDFS और अन्य घटकों सहित Apache Hadoop के एक खुले स्रोत वितरण के साथ जहाज, कच्चे डेटा विश्लेषण के लिए R सांख्यिकीय पैकेज का एक खुला स्रोत वितरण, और Oracle Enterprise Linux 5.6। पहले से ही Hadoop का उपयोग करने वाले उद्यम बाहरी तालिकाओं की कार्यक्षमता का उपयोग करके HDFS पर होस्ट किए गए डेटा को Oracle DBMS में एकीकृत कर सकते हैं, और DBMS में डेटा को तुरंत लोड करने की कोई आवश्यकता नहीं है - बाहरी डेटा का उपयोग SQL कमांड का उपयोग करके आंतरिक Oracle डेटाबेस डेटा के संयोजन में किया जा सकता है।

Oracle Big Data Appliance और Oracle Exadata के बीच Infiniband कनेक्टिविटी बैच प्रोसेसिंग या SQL क्वेरी के लिए हाई-स्पीड डेटा ट्रांसफर प्रदान करती है। Oracle Exadata डेटा वेयरहाउसिंग और ऑनलाइन लेनदेन प्रसंस्करण अनुप्रयोगों दोनों के लिए आपके लिए आवश्यक प्रदर्शन प्रदान करता है।

नए Oracle Exalytics उत्पाद का उपयोग व्यावसायिक खुफिया कार्यों को हल करने के लिए किया जा सकता है और इन-मेमोरी प्रोसेसिंग के साथ Oracle Business Intelligence Enterprise Edition का उपयोग करने के लिए अनुकूलित किया गया है।

– व्लादिमीर डेमकिन ([ईमेल संरक्षित]), Oracle CIS (मास्को) में Oracle Exadata के लिए प्रमुख सलाहकार।

विज्ञान और विशेषज्ञ

रिपोर्ट के लेखक "डेटा साइंस क्या है?" (डेटा साइंस क्या है?), ओ'रेली रडार रिपोर्ट श्रृंखला में प्रकाशित, माइक लुकिडिस ने लिखा: "भविष्य उन कंपनियों और लोगों का है जो डेटा को उत्पादों में बदल सकते हैं।" यह कथन अनैच्छिक रूप से रोथ्सचाइल्ड के प्रसिद्ध शब्दों को ध्यान में लाता है, "जो जानकारी का मालिक है - वह दुनिया का मालिक है", उसके द्वारा कहा गया था जब उसने दूसरों की तुलना में वाटरलू में नेपोलियन की हार के बारे में सीखा और प्रतिभूति घोटाले को बदल दिया। आज यह सूत्र फिर से लिखने लायक है: "दुनिया उसी के स्वामित्व में है जो अपने विश्लेषण के लिए डेटा और तकनीकों का मालिक है।" कार्ल मार्क्स, जो थोड़ी देर बाद जीवित रहे, ने दिखाया कि औद्योगिक क्रांति ने लोगों को दो समूहों में विभाजित किया - वे जो उत्पादन के साधनों के मालिक हैं और वे जो उनके लिए काम करते हैं। सामान्य शब्दों में, अब कुछ ऐसा ही हो रहा है, लेकिन अब स्वामित्व और कार्यों के विभाजन का विषय भौतिक मूल्यों के उत्पादन का साधन नहीं है, बल्कि डेटा और सूचना के उत्पादन का साधन है। और यह वह जगह है जहां समस्याएं उत्पन्न होती हैं - यह पता चला है कि मूर्त संपत्ति के मालिक होने की तुलना में डेटा का स्वामित्व बहुत अधिक कठिन है, पूर्व को काफी सरलता से दोहराया जाता है और उनकी चोरी की संभावना मूर्त संपत्ति की चोरी की तुलना में बहुत अधिक है। इसके अलावा, कानूनी खुफिया तकनीकें हैं - पर्याप्त मात्रा और उपयुक्त विश्लेषणात्मक विधियों के साथ, आप जो छिपा हुआ है उसकी "गणना" कर सकते हैं। यही कारण है कि अब बिग डेटा एनालिटिक्स (साइडबार देखें) पर इतना ध्यान दिया जा रहा है और इससे कैसे बचाव किया जाए।

डेटा के साथ विभिन्न गतिविधियों, और सूचना निष्कर्षण विधियों के सभी ज्ञान के ऊपर, डेटा विज्ञान कहा जाता है, जो कम से कम रूसी में अनुवाद में, कुछ हद तक विचलित करने वाला है, क्योंकि यह कुछ नए अकादमिक विज्ञान को नहीं, बल्कि एक अंतःविषय सेट ज्ञान को संदर्भित करता है। और ज्ञान निकालने के लिए आवश्यक कौशल। इस तरह के एक सेट की संरचना काफी हद तक क्षेत्र पर निर्भर करती है, लेकिन विशेषज्ञों के लिए कम या ज्यादा सामान्यीकृत योग्यता आवश्यकताओं, जिन्हें डेटा वैज्ञानिक कहा जाता है, को प्रतिष्ठित किया जा सकता है। यह सबसे अच्छा ड्रू कॉनवे द्वारा किया गया था, जो अतीत में अमेरिकी खुफिया सेवाओं में से एक में आतंकवादी खतरों पर डेटा का विश्लेषण करने में शामिल था। उनके शोध प्रबंध के मुख्य शोध त्रैमासिक पत्रिका आईक्यूटी क्वार्टरली में प्रकाशित होते हैं, जो इन-क्यू-टेल द्वारा प्रकाशित किया जाता है, जो यूएस सीआईए और वैज्ञानिक संगठनों के बीच मध्यस्थ के रूप में कार्य करता है।

कॉनवे ने अपने मॉडल को एक वेन आरेख (आंकड़ा देखें) के रूप में दर्शाया, जो ज्ञान और कौशल के तीन क्षेत्रों का प्रतिनिधित्व करता है, जिन्हें डेटा वैज्ञानिक बनने के लिए महारत हासिल होनी चाहिए। हैकिंग कौशल को दुर्भावनापूर्ण कार्यों के रूप में नहीं समझा जाना चाहिए, इस मामले में हरक्यूल पोयरोट की तरह एक विशेष विश्लेषणात्मक मानसिकता के साथ एक निश्चित टूलकिट के कब्जे के संयोजन को इसे कहा जाता है, या शायद इस क्षमता को शर्लक होम्स की निगमनात्मक विधि कहा जा सकता है। महान जासूसों के विपरीत, आपको अभी भी कई गणितीय क्षेत्रों में विशेषज्ञ होने और विषय को समझने की आवश्यकता है। मशीन लर्निंग का निर्माण पहले दो क्षेत्रों के चौराहे पर, दूसरे और तीसरे के चौराहे पर - पारंपरिक तरीकों से होता है। चौराहा का तीसरा क्षेत्र सट्टा के कारण खतरनाक है, गणितीय विधियों के बिना कोई वस्तुनिष्ठ दृष्टि नहीं हो सकती है। तीनों जोनों के चौराहे पर डेटा साइंस है।

कॉनवे का आरेख एक सरलीकृत चित्र देता है; सबसे पहले, न केवल मशीन लर्निंग हैकिंग और गणितीय हलकों के चौराहे पर स्थित है, और दूसरी बात, अंतिम सर्कल का आकार बहुत बड़ा है, आज इसमें कई विषयों और प्रौद्योगिकियां शामिल हैं। मशीन लर्निंग केवल कृत्रिम बुद्धिमत्ता के क्षेत्रों में से एक है जो सीखने में सक्षम एल्गोरिदम के निर्माण से जुड़ा है; इसे दो उपक्षेत्रों में विभाजित किया गया है: मिसाल या आगमनात्मक शिक्षण, जो डेटा में छिपे हुए पैटर्न को प्रकट करता है, और विशेषज्ञ ज्ञान को औपचारिक रूप देने के उद्देश्य से निगमन। मशीन लर्निंग को पर्यवेक्षित शिक्षण में भी विभाजित किया जाता है, जब पूर्व-तैयार प्रशिक्षण डेटासेट के आधार पर वर्गीकरण विधियों का अध्ययन किया जाता है, और असुरक्षित शिक्षण, जब क्लस्टर विश्लेषण के माध्यम से आंतरिक पैटर्न की खोज की जाती है।

तो, बिग डेटा सट्टा सोच नहीं है, बल्कि तकनीकी क्रांति से आगे निकलने का प्रतीक है। बड़े डेटा के साथ विश्लेषणात्मक कार्य की आवश्यकता आईटी उद्योग के चेहरे को महत्वपूर्ण रूप से बदल देगी और नए सॉफ्टवेयर और हार्डवेयर प्लेटफॉर्म के उद्भव को प्रोत्साहित करेगी। पहले से ही आज, बड़ी मात्रा में डेटा का विश्लेषण करने के लिए सबसे उन्नत तरीकों का उपयोग किया जाता है: कृत्रिम तंत्रिका नेटवर्क - जैविक तंत्रिका नेटवर्क के संगठन और कामकाज के सिद्धांत पर निर्मित मॉडल; भविष्य कहनेवाला विश्लेषण, सांख्यिकी और प्राकृतिक भाषा प्रसंस्करण के तरीके (कृत्रिम बुद्धिमत्ता और गणितीय भाषाविज्ञान के क्षेत्र, कंप्यूटर विश्लेषण और प्राकृतिक भाषाओं के संश्लेषण की समस्याओं का अध्ययन)। मानव विशेषज्ञों को आकर्षित करने वाली विधियों का भी उपयोग किया जाता है, या क्राउडसोर्सिंग, ए / बी परीक्षण, भावना विश्लेषण, आदि। प्रसिद्ध तरीकों का उपयोग परिणामों की कल्पना करने के लिए किया जाता है, उदाहरण के लिए, टैग क्लाउड और पूरी तरह से नया क्लस्टरग्राम, इतिहास प्रवाह और स्थानिक सूचना प्रवाह .

बिग डेटा प्रौद्योगिकियों की ओर से, वे वितरित फ़ाइल सिस्टम Google फ़ाइल सिस्टम, कैसेंड्रा, HBase, Luster और ZFS, MapReduce और Hadoop सॉफ़्टवेयर निर्माण और कई अन्य समाधानों द्वारा समर्थित हैं। मैकिन्से इंस्टीट्यूट जैसे विशेषज्ञों के अनुसार, बिग डेटा के प्रभाव में, उत्पादन, स्वास्थ्य सेवा, व्यापार, प्रशासन और व्यक्तिगत आंदोलनों की निगरानी के क्षेत्र सबसे बड़े परिवर्तन से गुजरेंगे।