बिग डेटा एनालिसिस क्या है। बिग डेट का उपयोग कैसे किया जाता है? बिग-डेटा तकनीक पर सर्वश्रेष्ठ पुस्तकें

यह अनुमान लगाया गया था कि 2011 में बनाए गए और दोहराए गए डेटा की कुल वैश्विक मात्रा लगभग 1.8 ज़ेटाबाइट्स (1.8 ट्रिलियन गीगाबाइट) हो सकती है - 2006 में बनाई गई तुलना में लगभग 9 गुना अधिक।

अधिक जटिल परिभाषा

हालांकि, ` बड़ा डेटा`बड़ी मात्रा में जानकारी का विश्लेषण करने से ज्यादा शामिल है। समस्या यह नहीं है कि संगठन बड़ी मात्रा में डेटा बनाते हैं, लेकिन इसका अधिकांश भाग एक ऐसे प्रारूप में प्रस्तुत किया जाता है जो पारंपरिक संरचित डेटाबेस प्रारूप से मेल नहीं खाता है, जैसे कि वेबलॉग, वीडियो, टेक्स्ट दस्तावेज़, मशीन कोड, या, उदाहरण के लिए , भू-स्थानिक डेटा। ... यह सब कई अलग-अलग रिपॉजिटरी में संग्रहीत किया जाता है, कभी-कभी संगठन के बाहर भी। नतीजतन, निगमों के पास अपने डेटा की एक बड़ी मात्रा तक पहुंच हो सकती है और उस डेटा के बीच संबंध स्थापित करने और इससे सार्थक निष्कर्ष निकालने के लिए आवश्यक उपकरणों की कमी हो सकती है। इस तथ्य को जोड़ें कि डेटा अब अधिक से अधिक बार अपडेट किया जा रहा है, और आपको एक ऐसी स्थिति मिलती है जिसमें सूचना विश्लेषण के पारंपरिक तरीके लगातार अपडेट किए गए डेटा की बड़ी मात्रा के साथ नहीं रह सकते हैं, जो अंततः प्रौद्योगिकी के लिए रास्ता खोलता है। बड़ा डेटा.

सर्वश्रेष्ठ परिभाषा

संक्षेप में, अवधारणा बड़ा डेटाकार्य कुशलता बढ़ाने, नए उत्पाद बनाने और प्रतिस्पर्धात्मकता बढ़ाने के लिए एक विशाल मात्रा और विविध संरचना की जानकारी के साथ काम करना, बहुत बार अद्यतन और विभिन्न स्रोतों में स्थित है। परामर्श कंपनी फॉरेस्टर सारांशित करती है: ` बड़ा डेटाऐसी तकनीकों और तकनीकों को संयोजित करें जो उपयोगिता की चरम सीमा पर डेटा की समझ बनाती हैं।'

बिजनेस इंटेलिजेंस और बिग डेटा में कितना अंतर है?

क्रेग बाटे, मुख्य विपणन अधिकारी और मुख्य प्रौद्योगिकी अधिकारी, फुजित्सु ऑस्ट्रेलिया, ने बताया कि व्यापार विश्लेषण एक विशिष्ट अवधि में एक व्यवसाय द्वारा प्राप्त परिणामों का विश्लेषण करने की एक वर्णनात्मक प्रक्रिया है, जबकि प्रसंस्करण गति बड़ा डेटाआपको विश्लेषण को भविष्य कहनेवाला बनाने की अनुमति देता है, जो भविष्य के लिए व्यावसायिक अनुशंसाओं की पेशकश करने में सक्षम है। बिग डेटा आपको व्यावसायिक खुफिया टूल की तुलना में अधिक प्रकार के डेटा का विश्लेषण करने की अनुमति देता है, जिससे आप केवल संरचित भंडारण से अधिक पर ध्यान केंद्रित कर सकते हैं।

ओ रेली राडार के मैट स्लोकम का मानना है कि यद्यपि बड़ा डेटाऔर व्यावसायिक बुद्धिमत्ता का एक ही लक्ष्य होता है (एक प्रश्न का उत्तर खोजना), वे तीन पहलुओं में एक दूसरे से भिन्न होते हैं।

बिग डेटा को बिजनेस इंटेलिजेंस की तुलना में अधिक जानकारी को संभालने के लिए डिज़ाइन किया गया है, और यह निश्चित रूप से, बड़े डेटा की पारंपरिक परिभाषा के अनुरूप है।
बिग डेटा को प्राप्त होने वाली और अधिक तेज़ी से बदलने वाली जानकारी को संसाधित करने के लिए डिज़ाइन किया गया है, जिसका अर्थ है गहन अन्वेषण और अन्तरक्रियाशीलता। कुछ मामलों में, वेब पेज लोड होने की तुलना में परिणाम तेजी से उत्पन्न होते हैं।
बिग डेटा को असंरचित डेटा को संसाधित करने के लिए डिज़ाइन किया गया है, जिसके तरीके हम केवल तब तलाशने लगे हैं जब हम इसे एकत्र करने और संग्रहीत करने में सक्षम हो गए हैं, और हमें इन सरणियों के भीतर निहित रुझानों की खोज को सुविधाजनक बनाने के लिए एल्गोरिदम और संवाद की क्षमता की आवश्यकता है।

ओरेकल इंफॉर्मेशन आर्किटेक्चर: एन आर्किटेक्ट्स गाइड टू बिग डेटा श्वेत पत्र के अनुसार ओरेकल द्वारा प्रकाशित, हम व्यापार विश्लेषण करते समय बड़े डेटा के साथ काम करते समय अलग तरह से जानकारी प्राप्त करते हैं।

बड़े डेटा के साथ काम करना सामान्य व्यावसायिक खुफिया प्रक्रिया की तरह नहीं है, जहां ज्ञात मूल्यों का साधारण जोड़ परिणाम देता है - उदाहरण के लिए, भुगतान किए गए बिलों को जोड़ना वर्ष के लिए बिक्री बन जाता है। बड़े डेटा के साथ काम करते समय, अनुक्रमिक मॉडलिंग के माध्यम से इसे साफ करने की प्रक्रिया में परिणाम प्राप्त होता है: सबसे पहले, एक परिकल्पना सामने रखी जाती है, एक सांख्यिकीय, दृश्य या अर्थ मॉडल बनाया जाता है, जिसके आधार पर पुट की शुद्धता आगे की परिकल्पना की जाँच की जाती है, और फिर अगली परिकल्पना को सामने रखा जाता है। इस प्रक्रिया के लिए शोधकर्ता को या तो दृश्य मूल्यों की व्याख्या करने या ज्ञान के आधार पर संवादात्मक प्रश्नों की रचना करने या वांछित परिणाम प्राप्त करने में सक्षम अनुकूली मशीन लर्निंग एल्गोरिदम विकसित करने की आवश्यकता होती है। इसके अलावा, ऐसे एल्गोरिदम का जीवनकाल काफी छोटा हो सकता है।

बिग डेटा विश्लेषण तकनीक

डेटा सेट का विश्लेषण करने के लिए कई अलग-अलग तरीके हैं, जो सांख्यिकी और कंप्यूटर विज्ञान (उदाहरण के लिए, मशीन लर्निंग) से उधार लिए गए उपकरणों पर आधारित हैं। सूची पूर्ण होने का दावा नहीं करती है, लेकिन यह विभिन्न उद्योगों में सबसे लोकप्रिय दृष्टिकोणों को दर्शाती है। साथ ही, यह समझा जाना चाहिए कि शोधकर्ता नए तरीकों को बनाने और मौजूदा में सुधार करने पर काम करना जारी रखते हैं। इसके अलावा, ऊपर सूचीबद्ध कुछ तकनीकें विशेष रूप से बड़े डेटा पर लागू नहीं होती हैं और छोटे सरणियों (उदाहरण के लिए, ए / बी परीक्षण, प्रतिगमन विश्लेषण) के लिए सफलतापूर्वक उपयोग की जा सकती हैं। बेशक, अधिक विशाल और विविध सरणी का विश्लेषण किया जाता है, आउटपुट पर अधिक सटीक और प्रासंगिक डेटा प्राप्त किया जा सकता है।

ए / बी परीक्षण... एक तकनीक जिसमें एक नियंत्रण नमूने की एक-एक करके दूसरों के साथ तुलना की जाती है। इस प्रकार, प्राप्त करने के लिए संकेतकों के इष्टतम संयोजन की पहचान करना संभव है, उदाहरण के लिए, एक विपणन प्रस्ताव के लिए सर्वोत्तम उपभोक्ता प्रतिक्रिया। बड़ा डेटाआपको बड़ी संख्या में पुनरावृत्तियों को अंजाम देने और इस प्रकार सांख्यिकीय रूप से विश्वसनीय परिणाम प्राप्त करने की अनुमति देता है।

एसोसिएशन नियम सीखना... रिश्तों की पहचान के लिए तकनीकों का एक सेट, अर्थात। एसोसिएशन नियम, बड़े डेटा सेट में चर के बीच। में इस्तेमाल किया डेटा माइनिंग.

वर्गीकरण... तकनीकों का एक सेट जो आपको किसी विशेष बाजार खंड में उपभोक्ता व्यवहार की भविष्यवाणी करने की अनुमति देता है (खरीद, बहिर्वाह, खपत, आदि के बारे में निर्णय लेना)। में इस्तेमाल किया डेटा माइनिंग.

क्लस्टर विश्लेषण... पहले अज्ञात सामान्य विशेषताओं की पहचान करके वस्तुओं को समूहों में वर्गीकृत करने के लिए एक सांख्यिकीय पद्धति। में इस्तेमाल किया डेटा माइनिंग.

क्राउडसोर्सिंग... बड़ी संख्या में स्रोतों से डेटा एकत्र करने की पद्धति।

डेटा फ्यूजन और डेटा एकीकरण... तकनीकों का एक सेट जो आपको सामाजिक नेटवर्क के उपयोगकर्ताओं की टिप्पणियों का विश्लेषण करने और वास्तविक समय में बिक्री परिणामों के साथ उनकी तुलना करने की अनुमति देता है।

डेटा माइनिंग... तरीकों का एक सेट जो आपको प्रचारित किए जा रहे उत्पाद या सेवा के लिए सबसे अधिक ग्रहणशील उपभोक्ताओं की श्रेणियों को निर्धारित करने, सबसे सफल कर्मचारियों की विशेषताओं की पहचान करने और उपभोक्ताओं के व्यवहार मॉडल की भविष्यवाणी करने की अनुमति देता है।

सीखने को इकट्ठा करो... यह विधि विभिन्न प्रकार के भविष्य कहनेवाला मॉडल का उपयोग करती है, जिससे भविष्यवाणियों की गुणवत्ता में सुधार होता है।

आनुवंशिक एल्गोरिदम... इस तकनीक में, संभावित समाधान 'गुणसूत्रों' के रूप में प्रस्तुत किए जाते हैं, जो गठबंधन और उत्परिवर्तित कर सकते हैं। जैसा कि प्राकृतिक विकास की प्रक्रिया में होता है, योग्यतम जीवित रहता है।

यंत्र अधिगम... कंप्यूटर विज्ञान में दिशा (ऐतिहासिक रूप से, 'कृत्रिम बुद्धिमत्ता' नाम इसके पीछे अटका हुआ था), जिसका उद्देश्य अनुभवजन्य डेटा के विश्लेषण के आधार पर स्व-शिक्षण एल्गोरिदम बनाना है।

प्राकृतिक भाषा प्रसंस्करण (एनएलपी) कंप्यूटर विज्ञान और भाषा विज्ञान से उधार लिए गए व्यक्ति की प्राकृतिक भाषा को पहचानने के लिए तकनीकों का एक सेट।

नेटवर्क विश्लेषण... नेटवर्क में नोड्स के बीच कनेक्शन का विश्लेषण करने के तरीकों का एक सेट। सामाजिक नेटवर्क पर लागू, यह आपको व्यक्तिगत उपयोगकर्ताओं, कंपनियों, समुदायों आदि के बीच संबंधों का विश्लेषण करने की अनुमति देता है।

अनुकूलन... एक या अधिक मेट्रिक्स को बेहतर बनाने के लिए जटिल प्रणालियों और प्रक्रियाओं को नया स्वरूप देने के लिए संख्यात्मक तरीकों का एक सेट। रणनीतिक निर्णय लेने में सहायता करता है, उदाहरण के लिए, बाजार में पेश की गई उत्पाद लाइन की संरचना, निवेश विश्लेषण आयोजित करना आदि।

पैटर्न मान्यता... उपभोक्ता व्यवहार पैटर्न की भविष्यवाणी के लिए स्व-शिक्षण तत्वों के साथ तकनीकों का एक सेट।

भविष्य कहनेवाला मॉडलिंग... तकनीकों का एक सेट जो आपको घटनाओं के विकास के लिए पूर्व निर्धारित संभावित परिदृश्य का गणितीय मॉडल बनाने की अनुमति देता है। उदाहरण के लिए, संभावित स्थितियों के लिए सीआरएम सिस्टम के डेटाबेस का विश्लेषण करना जो ग्राहकों को अपने प्रदाता को बदलने के लिए प्रेरित करेगा।

वापसी... एक आश्रित चर और एक या अधिक स्वतंत्र चर में परिवर्तन के बीच पैटर्न की पहचान करने के लिए सांख्यिकीय विधियों का एक सेट। इसका उपयोग अक्सर पूर्वानुमान और भविष्यवाणियों के लिए किया जाता है। डेटा माइनिंग में उपयोग किया जाता है।

भावनाओं का विश्लेषण... उपभोक्ता भावना का आकलन करने के तरीके किसी व्यक्ति की प्राकृतिक भाषा को पहचानने के लिए प्रौद्योगिकियों पर आधारित होते हैं। वे आपको रुचि के विषय (उदाहरण के लिए, एक उपभोक्ता उत्पाद) से संबंधित सामान्य सूचना प्रवाह संदेशों से अलग करने की अनुमति देते हैं। इसके बाद, निर्णय की ध्रुवीयता (सकारात्मक या नकारात्मक), भावनात्मकता की डिग्री, आदि का आकलन करें।

संकेत आगे बढ़ाना... रेडियो इंजीनियरिंग से उधार ली गई तकनीकों का एक सेट, जो शोर की पृष्ठभूमि और उसके आगे के विश्लेषण के खिलाफ एक संकेत को पहचानने के लक्ष्य का पीछा करता है।

त्रिविमीय विश्लेषण... स्थानिक डेटा के विश्लेषण के लिए विधियों का एक सेट, आंशिक रूप से आँकड़ों से उधार लिया गया - इलाके की टोपोलॉजी, भौगोलिक निर्देशांक, वस्तुओं की ज्यामिति। स्रोत बड़ा डेटाइस मामले में, भौगोलिक सूचना प्रणाली (जीआईएस) का अक्सर उपयोग किया जाता है।

आंकड़े... प्रश्नावली डिजाइन करने और प्रयोग करने सहित डेटा एकत्र करने, व्यवस्थित करने और व्याख्या करने का विज्ञान। कुछ घटनाओं के बीच संबंधों के बारे में मूल्य निर्णय लेने के लिए अक्सर सांख्यिकीय विधियों का उपयोग किया जाता है।

पर्यवेक्षित अध्ययन... मशीन लर्निंग तकनीकों पर आधारित तकनीकों का एक सेट जो आपको विश्लेषण किए गए डेटा सेट में कार्यात्मक संबंधों की पहचान करने की अनुमति देता है।

सिमुलेशन... जटिल प्रणालियों के व्यवहार की मॉडलिंग का उपयोग अक्सर नियोजन में विभिन्न परिदृश्यों की भविष्यवाणी, भविष्यवाणी और विकसित करने के लिए किया जाता है।

समय श्रृंखला विश्लेषण... समय के साथ दोहराए जाने वाले डेटा अनुक्रमों का विश्लेषण करने के तरीकों का एक सेट, सांख्यिकी और डिजिटल सिग्नल प्रोसेसिंग से उधार लिया गया। कुछ स्पष्ट उपयोग शेयर बाजार या रोगियों की घटनाओं को ट्रैक करने के लिए हैं।

अनुपयोगी शिक्षा... मशीन लर्निंग तकनीकों पर आधारित तकनीकों का एक सेट जो आपको विश्लेषण किए गए डेटा सेट में छिपे हुए कार्यात्मक संबंधों को प्रकट करने की अनुमति देता है। के साथ आम है क्लस्टर विश्लेषण.

VISUALIZATION... व्याख्या की सुविधा के लिए और प्राप्त परिणामों की समझ को सुविधाजनक बनाने के लिए आरेखों या एनिमेटेड छवियों के रूप में बड़े डेटा विश्लेषण के परिणामों की चित्रमय प्रस्तुति के लिए तरीके।

बड़े डेटा विश्लेषण के परिणामों की दृश्य प्रस्तुति उनकी व्याख्या के लिए मौलिक महत्व की है। यह कोई रहस्य नहीं है कि मानव धारणा सीमित है, और वैज्ञानिक छवियों, आरेखों या एनिमेशन के रूप में डेटा प्रस्तुत करने के आधुनिक तरीकों में सुधार के लिए अनुसंधान करना जारी रखते हैं।

विश्लेषणात्मक उपकरण

2011 के लिए, पिछले उपखंड में सूचीबद्ध कुछ दृष्टिकोण या उनमें से एक निश्चित संयोजन बड़े डेटा के साथ काम करने के लिए विश्लेषणात्मक इंजनों को व्यवहार में लाना संभव बनाता है। बिग डेटा विश्लेषण के लिए मुफ्त या अपेक्षाकृत सस्ते ओपन सिस्टम से, हम अनुशंसा कर सकते हैं:

क्रांति विश्लेषिकी (गणितीय आँकड़ों के लिए R भाषा पर आधारित)।

इस सूची में विशेष रुचि अपाचे हडोप है, जो एक ओपन सोर्स सॉफ्टवेयर है जिसे पिछले पांच वर्षों में अधिकांश स्टॉक ट्रैकर्स द्वारा डेटा विश्लेषक के रूप में आजमाया और परखा गया है। जैसे ही Yahoo ने Hadoop कोड को ओपन सोर्स कम्युनिटी के लिए खोला, IT उद्योग में एक पूरी नई Hadoop उत्पाद लाइन तुरंत उभरी। लगभग सभी आधुनिक विश्लेषण उपकरण बड़ा डेटा Hadoop के साथ एकीकरण के लिए उपकरण प्रदान करें। उनके डेवलपर्स स्टार्टअप और प्रसिद्ध वैश्विक कंपनियां दोनों हैं।

बड़े डेटा प्रबंधन समाधानों के लिए बाजार

डिजिटल कॉर्डिंग का मुकाबला करने के साधन के रूप में बिग डेटा प्लेटफॉर्म (बीडीपी, बिग डेटा प्लेटफॉर्म)

विश्लेषण करने की क्षमता बड़ा डेटा, जिसे बोलचाल की भाषा में बिग डेटा कहा जाता है, एक आशीर्वाद के रूप में माना जाता है, और स्पष्ट रूप से। लेकिन क्या सच में ऐसा है? डेटा के बड़े पैमाने पर संचय से क्या हो सकता है? सबसे अधिक संभावना है, यह वह है जिसे घरेलू मनोवैज्ञानिक किसी व्यक्ति के संबंध में पैथोलॉजिकल होर्डिंग, सिलोगोमेनिया, या लाक्षणिक रूप से "प्लायस्किन सिंड्रोम" के रूप में संदर्भित करते हैं। अंग्रेजी में, सब कुछ इकट्ठा करने के शातिर जुनून को होर्डिंग कहा जाता है (अंग्रेजी होर्ड से - "स्टॉक")। मानसिक रोगों के वर्गीकरण के अनुसार होर्डिंग को एक मानसिक विकार के रूप में वर्गीकृत किया गया है। डिजिटल युग में, डिजिटल (डिजिटल होर्डिंग) को पारंपरिक सामग्री कॉर्डिंग में जोड़ा जाता है, दोनों व्यक्ति और पूरे उद्यम और संगठन इससे पीड़ित हो सकते हैं ()।

विश्व और रूसी बाजार

बिग डेटा लैंडस्केप - प्रमुख आपूर्तिकर्ता

संग्रह, प्रसंस्करण, प्रबंधन और विश्लेषण उपकरणों में रुचि बड़ा डेटालगभग सभी प्रमुख आईटी कंपनियों को दिखाया, जो काफी स्वाभाविक है। सबसे पहले, वे सीधे अपने स्वयं के व्यवसाय में इस घटना का सामना करते हैं, और दूसरी बात, बड़ा डेटानए बाजार के निशान विकसित करने और नए ग्राहकों को आकर्षित करने के लिए उत्कृष्ट अवसर खोलें।

बाजार में कई स्टार्टअप सामने आए हैं जो बड़ी मात्रा में डेटा को प्रोसेस करके कारोबार करते हैं। उनमें से कुछ अमेज़ॅन जैसे प्रमुख खिलाड़ियों द्वारा प्रदान किए गए ऑफ-द-शेल्फ क्लाउड इंफ्रास्ट्रक्चर का उपयोग करते हैं।

उद्योगों में बड़े डेटा का सिद्धांत और व्यवहार

विकास का इतिहास

2017

TmaxSoft पूर्वानुमान: बिग डेटा की अगली "लहर" के लिए DBMS के आधुनिकीकरण की आवश्यकता होगी

व्यवसाय जानते हैं कि उनके बड़े पैमाने पर डेटा में उनके व्यवसाय और ग्राहकों के बारे में महत्वपूर्ण जानकारी होती है। यदि कोई कंपनी इस जानकारी को सफलतापूर्वक लागू कर सकती है, तो उसे प्रतिस्पर्धा पर एक महत्वपूर्ण लाभ होगा, और वह अपने उत्पादों और सेवाओं की तुलना में बेहतर उत्पादों और सेवाओं की पेशकश करने में सक्षम होगी। हालांकि, कई संगठन अभी भी प्रभावी ढंग से उपयोग करने में असमर्थ हैं बड़ा डेटाइस तथ्य के कारण कि उनकी विरासत आईटी अवसंरचना आवश्यक भंडारण क्षमता, डेटा विनिमय प्रक्रियाओं, उपयोगिताओं और अनुप्रयोगों को प्रदान करने में असमर्थ है, जो उनसे मूल्यवान जानकारी निकालने के लिए बड़ी मात्रा में असंरचित डेटा को संसाधित और विश्लेषण करने के लिए आवश्यक है, TmaxSoft ने कहा।

इसके अलावा, डेटा की लगातार बढ़ती मात्रा का विश्लेषण करने के लिए आवश्यक बढ़ी हुई प्रसंस्करण शक्ति के लिए एक संगठन की विरासत आईटी अवसंरचना में महत्वपूर्ण निवेश की आवश्यकता हो सकती है, साथ ही अतिरिक्त रखरखाव संसाधनों का उपयोग किया जा सकता है जिनका उपयोग नए अनुप्रयोगों और सेवाओं को विकसित करने के लिए किया जा सकता है।

5 फरवरी, 2015 को, व्हाइट हाउस ने एक रिपोर्ट जारी की जिसमें चर्चा की गई कि कंपनियां किस प्रकार "का उपयोग कर रही हैं" बड़ा डेटा"विभिन्न खरीदारों के लिए अलग-अलग मूल्य निर्धारित करने के लिए - एक प्रथा जिसे" मूल्य भेदभाव "या" विभेदित मूल्य "(व्यक्तिगत मूल्य निर्धारण) के रूप में जाना जाता है। रिपोर्ट विक्रेताओं और खरीदारों दोनों के लिए "बड़े डेटा" के लाभों का वर्णन करती है, और इसके लेखकों का निष्कर्ष है कि बड़े डेटा के उद्भव और अंतर मूल्य निर्धारण के संबंध में उत्पन्न होने वाले कई समस्याग्रस्त मुद्दों को मौजूदा विरोधी के ढांचे के भीतर हल किया जा सकता है। भेदभाव कानून और कानून उपभोक्ता अधिकारों की रक्षा करना।

इस समय, रिपोर्ट में कहा गया है कि व्यक्तिगत विपणन और विभेदित मूल्य निर्धारण के संदर्भ में कंपनियां बड़े डेटा का उपयोग कैसे कर रही हैं, इसका केवल वास्तविक प्रमाण है। यह जानकारी दर्शाती है कि विक्रेता मूल्य निर्धारण विधियों का उपयोग करते हैं जिन्हें तीन श्रेणियों में विभाजित किया जा सकता है:

मांग वक्र का अध्ययन;
जनसांख्यिकीय डेटा के आधार पर संचालन और विभेदित मूल्य निर्धारण; तथा
व्यवहार लक्ष्यीकरण और व्यक्तिगत मूल्य निर्धारण।

मांग वक्र अध्ययन: विपणक अक्सर ग्राहकों को दो संभावित मूल्य स्तरों में से एक को बेतरतीब ढंग से निर्दिष्ट करके मांग और उपभोक्ता व्यवहार के साथ प्रयोग करते हैं। "तकनीकी रूप से, ये प्रयोग अलग-अलग मूल्य निर्धारण का एक रूप हैं क्योंकि वे ग्राहकों के लिए अलग-अलग कीमतों में परिणाम देते हैं, भले ही वे 'गैर-भेदभावपूर्ण' हों, इस अर्थ में कि सभी ग्राहक समान रूप से उच्च कीमत 'हिट' करने की संभावना रखते हैं।"

स्टीयरिंग: यह उपभोक्ताओं को उनके जनसांख्यिकीय समूह के आधार पर उत्पाद पेश करने की प्रथा है। इस प्रकार, एक कंप्यूटर कंपनी की वेबसाइट अलग-अलग प्रकार के खरीदारों को अलग-अलग कीमतों पर एक ही लैपटॉप की पेशकश कर सकती है, जो उनके द्वारा प्रदान की गई जानकारी के आधार पर सेट की जाती है (उदाहरण के लिए, उपयोगकर्ता सरकारी एजेंसियों, वैज्ञानिक या वाणिज्यिक का प्रतिनिधि है या नहीं, इस पर निर्भर करता है) संस्थानों, या किसी व्यक्ति द्वारा) या उनकी भौगोलिक स्थिति से (उदाहरण के लिए, कंप्यूटर के आईपी पते द्वारा निर्धारित)।

लक्षित व्यवहार विपणन और व्यक्तिगत मूल्य निर्धारण: इन मामलों में, खरीदारों के व्यक्तिगत डेटा का उपयोग लक्षित विज्ञापन और कुछ उत्पादों के व्यक्तिगत मूल्य निर्धारण के लिए किया जाता है। उदाहरण के लिए, ऑनलाइन विज्ञापनदाता लक्षित विज्ञापन भेजने के लिए इंटरनेट पर उपयोगकर्ताओं को लक्षित करने के लिए विज्ञापन नेटवर्क और तृतीय-पक्ष कुकीज़ के माध्यम से एकत्रित डेटा का उपयोग करते हैं। यह दृष्टिकोण, एक ओर, उपभोक्ताओं को उनकी सहमति के बिना मिले वस्तुओं और उनके लिए ब्याज की सेवाओं के विज्ञापन प्राप्त करने में सक्षम बनाता है। चिकित्सा और वित्तीय मुद्दों के साथ)।

जबकि लक्षित व्यवहार विपणन व्यापक है, ऑनलाइन वातावरण में व्यक्तिगत मूल्य निर्धारण के अपेक्षाकृत कम प्रमाण हैं। रिपोर्ट बताती है कि यह इस तथ्य के कारण हो सकता है कि उपयुक्त तरीके अभी भी विकसित किए जा रहे हैं, या यह तथ्य कि कंपनियां व्यक्तिगत मूल्य निर्धारण का उपयोग करने की जल्दी में नहीं हैं (या इसके बारे में चुप रहना पसंद करती हैं) - शायद उपभोक्ताओं से नकारात्मक प्रतिक्रिया के डर से .

रिपोर्ट के लेखकों का मानना है कि "व्यक्तिगत उपभोक्ता के लिए, बड़े डेटा का उपयोग निस्संदेह संभावित रिटर्न और जोखिम दोनों से जुड़ा है।" यह स्वीकार करते हुए कि बड़े डेटा के उपयोग में पारदर्शिता और भेदभाव के मुद्दे हैं, रिपोर्ट का तर्क है कि मौजूदा भेदभाव विरोधी और उपभोक्ता संरक्षण कानून उन्हें संबोधित करने के लिए पर्याप्त हैं। हालांकि, रिपोर्ट में "निरंतर निगरानी" की आवश्यकता पर भी जोर दिया गया है जब कंपनियां एक अपारदर्शी तरीके से या मौजूदा नियामक ढांचे द्वारा कवर नहीं किए गए तरीकों से गोपनीय जानकारी का उपयोग करती हैं।

यह रिपोर्ट इंटरनेट पर बड़े डेटा और भेदभावपूर्ण मूल्य निर्धारण के उपयोग और अमेरिकी उपभोक्ताओं के लिए उनके प्रभाव की जांच करने के व्हाइट हाउस के प्रयासों का विस्तार है। इससे पहले यह बताया गया था कि बिग डेटा पर व्हाइट हाउस वर्किंग ग्रुप ने मई 2014 में इस मुद्दे पर अपनी रिपोर्ट प्रकाशित की थी। फ़ेडरल ट्रेड कमीशन (FTC) ने भी बिग डेटा के उपयोग के संबंध में भेदभाव पर अपने सितंबर 2014 के सेमिनार के दौरान इन मुद्दों को संबोधित किया।

2014

गार्टनर ने बिग डेटा मिथकों को दूर किया

गार्टनर की फॉल 2014 पॉलिसी ब्रीफ सीआईओ के बीच बिग डेटा के बारे में कई आम मिथकों को सूचीबद्ध करती है और उनका खंडन करती है।

हर कोई हमसे ज्यादा तेजी से बिग डेटा प्रोसेसिंग सिस्टम लागू कर रहा है

बिग डेटा प्रौद्योगिकियों में रुचि रिकॉर्ड उच्च स्तर पर है: इस वर्ष गार्टनर विश्लेषकों द्वारा सर्वेक्षण किए गए 73% संगठन पहले से ही संबंधित परियोजनाओं में निवेश कर रहे हैं या करने जा रहे हैं। लेकिन इनमें से अधिकांश पहलें अभी भी अपने प्रारंभिक चरण में हैं, और सर्वेक्षण में शामिल लोगों में से केवल 13% ने ही ऐसे समाधानों को लागू किया है। सबसे कठिन हिस्सा यह पता लगाना है कि बिग डेटा से आय कैसे उत्पन्न की जाए, यह तय करना कि कहां से शुरू किया जाए। कई संगठन पायलट चरण में फंस जाते हैं क्योंकि वे नई तकनीक को विशिष्ट व्यावसायिक प्रक्रियाओं से नहीं जोड़ सकते हैं।

हमारे पास इतना डेटा है कि इसमें छोटी-छोटी गलतियों की चिंता करने की जरूरत नहीं है।

कुछ सीआईओ मानते हैं कि छोटे डेटा अंतराल विश्लेषण के बड़े संस्करणों के समग्र परिणामों को प्रभावित नहीं करते हैं। जब बहुत अधिक डेटा होता है, तो प्रत्येक व्यक्तिगत त्रुटि वास्तव में परिणाम को कम प्रभावित करती है, विश्लेषकों का कहना है, लेकिन त्रुटियां स्वयं अधिक हो जाती हैं। इसके अलावा, विश्लेषण किए गए अधिकांश डेटा बाहरी, अज्ञात संरचना या मूल के हैं, इसलिए त्रुटियों की संभावना बढ़ जाती है। इस प्रकार, बिग डेटा की दुनिया में, गुणवत्ता वास्तव में कहीं अधिक महत्वपूर्ण है।

बड़ी डेटा प्रौद्योगिकियां डेटा एकीकरण की आवश्यकता को समाप्त कर देंगी

बिग डेटा स्वचालित स्कीमा पीढ़ी के साथ अपने मूल प्रारूप में डेटा को संसाधित करने की क्षमता का वादा करता है क्योंकि इसे पढ़ा जाता है। यह माना जाता है कि यह कई डेटा मॉडल का उपयोग करके एक ही स्रोत से जानकारी के विश्लेषण की अनुमति देगा। बहुत से लोग मानते हैं कि यह अंतिम उपयोगकर्ताओं को किसी भी डेटासेट की व्याख्या करने में सक्षम करेगा जैसा कि वे फिट देखते हैं। वास्तव में, अधिकांश उपयोगकर्ता अक्सर पारंपरिक स्कीमा-तैयार तरीके से डेटा को उचित रूप से स्वरूपित करना चाहते हैं और जानकारी की अखंडता के स्तर पर सहमत होते हैं और इसे उपयोग के मामले से कैसे संबंधित होना चाहिए।

जटिल विश्लेषण के लिए डेटा वेयरहाउस का उपयोग करने का कोई मतलब नहीं है

कई सूचना प्रबंधन प्रणाली प्रशासक मानते हैं कि डेटा वेयरहाउस बनाने में समय बर्बाद करने का कोई मतलब नहीं है, यह देखते हुए कि जटिल विश्लेषणात्मक सिस्टम नए प्रकार के डेटा का उपयोग करते हैं। वास्तव में, कई जटिल एनालिटिक्स सिस्टम डेटा वेयरहाउस से जानकारी का उपयोग करते हैं। अन्य मामलों में, बिग डेटा प्रोसेसिंग सिस्टम में विश्लेषण के लिए नए डेटा प्रकारों को अतिरिक्त रूप से तैयार करने की आवश्यकता है; आपको डेटा की उपयुक्तता, एकत्रीकरण के सिद्धांतों और गुणवत्ता के आवश्यक स्तर के बारे में निर्णय लेने होंगे - ऐसी तैयारी गोदाम के बाहर हो सकती है।

डेटा लेक डेटा वेयरहाउस की जगह लेगी

वास्तव में, विक्रेता डेटा झीलों को भंडारण प्रतिस्थापन या महत्वपूर्ण विश्लेषणात्मक बुनियादी ढांचे के रूप में रखकर ग्राहकों को गुमराह कर रहे हैं। अंतर्निहित डेटा लेक प्रौद्योगिकियों में भंडारण में निहित परिपक्वता और कार्यक्षमता की चौड़ाई का अभाव है। इसलिए, डेटा प्रबंधन नेताओं को गार्टनर के अनुसार, झीलों के विकास के समान स्तर तक पहुंचने तक प्रतीक्षा करनी चाहिए।

एक्सेंचर: बड़े डेटा अपनाने वालों में से 92% परिणाम से खुश हैं

बड़े डेटा के मुख्य लाभों में, उत्तरदाताओं का नाम है:

"आय के नए स्रोतों की खोज करें" (56%),
"ग्राहक अनुभव में सुधार" (51%),
"नए उत्पाद और सेवाएं" (50%) और
"नए ग्राहकों की आमद और पुराने लोगों की वफादारी की अवधारण" (47%)।

नई तकनीकों को पेश करते समय कई कंपनियों को पारंपरिक चुनौतियों का सामना करना पड़ा है। 51% के लिए, बाधा सुरक्षा थी, 47% के लिए - बजट, 41% के लिए - आवश्यक कर्मियों की कमी, और 35% के लिए - मौजूदा प्रणाली के साथ एकीकरण में कठिनाइयाँ। लगभग सभी सर्वेक्षण कंपनियों (लगभग 91%) ने कर्मियों की कमी के साथ समस्या को जल्द ही हल करने और बड़े डेटा विशेषज्ञों को नियुक्त करने की योजना बनाई है।

कंपनियां बड़ी डेटा प्रौद्योगिकियों के भविष्य को लेकर आशावादी हैं। 89 फीसदी का मानना है कि वे इंटरनेट की तरह कारोबार को भी बदल देंगे। 79% उत्तरदाताओं ने संकेत दिया कि जो कंपनियां बड़ा डेटा नहीं करती हैं, वे अपनी प्रतिस्पर्धात्मक बढ़त खो देंगी।

हालांकि, उत्तरदाताओं ने इस बात से असहमति जताई कि वास्तव में बड़े डेटा को क्या माना जाना चाहिए। 65% उत्तरदाताओं का मानना है कि यह "बड़ी डेटा फ़ाइलें" है, 60% का मानना है कि यह "उन्नत विश्लेषण और विश्लेषण" है, और 50% का मानना है कि यह "विज़ुअलाइज़ेशन टूल से डेटा" है।

मैड्रिड बड़े डेटा प्रबंधन पर € 14.7 मिलियन खर्च करता है

जुलाई 2014 में, यह ज्ञात हो गया कि मैड्रिड शहरी बुनियादी ढांचे के प्रबंधन के लिए बड़ी डेटा प्रौद्योगिकियों का उपयोग करेगा। परियोजना की लागत - 14.7 मिलियन यूरो, लागू समाधानों का आधार बड़े डेटा के विश्लेषण और प्रबंधन के लिए प्रौद्योगिकियां होंगी। उनकी मदद से, नगर प्रशासन प्रत्येक सेवा प्रदाता के साथ काम का प्रबंधन करेगा और सेवाओं के स्तर के आधार पर तदनुसार भुगतान करेगा।

हम बात कर रहे हैं प्रशासन के उन ठेकेदारों की, जो सड़कों, लाइटिंग, सिंचाई, हरी-भरी जगहों की स्थिति की निगरानी करते हैं, इलाके की सफाई करते हैं और कचरे को रिसाइकिल करते हैं. परियोजना के दौरान, विशेष रूप से नामित निरीक्षकों के लिए शहरी सेवाओं के 300 प्रमुख प्रदर्शन संकेतक विकसित किए गए थे, जिसके आधार पर प्रतिदिन 1.5 हजार विभिन्न जांच और माप किए जाएंगे। इसके अलावा, शहर मैड्रिड iNTeligente (MiNT) - स्मार्टर मैड्रिड नामक एक नवीन प्रौद्योगिकी मंच का उपयोग करना शुरू कर देगा।

2013

विशेषज्ञ: बिग डेटा पीक फैशन

अपवाद के बिना, डेटा प्रबंधन बाजार में सभी विक्रेता इस समय बिग डेटा प्रबंधन के लिए प्रौद्योगिकियों का विकास कर रहे हैं। इस नई तकनीकी प्रवृत्ति पर पेशेवर समुदाय, डेवलपर्स और उद्योग विश्लेषकों और ऐसे समाधानों के संभावित उपभोक्ताओं दोनों द्वारा सक्रिय रूप से चर्चा की जाती है।

जैसा कि डेटाशिफ्ट को पता चला, जनवरी 2013 तक, चारों ओर चर्चा की लहर थी " बड़ा डेटा"सभी बोधगम्य आयामों को पार कर गया है। सामाजिक नेटवर्क में बिग डेटा के उल्लेखों की संख्या का विश्लेषण करने के बाद, डेटाशिफ्ट ने गणना की कि 2012 में दुनिया भर के लगभग 1 मिलियन विभिन्न लेखकों द्वारा बनाई गई पोस्ट में इस शब्द का लगभग 2 बिलियन बार उपयोग किया गया था। यह प्रति घंटे 260 पोस्ट के बराबर है, जिसमें प्रति घंटे 3070 उल्लेखों की चोटी है।

गार्टनर: हर दूसरा सीआईओ बिग डेटा पर खर्च करने को तैयार है

गार्टनर ने भविष्यवाणी की है कि बिग डेटा प्रौद्योगिकियों के साथ कई वर्षों के प्रयोग और 2013 में पहले कार्यान्वयन के बाद, ऐसे समाधानों के अनुकूलन में काफी वृद्धि होगी। शोधकर्ताओं ने दुनिया भर के आईटी नेताओं का सर्वेक्षण किया और पाया कि 42% उत्तरदाताओं ने पहले ही बिग डेटा प्रौद्योगिकियों में निवेश किया है या अगले वर्ष (मार्च 2013 तक के डेटा) के भीतर इस तरह के निवेश करने की योजना बना रहे हैं।

प्रसंस्करण प्रौद्योगिकियों पर पैसा खर्च करने के लिए कंपनियां मजबूर हैं बड़ा डेटाचूंकि सूचना परिदृश्य तेजी से बदल रहा है, इसलिए मुझे सूचना प्रसंस्करण के लिए नए दृष्टिकोणों की आवश्यकता है। कई कंपनियों ने पहले ही महसूस किया है कि बड़ा डेटा महत्वपूर्ण है, और इसके साथ काम करने से आप ऐसे लाभ प्राप्त कर सकते हैं जो सूचना के पारंपरिक स्रोतों और इसे संसाधित करने के तरीकों का उपयोग करके उपलब्ध नहीं हैं। इसके अलावा, मीडिया में "बड़े डेटा" के विषय की निरंतर अतिशयोक्ति प्रासंगिक प्रौद्योगिकियों में रुचि बढ़ा रही है।

गार्टनर के उपाध्यक्ष फ्रैंक बायटेन्डिज्क ने भी कंपनियों से अपने उत्साह को कम करने का आग्रह किया, क्योंकि कुछ चिंतित हैं कि वे बिग डेटा अधिग्रहण में प्रतिस्पर्धियों से पीछे हैं।

"चिंता करने की कोई आवश्यकता नहीं है, बिग डेटा प्रौद्योगिकियों पर आधारित विचारों को लागू करने की संभावनाएं लगभग अनंत हैं," उन्होंने कहा।

गार्टनर ने भविष्यवाणी की है कि 2015 तक, वैश्विक 1000 कंपनियों में से 20% का "सूचना बुनियादी ढांचे" पर रणनीतिक ध्यान होगा।

बिग डेटा प्रोसेसिंग प्रौद्योगिकियां अपने साथ लाए जाने वाले नए अवसरों की प्रत्याशा में, कई संगठन पहले से ही विभिन्न प्रकार की जानकारी एकत्र करने और संग्रहीत करने की प्रक्रिया का आयोजन कर रहे हैं।

शैक्षिक और सरकारी संगठनों के साथ-साथ उद्योग में कंपनियों के लिए, व्यापार परिवर्तन की सबसे बड़ी संभावना तथाकथित डार्क डेटा (शाब्दिक रूप से "डार्क डेटा") के साथ संचित डेटा के संयोजन में निहित है, बाद वाले में ईमेल, मल्टीमीडिया और अन्य समान शामिल हैं विषय। डेटा की दौड़ में, गार्टनर का तर्क है, यह वे होंगे जो विभिन्न प्रकार के सूचना स्रोतों को संभालना सीखेंगे जो जीतेंगे।

सिस्को सर्वेक्षण: बड़ा डेटा आईटी बजट बढ़ाने में मदद करेगा

स्प्रिंग 2013 के सर्वेक्षण में, स्वतंत्र एनालिटिक्स फर्म इनसाइट एक्सप्रेस द्वारा 18 देशों में आयोजित सिस्को कनेक्टेड वर्ल्ड टेक्नोलॉजी रिपोर्ट, 1,800 कॉलेज के छात्रों और 18-30 आयु वर्ग के युवा पेशेवरों की एक समान संख्या का सर्वेक्षण किया गया था। परियोजनाओं को लागू करने के लिए आईटी विभागों की तैयारी के स्तर का पता लगाने के लिए सर्वेक्षण किया गया था बड़ा डेटाऔर संबंधित चुनौतियों, प्रौद्योगिकी अंतराल और ऐसी परियोजनाओं के रणनीतिक मूल्य में अंतर्दृष्टि प्राप्त करें।

अधिकांश कंपनियां डेटा एकत्र, रिकॉर्ड और विश्लेषण करती हैं। बहरहाल, रिपोर्ट कहती है, कई कंपनियों को बिग डेटा के संबंध में कई जटिल व्यावसायिक और सूचना प्रौद्योगिकी चुनौतियों का सामना करना पड़ता है। उदाहरण के लिए, सर्वेक्षण में शामिल 60 प्रतिशत लोगों ने स्वीकार किया कि बिग डेटा समाधान निर्णय लेने की प्रक्रियाओं में सुधार कर सकते हैं और प्रतिस्पर्धात्मकता बढ़ा सकते हैं, लेकिन केवल 28 प्रतिशत ने कहा कि वे पहले से ही संचित जानकारी से वास्तविक रणनीतिक लाभ प्राप्त करते हैं।

सर्वेक्षण में शामिल आधे से अधिक आईटी अधिकारियों का मानना है कि बिग डेटा परियोजनाओं से उनके संगठनों में आईटी बजट बढ़ाने में मदद मिलेगी, क्योंकि प्रौद्योगिकी, कर्मियों और पेशेवर कौशल के लिए बढ़ी हुई आवश्यकताएं होंगी। साथ ही, आधे से अधिक उत्तरदाताओं को उम्मीद है कि इस तरह की परियोजनाओं से 2012 की शुरुआत में उनकी कंपनियों में आईटी बजट बढ़ेगा। 57 प्रतिशत को विश्वास है कि बिग डेटा अगले तीन वर्षों में उनके बजट में वृद्धि करेगा।

81 प्रतिशत उत्तरदाताओं ने कहा कि सभी (या कम से कम कुछ) बड़ी डेटा परियोजनाओं के लिए क्लाउड कंप्यूटिंग की आवश्यकता होगी। इस प्रकार, क्लाउड प्रौद्योगिकियों का प्रसार बिग डेटा समाधानों के वितरण की गति और व्यवसाय के लिए इन समाधानों के मूल्य को प्रभावित कर सकता है।

कंपनियां संरचित और असंरचित दोनों प्रकार के विभिन्न प्रकार के डेटा एकत्र और उपयोग करती हैं। यहां वे स्रोत हैं जिनसे सर्वेक्षण प्रतिभागियों को अपना डेटा प्राप्त होता है (सिस्को कनेक्टेड वर्ल्ड टेक्नोलॉजी रिपोर्ट):

लगभग आधे (48 प्रतिशत) सीआईओ का अनुमान है कि अगले दो वर्षों में उनके नेटवर्क पर लोड दोगुना हो जाएगा। (यह चीन में विशेष रूप से सच है, जहां सर्वेक्षण में शामिल लोगों में से 68 प्रतिशत यह दृष्टिकोण रखते हैं, और जर्मनी, 60 प्रतिशत।) 23 प्रतिशत उत्तरदाताओं को अगले दो वर्षों में नेटवर्क लोड तिगुना होने की उम्मीद है। उसी समय, केवल 40 प्रतिशत उत्तरदाताओं ने नेटवर्क ट्रैफ़िक की मात्रा में विस्फोटक वृद्धि के लिए अपनी तत्परता की घोषणा की।

सर्वेक्षण में शामिल लोगों में से 27 प्रतिशत ने स्वीकार किया कि उन्हें बेहतर आईटी नीतियों और सूचना सुरक्षा उपायों की आवश्यकता है।

21 प्रतिशत को अधिक बैंडविड्थ की आवश्यकता है।

बिग डेटा आईटी विभागों के लिए मूल्य जोड़ने और व्यावसायिक इकाइयों के साथ मजबूत संबंध बनाने, राजस्व बढ़ाने और कंपनी की वित्तीय स्थिति को मजबूत करने के नए अवसर खोलता है। बिग डेटा प्रोजेक्ट आईटी विभागों को व्यावसायिक विभागों के लिए एक रणनीतिक भागीदार बनाते हैं।

73 प्रतिशत उत्तरदाताओं के अनुसार, यह आईटी विभाग है जो बिग डेटा रणनीति के कार्यान्वयन के लिए मुख्य लोकोमोटिव बन जाएगा। वहीं, उत्तरदाताओं का मानना है कि इस रणनीति के क्रियान्वयन में अन्य विभाग भी शामिल होंगे। सबसे पहले, यह वित्त विभागों से संबंधित है (इसका नाम 24 प्रतिशत उत्तरदाताओं द्वारा रखा गया था), अनुसंधान और विकास (20 प्रतिशत), संचालन (20 प्रतिशत), इंजीनियरिंग (19 प्रतिशत), साथ ही साथ विपणन (15 प्रतिशत) और बिक्री (14 प्रतिशत)।

गार्टनर: बिग डेटा को प्रबंधित करने के लिए लाखों नई नौकरियों की आवश्यकता है

विश्व आईटी खर्च 2013 तक 3.7 अरब डॉलर तक पहुंच जाएगा, जो 2012 में सूचना प्रौद्योगिकी पर खर्च से 3.8% अधिक है (वर्ष के अंत के लिए पूर्वानुमान 3.6 अरब डॉलर है)। खंड बड़ा डेटा(बड़ा डेटा) गार्टनर की एक रिपोर्ट के अनुसार, बहुत तेज गति से बढ़ेगा।

2015 तक, सूचना प्रौद्योगिकी के क्षेत्र में 4.4 मिलियन नौकरियां बड़े डेटा की सेवा के लिए बनाई जाएंगी, जिनमें से 1.9 मिलियन नौकरियां होंगी। इसके अलावा, ऐसी प्रत्येक नौकरी आईटी क्षेत्र के बाहर तीन अतिरिक्त नौकरियां पैदा करेगी, ताकि अगले चार वर्षों में अकेले संयुक्त राज्य अमेरिका में, 6 मिलियन लोग सूचना अर्थव्यवस्था का समर्थन करने के लिए काम करेंगे।

गार्टनर विशेषज्ञों के अनुसार, मुख्य समस्या यह है कि इसके लिए उद्योग में पर्याप्त प्रतिभा नहीं है: निजी और सार्वजनिक शिक्षा प्रणाली दोनों, उदाहरण के लिए, संयुक्त राज्य अमेरिका में, पर्याप्त संख्या में योग्य लोगों के साथ उद्योग की आपूर्ति करने में सक्षम नहीं हैं। कार्मिक। तो आईटी में उल्लिखित नई नौकरियों में से, तीन में से केवल एक को कर्मियों के साथ प्रदान किया जाएगा।

विश्लेषकों का मानना है कि योग्य आईटी कर्मियों की खेती की भूमिका सीधे उन कंपनियों द्वारा ली जानी चाहिए जिन्हें उनकी सख्त जरूरत है, क्योंकि ऐसे कर्मचारी भविष्य की नई सूचना अर्थव्यवस्था के लिए उनके लिए प्रवेश द्वार बन जाएंगे।

2012

बिग डेटा के बारे में पहला संदेह

ओवम और गार्टनर के विश्लेषकों का सुझाव है कि एक ट्रेंडी 2012 थीम के लिए बड़ा डेटायह भ्रम को दूर करने का समय हो सकता है।

इस समय "बिग डेटा" शब्द आमतौर पर सोशल मीडिया से ऑनलाइन आने वाली सूचनाओं की बढ़ती मात्रा, सेंसर और अन्य स्रोतों के नेटवर्क के साथ-साथ डेटा को संसाधित करने और महत्वपूर्ण व्यवसाय की पहचान करने के लिए उपयोग किए जाने वाले उपकरणों की बढ़ती रेंज को संदर्भित करता है - रुझान।

ओवम के एक विश्लेषक टोनी बेयर ने कहा, "बड़े डेटा के विचार पर (या इसके बावजूद) प्रचार के कारण, 2012 में निर्माताओं ने इस प्रवृत्ति को बड़ी आशा के साथ देखा।"

बायर ने कहा कि डेटासिफ्ट ने बड़े डेटा उल्लेखों का पूर्वव्यापी विश्लेषण किया है

एक समय में, मैंने जर्मन ग्रीफ (सर्बैंक के प्रमुख) से "बिग डेटा" शब्द सुना। वे कहते हैं कि वे अब सक्रिय रूप से कार्यान्वयन पर काम कर रहे हैं, क्योंकि इससे उन्हें प्रत्येक ग्राहक के साथ काम करने में लगने वाले समय को कम करने में मदद मिलेगी।

दूसरी बार जब मैं इस अवधारणा के बारे में आया तो एक ग्राहक के ऑनलाइन स्टोर में था, जिस पर हमने काम किया और वर्गीकरण को कुछ हज़ार से बढ़ाकर दसियों हज़ार कमोडिटी आइटम कर दिया।

तीसरी बार जब मैंने देखा कि यांडेक्स को एक बड़े डेटा विश्लेषक की जरूरत है। फिर मैंने इस विषय में गहराई से जाने का फैसला किया और साथ ही एक लेख भी लिखा जो बताएगा कि यह किस तरह का शब्द है जो शीर्ष प्रबंधकों और इंटरनेट स्पेस के दिमाग को उत्साहित करता है।

वीवीवी या वीवीवीवीवी

आमतौर पर मैं अपने किसी भी लेख की शुरुआत इस बात की व्याख्या के साथ करता हूं कि यह शब्द क्या है। यह लेख कोई अपवाद नहीं होगा।

हालांकि, यह मुख्य रूप से यह दिखाने की इच्छा के कारण नहीं है कि मैं कितना स्मार्ट हूं, लेकिन इस तथ्य से कि विषय वास्तव में जटिल है और सावधानीपूर्वक स्पष्टीकरण की आवश्यकता है।

उदाहरण के लिए, आप विकिपीडिया पर कितना बड़ा डेटा पढ़ सकते हैं, कुछ भी नहीं समझ सकते हैं, और फिर व्यापार के लिए परिभाषा और प्रयोज्यता को समझने के लिए इस लेख पर वापस आ सकते हैं। तो, चलिए एक विवरण के साथ शुरू करते हैं, और फिर व्यावसायिक उदाहरणों पर चलते हैं।

बड़ा डेटा बड़ा डेटा है। अद्भुत, हुह? वास्तव में, यह अंग्रेजी से "बड़ा डेटा" के रूप में अनुवाद करता है। लेकिन यह परिभाषा है, कोई कह सकता है, डमी के लिए।

जरूरी... बड़ी डेटा प्रौद्योगिकी नई जानकारी प्राप्त करने के लिए अधिक डेटा को संसाधित करने के लिए एक दृष्टिकोण/विधि है जिसे पारंपरिक तरीकों से संसाधित करना मुश्किल है।

डेटा या तो संसाधित (संरचित) या खंडित (अर्थात, असंरचित) हो सकता है।

यह शब्द अपेक्षाकृत हाल ही में सामने आया। 2008 में, एक वैज्ञानिक पत्रिका ने इस दृष्टिकोण को बड़ी मात्रा में जानकारी के साथ काम करने के लिए आवश्यक कुछ के रूप में भविष्यवाणी की थी जो तेजी से बढ़ रही है।

उदाहरण के लिए, हर साल इंटरनेट पर जो जानकारी संग्रहीत और संसाधित करने की आवश्यकता होती है, उसमें 40% की वृद्धि होती है। फिर से। + 40% हर साल इंटरनेट पर नई जानकारी दिखाई देती है।

यदि मुद्रित दस्तावेज़ समझ में आते हैं और उन्हें संसाधित करने के तरीके भी समझ में आते हैं (इलेक्ट्रॉनिक रूप में स्थानांतरण, एक फ़ोल्डर, संख्या में सिलाई), तो पूरी तरह से अलग "वाहक" और अन्य संस्करणों में प्रस्तुत जानकारी का क्या करना है:

इंटरनेट दस्तावेज़;
ब्लॉग और सामाजिक नेटवर्क;
ऑडियो / वीडियो स्रोत;
उपकरणों को मापने;

ऐसी विशेषताएं हैं जो सूचना और डेटा को बड़े डेटा के रूप में वर्गीकृत करना संभव बनाती हैं।

अर्थात्, सभी डेटा विश्लेषण के लिए उपयुक्त नहीं हो सकते हैं। इन विशेषताओं में बड़ी तारीख की प्रमुख अवधारणा है। वे सभी तीन वी में फिट होते हैं।

वॉल्यूम (अंग्रेजी वॉल्यूम से)। डेटा का विश्लेषण किए जाने वाले "दस्तावेज़" की भौतिक मात्रा के संदर्भ में मापा जाता है;
वेग (अंग्रेजी वेग से)। डेटा अपने विकास में खड़ा नहीं होता है, लेकिन लगातार बढ़ रहा है, यही कारण है कि परिणाम प्राप्त करने के लिए उन्हें जल्दी से संसाधित करने की आवश्यकता होती है;
किस्म (अंग्रेजी किस्म से)। डेटा एकल प्रारूप नहीं हो सकता है। यही है, वे बिखरे हुए, संरचित या आंशिक रूप से संरचित हो सकते हैं।

हालाँकि, समय-समय पर, एक चौथा V (सत्यता) और पाँचवाँ V भी (कुछ मामलों में यह व्यवहार्यता है, दूसरों में यह एक मान है) VVV में जोड़ा जाता है।

कहीं न कहीं मैंने 7V भी देखा, जो बड़ी तारीख से संबंधित डेटा की विशेषता है। लेकिन मेरी राय में यह एक श्रृंखला से है (जहां पी समय-समय पर जोड़ा जाता है, हालांकि शुरुआती 4 समझने के लिए पर्याप्त हैं)।

हम पहले से ही 29,000 से अधिक लोग हैं।
चालू करो

इसकी जरूरत किसे है?

एक तार्किक प्रश्न उठता है कि जानकारी का उपयोग कैसे किया जा सकता है (यदि कुछ है, तो बड़ी तिथि सैकड़ों और हजारों टेराबाइट्स है)? वह भी नहीं।

यह जानकारी है। तो फिर आप बड़ी तारीख क्यों लेकर आए? मार्केटिंग और बिजनेस में बिग डेटा का क्या उपयोग है?

साधारण डेटाबेस बड़ी मात्रा में सूचनाओं को संग्रहीत और संसाधित नहीं कर सकते (मैं अब विश्लेषिकी के बारे में भी नहीं, बल्कि केवल भंडारण और प्रसंस्करण के बारे में बात कर रहा हूं)।
बड़ी तारीख इस मुख्य समस्या को हल करती है। उच्च-मात्रा की जानकारी को सफलतापूर्वक संग्रहीत और प्रबंधित करता है;
विभिन्न स्रोतों (वीडियो, छवियों, ऑडियो और टेक्स्ट दस्तावेज़) से आने वाली संरचनाओं की जानकारी एक एकल, समझने योग्य और सुपाच्य रूप में;
संरचित और संसाधित जानकारी के आधार पर विश्लेषण और सटीक पूर्वानुमानों का निर्माण।

यह जटिल है। सीधे शब्दों में कहें, कोई भी बाज़ारिया जो यह समझता है कि यदि आप बड़ी मात्रा में जानकारी (आपके बारे में, आपकी कंपनी, आपके प्रतिस्पर्धियों, आपके उद्योग) का अध्ययन करते हैं, तो आप बहुत अच्छे परिणाम प्राप्त कर सकते हैं:

संख्या के संदर्भ में आपकी कंपनी और आपके व्यवसाय की पूरी समझ;
अपने प्रतिस्पर्धियों का अध्ययन करें। और यह, बदले में, उन पर व्यापकता के कारण आगे बढ़ना संभव बना देगा;
अपने ग्राहकों के बारे में नई जानकारी प्राप्त करें।

और ठीक है क्योंकि बड़ी डेटा तकनीक निम्नलिखित परिणाम देती है, हर कोई इसके साथ भागता है।

वे बिक्री में वृद्धि और लागत में कमी लाने के लिए इस व्यवसाय को अपनी कंपनी में पेंच करने की कोशिश कर रहे हैं। और अधिक विशेष रूप से, तब:

ग्राहक वरीयताओं के बेहतर ज्ञान के माध्यम से क्रॉस-सेलिंग और अतिरिक्त बिक्री में वृद्धि;
लोकप्रिय उत्पादों की खोज करें और उन्हें क्यों खरीदा जाता है (और इसके विपरीत);
किसी उत्पाद या सेवा में सुधार;
सेवा के स्तर में सुधार;
वफादारी और ग्राहक फोकस में वृद्धि;
धोखाधड़ी की रोकथाम (बैंकिंग क्षेत्र के लिए अधिक प्रासंगिक);
अनावश्यक लागत में कमी।

सभी स्रोतों में दिया गया सबसे आम उदाहरण, निश्चित रूप से, Apple है, जो अपने उपयोगकर्ताओं (फोन, घड़ी, कंप्यूटर) के बारे में डेटा एकत्र करता है।

यह इको-सिस्टम की उपस्थिति के कारण है कि निगम अपने उपयोगकर्ताओं के बारे में बहुत कुछ जानता है और भविष्य में इसका उपयोग लाभ कमाने के लिए करता है।

आप इन और उपयोग के अन्य उदाहरणों को इसके अलावा किसी अन्य लेख में पढ़ सकते हैं।

हम भविष्य में जाते हैं

मैं आपको एक और प्रोजेक्ट के बारे में बताता हूँ। बल्कि, एक ऐसे व्यक्ति के बारे में जो बिग डेटा सॉल्यूशंस का उपयोग करके भविष्य का निर्माण कर रहा है।

यह एलोन मस्क और उनकी टेस्ला कंपनी है। उसका मुख्य सपना कारों को स्वायत्त बनाना है, यानी आप पहिया के पीछे हो जाते हैं, मास्को से व्लादिवोस्तोक तक ऑटोपायलट चालू करते हैं और ... सो जाते हैं, क्योंकि आपको कार चलाने की बिल्कुल भी आवश्यकता नहीं है, क्योंकि वह सब कुछ करेगा वह स्वयं।

यह शानदार लगेगा? लेकिन कोई नहीं! एलोन ने Google की तुलना में बहुत अधिक बुद्धिमानी से काम किया, जो दर्जनों उपग्रहों का उपयोग करके कारों को नियंत्रित करता है। और वह दूसरी तरफ चला गया:

बेची जाने वाली प्रत्येक कार में एक कंप्यूटर लगा होता है, जो सारी जानकारी एकत्र करता है।
सब कुछ का मतलब सामान्य रूप से सब कुछ है। ड्राइवर के बारे में, उसकी ड्राइविंग शैली, उसके आस-पास की सड़कें, अन्य कारों की आवाजाही के बारे में। ऐसे डेटा की मात्रा प्रति घंटे 20-30 जीबी तक पहुंच जाती है;
इसके अलावा, यह जानकारी उपग्रह संचार के माध्यम से केंद्रीय कंप्यूटर को प्रेषित की जाती है, जो इस डेटा के प्रसंस्करण में लगा हुआ है;
यह कंप्यूटर जिस बड़े डेटा को प्रोसेस करता है, उसके आधार पर एक मानव रहित वाहन का एक मॉडल बनाया जा रहा है।

वैसे, अगर Google बहुत बुरा कर रहा है और उनकी कारें हर समय दुर्घटनाओं में आती हैं, तो मस्क, इस तथ्य के कारण कि बड़े डेटा के साथ काम चल रहा है, चीजें बहुत बेहतर हैं, क्योंकि परीक्षण मॉडल बहुत अच्छे परिणाम दिखाते हैं।

लेकिन ... यह सब अर्थव्यवस्था के बारे में है। हम सभी लाभ के बारे में क्या हैं, हाँ लाभ के बारे में? बड़ी तारीख जो बहुत कुछ हल कर सकती है उसका कमाई और पैसे से कोई लेना-देना नहीं है।

बड़े डेटा पर आधारित Google के आंकड़े एक दिलचस्प बात दिखाते हैं.

इससे पहले कि डॉक्टर एक निश्चित क्षेत्र में किसी बीमारी की महामारी की शुरुआत की घोषणा करें, इस क्षेत्र में इस बीमारी के इलाज के लिए खोजों की संख्या काफी बढ़ जाती है।

इस प्रकार, डेटा का सही अध्ययन और उनका विश्लेषण भविष्यवाणियां बना सकता है और अधिकारियों के निष्कर्ष और उनके कार्यों की तुलना में महामारी की शुरुआत (और, तदनुसार, इसकी रोकथाम) की भविष्यवाणी कर सकता है।

रूस में आवेदन

हालांकि, रूस, हमेशा की तरह, थोड़ा "धीमा" करता है। तो रूस में बड़े डेटा की परिभाषा 5 साल से अधिक पहले नहीं दिखाई दी (मैं अब सामान्य कंपनियों के बारे में बात कर रहा हूं)।

और यह इस तथ्य के बावजूद है कि यह दुनिया में सबसे तेजी से बढ़ते बाजारों में से एक है (दवाओं और हथियारों को किनारे पर धूम्रपान किया जाता है), क्योंकि हर साल बड़े डेटा एकत्र करने और विश्लेषण करने के लिए सॉफ्टवेयर का बाजार 32% बढ़ रहा है।

रूस में बड़े डेटा बाजार की विशेषता बताने के लिए, मुझे एक पुराना चुटकुला याद आ रहा है। बिग डेट 18 साल से कम उम्र के सेक्स की तरह है।

हर कोई इसके बारे में बात कर रहा है, इसके चारों ओर बहुत अधिक प्रचार और थोड़ी वास्तविक कार्रवाई है, और सभी को यह स्वीकार करने में शर्म आती है कि वे स्वयं ऐसा नहीं कर रहे हैं। वास्तव में, इसके आसपास बहुत प्रचार है, लेकिन वास्तविक कार्रवाई बहुत कम है।

हालांकि प्रसिद्ध शोध कंपनी गार्टनर ने 2015 में घोषणा की कि बड़ी तारीख अब बढ़ती प्रवृत्ति नहीं है (जैसे कृत्रिम बुद्धि, वैसे), लेकिन उन्नत प्रौद्योगिकियों के विश्लेषण और विकास के लिए पूरी तरह से स्वतंत्र उपकरण।

सबसे सक्रिय निचे जहां रूस में बड़े डेटा का उपयोग किया जाता है, वे हैं बैंक / बीमा (बिना किसी कारण के मैंने Sberbank के प्रमुख के साथ लेख शुरू किया), दूरसंचार, खुदरा, अचल संपत्ति और ... सार्वजनिक क्षेत्र।

उदाहरण के तौर पर, मैं आपको अर्थव्यवस्था के कुछ क्षेत्रों के बारे में विस्तार से बताऊंगा जो बड़े डेटा एल्गोरिदम का उपयोग करते हैं।

बैंकों

आइए बैंकों और उनके द्वारा हमारे और हमारे कार्यों के बारे में एकत्र की जाने वाली जानकारी से शुरू करें। उदाहरण के लिए, मैंने शीर्ष 5 रूसी बैंकों को लिया जो सक्रिय रूप से बड़े डेटा में निवेश करते हैं:

सर्बैंक;
गज़प्रॉमबैंक;
वीटीबी 24;
अल्फा बैंक;
टिंकॉफ बैंक।

अल्फा बैंक को रूसी नेताओं के बीच देखना विशेष रूप से सुखद है। कम से कम, यह जानकर अच्छा लगा कि जिस बैंक के आप आधिकारिक भागीदार हैं, वह आपकी कंपनी में नए मार्केटिंग टूल पेश करने की आवश्यकता को समझता है।

लेकिन मैं बैंक पर बड़े डेटा के उपयोग और सफल कार्यान्वयन के उदाहरण दिखाना चाहता हूं, जो मुझे इसके संस्थापक के गैर-मानक रूप और कार्यों के लिए पसंद है।

मैं बात कर रहा हूं टिंकॉफ बैंक की। उनका मुख्य कार्य बढ़ते ग्राहक आधार के कारण वास्तविक समय में बड़े डेटा का विश्लेषण करने के लिए एक प्रणाली विकसित करना था।

परिणाम: आंतरिक प्रक्रियाओं का समय कम से कम 10 गुना कम हो गया, और कुछ के लिए - 100 गुना से अधिक।

खैर, थोड़ा व्याकुलता। क्या आप जानते हैं कि मैंने ओलेग टिंकोव की गैर-मानक हरकतों और कार्यों के बारे में क्यों बात करना शुरू किया?

यह सिर्फ इतना है, मेरी राय में, यह वे थे जिन्होंने उन्हें एक औसत व्यवसायी से बदलने में मदद की, जिनमें से हजारों रूस में हैं, सबसे प्रसिद्ध और पहचानने योग्य उद्यमियों में से एक में। इसे साबित करने के लिए देखें यह असामान्य और दिलचस्प वीडियो:

संपत्ति

अचल संपत्ति में, सब कुछ बहुत अधिक जटिल है। और यह ठीक वही उदाहरण है जो मैं आपको साधारण व्यवसाय के भीतर बड़ी तारीख को समझने के लिए देना चाहता हूं। आरंभिक डेटा:

बड़ी मात्रा में पाठ्य प्रलेखन;
खुला स्रोत (पृथ्वी परिवर्तन डेटा संचारित करने वाले निजी उपग्रह);
इंटरनेट पर बड़ी मात्रा में अनियंत्रित जानकारी;
स्रोतों और डेटा में लगातार परिवर्तन।

और इसके आधार पर, भूमि भूखंड के मूल्य को तैयार करना और मूल्यांकन करना आवश्यक है, उदाहरण के लिए, यूराल गांव के पास। इसमें एक पेशेवर को एक सप्ताह का समय लगेगा।

रशियन सोसाइटी ऑफ़ एप्राइज़र्स एंड रोसेको, जिसने वास्तव में सॉफ़्टवेयर का उपयोग करके बड़े डेटा विश्लेषण को लागू किया, 30 मिनट से अधिक इत्मीनान से काम नहीं करेगा। तुलना करें, सप्ताह और 30 मिनट। एक बड़ा अंतर।

खैर, नाश्ते के लिए

बेशक, बड़ी मात्रा में जानकारी को साधारण हार्ड ड्राइव पर संग्रहीत और संसाधित नहीं किया जा सकता है।

और सॉफ्टवेयर जो डेटा की संरचना और विश्लेषण करता है वह आम तौर पर बौद्धिक संपदा होता है और हर बार यह एक लेखक का विकास होता है। हालाँकि, ऐसे उपकरण हैं जिनके आधार पर यह सारी सुंदरता बनाई जाती है:

Hadoop और MapReduce;
नोएसक्यूएल डेटाबेस;
डेटा डिस्कवरी क्लास टूल्स।

सच कहूं, तो मैं आपको स्पष्ट रूप से यह नहीं समझा सकता कि वे एक-दूसरे से कैसे भिन्न हैं, क्योंकि इन चीजों से परिचित होना और काम करना भौतिकी और गणित संस्थानों में पढ़ाया जाता है।

जब मैं समझा नहीं सकता तो मैंने इस बारे में बात करना क्यों शुरू किया? याद रखें कि सभी फिल्मों में लुटेरे किसी भी बैंक में प्रवेश करते हैं और तारों से जुड़े लोहे के सभी प्रकार के टुकड़ों को बड़ी संख्या में देखते हैं?

वही बड़ी तारीख के लिए जाता है। उदाहरण के लिए, यहां एक मॉडल है जो वर्तमान में बाजार के नेताओं में से एक है।

बिग डेट टूल

अधिकतम कॉन्फ़िगरेशन में लागत प्रति रैक 27 मिलियन रूबल तक पहुंचती है। यह, निश्चित रूप से, डीलक्स संस्करण है। मैं चाहता हूं कि आप अपने व्यवसाय में पहले से बड़ा डेटा बनाने का प्रयास करें।

संक्षेप में मुख्य बात के बारे में

आप पूछ सकते हैं कि आपको, एक छोटे और मध्यम आकार के व्यवसाय को बड़े डेटा के साथ काम करने की आवश्यकता क्यों है?

इसके लिए मैं आपको एक व्यक्ति के उद्धरण के साथ उत्तर दूंगा: "निकट भविष्य में, ग्राहकों की उन कंपनियों की मांग होगी जो उनके व्यवहार और आदतों को बेहतर ढंग से समझती हैं और उनसे सबसे अच्छी तरह मेल खाती हैं।"

लेकिन चलो इसका सामना करते हैं। एक छोटे व्यवसाय में बड़े डेटा को लागू करने के लिए, सॉफ्टवेयर के विकास और कार्यान्वयन के लिए न केवल बड़े बजट होना आवश्यक है, बल्कि विशेषज्ञों के रखरखाव के लिए भी, कम से कम जैसे कि एक बड़ा डेटा विश्लेषक और एक सिसडमिन।

और अब मैं इस तथ्य के बारे में चुप हूं कि प्रसंस्करण के लिए आपके पास ऐसा डेटा होना चाहिए।

ठीक है। छोटे व्यवसायों के लिए, विषय लगभग लागू नहीं होता है। लेकिन इसका मतलब यह नहीं है कि आपको वह सब कुछ भूल जाने की जरूरत है जो आपने ऊपर पढ़ा है।

केवल अपने स्वयं के डेटा का अध्ययन न करें, बल्कि प्रसिद्ध विदेशी और रूसी कंपनियों के डेटा विश्लेषण के परिणामों का अध्ययन करें।

उदाहरण के लिए, टारगेट रिटेल चेन ने बिग डेटा एनालिटिक्स का उपयोग करते हुए पाया कि गर्भावस्था की दूसरी तिमाही (गर्भावस्था के पहले से 12वें सप्ताह तक) से पहले गर्भवती महिलाएं सक्रिय रूप से गैर-सुगंधित उत्पाद खरीद रही हैं।

इस जानकारी के लिए धन्यवाद, वे उन्हें सीमित अवधि के बिना स्वाद वाले उत्पादों के लिए डिस्काउंट कूपन भेजते हैं।

और अगर आप उदाहरण के लिए सिर्फ एक बहुत छोटा कैफे हैं? यह बहुत सरल है। लॉयल्टी ऐप का इस्तेमाल करें।

और थोड़ी देर के बाद और संचित जानकारी के लिए धन्यवाद, आप न केवल अपने ग्राहकों को उनकी आवश्यकताओं के लिए प्रासंगिक व्यंजन पेश करने में सक्षम होंगे, बल्कि कुछ ही क्लिक में सबसे अधिक बिकने वाले और सबसे सीमांत व्यंजन भी देख पाएंगे।

इसलिए निष्कर्ष। एक छोटे व्यवसाय के लिए बड़े डेटा को लागू करना शायद ही इसके लायक है, लेकिन अन्य कंपनियों के परिणामों और विकास का उपयोग करना आवश्यक है।

डेटा वृद्धि का निरंतर त्वरण आज की वास्तविकता का एक अभिन्न अंग है। सामाजिक नेटवर्क, मोबाइल उपकरण, माप उपकरणों से डेटा, व्यावसायिक जानकारी कुछ ही प्रकार के स्रोत हैं जो बड़ी मात्रा में डेटा उत्पन्न कर सकते हैं।

आजकल बिग डेटा (बिग डेटा) शब्द काफी आम हो गया है। हर कोई अभी भी इस बात से अवगत नहीं है कि बड़ी डेटा प्रोसेसिंग प्रौद्योगिकियां समाज के सबसे विविध पहलुओं को कितनी तेजी से और गहराई से बदल रही हैं। विभिन्न क्षेत्रों में परिवर्तन हो रहे हैं, नई समस्याओं और चुनौतियों को जन्म दे रहे हैं, जिसमें सूचना सुरक्षा का क्षेत्र भी शामिल है, जहां गोपनीयता, अखंडता, उपलब्धता आदि जैसे महत्वपूर्ण पहलू अग्रभूमि में होने चाहिए।

दुर्भाग्य से, कई आधुनिक कंपनियां इसके लिए उचित बुनियादी ढांचे का निर्माण किए बिना बिग डेटा तकनीक का सहारा लेती हैं, जो बड़ी मात्रा में डेटा का विश्वसनीय भंडारण प्रदान कर सकती है जिसे वे एकत्र और संग्रहीत करते हैं। दूसरी ओर, ब्लॉकचेन तकनीक वर्तमान में तेजी से विकसित हो रही है, जिसे इसे और कई अन्य समस्याओं को हल करने के लिए डिज़ाइन किया गया है।

बिग डेटा क्या है?

वास्तव में, शब्द की परिभाषा सतह पर है: "बड़ा डेटा" का अर्थ है बहुत बड़ी मात्रा में डेटा का प्रबंधन और विश्लेषण करना। मोटे तौर पर, यह ऐसी जानकारी है जिसे शास्त्रीय तरीकों का उपयोग करके संसाधित नहीं किया जा सकता है क्योंकि इसकी बड़ी मात्रा है।

बिग डेटा शब्द अपेक्षाकृत हाल ही में सामने आया है। Google रुझान सेवा के अनुसार, शब्द की लोकप्रियता में सक्रिय वृद्धि 2011 के अंत में हुई:

2010 में, बड़े डेटा के प्रसंस्करण से सीधे संबंधित पहले उत्पाद और समाधान दिखाई देने लगे। 2011 तक, IBM, Oracle, Microsoft और Hewlett-Packard सहित अधिकांश सबसे बड़ी IT कंपनियाँ अपनी व्यावसायिक रणनीतियों में Big Data शब्द का सक्रिय रूप से उपयोग कर रही हैं। धीरे-धीरे, सूचना प्रौद्योगिकी बाजार के विश्लेषकों ने इस अवधारणा पर सक्रिय रूप से शोध करना शुरू कर दिया।

वर्तमान में, इस शब्द ने महत्वपूर्ण लोकप्रियता हासिल की है और विभिन्न क्षेत्रों में सक्रिय रूप से उपयोग किया जाता है। हालाँकि, यह निश्चित रूप से नहीं कहा जा सकता है कि बिग डेटा किसी प्रकार की मौलिक रूप से नई घटना है - इसके विपरीत, बड़े डेटा स्रोत कई वर्षों से मौजूद हैं। विपणन में, इनमें ग्राहक खरीद, क्रेडिट इतिहास, जीवन शैली विकल्प, और बहुत कुछ के डेटाबेस शामिल हैं। वर्षों से, विश्लेषकों ने इस डेटा का उपयोग कंपनियों को भविष्य की ग्राहक आवश्यकताओं की भविष्यवाणी करने, जोखिमों का आकलन करने, उपभोक्ता वरीयताओं को आकार देने और बहुत कुछ करने में मदद करने के लिए किया है।

वर्तमान में, स्थिति दो पहलुओं में बदल गई है:

- डेटा के विभिन्न सेटों का विश्लेषण और तुलना करने के लिए अधिक परिष्कृत उपकरण और विधियां हैं;
- डिजिटल प्रौद्योगिकियों के व्यापक संक्रमण के साथ-साथ डेटा एकत्र करने और मापने के नए तरीकों के कारण, कई नए डेटा स्रोतों द्वारा विश्लेषण उपकरण पूरक किए गए हैं।

शोधकर्ताओं का अनुमान है कि विनिर्माण, स्वास्थ्य सेवा, व्यापार, सरकार और विभिन्न अन्य क्षेत्रों और उद्योगों में बिग डेटा प्रौद्योगिकियों का सबसे अधिक सक्रिय रूप से उपयोग किया जाएगा।

बिग डेटा डेटा की कोई विशिष्ट सरणी नहीं है, बल्कि उनके प्रसंस्करण के तरीकों का एक सेट है। बड़े डेटा की परिभाषित विशेषता न केवल इसकी मात्रा है, बल्कि अन्य श्रेणियां भी हैं जो डेटा प्रोसेसिंग और विश्लेषण की श्रम-गहन प्रक्रियाओं की विशेषता हैं।

प्रसंस्करण के लिए प्रारंभिक डेटा हो सकता है, उदाहरण के लिए:

- इंटरनेट उपयोगकर्ताओं के व्यवहार के लॉग;
- चीजों की इंटरनेट;
- सामाजिक मीडिया;
- मौसम संबंधी डेटा;
- सबसे बड़े पुस्तकालयों की डिजीटल पुस्तकें;
- वाहनों से जीपीएस सिग्नल;
- बैंक ग्राहकों के लेनदेन के बारे में जानकारी;
- मोबाइल नेटवर्क ग्राहकों के स्थान पर डेटा;
- बड़ी रिटेल चेन आदि में खरीदारी की जानकारी।

समय के साथ, डेटा की मात्रा और उनके स्रोतों की संख्या लगातार बढ़ रही है, और इस पृष्ठभूमि के खिलाफ, सूचना प्रसंस्करण के नए और मौजूदा तरीकों में सुधार किया जा रहा है।

बिग डेटा के मूल सिद्धांत:

- क्षैतिज मापनीयता - डेटा सेट विशाल हो सकते हैं, जिसका अर्थ है कि बड़े डेटा प्रोसेसिंग सिस्टम को गतिशील रूप से विस्तार करना चाहिए क्योंकि उनकी मात्रा में वृद्धि होती है।
- दोष सहिष्णुता - उपकरण के कुछ तत्वों की विफलता के मामले में भी, पूरे सिस्टम को चालू रहना चाहिए।
- डेटा इलाके। बड़े वितरित सिस्टम में, डेटा आमतौर पर बड़ी संख्या में मशीनों में फैला होता है। हालाँकि, जहाँ तक संभव हो और संसाधनों को बचाने के लिए, डेटा को अक्सर उसी सर्वर पर संसाधित किया जाता है जैसे इसे संग्रहीत किया जाता है।

तीनों सिद्धांतों के स्थिर संचालन के लिए और, तदनुसार, बड़े डेटा के भंडारण और प्रसंस्करण की उच्च दक्षता के लिए, नई सफलता प्रौद्योगिकियों की आवश्यकता होती है, जैसे, उदाहरण के लिए, ब्लॉकचैन।

बिग डेटा किसके लिए है?

बिग डेटा का दायरा लगातार बढ़ रहा है:

- दवा में बिग डेटा का इस्तेमाल किया जा सकता है। इस प्रकार, रोगी के लिए न केवल चिकित्सा इतिहास के विश्लेषण के आधार पर निदान स्थापित करना संभव है, बल्कि अन्य डॉक्टरों के अनुभव को ध्यान में रखते हुए, रोगी के निवास क्षेत्र की पर्यावरणीय स्थिति के बारे में जानकारी और कई अन्य कारक
- मानव रहित वाहनों की आवाजाही को व्यवस्थित करने के लिए बिग डेटा तकनीकों का उपयोग किया जा सकता है।
- बड़ी मात्रा में डेटा संसाधित करके, आप फ़ोटो और वीडियो सामग्री में चेहरों को पहचान सकते हैं।
- खुदरा विक्रेताओं द्वारा बिग डेटा तकनीकों का उपयोग किया जा सकता है - व्यापारिक कंपनियां अपने विज्ञापन अभियानों को प्रभावी ढंग से अनुकूलित करने के लिए सामाजिक नेटवर्क से डेटा सरणियों का सक्रिय रूप से उपयोग कर सकती हैं, जिन्हें अधिकतम रूप से किसी विशेष उपभोक्ता खंड को लक्षित किया जा सकता है।
- इस तकनीक का सक्रिय रूप से चुनाव अभियानों के संगठन में उपयोग किया जाता है, जिसमें समाज में राजनीतिक प्राथमिकताओं के विश्लेषण के लिए भी शामिल है।
- बिग डेटा प्रौद्योगिकियों का उपयोग आय गारंटी (आरए) वर्ग के समाधान के लिए प्रासंगिक है, जिसमें विसंगतियों का पता लगाने और गहन डेटा विश्लेषण के लिए उपकरण शामिल हैं, जो संभावित नुकसान या जानकारी की विकृतियों की समय पर पहचान की अनुमति देते हैं जिससे कमी हो सकती है वित्तीय परिणामों में।
- दूरसंचार प्रदाता जियोलोकेशन सहित बड़ा डेटा एकत्र कर सकते हैं; बदले में, यह जानकारी विज्ञापन एजेंसियों के लिए व्यावसायिक हित की हो सकती है जो इसका उपयोग लक्षित और स्थानीय विज्ञापन प्रदर्शित करने के साथ-साथ खुदरा विक्रेताओं और बैंकों के लिए भी कर सकती हैं।
"बिग डेटा लोगों के एक शक्तिशाली लक्ष्य प्रवाह की उपस्थिति पर डेटा के आधार पर एक विशिष्ट स्थान पर खुदरा आउटलेट खोलने का निर्णय लेने में महत्वपूर्ण भूमिका निभा सकता है।

इस प्रकार, बिग डेटा प्रौद्योगिकी का सबसे स्पष्ट व्यावहारिक अनुप्रयोग विपणन के क्षेत्र में निहित है। इंटरनेट के विकास और सभी प्रकार के संचार उपकरणों के प्रसार के साथ, व्यवहार संबंधी डेटा (जैसे कॉल की संख्या, खरीदारी की आदतें और खरीदारी) वास्तविक समय में उपलब्ध हो जाता है।

बड़ी डेटा प्रौद्योगिकियों का उपयोग वित्त में, सामाजिक अनुसंधान के लिए और कई अन्य क्षेत्रों में भी प्रभावी ढंग से किया जा सकता है। विशेषज्ञों का तर्क है कि बड़े डेटा का उपयोग करने के ये सभी अवसर हिमखंड का केवल दृश्य हिस्सा हैं, क्योंकि इन तकनीकों का उपयोग खुफिया और प्रतिवाद में, सैन्य मामलों में, साथ ही साथ हर चीज में किया जाता है जिसे आमतौर पर सूचना युद्ध कहा जाता है।

सामान्य शब्दों में, बिग डेटा के साथ काम करने के क्रम में डेटा एकत्र करना, रिपोर्ट और डैशबोर्ड का उपयोग करके प्राप्त जानकारी की संरचना करना, साथ ही कार्रवाई के लिए सिफारिशों का बाद का सूत्रीकरण शामिल है।

आइए संक्षेप में मार्केटिंग में बिग डेटा प्रौद्योगिकियों के उपयोग की संभावनाओं पर विचार करें। जैसा कि आप जानते हैं, एक बाज़ारिया के लिए, सूचना पूर्वानुमान और रणनीति बनाने का मुख्य उपकरण है। लक्षित दर्शकों, रुचियों, मांग और उपभोक्ता गतिविधि को निर्धारित करने के लिए बड़े डेटा विश्लेषण का सफलतापूर्वक उपयोग किया गया है। बिग डेटा विश्लेषण, विशेष रूप से, केवल उन उपभोक्ताओं को विज्ञापन प्रदर्शित करने की अनुमति देता है (आरटीबी नीलामी मॉडल - रीयल टाइम बिडिंग पर आधारित) जो किसी उत्पाद या सेवा में रुचि रखते हैं।

मार्केटिंग में बिग डेटा का उपयोग व्यवसायियों को निम्न की अनुमति देता है:

- अपने उपभोक्ताओं को बेहतर तरीके से जानें, इंटरनेट पर समान दर्शकों को आकर्षित करें;
- ग्राहकों की संतुष्टि की डिग्री का आकलन करें;
- समझें कि क्या प्रस्तावित सेवा अपेक्षाओं और जरूरतों को पूरा करती है;
- ग्राहकों का विश्वास बढ़ाने के लिए नए तरीके खोजें और लागू करें;
- ऐसी परियोजनाएं बनाएं जो मांग में हों, आदि।

उदाहरण के लिए, Google.trends सेवा एक बाज़ारिया को किसी विशिष्ट उत्पाद के लिए मौसमी मांग गतिविधि, उतार-चढ़ाव और क्लिकों की भौगोलिक स्थिति का पूर्वानुमान प्रदान कर सकती है। यदि आप अपनी साइट पर संबंधित प्लग-इन द्वारा एकत्र किए गए सांख्यिकीय डेटा के साथ इस जानकारी की तुलना करते हैं, तो आप विज्ञापन बजट के वितरण के लिए एक योजना तैयार कर सकते हैं, जो महीने, क्षेत्र और अन्य मापदंडों को दर्शाता है।

कई शोधकर्ताओं के अनुसार, यह बिग डेटा के विभाजन और उपयोग में है कि ट्रम्प के चुनाव अभियान की सफलता निहित है। भविष्य के अमेरिकी राष्ट्रपति की टीम दर्शकों को सही ढंग से विभाजित करने, उनकी इच्छाओं को समझने और ठीक वही संदेश दिखाने में सक्षम थी जो मतदाता देखना और सुनना चाहते हैं। इसलिए, डेटा-सेंट्रिक एलायंस से इरिना बेलीशेवा के अनुसार, ट्रम्प की जीत काफी हद तक इंटरनेट मार्केटिंग के लिए एक गैर-मानक दृष्टिकोण के लिए संभव हुई थी, जो बिग डेटा, मनो-व्यवहार विश्लेषण और व्यक्तिगत विज्ञापन पर आधारित थी।

ट्रम्प के राजनीतिक रणनीतिकारों और विपणक ने एक विशेष रूप से विकसित गणितीय मॉडल का उपयोग किया, जिसने सभी अमेरिकी मतदाताओं के डेटा को उन्हें व्यवस्थित करने के लिए गहराई से विश्लेषण करना संभव बना दिया, न केवल भूगोल द्वारा, बल्कि इरादों, मतदाताओं के हितों, उनके मनोविज्ञान द्वारा भी अति-सटीक लक्ष्यीकरण किया। व्यवहार संबंधी विशेषताएं, आदि। इसके बाद, विपणक ने नागरिकों के प्रत्येक समूह के साथ उनकी आवश्यकताओं, मनोदशाओं, राजनीतिक विचारों, मनोवैज्ञानिक विशेषताओं और यहां तक कि त्वचा के रंग के आधार पर, लगभग प्रत्येक व्यक्तिगत मतदाता के लिए अपने स्वयं के संदेश का उपयोग करके व्यक्तिगत संचार का आयोजन किया।

हिलेरी क्लिंटन के लिए, अपने अभियान में उन्होंने समाजशास्त्रीय डेटा और मानक विपणन के आधार पर "समय-परीक्षण" विधियों का इस्तेमाल किया, मतदाताओं को केवल औपचारिक रूप से सजातीय समूहों (पुरुषों, महिलाओं, अफ्रीकी अमेरिकियों, हिस्पैनिक्स, गरीब, अमीर, आदि) में विभाजित किया। )...

नतीजतन, विजेता वह था जिसने नई तकनीकों और विश्लेषण के तरीकों की क्षमता की सराहना की। यह उल्लेखनीय है कि हिलेरी क्लिंटन के अभियान की लागत उनके प्रतिद्वंद्वी की तुलना में दोगुनी थी:

डेटा: प्यू रिसर्च

बिग डेटा का उपयोग करने की मुख्य समस्याएं

उच्च लागत के अलावा, विभिन्न क्षेत्रों में बिग डेटा के कार्यान्वयन में बाधा डालने वाले मुख्य कारकों में से एक है संसाधित किए जाने वाले डेटा को चुनने की समस्या: यानी, यह निर्धारित करना कि किस डेटा को निकालने, संग्रहीत करने और विश्लेषण करने की आवश्यकता है, और कौन सा होना चाहिए ध्यान में नहीं रखा जाता है।

बिग डेटा के साथ एक और समस्या नैतिक है। दूसरे शब्दों में, एक स्वाभाविक प्रश्न उठता है: क्या ऐसे डेटा संग्रह (विशेषकर उपयोगकर्ता की जानकारी के बिना) को गोपनीयता की सीमाओं का उल्लंघन माना जा सकता है?

यह कोई रहस्य नहीं है कि Google और यांडेक्स सर्च इंजन में संग्रहीत जानकारी आईटी दिग्गजों को अपनी सेवाओं को लगातार परिष्कृत करने, उन्हें उपयोगकर्ता के अनुकूल बनाने और नए इंटरैक्टिव एप्लिकेशन बनाने की अनुमति देती है। ऐसा करने के लिए, खोज इंजन इंटरनेट पर उपयोगकर्ता गतिविधि, आईपी पते, भौगोलिक स्थान पर डेटा, रुचियों और ऑनलाइन खरीद, व्यक्तिगत डेटा, ईमेल संदेशों आदि के बारे में उपयोगकर्ता डेटा एकत्र करते हैं। यह सब आपको उपयोगकर्ता के व्यवहार के अनुसार प्रासंगिक विज्ञापन प्रदर्शित करने की अनुमति देता है इंटरनेट। वहीं, इसके लिए आमतौर पर यूजर्स की सहमति नहीं मांगी जाती है और अपने बारे में कौन सी जानकारी देनी है इसका चुनाव नहीं किया जाता है। यानी, डिफ़ॉल्ट रूप से, बिग डेटा वह सब कुछ एकत्र करता है जो फिर इन साइटों के सर्वर पर संग्रहीत किया जाएगा।

यह भंडारण और डेटा के उपयोग की सुरक्षा सुनिश्चित करने से संबंधित अगली महत्वपूर्ण समस्या की ओर जाता है। उदाहरण के लिए, क्या एक विशेष एनालिटिक्स प्लेटफॉर्म है जिसे उपभोक्ता अपने डेटा को सुरक्षित करने के लिए स्वचालित रूप से स्थानांतरित करते हैं? इसके अलावा, कई व्यवसाय प्रतिनिधि उच्च योग्य विश्लेषकों और विपणक की कमी को नोट करते हैं जो बड़ी मात्रा में डेटा के साथ कुशलतापूर्वक संचालन करने में सक्षम हैं और उनकी मदद से विशिष्ट व्यावसायिक समस्याओं को हल करते हैं।

बिग डेटा के कार्यान्वयन के साथ सभी कठिनाइयों के बावजूद, व्यवसाय इस क्षेत्र में निवेश बढ़ाने का इरादा रखता है। गार्टनर के एक अध्ययन के अनुसार, बिग डेटा में निवेश करने वाले उद्योगों के नेता मीडिया, खुदरा, दूरसंचार, बैंकिंग और सेवा कंपनियां हैं।

ब्लॉकचैन प्रौद्योगिकियों और बिग डेटा की बातचीत के लिए संभावनाएं

बिग डेटा के साथ एकीकरण का एक सहक्रियात्मक प्रभाव होता है और व्यापार के लिए नए अवसरों की एक विस्तृत श्रृंखला को खोलता है, जिसमें निम्न शामिल हैं:

- उपभोक्ता वरीयताओं के बारे में विस्तृत जानकारी तक पहुंच प्राप्त करें, जिसके आधार पर विशिष्ट आपूर्तिकर्ताओं, वस्तुओं और उत्पाद घटकों के लिए विस्तृत विश्लेषणात्मक प्रोफाइल बनाना संभव है;
- विभिन्न श्रेणियों के उपयोगकर्ताओं द्वारा माल के कुछ समूहों की खपत के लेनदेन और आंकड़ों पर विस्तृत डेटा एकीकृत करें;
- आपूर्ति और खपत श्रृंखला पर विस्तृत विश्लेषणात्मक डेटा प्राप्त करें, परिवहन के दौरान उत्पाद के नुकसान को नियंत्रित करें (उदाहरण के लिए, कुछ प्रकार के सामानों के सूखने और वाष्पीकरण के कारण वजन कम होना);
- उत्पाद जालसाजी का प्रतिकार करने के लिए, मनी लॉन्ड्रिंग और धोखाधड़ी आदि के खिलाफ लड़ाई की प्रभावशीलता को बढ़ाने के लिए।

वस्तुओं के उपयोग और खपत पर विस्तृत डेटा तक पहुंच प्रमुख व्यावसायिक प्रक्रियाओं को अनुकूलित करने, नियामक जोखिमों को कम करने और मौजूदा उपभोक्ता प्राथमिकताओं को सर्वोत्तम रूप से पूरा करने वाले उत्पादों के मुद्रीकरण और निर्माण के नए अवसरों को प्रकट करने के लिए बिग डेटा प्रौद्योगिकी की क्षमता को प्रकट करेगी।

जैसा कि आप जानते हैं, सबसे बड़े वित्तीय संस्थानों के प्रतिनिधि, जिनमें आदि शामिल हैं, पहले से ही ब्लॉकचेन तकनीक में काफी रुचि दिखा रहे हैं। स्विस वित्तीय होल्डिंग यूबीएस के आईटी प्रबंधक ओलिवर बुसमैन के अनुसार, ब्लॉकचेन तकनीक "के प्रसंस्करण समय को कम करने में सक्षम है। कई दिनों से लेकर कई मिनटों तक का लेन-देन। ”…

बिग डेटा तकनीक का उपयोग करके ब्लॉकचेन विश्लेषण की क्षमता बहुत अधिक है। डिस्ट्रीब्यूटेड लेज़र तकनीक सूचना की अखंडता, साथ ही लेन-देन के पूरे इतिहास के विश्वसनीय और पारदर्शी भंडारण को सुनिश्चित करती है। बिग डेटा, बदले में, प्रभावी विश्लेषण, पूर्वानुमान, आर्थिक मॉडलिंग के लिए नए उपकरण प्रदान करता है और तदनुसार, अधिक संतुलित प्रबंधन निर्णय लेने के लिए नए अवसर खोलता है।

ब्लॉकचेन और बिग डेटा के अग्रानुक्रम का स्वास्थ्य सेवा में सफलतापूर्वक उपयोग किया जा सकता है। जैसा कि आप जानते हैं, रोगी के स्वास्थ्य के बारे में अपूर्ण और अपूर्ण डेटा गलत निदान और गलत उपचार के जोखिम को काफी बढ़ा देता है। चिकित्सा संस्थानों के ग्राहकों के स्वास्थ्य पर महत्वपूर्ण डेटा यथासंभव सुरक्षित होना चाहिए, अपरिवर्तनीयता के गुण होने चाहिए, सत्यापन योग्य होना चाहिए और किसी भी हेरफेर के अधीन नहीं होना चाहिए।

ब्लॉकचेन में जानकारी सभी सूचीबद्ध आवश्यकताओं को पूरा करती है और नई बिग डेटा तकनीकों का उपयोग करके गहन विश्लेषण के लिए उच्च गुणवत्ता और विश्वसनीय प्रारंभिक डेटा के रूप में काम कर सकती है। इसके अलावा, ब्लॉकचैन की मदद से, चिकित्सा संस्थान बीमा कंपनियों, न्याय अधिकारियों, नियोक्ताओं, वैज्ञानिक संस्थानों और अन्य संगठनों के साथ विश्वसनीय डेटा का आदान-प्रदान करने में सक्षम होंगे जिन्हें चिकित्सा जानकारी की आवश्यकता है।

बिग डेटा और सूचना सुरक्षा

व्यापक अर्थों में, सूचना सुरक्षा एक प्राकृतिक या कृत्रिम प्रकृति के आकस्मिक या जानबूझकर नकारात्मक प्रभावों से सूचना और सहायक बुनियादी ढांचे की सुरक्षा है।

सूचना सुरक्षा के क्षेत्र में, बिग डेटा को निम्नलिखित चुनौतियों का सामना करना पड़ता है:

- डेटा सुरक्षा और उनकी अखंडता सुनिश्चित करने की समस्याएं;
- बाहरी हस्तक्षेप और गोपनीय जानकारी के रिसाव का जोखिम;
- गोपनीय जानकारी का अनुचित भंडारण;
- जानकारी खोने का जोखिम, उदाहरण के लिए, किसी के दुर्भावनापूर्ण कार्यों के कारण;
- तीसरे पक्ष आदि द्वारा व्यक्तिगत डेटा के दुरुपयोग का जोखिम।

सूचना सुरक्षा के क्षेत्र में झूठ को हल करने के लिए ब्लॉकचेन को डिज़ाइन किए गए बड़े डेटा की मुख्य समस्याओं में से एक। अपने सभी बुनियादी सिद्धांतों का अनुपालन सुनिश्चित करना, वितरित लेज़र तकनीक डेटा की अखंडता और विश्वसनीयता की गारंटी दे सकती है, और विफलता के एक बिंदु की अनुपस्थिति के कारण, ब्लॉकचैन सूचना प्रणाली के संचालन को स्थिर बनाता है। डिस्ट्रीब्यूटेड लेज़र तकनीक भरोसेमंद डेटा की समस्या को हल करने में मदद कर सकती है, साथ ही इसे सार्वभौमिक रूप से एक्सचेंज करने की क्षमता भी प्रदान कर सकती है।

सूचना एक मूल्यवान संपत्ति है, जिसका अर्थ है कि सूचना सुरक्षा के मुख्य पहलुओं को सुनिश्चित करना अग्रभूमि में होना चाहिए। प्रतिस्पर्धा से बचने के लिए, कंपनियों को समय के साथ तालमेल बिठाना होगा, जिसका अर्थ है कि वे संभावित अवसरों और लाभों की अनदेखी नहीं कर सकते हैं जो ब्लॉकचेन तकनीक और बिग डेटा टूल प्रदान करते हैं।

केवल आलसी बिग डेटा के बारे में बात नहीं करते हैं, लेकिन यह क्या है और यह कैसे काम करता है, यह समझने की संभावना नहीं है। आइए सबसे सरल - शब्दावली से शुरू करें। रूसी में बोलते हुए, बिग डेटा विशिष्ट कार्यों और उद्देश्यों के लिए उनका उपयोग करने के लिए संरचित और असंरचित डेटा दोनों को संसाधित करने के लिए विभिन्न प्रकार के उपकरण, दृष्टिकोण और तरीके हैं।

असंरचित डेटा ऐसी जानकारी है जिसकी कोई पूर्वनिर्धारित संरचना नहीं है या किसी विशिष्ट क्रम में व्यवस्थित नहीं है।

"बिग डेटा" शब्द को नेचर क्लिफोर्ड लिंच पत्रिका के संपादक द्वारा 2008 में दुनिया के सूचना संस्करणों के विस्फोटक विकास के लिए समर्पित एक विशेष अंक में गढ़ा गया था। हालाँकि, निश्चित रूप से, बड़ा डेटा पहले भी मौजूद था। विशेषज्ञों के अनुसार, प्रति दिन 100 जीबी से अधिक डेटा स्ट्रीम बिग डेटा श्रेणी से संबंधित हैं।

यह भी पढ़ें:

आज, यह सरल शब्द केवल दो शब्दों को छुपाता है - डेटा भंडारण और प्रसंस्करण।

बड़ा डेटा - सरल शब्दों में

आधुनिक दुनिया में, बिग डेटा एक सामाजिक-आर्थिक घटना है, जो इस तथ्य से जुड़ी है कि बड़ी मात्रा में डेटा का विश्लेषण करने के लिए नए तकनीकी अवसर सामने आए हैं।

यह भी पढ़ें:

समझने में आसानी के लिए, एक सुपरमार्केट की कल्पना करें जिसमें सभी सामान आपके सामान्य क्रम में नहीं हैं। फलों के बगल में ब्रेड, जमे हुए पिज्जा के बगल में टमाटर का पेस्ट, टैम्पोन रैक के सामने हल्का, जिसमें एवोकैडो, टोफू या शीटकेक मशरूम शामिल हैं। बिग डेटा सब कुछ अपनी जगह पर रखता है और आपको अखरोट का दूध खोजने में मदद करता है, लागत और समाप्ति तिथि का पता लगाता है, और यह भी कि आपके अलावा कौन ऐसा दूध खरीदता है और यह गाय के दूध से बेहतर क्यों है।

केनेथ कुकर: बड़ा डेटा सबसे अच्छा डेटा है

बिग डेटा टेक्नोलॉजी

बड़ी मात्रा में डेटा संसाधित किया जाता है ताकि एक व्यक्ति अपने आगे के प्रभावी उपयोग के लिए विशिष्ट और आवश्यक परिणाम प्राप्त कर सके।

यह भी पढ़ें:

वास्तव में, बिग डेटा एक समस्या समाधान है और पारंपरिक डेटा प्रबंधन प्रणालियों का विकल्प है।

मैकिन्से के अनुसार बिग डेटा पर लागू विश्लेषण की तकनीकें और तरीके:

क्राउडसोर्सिंग;

डेटा मिश्रण और एकीकरण;

यंत्र अधिगम;

कृत्रिम तंत्रिका प्रसार;

पैटर्न मान्यता;

भविष्यिक विश्लेषण;

सिमुलेशन मॉडलिंग;

त्रिविमीय विश्लेषण;

सांख्यिकीय विश्लेषण;
विश्लेषणात्मक डेटा विज़ुअलाइज़ेशन।

डेटा प्रोसेसिंग को सक्षम करने वाली क्षैतिज मापनीयता बड़े डेटा प्रोसेसिंग का एक मूलभूत सिद्धांत है। डेटा को कम्प्यूटेशनल नोड्स में वितरित किया जाता है, और प्रसंस्करण प्रदर्शन में गिरावट के बिना होता है। मैकिन्से ने प्रयोज्यता के संदर्भ में रिलेशनल मैनेजमेंट सिस्टम और बिजनेस इंटेलिजेंस को भी शामिल किया।

प्रौद्योगिकी:

नोएसक्यूएल;
मानचित्र छोटा करना;
हडूप;
हार्डवेयर समाधान।

यह भी पढ़ें:

बड़े डेटा के लिए, 2001 में मेटा ग्रुप द्वारा विकसित पारंपरिक परिभाषित विशेषताएं हैं, जिन्हें "कहा जाता है" तीन वी»:

आयतन- भौतिक आयतन का आकार।
वेग- विकास की गति और परिणाम प्राप्त करने के लिए तेजी से डेटा प्रोसेसिंग की आवश्यकता।
विविधता- विभिन्न प्रकार के डेटा को एक साथ संसाधित करने की क्षमता।

बड़ा डेटा: अनुप्रयोग और अवसर

पारंपरिक उपकरणों के साथ विषम और तेजी से आने वाली डिजिटल जानकारी की मात्रा को संसाधित करना असंभव है। डेटा का विश्लेषण आपको कुछ निश्चित और अगोचर पैटर्न देखने की अनुमति देता है जो एक व्यक्ति नहीं देख सकता है। यह हमें अपने जीवन के सभी क्षेत्रों को अनुकूलित करने की अनुमति देता है - सरकार से लेकर विनिर्माण और दूरसंचार तक।

उदाहरण के लिए, कुछ कंपनियां कुछ साल पहले अपने ग्राहकों को धोखाधड़ी से बचाती थीं, और ग्राहक के पैसे की देखभाल करना अपने पैसे की देखभाल करना था।

सुसान एटलीगर: बिग डेटा के बारे में क्या?

बड़े डेटा-आधारित समाधान: Sberbank, Beeline और अन्य कंपनियां

बीलाइन के पास ग्राहकों के बारे में बड़ी मात्रा में डेटा है, जिसका उपयोग वे न केवल उनके साथ काम करने के लिए करते हैं, बल्कि विश्लेषणात्मक उत्पाद बनाने के लिए भी करते हैं, जैसे बाहरी परामर्श या आईपीटीवी एनालिटिक्स। बीलाइन ने स्टोरेज के लिए एचडीएफएस और अपाचे स्पार्क और डेटा प्रोसेसिंग के लिए रैपिडमिनर और पायथन का उपयोग करते हुए, डेटाबेस को विभाजित किया और ग्राहकों को पैसे की धोखाधड़ी और वायरस से बचाया।

यह भी पढ़ें:

या Sberbank को उनके पुराने मामले AS SAFI के साथ याद रखें। यह एक ऐसी प्रणाली है जो बैंक ग्राहकों की पहचान करने के लिए तस्वीरों का विश्लेषण करती है और धोखाधड़ी को रोकती है। सिस्टम को 2014 में वापस पेश किया गया था, सिस्टम के केंद्र में डेटाबेस से तस्वीरों की तुलना है, जो कंप्यूटर विज़न की बदौलत रैक पर वेबकैम से मिलती है। सिस्टम का आधार बायोमेट्रिक प्लेटफॉर्म है। इसकी बदौलत धोखाधड़ी के मामलों में 10 गुना की कमी आई है।

दुनिया में बड़ा डेटा

2020 तक, पूर्वानुमानों के अनुसार, मानवता 40-44 zettabytes सूचना उत्पन्न करेगी। और 2025 तक यह 10 गुना बढ़ जाएगा, रिपोर्ट द डेटा एज 2025 के अनुसार, जिसे आईडीसी के विश्लेषकों द्वारा तैयार किया गया था। रिपोर्ट में कहा गया है कि अधिकांश डेटा व्यवसायों द्वारा स्वयं उत्पन्न किया जाएगा, न कि उपभोक्ताओं द्वारा।

अनुसंधान विश्लेषकों का मानना है कि डेटा एक महत्वपूर्ण संपत्ति बन जाएगा और सुरक्षा जीवन में एक महत्वपूर्ण आधार बन जाएगी। काम के लेखकों को भी विश्वास है कि प्रौद्योगिकी आर्थिक परिदृश्य को बदल देगी, और औसत उपयोगकर्ता दिन में लगभग 4800 बार जुड़े उपकरणों के साथ संवाद करेगा।

रूस में बड़ा डेटा बाजार

आमतौर पर, बड़ा डेटा तीन स्रोतों से आता है:

इंटरनेट (सामाजिक नेटवर्क, फ़ोरम, ब्लॉग, मीडिया और अन्य साइटें);
दस्तावेजों के कॉर्पोरेट अभिलेखागार;
सेंसरों, उपकरणों और अन्य उपकरणों से रीडिंग।

बैंकों में बड़ा डेटा

ऊपर वर्णित प्रणाली के अलावा, 2014-2018 के लिए Sberbank की रणनीति में। गुणवत्ता ग्राहक सेवा, जोखिम प्रबंधन और लागत अनुकूलन के लिए बड़ी मात्रा में डेटा का विश्लेषण करने के महत्व के बारे में बात करता है। अब बैंक बिग डेटा का उपयोग जोखिम प्रबंधन, धोखाधड़ी का मुकाबला करने, ग्राहक साख का विभाजन और मूल्यांकन, कार्मिक प्रबंधन, शाखाओं में कतारों की भविष्यवाणी, कर्मचारियों के लिए बोनस की गणना और अन्य कार्यों के लिए करता है।

VTB24 ग्राहक मंथन को विभाजित करने और प्रबंधित करने, वित्तीय विवरण तैयार करने, सामाजिक नेटवर्क और मंचों में समीक्षाओं का विश्लेषण करने के लिए बड़े डेटा का उपयोग करता है। ऐसा करने के लिए, वह टेराडाटा, एसएएस विजुअल एनालिटिक्स और एसएएस मार्केटिंग ऑप्टिमाइज़र समाधानों का उपयोग करता है।

बिग डेटा शब्द का अर्थ आमतौर पर संरचित, अर्ध-संरचित और असंरचित डेटा की कोई भी मात्रा है। हालांकि, दूसरे और तीसरे को सूचना के बाद के विश्लेषण के लिए आदेश दिया जा सकता है और होना चाहिए। बिग डेटा की किसी वास्तविक मात्रा के साथ बराबरी नहीं की जाती है, लेकिन बिग डेटा की बात करें तो, ज्यादातर मामलों में, हमारा मतलब टेराबाइट्स, पेटाबाइट्स और यहां तक कि एक्स्ट्राबाइट्स ऑफ़ इनफॉर्मेशन से है। डेटा की इतनी मात्रा समय के साथ किसी भी व्यवसाय में जमा हो सकती है, या ऐसे मामलों में जहां किसी कंपनी को वास्तविक समय में बहुत सारी जानकारी प्राप्त करने की आवश्यकता होती है।

बड़ा डेटा विश्लेषण

बिग डेटा विश्लेषण के बारे में बोलते हुए, सबसे पहले मेरा मतलब विभिन्न स्रोतों से जानकारी का संग्रह और भंडारण है। उदाहरण के लिए, खरीदारी करने वाले ग्राहकों के बारे में डेटा, उनकी विशेषताएं, लॉन्च किए गए विज्ञापन अभियानों के बारे में जानकारी और इसकी प्रभावशीलता का आकलन, संपर्क केंद्र डेटा। हां, इस सारी जानकारी की तुलना और विश्लेषण किया जा सकता है। यह संभव और आवश्यक है। लेकिन इसके लिए आपको एक ऐसी प्रणाली स्थापित करने की आवश्यकता है जो आपको जानकारी को विकृत किए बिना एकत्र करने और बदलने की अनुमति देती है, इसे संग्रहीत करती है और अंत में, इसकी कल्पना करती है। सहमत हूं, बड़े डेटा के साथ, कई हजार पृष्ठों पर मुद्रित टेबल व्यावसायिक निर्णय लेने में ज्यादा मदद नहीं करेंगे।

1. बिग डेटा का आगमन

उपयोगकर्ता क्रियाओं के बारे में जानकारी एकत्र करने वाली अधिकांश सेवाओं में निर्यात करने की क्षमता होती है। उनके लिए एक संरचित रूप में कंपनी में प्रवेश करने के लिए, विभिन्न का उपयोग किया जाता है, उदाहरण के लिए, एलटेरिक्स। यह सॉफ़्टवेयर आपको स्वचालित रूप से जानकारी प्राप्त करने, इसे संसाधित करने की अनुमति देता है, लेकिन सबसे महत्वपूर्ण बात - इसे विकृत किए बिना वांछित रूप और प्रारूप में परिवर्तित करें।

2. बड़े डेटा का भंडारण और प्रसंस्करण

लगभग हमेशा बड़ी मात्रा में जानकारी एकत्र करते समय, इसके भंडारण की समस्या उत्पन्न होती है। हमने जितने भी प्लेटफॉर्म्स का अध्ययन किया, उनमें से हमारी कंपनी वर्टिका को प्राथमिकता देती है। अन्य उत्पादों के विपरीत, वर्टिका इसमें संग्रहीत जानकारी को जल्दी से "दूर" करने में सक्षम है। नुकसान में एक लंबी रिकॉर्डिंग शामिल है, लेकिन बड़े डेटा का विश्लेषण करते समय, अपलोड की गति सामने आती है। उदाहरण के लिए, यदि हम सूचना के पेटाबाइट्स का उपयोग करके संकलन के बारे में बात कर रहे हैं, तो अपलोड गति सबसे महत्वपूर्ण विशेषताओं में से एक है।

3. बिग डेटा विज़ुअलाइज़ेशन

और अंत में, बड़ी मात्रा में डेटा के विश्लेषण का तीसरा चरण -। इसके लिए एक ऐसे मंच की आवश्यकता है जो एक सुविधाजनक रूप में प्राप्त सभी सूचनाओं को नेत्रहीन रूप से प्रतिबिंबित करने में सक्षम हो। हमारी राय में, केवल एक सॉफ्टवेयर उत्पाद कार्य का सामना कर सकता है - झांकी। निस्संदेह, आज के सबसे अच्छे समाधानों में से एक है जो किसी भी जानकारी को नेत्रहीन रूप से दिखाने में सक्षम है, कंपनी के काम को त्रि-आयामी मॉडल में बदलना, सभी विभागों के कार्यों को एक एकल अन्योन्याश्रित श्रृंखला में एकत्रित करना (आप झांकी की क्षमताओं के बारे में अधिक पढ़ सकते हैं) .

सारांश के बजाय, हम ध्यान दें कि लगभग कोई भी कंपनी अब अपना खुद का बिग डेटा बना सकती है। बिग डेटा विश्लेषण अब एक जटिल और महंगी प्रक्रिया नहीं है। कंपनी के प्रबंधन को अब एकत्रित जानकारी के प्रश्नों को सही ढंग से तैयार करने की आवश्यकता है, जबकि व्यावहारिक रूप से कोई अदृश्य ग्रे क्षेत्र नहीं बचा है।

झांकी डाउनलोड करें