विविधता श्रृंखला और इसकी विशेषताएं। परिवर्तनशील श्रृंखला

समूहन- यह जनसंख्या का उन समूहों में विभाजन है जो किसी न किसी तरह से सजातीय हैं।

सेवा उद्देश्य... ऑनलाइन कैलकुलेटर का उपयोग करके, आप यह कर सकते हैं:

  • एक विविधता श्रृंखला बनाएँ, एक आयत चित्र और एक बहुभुज बनाएँ;
  • भिन्नता के संकेतक खोजें (माध्य, मोड (सहित और ग्राफिक रूप से), माध्यिका, भिन्नता की सीमा, चतुर्थक, डेसील, विभेदन का चतुर्थक गुणांक, भिन्नता का गुणांक और अन्य संकेतक);

निर्देश। श्रृंखला को समूहबद्ध करने के लिए, आपको परिणामी विविधता श्रृंखला (असतत या अंतराल) के प्रकार का चयन करना होगा और डेटा की मात्रा (लाइनों की संख्या) को इंगित करना होगा। परिणामी समाधान किसी Word फ़ाइल में सहेजा जाता है (आँकड़ों को समूहीकृत करने का एक उदाहरण देखें)।

यदि समूहीकरण पहले ही किया जा चुका है और दिया जा चुका है असतत भिन्नता श्रृंखलाया अंतराल श्रृंखला, तो आपको ऑनलाइन कैलकुलेटर विविधता संकेतकों का उपयोग करने की आवश्यकता है। वितरण के प्रकार के बारे में परिकल्पना का परीक्षणवितरण के रूप के सेवा अध्ययन का उपयोग करके किया जाता है।

सांख्यिकीय समूहों के प्रकार

परिवर्तनशील श्रृंखला... असतत यादृच्छिक चर के अवलोकन के मामले में, एक ही मान का कई बार सामना किया जा सकता है। एक यादृच्छिक चर के ऐसे मान x i नीचे लिखे गए हैं जो n i को इंगित करते हैं कि यह n टिप्पणियों में कितनी बार प्रकट होता है, यह इस मान की आवृत्ति है।
एक सतत यादृच्छिक चर के मामले में, व्यवहार में समूहीकरण का उपयोग किया जाता है।
  1. विशिष्ट समूहन- यह अध्ययन की गई गुणात्मक रूप से विषम जनसंख्या का वर्गों, सामाजिक-आर्थिक प्रकारों, इकाइयों के सजातीय समूहों में विभाजन है। इस समूहीकरण के निर्माण के लिए, असतत भिन्नता श्रृंखला पैरामीटर का उपयोग करें।
  2. एक संरचनात्मक समूहन कहलाता है, जिसमें एक सजातीय आबादी को उन समूहों में विभाजित किया जाता है जो कुछ अलग-अलग विशेषताओं के अनुसार इसकी संरचना की विशेषता रखते हैं। इस समूह को बनाने के लिए, अंतराल श्रृंखला पैरामीटर का उपयोग करें।
  3. एक समूह जो अध्ययन की जा रही घटनाओं और उनकी विशेषताओं के बीच संबंध की पहचान करता है, कहलाता है विश्लेषणात्मक समूह(श्रृंखला का विश्लेषणात्मक समूहन देखें)।

उदाहरण 1। तालिका 2 के अनुसार, रूसी संघ के 40 वाणिज्यिक बैंकों के लिए वितरण श्रृंखला का निर्माण करें। प्राप्त वितरण श्रृंखला का उपयोग करते हुए, निर्धारित करें: प्रति एक वाणिज्यिक बैंक का औसत लाभ, प्रति एक वाणिज्यिक बैंक पर औसतन ऋण निवेश, लाभ का मोडल और औसत मूल्य; चतुर्थक, दशमांश, भिन्नता की सीमा, माध्य रैखिक विचलन, मानक विचलन, भिन्नता का गुणांक।

समाधान:
अध्याय में "सांख्यिकीय श्रृंखला का दृश्य"एक असतत श्रृंखला चुनें। एक्सेल से सम्मिलित करें पर क्लिक करें। समूहों की संख्या: स्टर्गेस सूत्र

सांख्यिकीय समूहों के निर्माण के सिद्धांत

आरोही क्रम में क्रमबद्ध प्रेक्षणों की एक श्रृंखला, एक भिन्नता श्रृंखला कहलाती है. समूहीकरण चिन्हवह विशेषता कहलाती है जिसके द्वारा जनसंख्या को अलग-अलग समूहों में विभाजित किया जाता है। इसे समूह का आधार कहते हैं। समूहीकरण मात्रात्मक और गुणात्मक दोनों विशेषताओं पर आधारित हो सकता है।
समूहीकरण के आधार का निर्धारण करने के बाद यह प्रश्न निश्चित करना आवश्यक है कि अध्ययन की गई जनसंख्या को कितने समूहों में विभाजित किया जाए।

सांख्यिकीय डेटा को संसाधित करने के लिए व्यक्तिगत कंप्यूटर का उपयोग करते समय, मानक प्रक्रियाओं का उपयोग करके ऑब्जेक्ट इकाइयों का समूहन किया जाता है।
इन प्रक्रियाओं में से एक समूह की इष्टतम संख्या निर्धारित करने के लिए स्टर्गेस सूत्र के उपयोग पर आधारित है:

के = 1 + 3.322 * लॉग (एन)

जहाँ k समूहों की संख्या है, N जनसंख्या में इकाइयों की संख्या है।

आंशिक अंतराल की लंबाई की गणना h = (x अधिकतम -x मिनट) / k . के रूप में की जाती है

फिर इन अंतरालों में प्रेक्षणों के हिट की संख्या की गणना करें, जिन्हें आवृत्तियों n i के रूप में लिया जाता है। छोटी आवृत्तियाँ, जिनका मान 5 से कम है (n i .)< 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
अंतराल के मध्य बिंदु x i = (c i-1 + c i) / 2 को संस्करण के लिए नए मान के रूप में लिया जाता है।

उदाहरण संख्या 3. 5% उचित यादृच्छिक नमूनाकरण के परिणामस्वरूप, नमी सामग्री द्वारा उत्पादों का निम्नलिखित वितरण प्राप्त किया गया था। गणना करें: 1) नमी का औसत प्रतिशत; 2) आर्द्रता में भिन्नता को दर्शाने वाले संकेतक।
कैलकुलेटर का उपयोग करके समाधान प्राप्त किया गया था: उदाहरण # 1

एक भिन्नता श्रृंखला का निर्माण करें। पाई गई श्रृंखला के आधार पर एक वितरण बहुभुज, एक हिस्टोग्राम और एक संचयी का निर्माण करें। फैशन और माध्यिका निर्धारित करें।
समाधान डाउनलोड करें

उदाहरण... चयनात्मक अवलोकन के परिणामों के आधार पर (नमूना ए, परिशिष्ट):
ए) एक भिन्नता श्रृंखला बनाएं;
बी) सापेक्ष आवृत्तियों और संचित सापेक्ष आवृत्तियों की गणना करें;
ग) एक बहुभुज का निर्माण;
डी) एक अनुभवजन्य वितरण समारोह लिखें;
ई) अनुभवजन्य वितरण समारोह की साजिश;
च) संख्यात्मक विशेषताओं की गणना करें: अंकगणितीय माध्य, विचरण, मानक विचलन। समाधान

तालिका 4 (परिशिष्ट 1) में दिए गए आंकड़ों के आधार पर और आपके विकल्प के अनुरूप, प्रदर्शन करें:

  1. संरचनात्मक समूहन के आधार पर, समान बंद अंतरालों का उपयोग करते हुए, 6 के बराबर समूहों की संख्या लेते हुए परिवर्तनशील आवृत्ति और संचयी वितरण श्रृंखला का निर्माण करें। परिणाम एक तालिका के रूप में प्रस्तुत किए जाते हैं और ग्राफिक रूप से प्रदर्शित होते हैं।
  2. वितरण की विविधता श्रृंखला की गणना करके विश्लेषण करें:
    • सुविधा का अंकगणितीय माध्य;
    • फ़ैशन, माध्यिका, प्रथम चतुर्थक, प्रथम और 9वां दशमक;
    • मानक विचलन;
    • भिन्नता का गुणांक।
  3. परिणाम निकालना।

आवश्यक: एक श्रृंखला को रैंक करने के लिए, वितरण की एक अंतराल श्रृंखला का निर्माण, औसत मूल्य की गणना, माध्य की परिवर्तनशीलता, रैंक और अंतराल श्रृंखला के लिए मोड और माध्यिका।

प्रारंभिक डेटा के आधार पर, एक असतत भिन्नता श्रृंखला का निर्माण करें; इसे एक सांख्यिकीय तालिका और सांख्यिकीय रेखांकन के रूप में प्रस्तुत करें। 2))। प्रारंभिक डेटा के आधार पर, समान अंतरालों के साथ अंतराल भिन्नता श्रृंखला बनाएं। अंतरालों की संख्या स्वयं चुनिए और इस विकल्प की व्याख्या कीजिए। प्राप्त भिन्नता श्रृंखला को सांख्यिकीय तालिका और सांख्यिकीय ग्राफ के रूप में प्रस्तुत करें। उपयोग किए गए तालिकाओं और ग्राफ़ के प्रकारों को इंगित करें।

पेंशन फंड में ग्राहक सेवा की औसत अवधि निर्धारित करने के लिए, जिनमें से ग्राहकों की संख्या बहुत बड़ी है, एक यादृच्छिक, गैर-दोहराने योग्य नमूने की योजना के अनुसार 100 ग्राहकों का सर्वेक्षण किया गया था। सर्वेक्षण के परिणाम तालिका में प्रस्तुत किए गए हैं। पाना:
ए) सीमाएं जिनके भीतर, 0.9946 की संभावना के साथ, पेंशन फंड के सभी ग्राहकों का औसत सेवा समय निहित है;
बी) संभावना है कि 6 मिनट से कम की सेवा अवधि वाले फंड के सभी ग्राहकों का हिस्सा नमूने में ऐसे ग्राहकों के हिस्से से 10% (पूर्ण मूल्य में) से अधिक नहीं है;
सी) दोहराए गए नमूने की मात्रा, जिसमें 0.9907 की संभावना के साथ तर्क दिया जा सकता है कि 6 मिनट से कम की सेवा अवधि वाले फंड के सभी ग्राहकों का हिस्सा नमूने में ऐसे ग्राहकों के हिस्से से अलग है। 10% से अधिक (पूर्ण मूल्य में)।
2. समस्या 1 के आंकड़ों के अनुसार, X 2 पियर्सन मानदंड का उपयोग करते हुए, महत्व स्तर α = 0.05 पर, इस परिकल्पना का परीक्षण करें कि यादृच्छिक चर X - ग्राहक सेवा समय - सामान्य कानून के अनुसार वितरित किया जाता है। एक ड्राइंग में अनुभवजन्य वितरण और संबंधित सामान्य वक्र का एक हिस्टोग्राम बनाएं।
समाधान डाउनलोड करें

100 तत्वों का एक नमूना दिया गया है। ज़रूरी:

  1. एक क्रमबद्ध विविधता श्रृंखला बनाएं;
  2. श्रृंखला के अधिकतम और न्यूनतम पद ज्ञात कीजिए;
  3. अंतराल श्रृंखला के निर्माण के लिए भिन्नता की सीमा और इष्टतम अंतराल की संख्या पाएं। अंतराल श्रृंखला के अंतराल की लंबाई पाएं;
  4. एक अंतराल श्रृंखला का निर्माण करें। रचना अंतराल में नमूने की आवृत्तियों का पता लगाएं। प्रत्येक अंतराल के मध्य बिंदु खोजें;
  5. आयत चित्र और बारंबारता बहुभुज की रचना कीजिए। सामान्य वितरण (विश्लेषणात्मक और रेखांकन) के साथ तुलना करें;
  6. अनुभवजन्य वितरण समारोह को प्लॉट करें;
  7. नमूना संख्यात्मक विशेषताओं की गणना करें: नमूना माध्य और केंद्रीय नमूना क्षण;
  8. मानक विचलन, तिरछापन और कुर्टोसिस (एमएस एक्सेल विश्लेषण पैकेज का उपयोग करके) के अनुमानित मूल्यों की गणना करें। अनुमानित गणना मूल्यों की सटीक लोगों के साथ तुलना करें (एमएस एक्सेल फ़ार्मुलों का उपयोग करके परिकलित);
  9. संबंधित सैद्धांतिक विशेषताओं के साथ चयनित ग्राफिकल विशेषताओं की तुलना करें।
समाधान डाउनलोड करें

आउटपुट और लाभ की राशि, मिलियन रूबल पर निम्नलिखित नमूना डेटा (10% नमूना, यांत्रिक) है। प्रारंभिक आंकड़ों के अनुसार:
कार्य 13.1।
13.1.1. लाभ की मात्रा से उद्यमों के वितरण की एक सांख्यिकीय श्रृंखला का निर्माण करें, समान अंतराल पर पांच समूह बनाएं। वितरण श्रृंखला प्लॉट करें।
13.1.2. लाभ की मात्रा से उद्यमों के वितरण की एक श्रृंखला की संख्यात्मक विशेषताओं की गणना करें: अंकगणितीय माध्य, मानक विचलन, विचरण, भिन्नता का गुणांक V। निष्कर्ष निकालें।
कार्य 13.2।
13.2.1. उन सीमाओं का निर्धारण करें जिनमें 0.997 की संभावना के साथ सामान्य आबादी में एक उद्यम के लाभ का योग निहित है।
13.2.2. पियर्सन के x2 परीक्षण का उपयोग करते हुए, महत्व स्तर α पर, इस परिकल्पना का परीक्षण करें कि यादृच्छिक चर X - लाभ की राशि - सामान्य कानून के अनुसार वितरित की जाती है।
कार्य 13.3।
13.3.1. नमूना प्रतिगमन समीकरण के गुणांक निर्धारित करें।
13.3.2. उत्पादित वस्तुओं की लागत (X) और प्रति उद्यम लाभ की राशि (Y) के बीच सहसंबंध की उपस्थिति और प्रकृति को स्थापित करें। एक स्कैटरप्लॉट और एक रिग्रेशन लाइन प्लॉट करें।
13.3.3. रैखिक सहसंबंध गुणांक की गणना करें। विद्यार्थी के t-परीक्षण का उपयोग करते हुए, सहसंबंध गुणांक के महत्व की जाँच करें। चाडॉक पैमाने का उपयोग करते हुए, कारक X और Y के बीच संबंधों की जकड़न के बारे में निष्कर्ष निकालें।
दिशा-निर्देश... टास्क 13.3 इस सेवा का उपयोग करके किया जाता है।
समाधान डाउनलोड करें

टास्क... निम्नलिखित आंकड़े ग्राहकों द्वारा अनुबंधों में प्रवेश करने में लगने वाले समय को दर्शाते हैं। प्रस्तुत डेटा की एक अंतराल भिन्नता श्रृंखला का निर्माण करें, एक हिस्टोग्राम, गणितीय अपेक्षा का एक निष्पक्ष अनुमान, विचरण का एक पक्षपाती और निष्पक्ष अनुमान खोजें।

एक उदाहरण। तालिका 2 के अनुसार:
1) रूसी संघ में 40 वाणिज्यिक बैंकों के लिए वितरण श्रृंखला तैयार करें:
ए) लाभ की मात्रा से;
बी) क्रेडिट निवेश की राशि से।
2) प्राप्त वितरण श्रृंखला के अनुसार, निर्धारित करें:
ए) एक वाणिज्यिक बैंक के लिए औसतन लाभ;
बी) एक वाणिज्यिक बैंक के लिए औसतन ऋण निवेश;
सी) मोडल और औसत लाभ मूल्य; चतुर्थक, दशमांश;
डी) क्रेडिट निवेश का मोडल और औसत मूल्य।
3) आइटम 1 में प्राप्त वितरण पंक्तियों के अनुसार गणना करें:
ए) भिन्नता की सीमा;
बी) औसत रैखिक विचलन;
ग) मानक विचलन;
डी) भिन्नता का गुणांक।
आवश्यक गणनाओं को सारणीबद्ध रूप में भरें। परिणामों का विश्लेषण करें। परिणाम निकालना।
प्राप्त वितरण श्रृंखला को प्लॉट करें। फैशन और माध्यिका को ग्राफिक रूप से परिभाषित करें।

समाधान:
समान अंतराल पर समूह बनाने के लिए, हम समूहीकरण सांख्यिकीय डेटा सेवा का उपयोग करेंगे।

चित्र 1 - पैरामीटर दर्ज करना

मापदंडों का विवरण
पंक्तियों की संख्या: कच्चे डेटा की मात्रा। यदि श्रृंखला का आयाम छोटा है, तो इसकी संख्या इंगित करें। यदि चयन काफी बड़ा है, तो एक्सेल से सम्मिलित करें बटन पर क्लिक करें।
समूहों की संख्या: 0 - समूहों की संख्या स्टर्गेस सूत्र द्वारा निर्धारित की जाएगी।
यदि समूहों की एक विशिष्ट संख्या है, तो उसे निर्दिष्ट करें (उदाहरण के लिए, 5)।
पंक्ति दृश्य: असतत श्रृंखला।
महत्वपूर्ण स्तर: उदाहरण के लिए 0.954। यह पैरामीटर माध्य के लिए विश्वास अंतराल को परिभाषित करने के लिए निर्धारित है।
नमूना: उदाहरण के लिए, 10% यांत्रिक नमूनाकरण किया गया था। हम संख्या 10 का संकेत देते हैं। हमारे डेटा के लिए, हम 100 का संकेत देते हैं।

समूहीकरण विधि आपको मापने की अनुमति भी देती है उतार - चढ़ाव(परिवर्तनशीलता, परिवर्तनशीलता) संकेतों की। जनसंख्या इकाइयों की अपेक्षाकृत कम संख्या के साथ, जनसंख्या को बनाने वाली इकाइयों की श्रेणीबद्ध श्रृंखला के आधार पर भिन्नता को मापा जाता है। पंक्ति कहा जाता है रैंक,यदि इकाइयों को विशेषता के आरोही (अवरोही) क्रम में व्यवस्थित किया जाता है।

हालांकि, जब भिन्नता की तुलनात्मक विशेषता की आवश्यकता होती है, तो रैंक की गई श्रृंखला खराब संकेतक होती है। इसके अलावा, कई मामलों में बड़ी संख्या में इकाइयों से युक्त सांख्यिकीय आबादी से निपटना पड़ता है, जिन्हें एक विशिष्ट श्रृंखला के रूप में प्रस्तुत करना व्यावहारिक रूप से कठिन होता है। इस संबंध में, सांख्यिकीय डेटा के साथ प्रारंभिक सामान्य परिचित के लिए और विशेष रूप से संकेतों की भिन्नता के अध्ययन की सुविधा के लिए, अध्ययन के तहत घटनाओं और प्रक्रियाओं को आमतौर पर समूहों में जोड़ा जाता है, और समूह के परिणाम समूह तालिकाओं के रूप में तैयार किए जाते हैं। .

यदि समूह तालिका में केवल दो स्तंभ हैं - चयनित विशेषता (विकल्प) और समूहों की संख्या (आवृत्ति या आवृत्ति) के अनुसार समूह, इसे कहा जाता है वितरण के निकट।

वितरण श्रृंखला -एक विशेषता द्वारा सबसे सरल प्रकार का संरचनात्मक समूहन, दो स्तंभों वाली समूह तालिका में प्रदर्शित होता है, जिसमें विशेषता के विकल्प और आवृत्तियाँ होती हैं। कई मामलों में, ऐसे संरचनात्मक समूहन के साथ, अर्थात्। वितरण श्रृंखला के संकलन के साथ, प्रारंभिक सांख्यिकीय सामग्री का अध्ययन शुरू होता है।

एक वितरण श्रृंखला के रूप में एक संरचनात्मक समूह को एक वास्तविक संरचनात्मक समूह में बदल दिया जा सकता है यदि चयनित समूहों को न केवल आवृत्तियों द्वारा, बल्कि अन्य सांख्यिकीय संकेतकों द्वारा भी चित्रित किया जाता है। वितरण श्रृंखला का मुख्य उद्देश्य सुविधाओं की विविधता का अध्ययन करना है। वितरण श्रृंखला का सिद्धांत गणितीय आँकड़ों द्वारा विस्तार से विकसित किया गया है।

वितरण श्रृंखला को द्वारा विभाजित किया गया है ठहराव(विशेषण विशेषताओं के अनुसार समूह बनाना, उदाहरण के लिए, जनसंख्या को लिंग, राष्ट्रीयता, वैवाहिक स्थिति, आदि से विभाजित करना) और परिवर्तन संबंधी(मात्रात्मक विशेषताओं द्वारा समूहीकरण)।

परिवर्तनशील श्रृंखलाएक समूह तालिका है जिसमें दो कॉलम होते हैं: एक मात्रात्मक विशेषता के अनुसार इकाइयों का समूह और प्रत्येक समूह में इकाइयों की संख्या। भिन्नता श्रृंखला में अंतराल आमतौर पर बराबर और बंद होते हैं। औसत प्रति व्यक्ति धन आय (तालिका 3.10) के संदर्भ में भिन्नता श्रृंखला रूसी आबादी का निम्नलिखित समूह है।

तालिका 3.10

2004-2009 में औसत प्रति व्यक्ति आय द्वारा रूस की जनसंख्या का वितरण

जनसंख्या समूह औसत प्रति व्यक्ति धन आय, रूबल / माह

समूह में जनसंख्या, कुल के% में

8 000,1-10 000,0

10 000,1-15 000,0

15 000,1-25 000,0

25,000.0 से अधिक

सभी जनसंख्या

परिवर्तनशील श्रृंखला, बदले में, असतत और अंतराल में उप-विभाजित होती है। अलगवैरिएशनल सीरीज़ असतत विशेषताओं के वेरिएंट को जोड़ती है जो संकीर्ण सीमाओं के भीतर भिन्न होती हैं। असतत भिन्नता श्रृंखला का एक उदाहरण रूसी परिवारों का उनके बच्चों की संख्या से वितरण है।

मध्यान्तरविभिन्न श्रृंखलाएं या तो निरंतर सुविधाओं या असतत सुविधाओं के विभिन्न प्रकारों को जोड़ती हैं जो एक विस्तृत श्रृंखला में भिन्न होती हैं। भिन्नता की सीमा औसत प्रति व्यक्ति धन आय के संदर्भ में रूस की जनसंख्या का वितरण है।

असतत परिवर्तनशील श्रृंखला का प्रयोग अक्सर अभ्यास में नहीं किया जाता है। इस बीच, उनका संकलन मुश्किल नहीं है, क्योंकि समूहों की संरचना उन विशिष्ट विकल्पों द्वारा निर्धारित की जाती है जो वास्तव में अध्ययन की गई समूह विशेषताओं के पास होती हैं।

अंतराल भिन्नता श्रृंखला अधिक व्यापक हैं। उन्हें संकलित करते समय, समूहों की संख्या के साथ-साथ स्थापित किए जाने वाले अंतरालों के आकार के बारे में एक कठिन प्रश्न उठता है।

इस मुद्दे को हल करने के सिद्धांतों को सांख्यिकीय समूहों के निर्माण के लिए कार्यप्रणाली पर अध्याय में उल्लिखित किया गया है (पैराग्राफ 3.3 देखें)।

विविधता श्रृंखला विविध सूचनाओं को एक कॉम्पैक्ट रूप में मोड़ने या संपीड़ित करने का एक साधन है, उनका उपयोग भिन्नता की प्रकृति के बारे में स्पष्ट रूप से स्पष्ट निर्णय लेने के लिए, अध्ययन किए गए सेट में शामिल घटनाओं की विशेषताओं में अंतर का अध्ययन करने के लिए किया जा सकता है। लेकिन भिन्नता श्रृंखला का सबसे महत्वपूर्ण मूल्य यह है कि उनके आधार पर भिन्नता की विशेष सामान्यीकरण विशेषताओं की गणना की जाती है (अध्याय 7 देखें)।

बड़ी मात्रा में सूचनाओं को संसाधित करते समय, जो आधुनिक वैज्ञानिक विकास करते समय विशेष रूप से महत्वपूर्ण है, शोधकर्ता को प्रारंभिक डेटा को सही ढंग से समूहित करने के गंभीर कार्य का सामना करना पड़ता है। यदि डेटा असतत है, तो समस्याएँ, जैसा कि हमने देखा है, उत्पन्न नहीं होती हैं - आपको बस प्रत्येक सुविधा की आवृत्ति की गणना करने की आवश्यकता है। यदि जांच की गई विशेषता है निरंतरचरित्र (जो व्यवहार में अधिक व्यापक है), तो किसी विशेषता को समूहीकृत करने के लिए अंतराल की इष्टतम संख्या का चुनाव किसी भी तरह से एक तुच्छ कार्य नहीं है।

निरंतर यादृच्छिक चरों को समूहित करने के लिए, सुविधा की संपूर्ण विविधता श्रेणी को एक निश्चित संख्या में अंतरालों में विभाजित किया जाता है प्रति।

अंतराल द्वारा समूहीकृत (निरंतर) विविधता श्रृंखलाअंतराल (), सुविधा के मूल्य के आधार पर, कहा जाता है, जहां r "-th अंतराल में आने वाले अवलोकनों की संख्या, संबंधित आवृत्तियों (), या सापेक्ष आवृत्तियों () के साथ एक साथ इंगित की जाती है:

विशेषता मान अंतराल

आवृत्ति मील

बार ग्राफतथा संचयी (ओजिवा),पहले से ही हमारे द्वारा विस्तार से चर्चा की गई है, एक उत्कृष्ट डेटा विज़ुअलाइज़ेशन टूल है जो आपको डेटा संरचना का प्राथमिक विचार प्राप्त करने की अनुमति देता है। इस तरह के रेखांकन (चित्र। 1.15) निरंतर डेटा के लिए उसी तरह से बनाए जाते हैं जैसे असतत डेटा के लिए, केवल इस तथ्य को ध्यान में रखते हुए कि निरंतर डेटा किसी भी मान को लेते हुए, उनके संभावित मूल्यों के क्षेत्र को पूरी तरह से भर देता है।

चावल। 1.15.

इसीलिए हिस्टोग्राम और संचयी पर कॉलम एक दूसरे को छूना चाहिए, ऐसे क्षेत्र नहीं हैं जहां विशेषता के मूल्य सभी संभव सीमाओं के भीतर नहीं आते हैं(अर्थात, हिस्टोग्राम और संचयी में एब्सिस्सा के साथ "छेद" नहीं होना चाहिए, जिसमें अध्ययन किए गए चर के मान शामिल नहीं हैं, जैसा कि चित्र 1.16 में है)। बार की ऊंचाई आवृत्ति से मेल खाती है - दिए गए अंतराल के भीतर अवलोकनों की संख्या, या सापेक्ष आवृत्ति - अवलोकनों का अनुपात। अंतराल प्रतिच्छेद नहीं करना चाहिएऔर आम तौर पर एक ही चौड़ाई के होते हैं।

चावल। 1.16.

हिस्टोग्राम और बहुभुज प्रायिकता घनत्व वक्र (डिफरेंशियल फंक्शन) के सन्निकटन हैं च (एक्स)सैद्धांतिक वितरण, संभाव्यता सिद्धांत के पाठ्यक्रम में माना जाता है। इसलिए, मात्रात्मक निरंतर डेटा के प्राथमिक सांख्यिकीय प्रसंस्करण में उनका निर्माण इतना महत्वपूर्ण है - उनकी उपस्थिति से, कोई भी काल्पनिक वितरण कानून का न्याय कर सकता है।

संचयी - अंतराल भिन्नता श्रृंखला की संचित आवृत्तियों (आवृत्तियों) का वक्र। संचयी की तुलना संचयी वितरण फलन के ग्राफ से की जाती है एफ (एक्स), संभाव्यता सिद्धांत के दौरान भी माना जाता है।

मूल रूप से, हिस्टोग्राम और क्यूम्युलेट की अवधारणाएं निरंतर डेटा और उनकी अंतराल भिन्नता श्रृंखला से जुड़ी होती हैं, क्योंकि उनके ग्राफ़ क्रमशः संभाव्यता घनत्व फ़ंक्शन और वितरण फ़ंक्शन के अनुभवजन्य अनुमान हैं।

अंतराल भिन्नता श्रृंखला का निर्माण अंतराल की संख्या निर्धारित करने के साथ शुरू होता है क।और यह कार्य, शायद, अध्ययन के तहत मुद्दे में सबसे कठिन, महत्वपूर्ण और विवादास्पद है।

अंतराल की संख्या बहुत कम नहीं होनी चाहिए, क्योंकि इस मामले में हिस्टोग्राम बहुत चिकना हो जाता है ( अधिक चिकना),प्रारंभिक डेटा की परिवर्तनशीलता की सभी विशेषताओं को खो देता है - अंजीर में। 1.17 आप देख सकते हैं कि कैसे एक ही डेटा जिस पर अंजीर में रेखांकन किया गया है। 1.15, का उपयोग कम अंतराल (बाएं ग्राफ) के साथ हिस्टोग्राम बनाने के लिए किया जाता है।

उसी समय, अंतराल की संख्या बहुत बड़ी नहीं होनी चाहिए - अन्यथा हम संख्या अक्ष के साथ अध्ययन किए गए डेटा के वितरण घनत्व का अनुमान नहीं लगा पाएंगे: हिस्टोग्राम अंडरस्मूथ हो जाएगा (समझदार),अपूर्ण अंतरालों के साथ, असमान (चित्र 1.17, दायां ग्राफ देखें)।

चावल। 1.17.

आप अंतराल की सबसे पसंदीदा संख्या कैसे निर्धारित करते हैं?

1926 में वापस, हर्बर्ट स्टर्गेस ने अंतराल की संख्या की गणना के लिए एक सूत्र का प्रस्ताव रखा जिसमें अध्ययन के तहत विशेषता के मूल्यों के मूल सेट को विभाजित किया जा सके। यह सूत्र वास्तव में बहुत लोकप्रिय हो गया है - अधिकांश सांख्यिकीय पाठ्यपुस्तकें इसे पेश करती हैं, और कई सांख्यिकीय पैकेज डिफ़ॉल्ट रूप से इसका उपयोग करते हैं। यह कहां तक ​​जायज है और सभी मामलों में यह एक बहुत ही गंभीर सवाल है।

तो स्टर्गेस सूत्र किस पर आधारित है?

द्विपद वितरण पर विचार करें)

इसे साझा करें