सूचना प्रणाली में खोज का संगठन। इंटरनेट सूचना संसाधनों का वर्गीकरण

कोचेगनोवा पोलिना

इंटरनेट पर शैक्षिक जानकारी खोजने के तरीके

कंप्यूटर प्रौद्योगिकी का उपयोग करके शैक्षिक गतिविधियों की सफलता को निर्धारित करने वाली सबसे महत्वपूर्ण स्थिति और प्रमुख कारक एक उपदेशात्मक कंप्यूटर वातावरण में उत्पादक गतिविधियों के लिए छात्रों की तत्परता है।

शैक्षिक जानकारी की खोज, प्रसंस्करण और उपयोग के प्रभावी तरीकों और साधनों में महारत हासिल करना न केवल शैक्षिक प्रक्रियाओं को तेज करना संभव बनाता है, बल्कि छात्रों के संज्ञानात्मक हितों, उत्पादक, रचनात्मक गतिविधि की इच्छा को भी विकसित करना संभव बनाता है।

कंप्यूटर प्रौद्योगिकियों के सर्वव्यापी विकास और अनुप्रयोग के कारण, मानव गतिविधि के सभी क्षेत्रों में सूचना अब एक या किसी अन्य इलेक्ट्रॉनिक रूप में है: विज्ञान, उत्पादन, वाणिज्य, साहित्य, मनोरंजन, आदि। इंटरनेट में विभिन्न इलेक्ट्रॉनिक नेटवर्क और डेटाबेस के साथ संगतता है और आपको लगभग किसी भी प्रकार की जानकारी तक सुविधाजनक पहुंच प्राप्त करने की अनुमति देता है।

इंटरनेट के माध्यम से उपलब्ध सूचना संसाधन बहुत अधिक हैं। ये विभिन्न तरीकों से प्रस्तुत किए गए लाखों दस्तावेज हैं, जिनकी संख्या लगातार बढ़ रही है। प्रस्तुति की विधि, प्रकार और सूचना की प्रकृति के आधार पर, इसके उपयोग के तरीके भी भिन्न होते हैं, इसलिए, खोज विधियों पर विचार करने से पहले, हम सूचना संसाधनों के वर्गीकरण पर विचार करेंगे।

संगठन और उपयोग के सिद्धांत के अनुसार, खोज उपकरणों को कैटलॉग (संदर्भ पुस्तकें, निर्देशिका) और खोज इंजन में विभाजित किया जा सकता है।

    कैटलाग

निर्देशिकाएँ निर्देशिकाएँ होती हैं जिनमें इंटरनेट पतों की सूची होती है, जिन्हें कुछ मानदंडों के अनुसार समूहीकृत किया जाता है। एक नियम के रूप में, उन्हें विषय (विज्ञान, कला, समाचार, आदि) द्वारा समूहीकृत किया जाता है, जहां प्रत्येक विषय कई उप-स्तरों में विभाजित होता है।

सूचना पुनर्प्राप्ति के इन साधनों की ख़ासियत यह है कि एक संरचना, एक डेटाबेस और उनके निरंतर अद्यतन का निर्माण संपादकों और प्रोग्रामर की एक टीम द्वारा "मैन्युअल रूप से" किया जाता है, और खोज प्रक्रिया के लिए स्वतंत्र रूप से उपयोगकर्ता की प्रत्यक्ष भागीदारी की आवश्यकता होती है। लिंक से लिंक की ओर बढ़ रहा है।

    खोज इंजन

खोज इंजन की कार्रवाई में किसी दिए गए खोज इंजन के लिए उपलब्ध सभी इंटरनेट साइटों का उनके सभी लिंक और शाखाओं के साथ निरंतर अनुक्रमिक अध्ययन होता है। सूचनाओं के निरंतर अद्यतन होने के कारण, खोज इंजन नियमित रूप से एक निश्चित अवधि (लगभग एक महीने) के बाद परिवर्तनों का पता लगाने और उन्हें पंजीकृत करने के लिए पहले से अध्ययन किए गए नोड्स पर लौटता है। सभी पढ़ी गई सूचनाओं को अनुक्रमित किया जाता है, अर्थात एक विशेष डेटाबेस बनाया जाता है जिसमें सिस्टम द्वारा जांचे गए सभी इंटरनेट पेज एन्कोडेड होते हैं।

उपयोगकर्ता से अनुरोध प्राप्त होने पर, खोज इंजन सभी अनुक्रमित सूचनाओं की जांच करता है और खोज कार्य के अनुरूप दस्तावेजों की एक सूची तैयार करता है। खोजे गए दस्तावेज़ों को कीवर्ड के स्थान (शीर्षक में, पाठ की शुरुआत में, पहले पैराग्राफ में) और पाठ में उनकी घटना की आवृत्ति के आधार पर रैंक किया गया है।

संचालन के समान सिद्धांत के बावजूद, खोज इंजन क्वेरी भाषाओं, खोज क्षेत्रों, दस्तावेज़ के भीतर खोज गहराई, रैंकिंग विधियों और प्राथमिकताओं के संदर्भ में भिन्न होते हैं, इसलिए विभिन्न खोज इंजनों का उपयोग अलग-अलग परिणाम देता है।

किसी भी समस्या के लिए कमोबेश गंभीर दृष्टिकोण इसे हल करने के संभावित तरीकों के विश्लेषण से शुरू होता है। इंटरनेट पर जानकारी की खोज कई विधियों का उपयोग करके की जा सकती है, जो खोज की दक्षता और गुणवत्ता और प्राप्त जानकारी के प्रकार दोनों में महत्वपूर्ण रूप से भिन्न हैं। कुछ मामलों में, आपको बहुत श्रमसाध्य तरीकों का उपयोग करना होगा - परिणाम इसके लायक है।

इंटरनेट पर जानकारी खोजने के निम्नलिखित मुख्य तरीकों को प्रतिष्ठित किया जा सकता है, जो साधक के लक्ष्यों और उद्देश्यों के आधार पर व्यक्तिगत रूप से या एक दूसरे के संयोजन में उपयोग किए जाते हैं:

    हाइपरटेक्स्ट लिंक का उपयोग करके सीधी खोज

चूंकि WWW में सभी साइटें वास्तव में एक-दूसरे से जुड़ी हुई हैं, इसलिए ब्राउज़र का उपयोग करके लिंक किए गए पृष्ठों को क्रमिक रूप से देखकर जानकारी प्राप्त की जा सकती है।

यद्यपि यह पूरी तरह से मैनुअल खोज पद्धति 60 मिलियन से अधिक साइटों के वेब पर एक पूर्ण कालक्रम की तरह दिखती है, "मैनुअल" वेब ब्राउज़िंग अक्सर सूचना पुनर्प्राप्ति के अंतिम चरण में एकमात्र विकल्प होता है, जब यांत्रिक "खुदाई" गहन विश्लेषण का रास्ता देती है। कैटलॉग, वर्गीकृत और विषयगत सूचियों और सभी प्रकार की छोटी संदर्भ पुस्तकों का उपयोग भी इस प्रकार की खोज पर लागू होता है।

    सर्च इंजन का उपयोग

आज यह विधि मुख्य में से एक है और वास्तव में, प्रारंभिक खोज करने में एकमात्र है। उत्तरार्द्ध का परिणाम विस्तार से विचार करने के लिए नेटवर्क संसाधनों की एक सूची हो सकती है।

एक नियम के रूप में, खोज इंजन का उपयोग उन खोजशब्दों के उपयोग पर आधारित होता है जो खोज इंजनों को खोज तर्क के रूप में पारित किए जाते हैं: क्या देखना है। यदि सही ढंग से किया जाता है, तो खोजशब्दों की सूची के निर्माण के लिए थिसॉरस की तैयारी पर प्रारंभिक कार्य की आवश्यकता होती है।

    विशेष टूल का उपयोग करके खोजें

प्रारंभिक खोजों के संचालन के लिए यह पूरी तरह से स्वचालित विधि बहुत प्रभावी हो सकती है।

वेब पर खोज करने के लिए स्पाइडर एक महत्वपूर्ण उपकरण है। जैसा कि पहले कहा गया है, स्पाइडर एक ऐसा प्रोग्राम है जो बड़ी संख्या में साइटों से कुछ या सभी संसाधन प्राप्त करता है, मुख्य रूप से उल्टे इंडेक्स बनाने के उद्देश्य से जो बाद में खोज अनुप्रयोगों द्वारा उपयोग किया जाएगा। अन्य वेब क्लाइंट की तरह, स्पाइडर वेब साइट संसाधनों तक पहुँचने के लिए HTTP अनुरोध करता है और प्रतिक्रियाओं को पार्स करता है। स्पाइडर और ब्राउज़र के बीच मुख्य अंतर साइटों की बहुत बड़ी संख्या है जिन तक पहुंच और अनुरोध भेजे जाते हैं, प्रतिक्रियाओं के किसी भी प्रदर्शन की कमी, और प्रतिक्रियाओं का असामान्य उपयोग।

व्यवहार में, हालांकि, साइटों से संसाधनों के केवल एक अंश का अनुरोध किया जा सकता है। उदाहरण के लिए, कई मकड़ियाँ छवियों या मल्टीमीडिया संसाधनों का अनुरोध नहीं करती हैं। यह तब किया जाता है जब स्पाइडर का उपयोग केवल टेक्स्ट संसाधनों की अनुक्रमणिका बनाने के लिए किया जाता है।

    नए संसाधनों का विश्लेषण

नवगठित संसाधनों की खोज आवश्यक हो सकती है जब बार-बार खोज चक्र आयोजित करते हैं, सबसे हाल की जानकारी की खोज करते हैं, या गतिशीलता में अनुसंधान वस्तु के विकास में प्रवृत्तियों का विश्लेषण करने के लिए आवश्यक हो सकते हैं।

एक अन्य संभावित कारण यह हो सकता है कि अधिकांश खोज इंजन बड़ी मात्रा में संसाधित डेटा के कारण अपनी अनुक्रमणिका को महत्वपूर्ण देरी से अपडेट करते हैं, और यह देरी आमतौर पर अधिक लंबी होती है, रुचि का विषय कम लोकप्रिय होता है। अत्यधिक विशिष्ट विषय क्षेत्र में खोज करते समय यह विचार बहुत महत्वपूर्ण हो सकता है। इसमें शामिल हो सकते हैं, उदाहरण के लिए, सामाजिक नेटवर्क के साथ काम करना, वीडियो सामग्री।

इंटरनेट पर शैक्षिक जानकारी खोजने के लिए वास्तव में उपयोगी तरीके:

    एक थिसॉरस बनाना

खोज इंजनों के प्रभावी उपयोग के लिए, खोजशब्दों की एक सूची की आवश्यकता होती है, जो उनके बीच के शब्दार्थ संबंधों को ध्यान में रखते हुए आयोजित की जाती है, अर्थात। थिसॉरस थिसॉरस को संकलित करते समय, समानार्थक शब्द, समानार्थक शब्द और कीवर्ड के रूपात्मक विविधताओं के प्रसंस्करण के लिए प्रदान करना आवश्यक है। विषय का नाम ही दर्ज करना आवश्यक नहीं है।

    2-3-4 खोज पृष्ठ देखें

    खोज इंजन का चयन

खोज इंजन के उपयोग का क्रम प्रत्येक मशीन के उपयोग के साथ अपेक्षित खोज दक्षता में कमी के अनुसार स्थापित किया जाता है।

कुल मिलाकर, लगभग 180 खोज सर्वर ज्ञात हैं, जो कवरेज के क्षेत्रों, खोज सिद्धांतों (और, परिणामस्वरूप, इनपुट भाषा और कथित प्रश्नों की प्रकृति द्वारा), सूचकांक आधार का आकार, सूचना अद्यतन करने की गति से भिन्न हैं। "गैर-मानक" जानकारी, और इसी तरह की खोज करने की क्षमता। खोज सर्वर चुनने के लिए मुख्य मानदंड सर्वर के सूचकांक आधार की मात्रा और खोज इंजन के विकास की डिग्री है, अर्थात, प्रश्नों की जटिलता का स्तर जो इसे मानता है।

    अंग्रेजी भाषा के संसाधनों का उपयोग करें, भले ही आप भाषा न जानते हों। आज, तकनीकी मशीनी अनुवाद अब केवल शब्दों का संग्रह नहीं रह गया है जैसा पहले हुआ करता था। अच्छी, उपयोगी विदेशी साइटों का पर्याप्त से अधिक अनुवाद किया जाता है।

    शैक्षिक जानकारी प्राप्त करने के लिए विशेष स्रोतों का उपयोग करें:- पुस्तकालय, एक बैंक ऑफ थीसिस, एक साइबर मार्केटप्लेस, आर्काइव साइट्स आदि।

काम पूरा करते समय, कोई इस निष्कर्ष पर पहुंच सकता है कि विभिन्न विषयों पर शैक्षिक जानकारी की एक बहुत बड़ी मात्रा में इलेक्ट्रॉनिक समाचार पत्रों, रिपोर्टों, संदर्भ पुस्तकों, ग्राफिक छवियों, ऑडियो और वीडियो फाइलों और बहुत कुछ में लेखों के रूप में इंटरनेट पर संग्रहीत किया जाता है। अधिक। इंटरनेट पर सर्फिंग करते समय, आप कोई भी जानकारी पा सकते हैं, दूसरे शब्दों में, यदि कोई डेटा कभी कंप्यूटर में दर्ज किया गया है, तो सबसे अधिक संभावना है कि वे इंटरनेट के विशाल विस्तार पर कहीं पाए जा सकते हैं।

ऐसी कोई जानकारी नहीं है जो इंटरनेट पर नहीं मिल सकती है, आपको बस यह जानने की जरूरत है कि कहां और कैसे देखना है।

ग्रन्थसूची

    गार्माशोव एम। यू।, कोरोटकोव ए। एम। एक डिडक्टिक कंप्यूटर वातावरण में उत्पादक गतिविधियों के लिए छात्रों को तैयार करना। - वोल्गोग्राड, 2001।

    आई.पी. नोरेनकोव सूचना और शैक्षिक वातावरण में ज्ञान प्रबंधन। - एम।: एमईएसआई, 2000।

    पुतिलोव जी.पी. एक तकनीकी विश्वविद्यालय के लिए सूचना और शैक्षिक वातावरण के निर्माण की अवधारणा। - एम।: एमजीआईईएम, 1999।

    इंटरनेट में सूचना खोज उपकरण // Afanasy-Exchange (Tver)। - 28 मार्च 1997।

    उसकोव वी.एल. "सूचना प्रौद्योगिकी", 2000, संख्या 3 पत्रिका के इंटरनेट / पुस्तकालय के आधार पर दूरस्थ इंजीनियरिंग शिक्षा।

    डेमिन इगोर Svyatoslavovich इंटरनेट पर वैज्ञानिक और शैक्षिक जानकारी की खोज करें // वेस्टनिक टीएसयू। 2008. नंबर 9।

वैश्विक इंटरनेट पर जानकारी की खोज: सामान्य जानकारी

संगठन और उपयोग के सिद्धांत के अनुसार, खोज उपकरणों में विभाजित किया जा सकता है:

    कैटलाग ... निर्देशिकाएँ निर्देशिकाएँ होती हैं जिनमें इंटरनेट पतों की सूची होती है, जिन्हें कुछ मानदंडों के अनुसार समूहीकृत किया जाता है। एक नियम के रूप में, उन्हें विषय (विज्ञान, कला, समाचार, आदि) द्वारा समूहीकृत किया जाता है, जहां प्रत्येक विषय कई उप-स्तरों में विभाजित होता है। कुछ खोज निर्देशिकाएँ:

नाम

अरे!

www.au.ru

एट्रस (पंजीकरण आवश्यक)

www.atrus.ru

List.ru

www.list.ru

तारामंडल

www.stars.ru

घोंघा

www.ulitka.ru

इवान सुसैनिन

www.susanin.ru

    खोज इंजन कारों ... दस्तावेज़ों की विस्तृत खोज के लिए, विशेष खोज इंजनों का उपयोग किया जाता है - खोज इंजन। उपयोगकर्ता से अनुरोध प्राप्त होने पर, खोज इंजन खोज कार्य से मेल खाने वाले दस्तावेजों की एक सूची तैयार करता है। खोजे गए दस्तावेज़ों को कीवर्ड के स्थान (शीर्षक में, पाठ की शुरुआत में, पहले पैराग्राफ में) और पाठ में उनकी घटना की आवृत्ति के आधार पर रैंक किया गया है। अलग-अलग सर्च इंजन का इस्तेमाल करने से अलग-अलग नतीजे मिलते हैं। सबसे आम खोज इंजन हैं:

नाम

मैंएनडेक्स

www. Yandex. आरयू

लेकिनबंदरगाह

www.aport.ru

आरहलका गति से वलनेवाला

www.rambler.ru

जीकोयला

www.google.ru

एमईआईएल

www. मेल.ru

मैंएन एस

www.yahoo.com

लेकिन ltavista

www.altavista.com

एक खोज क्वेरी में एक या अधिक शब्द हो सकते हैं, इसमें विभिन्न विराम चिह्न हो सकते हैं। मामले के लिए, सामान्य तौर पर, खोज शब्दों और ऑपरेटरों की वर्तनी का मामलाकोई फर्क नहीं पड़ता , अर्थात्, "सार", "सार", सार, "सार" और "सार" शब्दों को उसी तरह माना जाएगा। यह पूरी तरह से लैटिन वर्णमाला पर लागू होता है। तो, "यूरों "और" हाँ ", और यहां तक ​​कि" हाँ "," हाँ "और" हाँ "खोज के लिए सभी समान हैं।

व्यावहारिक कार्य "वैश्विक इंटरनेट में सूचना खोज"



कलियों में महक छुपा कर,

बकाइन खिल रहे हैं।

मई खिल रहा है, जिसका अर्थ है

आज छुट्टी है - मई दिवस!

    सहेजें कविता:


  1. खोज छुट्टी तस्वीरें:


  2. खोज परिणाम देखें 1 पृष्ठ पर स्थित है। दूसरे पेज पर जाएं: माउस व्हील को स्क्रॉल करके ब्राउज़र विंडो के निचले भाग में आएं और क्लिक करेंली पेज लिंक द्वारा किमी2 .

    कृपया चुने जो तस्वीर आपको पसंद है और उस पर क्लिक करेंली किमी.

नई विंडो में, आपको वही चित्र दिखाई देगा, केवल बढ़े हुए आकार में। इसके दाईं ओर चित्र के आकार और उन साइटों के बारे में जानकारी होगी जिन पर यह स्थित है।

    तस्वीर कॉपी करें :

    1. एक क्लिक करेंएन एस तस्वीर में सीएम;

      टीम का चयनफोटो कॉपी करें ;

      बटन पर क्लिक करके ब्राउज़र विंडो बंद करेंबंद करे .

    एक तस्वीर डालें दस्तावेज़ में:

    1. टेक्स्ट एडिटर विंडो पर जाएं (बधाई वाली कविता होनी चाहिए);

      एक क्लिक के साथ कर्सर को पिन करेंली कविता के अंतिम पात्र के बाद केएम (यह .)! ) और कुंजी दबाएंप्रवेश करना कर्सर को एक नई लाइन पर ले जाने के लिए;

      एक क्लिक करेंएन एस किमी;

      स्थानीय मेनू में कमांड का चयन करेंडालने .

    दस्तावेज़ सहेजें आपके व्यक्तिगत फ़ोल्डर में नाम के तहत*** से *** को बधाई ... पहले *** के स्थान पर उस व्यक्ति का नाम टाइप करें जिसे बधाई भेजी जाएगी; दूसरे *** के स्थान पर अपना नाम लिखें। उदाहरण के लिए,ओल्गा से अनास्तासिया के लिए बधाई ... टेक्स्ट एडिटर प्रोग्राम बंद करें।

    अपना ब्राउज़र लॉन्च करें गूगल क्रोम
    .

    अपने मेलबॉक्स पर जाएँ पोर्टल परमेल . आरयू

    मुख्य मेल मेनू में (विंडो के शीर्ष पर), कमांड का चयन करेंएक सन्देश लिखिए .

    आवश्यक फ़ील्ड भरें :


  1. बटन का चयन करेंभेजना (यह ब्राउज़र विंडो के ऊपर और नीचे दोनों तरफ स्थित है)।

    ब्राउज़र विंडो बंद करें।

    अपने कंप्यूटर को बंद कर दें।

अभ्यास 1

काम : विश्व की सबसे बड़ी मीठे पानी की झील का नाम खोजें।


खोज इंजन के साथ इष्टतम और तेज़ कार्य के लिए, प्रश्न लिखने के कुछ नियम हैं। एक विशिष्ट खोज सर्वर के लिए एक विस्तृत सूची, एक नियम के रूप में, सर्वर पर ही लिंक सहायता, संकेत, अनुरोध करने के नियम आदि के तहत पाई जा सकती है।

    अपनी खोज को व्यवस्थित करें और तालिका को खोज परिणामों से भरें:

    सवाल

    खोज परिणाम (पृष्ठों की संख्या)

    Yandex . आरयू

    विचरनेवाला . आरयू

    google.ru

    मेल .ru

    एपोर्ट . आरयू

    फोटोग्राफी द्वारा इंटरनेट पर किसी व्यक्ति को कैसे खोजें?

    Vkontakte वेबसाइट पर पंजीकरण कैसे करें?

    लाल आँख कैसे हटाएं?

    ब्राउज़र बंद करें (प्रोग्राम से बाहर निकलें)।

व्यायाम २

काम : ढूँढ़ने के लिएरूसी संघ के शिक्षा मंत्री ए.ए. फुर्सेंको . की जीवनी एक खोज इंजन का उपयोग करनाजी ऊगल आर तुम

व्यायाम # 3

इंटरनेट पर साहित्यिक कृतियों की खोज




ध्यान! पुस्तकों को प्रारूप में देखने के लिएअमेरिकन प्लान2 आपको एक विशेष कार्यक्रम ("पाठक") की आवश्यकता है। उदाहरण के लिए,अल-रीडर .

कोर्स वर्क

विषय पर: "इंटरनेट पर सूचना के भंडारण और पुनर्प्राप्ति का संगठन"


परिचय

रूस में सूचना के माध्यम के रूप में इंटरनेट अभी तक पारंपरिक मीडिया के साथ प्रतिस्पर्धा नहीं कर सकता है, लेकिन इस संबंध में इसकी बहुत संभावनाएं हैं और भविष्य में अन्य सूचना संसाधनों के बराबर कार्य करना जारी रखने में सक्षम होगा।

वर्तमान में, 500 मिलियन से अधिक लोग कमोबेश नियमित रूप से उपयोग करते हैं

इंटरनेट, और दो वर्षों में उनकी संख्या, विशेषज्ञों के अनुसार, 1 अरब से अधिक हो जाएगी, दूसरे शब्दों में, दुनिया की आबादी का 16% से अधिक। बेशक, इतने विशाल दर्शक लावारिस नहीं रह सकते - इंटरनेट लंबे समय से एक विशाल सूचना मंच में बदल गया है।

पूरी दुनिया में, और अब हमारे देश में, एक कामकाजी वेबसाइट की उपस्थिति कंपनी के स्थिर, पेशेवर काम का संकेत बन रही है। इंटरनेट लंबे समय से न केवल संचार का साधन बन गया है, बल्कि गंभीर व्यावसायिक गतिविधि का क्षेत्र भी बन गया है। लगभग हर विदेशी कंपनी का इंटरनेट पर अपना प्रतिनिधि कार्यालय होता है, एक आभासी कार्यालय। इंटरनेट पर कारोबार करने वाली कंपनियों का कुल कारोबार अरबों डॉलर तक पहुंच जाता है। रूस में, बड़ी संख्या में कंपनियां भी अपने उत्पादों और सेवाओं को बढ़ावा देने के लिए इंटरनेट का उपयोग कर रही हैं। विज्ञापन प्रकाशनों को देखकर इसे सत्यापित करना आसान है। अधिक से अधिक ईमेल और वेब साइट के पते सामान्य टेलीफोन और फैक्स नंबरों के साथ पाए जाते हैं। जल्द ही, एक इंटरनेट पते की कमी एक फैक्स मशीन की कमी जितनी मुश्किल होगी। जो लोग अभी उनकी जगह लेंगे उन्हें भविष्य में काफी फायदा होगा। यह दक्षता और प्रासंगिकता है। पारंपरिक जनसंचार माध्यम, अपनी सभी दृश्यता और परिचितता के साथ, अब एक आधुनिक व्यक्ति के लिए आवश्यक दक्षता का उपयुक्त स्तर प्रदान करने में सक्षम नहीं हैं। इसलिए, अधिक से अधिक लोग नवीनतम जानकारी प्राप्त करने के लिए इंटरनेट की ओर रुख करते हैं: सेवाओं और कीमतों, मौसम, विनिमय दरों, केवल समाचारों के बारे में। आप वेब साइट पर दी गई जानकारी को दिन में कई बार बदल सकते हैं। प्रिंट मीडिया में, विज्ञापनों को कम से कम एक सप्ताह पहले या उससे भी अधिक समय पहले आदेश दिया जाना चाहिए। और इंटरनेट पर सब कुछ चालू है: नया सामान या सेवाएं, एक नई छूट या एक नया आपूर्तिकर्ता - कल ग्राहकों को इसके बारे में पता चल जाएगा। अगला प्रिंट विज्ञापन जारी होने तक प्रतीक्षा करने की कोई आवश्यकता नहीं है। साइट पर जानकारी हमेशा अप-टू-डेट, सबसे ताज़ा रहेगी। यह वही है जिसकी सराहना की जाती है, यही वह है जो लाखों उपयोगकर्ताओं को इंटरनेट की ओर आकर्षित करता है।


1. नेटवर्क पर डेटा संग्रहण इंटरनेट

1.1 हाइपरटेक्स्ट दस्तावेज़, फाइलों के प्रकार

हाइपरटेक्स्ट दस्तावेज़ को एक दस्तावेज़ के रूप में समझा जाता है जिसमें किसी अन्य दस्तावेज़ के तथाकथित लिंक होते हैं। यह सब हाइपरटेक्स्ट ट्रांसफर प्रोटोकॉल (HTTP) के माध्यम से कार्यान्वित किया जाता है।

वेब दस्तावेज़ों में जानकारी खोजशब्दों द्वारा पाई जा सकती है। इसका मतलब है कि प्रत्येक वेब ब्राउज़र में विशिष्ट लिंक होते हैं जिसके माध्यम से तथाकथित हाइपरलिंक बनते हैं, जिससे लाखों इंटरनेट उपयोगकर्ता दुनिया भर में जानकारी की खोज कर सकते हैं।

हाइपरटेक्स्ट दस्तावेज़ HTML (हाइपरटेक्स्ट मार्कअप लैंग्वेज) भाषा के आधार पर बनाए जाते हैं। यह भाषा बहुत सरल है, इसके नियंत्रण कोड, जो वास्तव में, स्क्रीन पर प्रदर्शित करने के लिए ब्राउज़र द्वारा संकलित किए जाते हैं, ASCII पाठ से मिलकर बने होते हैं। लिंक, सूचियाँ, शीर्षक, चित्र और प्रपत्र HTML तत्व कहलाते हैं जो आपको माउस क्लिक से अन्य दस्तावेज़ देखने के लिए क्लिक करने देते हैं।

हाइपरटेक्स्ट दस्तावेज़ बनाने के दो तरीके हैं। आप WYSIWYG HTML संपादकों में से एक का उपयोग कर सकते हैं (उदाहरण के लिए, नेटस्केप कम्पोज़र, जिसकी मूल बातें "कंप्यूटर पर वर्ड प्रोसेसिंग", Microsoft फ्रंटपेज, हॉटडॉग, आदि) अनुभाग में चर्चा की गई हैं, जिन्हें इसके बारे में विशेष ज्ञान की आवश्यकता नहीं है। निर्मित दस्तावेज़ की आंतरिक संरचना। यह विधि आपको HTML की जानकारी के बिना WWW के लिए दस्तावेज़ बनाने की अनुमति देती है। HTML संपादक हाइपरटेक्स्ट दस्तावेज़ों के निर्माण को स्वचालित करते हैं, नियमित कार्य को समाप्त करते हैं। हालांकि, उनकी क्षमताएं सीमित हैं, वे परिणामी फ़ाइल के आकार को बहुत बढ़ा देते हैं, और उनकी मदद से प्राप्त परिणाम हमेशा डेवलपर की अपेक्षाओं को पूरा नहीं करता है। लेकिन, निश्चित रूप से, हाइपरटेक्स्ट दस्तावेज़ तैयार करने में शुरुआती लोगों के लिए यह विधि अपरिहार्य है।

एक विकल्प एक नियमित सादा पाठ संपादक (जैसे emacs या NotePad) का उपयोग करके दस्तावेज़ बनाना और चिह्नित करना है। यह विधि मैन्युअल रूप से HTML कमांड को टेक्स्ट में सम्मिलित करती है। इस तरह से दस्तावेज़ बनाकर, आप ठीक-ठीक जानते हैं कि आप क्या कर रहे हैं।

जैसा कि उल्लेख किया गया है, एक HTML दस्तावेज़ में प्रतीकात्मक जानकारी होती है। इसका एक हिस्सा टेक्स्ट ही है, यानी। वह डेटा जो दस्तावेज़ की सामग्री बनाता है। एक और - टैग(मार्कअप टैग), जिसे भी कहा जाता है झंडे को चिह्नित करना, - किसी दस्तावेज़ को चिह्नित करने और उसके प्रदर्शन को नियंत्रित करने के लिए उपयोग की जाने वाली HTML भाषा के विशेष निर्माण। यह HTML भाषा के टैग हैं जो यह निर्धारित करते हैं कि पाठ किस रूप में प्रस्तुत किया जाएगा, इसके कौन से घटक हाइपरटेक्स्ट लिंक की भूमिका निभाएंगे, कौन से ग्राफिक या मल्टीमीडिया ऑब्जेक्ट को दस्तावेज़ में शामिल किया जाना चाहिए। HTML दस्तावेज़ में शामिल ग्राफिक और ध्वनि जानकारी अलग-अलग फाइलों में संग्रहीत की जाती है। HTML दस्तावेज़ दर्शक (ब्राउज़र) मार्कअप फ़्लैग की व्याख्या करते हैं और उसके अनुसार स्क्रीन पर टेक्स्ट और ग्राफ़िक्स को व्यवस्थित करते हैं। HTML दस्तावेज़ वाली फ़ाइलों के लिए, .htm या .html एक्सटेंशन स्वीकार किए जाते हैं।

टैग लिखते समय अपरकेस और लोअरकेस अक्षरों को अलग नहीं किया जाता है . ज्यादातर मामलों में, टैग जोड़े में उपयोग किए जाते हैं। जोड़ी में एक प्रारंभ टैग और एक अंत टैग होता है। ओपनिंग टैग सिंटैक्स:

<имя_тега [атрибуты]>

वाक्य रचना विवरण में प्रयुक्त कोष्ठक इंगित करते हैं कि तत्व गायब हो सकता है। क्लोजिंग टैग का नाम ओपनिंग टैग के नाम से केवल इस मायने में भिन्न होता है कि यह फॉरवर्ड स्लैश से पहले होता है:

टैग विशेषताएँ निम्न स्वरूप में लिखी गई हैं:

नाम [= "मूल्य"]

तर्क मान निर्दिष्ट करते समय उद्धरण चिह्न वैकल्पिक होते हैं और इन्हें छोड़ा जा सकता है। कुछ विशेषताओं के लिए, एक मान निर्दिष्ट नहीं किया जा सकता है। अंतिम टैग में कोई विशेषता नहीं है।

कोई भी युग्मित टैग वहीं से शुरू होता है जहां प्रारंभ टैग का सामना करना पड़ता है और जब संबंधित अंत टैग का सामना करना पड़ता है तो समाप्त होता है। अक्सर, प्रारंभ और अंत टैग की एक जोड़ी को कहा जाता है पात्र, और पाठ का हिस्सा, उद्घाटन और समापन टैग से घिरा हुआ है तत्त्व .

टेक्स्ट बनाने वाले वर्णों के क्रम में रिक्त स्थान, टैब, लाइन फीड, कैरिज रिटर्न, अक्षर, विराम चिह्न, संख्याएं और विशेष वर्ण शामिल हो सकते हैं (उदाहरण के लिए, +, #, $, @), के अपवाद के साथनिम्नलिखित चार वर्ण जिनका HTML में विशेष अर्थ है:< (меньше), >(से बड़ा), और (एम्परसैंड) और "(दोहरा उद्धरण)। यदि आपको पाठ में इनमें से किसी भी वर्ण को शामिल करने की आवश्यकता है, तो आपको इसे वर्णों के एक विशेष अनुक्रम के साथ एन्कोड करना चाहिए।

गैर-ब्रेकिंग रिक्त स्थान को विशेष वर्णों के रूप में भी वर्गीकृत किया जा सकता है। इस प्रतीक का उपयोग पाठ में कुछ शब्दों के बीच की जगह को बढ़ाने का एक तरीका है। इन उद्देश्यों के लिए साधारण रिक्त स्थान का उपयोग नहीं किया जा सकता है, क्योंकि लगातार रिक्त स्थान के समूह को ब्राउज़र द्वारा एक के रूप में व्याख्या किया जाता है।

१.२ ग्राफिक फाइलें, उनके प्रकार और विशेषताएं

आजकल, पीसी-श्रेणी के कंप्यूटरों पर यथार्थवादी रंगों में पूर्ण-रंग वाले उच्च-गुणवत्ता वाले ग्राफिक्स का उपयोग पूरी तरह से सामान्य लगता है। बहुत पहले नहीं, हालांकि, यह प्रकाशन प्रणालियों का विशेषाधिकार था, जो आमतौर पर मैकिन्टोश प्लेटफॉर्म या सिलिकॉन ग्राफिक्स के ग्राफिक्स स्टेशनों पर बनाए गए थे। अंतिम उपाय के रूप में, पीसी उपयोगकर्ता रंग के साथ ग्राफिक्स के साथ संतुष्ट थे, 320X200 के कमजोर रिज़ॉल्यूशन पर 8 बिट्स / पिक्सेल (256 रंग) की अधिकतम गहराई, या 640X480 के रिज़ॉल्यूशन पर 16 रंग।

अब, वीडियो एडेप्टर आर्किटेक्चर के विकास और विभिन्न माइक्रोक्रिकिट्स पर वीडियो मेमोरी की लागत में कमी के साथ, औसत उपयोगकर्ता एक पीसी प्लेटफॉर्म पर सिस्टम के लिए काफी सुलभ है जो 24 बिट / की गहराई के साथ यथार्थवादी (ट्रूकॉलर) छवियों के साथ सफलतापूर्वक काम करता है। पिक्सेल (16 मिलियन से अधिक रंग)।

तकनीकी प्रगति के संबंध में, पीसी प्लेटफॉर्म पर स्थानांतरित करने और अन्य प्लेटफार्मों से ग्राफिक जानकारी को एन्कोडिंग और भंडारण के लिए विभिन्न प्रारूपों को अनुकूलित करने की आवश्यकता उत्पन्न हुई (उदाहरण के लिए, मैकिन्टोश, जहां इसी तरह के विकास दूसरे दशक के लिए विकसित हो रहे हैं), या विकास हमारे अपने पीसी-उन्मुख ग्राफिक प्रारूप, उनके वीडियो एडेप्टर की वास्तुकला की सभी विशेषताओं को पूरी तरह से ध्यान में रखते हुए।

इसके अलावा, पिछले 5 वर्षों में, इंटरनेट के बिजली-तेज प्रसार के संबंध में और, विशेष रूप से, वर्ल्ड वाइड वेब प्रौद्योगिकियों, एक अलग तरह की समस्या उत्पन्न होने लगी - छवि प्रारूपों का विकास जो पर्याप्त रूप से कॉम्पैक्ट हैं कम से कम देरी के साथ एक नेटवर्क पर संचरण और हार्डवेयर स्वतंत्र हैं, क्योंकि वे नेटवर्क से जुड़े हुए हैं।विभिन्न आर्किटेक्चर के कंप्यूटर।

इस संबंध में, मैं संक्षेप में कई सामान्य ग्राफिक प्रारूपों की समीक्षा करना चाहता हूं और उनकी क्षमताओं का संक्षेप में वर्णन करना चाहता हूं। यह सारी जानकारी निम्न तालिका में संक्षेपित है:

प्रारूप मैक्स। गहरा रंग की मैक्स। रंगों की संख्या

मैक्स। छवि का आकार,

एकाधिक छवियों को एन्कोड करें
बीएमपी 24 16"777"216 65535x65535 आरएलई * -
जीआईएफ 8 256 65535x65535 एलजेडडब्ल्यू +
जेपीईजी 24 16"777"216 65535x65535 जेपीईजी -
पीसीएक्स 24 16"777"216 65535x65535 आरएलई -
पीएनजी छवि 48 281"474"976"710"656 अपस्फीति (LZ77) -
मनमुटाव 24 16"777"216 कुल 4'294'967'295 एलजेडडब्ल्यू, आरएलई और अन्य * +

इसके अलावा, यह ध्यान दिया जाना चाहिए कि सबसे कॉम्पैक्ट प्रारूप जेपीईजी, जीआईएफ, पीएनजी हैं, जो इसके अलावा, प्लेटफॉर्म स्वतंत्र हैं। बीएमपी प्रारूप एक मानक विंडोज प्रारूप है, लेकिन अत्यधिक फ़ाइल आकार के कारण इसका व्यापक रूप से उपयोग नहीं किया जाता है, खासकर जब 24 बिट / पिक्सेल की रंग गहराई वाले ग्राफिक्स को सहेजते हैं। टीआईएफएफ प्रारूप के संबंध में, यह ध्यान दिया जाना चाहिए कि जेपीईजी, जीआईएफ की तरह, यह आंशिक रूप से मंच स्वतंत्र है, लेकिन वेब पर उपयोग के लिए बहुत बड़ा है और इससे भी बदतर, व्याख्या करना बहुत मुश्किल है। इसके अलावा, ग्राफिक फाइलों के दर्शकों सहित किसी भी सॉफ्टवेयर उत्पाद, जिसमें एलजेडडब्ल्यू एल्गोरिथम का उपयोग करके एन्कोडिंग / डिकोडिंग डेटा के लिए कोड शामिल है, को एल्गोरिथम के मालिक यूनिसिस कॉर्प के उपयुक्त लाइसेंस समझौते के तहत वितरित किया जाना चाहिए, जो इनकी लागत को और बढ़ा देता है। उत्पाद।

इसके अलावा, मैं इंटरनेट पर वास्तविक मानक के रूप में स्वीकृत क्रॉस-प्लेटफ़ॉर्म प्रारूपों की ओर मुड़ना चाहूंगा: JPEG, GIF, PNG।

मैं तुरंत नोट करना चाहता हूं कि पीएनजी (पोर्टेबल नेटवर्क ग्राफिक) प्रारूप पर ज्यादा ध्यान नहीं दिया जाएगा, हालांकि, शायद, यह इसके योग्य है। यह इस तथ्य का परिणाम है कि यह प्रारूप बहुत पहले नहीं दिखाई दिया और इसके सभी लाभों के बावजूद, अभी तक सार्वभौमिक मान्यता प्राप्त नहीं हुई है।

तो, वास्तव में, एक व्यक्ति या कंपनी जो अपने डिस्क पर बड़ी संख्या में छवियों को रखने का इरादा रखती है और संभवतः, उन्हें इंटरनेट पर उपयोग के लिए प्रदान करती है, को एक दुविधा का सामना करना पड़ता है: जीआईएफ या जेपीईजी क्या चुनना है।

CompuServe द्वारा विकसित GIF प्रारूप, और मूल रूप से वेब पर छवियों के आदान-प्रदान के लिए एक प्रारूप के रूप में प्रस्तावित, एक काफी उच्च छवि संपीड़न अनुपात वाला प्रारूप है। इसके अलावा, जीआईएफ में अतिरिक्त विशेषताएं हैं जो इसे वेब पर उपयोग करने के लिए आकर्षक बनाती हैं। पहली स्क्रीन पर छवि लाइनों को प्रदर्शित करने के क्रम को बदलने की क्षमता है, उनके बीच के अंतराल को अस्थायी जानकारी के साथ भरना। नेत्रहीन, ऐसा लगता है कि जैसे ही यह नेटवर्क से डाउनलोड होता है (जो अक्सर एक भयावह रूप से कम गति के साथ होता है), छवि स्क्रीन पर दिखाई देती है जैसे कि "कम गुणवत्ता में", और फिर, अतिरिक्त जानकारी लोड होने पर, यह लापता को पुनर्स्थापित करता है छवि की पंक्तियाँ। इस प्रकार, उपयोगकर्ता डाउनलोड प्रक्रिया समाप्त होने से पहले ही छवि की सामग्री का अंदाजा लगा सकता है और एक अनावश्यक बड़ी फ़ाइल के डाउनलोड को बाधित कर सकता है। दूसरी संभावना एक फ़ाइल में एक से अधिक छवियों को संग्रहीत करना है, जो प्राथमिक फ्रेम-दर-फ़्रेम एनीमेशन को संभव बनाता है। जीआईएफ की एक और विशिष्ट विशेषता यह है कि रंगों में से एक को "पारदर्शी" घोषित किया जा सकता है, और फिर जब छवि प्रदर्शित होती है, तो इसके वे हिस्से जो इस रंग से चित्रित होते हैं, वे स्क्रीन पर और पृष्ठभूमि पर प्रदर्शित नहीं होंगे, जिस पर छवि उनके नीचे दिखाई देगा। जीआईएफ का सबसे बड़ा नुकसान यह है कि यह अधिकतम 256 रंगों को स्टोर कर सकता है, जो हाल ही में कम और कम स्वीकार्य हो गया है। उसी समय, जीआईएफ उपयोगकर्ता उसी उपद्रव से प्रेतवाधित होते हैं जैसे टीआईएफएफ प्रारूप के मामले में: जीआईएफ एलजेडडब्ल्यू संपीड़न का भी उपयोग करता है, और इसलिए, प्रत्येक छवि को केवल तभी वितरित किया जा सकता है जब संबंधित लाइसेंस समझौता हो।

जेपीईजी प्रारूप एक ट्रूकोलर प्रारूप है, जिसका अर्थ है कि यह छवियों को 24 बिट/पिक्सेल की रंग गहराई के साथ संग्रहीत कर सकता है। यह रंग गहराई किसी भी जटिलता की छवियों के लगभग सटीक पुनरुत्पादन के लिए पर्याप्त है। एक गहरा रंग प्रतिनिधित्व (उदाहरण के लिए 32 बिट/पिक्सेल) वास्तव में आधुनिक मॉनीटर पर देखे जाने पर और अधिकांश उपलब्ध प्रिंटर पर मुद्रित होने पर व्यावहारिक रूप से अलग नहीं होता है। यह रंग गहराई केवल प्रकाशन में उपयोगी हो सकती है। जेपीईजी में आम तौर पर जीआईएफ की तुलना में छवियों के लिए उच्च संपीड़न दर होती है (इस पहलू को "जेपीईजी का उपयोग करने के लिए अभ्यास" अध्याय में अधिक विस्तार से वर्णित किया गया है), लेकिन एक फ़ाइल में एकाधिक छवियों को संग्रहीत करने की क्षमता नहीं है। हाल ही में, जेपीईजी प्रारूप का एक संशोधन विकसित किया गया है, जिसे प्रगतिशील जेपीईजी कहा जाता है, जिसे मोटे तौर पर "क्रमिक जेपीईजी" के रूप में रूसी में अनुवादित किया जा सकता है, जिसका उद्देश्य जीआईएफ छवियों के अंतःस्थापित प्रदर्शन के समान कार्यों के लिए है। इसने JPEG प्रारूप को वेब मानक के रूप में और भी आकर्षक बना दिया। हालाँकि, JPEG की अपनी कमियाँ भी हैं। जीआईएफ के विपरीत, जो लगभग किसी भी सामग्री की छवियों को कुशलतापूर्वक संपीड़ित कर सकता है, जेपीईजी मुख्य रूप से यथार्थवादी छवियों पर ध्यान केंद्रित करता है, अर्थात, एक फोटोग्राफिक प्रकृति की छवियां, और जब स्पष्ट रूप से परिभाषित रेखाओं और रंग सीमाओं वाली छवियों को संसाधित किया जाता है तो संपीड़न गुणवत्ता काफी कम हो जाती है।

इस प्रकार, एक या दूसरे प्रारूप के पक्ष में अंतिम चुनाव करना अभी भी असंभव है। हालांकि, मूल संपीड़न एल्गोरिदम और भविष्य में विकास के महान अवसरों के दृष्टिकोण से जेपीईजी प्रारूप मुझे अधिक दिलचस्प लगता है। इसके अलावा, जेपीईजी प्रारूप को स्पष्ट रूप से अधिक लचीला माना जाना चाहिए: यह आपको अच्छी छवि गुणवत्ता या एक अच्छे संपीड़न अनुपात के बीच चयन करने और प्रत्येक विशिष्ट मामले के लिए एक स्वीकार्य समझौता खोजने की अनुमति देता है। इसलिए, आगे के सभी शोध इस विशेष प्रारूप के लिए समर्पित हैं।

1.3 खोज इंजन और जानकारी खोजने के नियम

इंटरनेट की सुविधा यह है कि आप इसमें लगभग कोई भी जानकारी पा सकते हैं, तब भी जब हम यह नहीं जानते कि वह वास्तव में कहां है। यदि उस सामग्री वाले पृष्ठ का पता अज्ञात है जिसमें हम रुचि रखते हैं और उपयुक्त लिंक वाला कोई पृष्ठ नहीं है, तो हमें पूरे इंटरनेट पर सामग्री की खोज करनी होगी। ऐसा करने के लिए, इंटरनेट सर्च इंजन का उपयोग करें - विशेष वेब साइटें जो आपको वांछित दस्तावेज़ खोजने की अनुमति देती हैं।

इंटरनेट पर खोज करने के दो मुख्य तरीके हैं। पहले मामले में, आप किसी विशिष्ट विषय से संबंधित वेब पेजों की तलाश कर रहे हैं। विषयगत श्रेणी चुनकर और धीरे-धीरे इसे कम करके खोज की जाती है। ऐसे खोज इंजनों को खोज निर्देशिका कहा जाता है। वे सुविधाजनक होते हैं जब आपको अपने लिए एक नए विषय से परिचित होने या किसी दिए गए विषय पर प्रसिद्ध "क्लासिक" संसाधनों को प्राप्त करने की आवश्यकता होती है। दूसरी खोज पद्धति का उपयोग तब किया जाता है जब विषय संकीर्ण, विशिष्ट हो या आपको दुर्लभ, अल्पज्ञात संसाधनों की आवश्यकता हो। ऐसे में आपको कल्पना करनी होगी कि आपकी रुचि के विषय पर दस्तावेज़ में कौन से कीवर्ड मिलने चाहिए। इन शब्दों को इस तरह से चुना जाना चाहिए कि वे उन आवश्यक दस्तावेजों में पाए जाने की सबसे अधिक संभावना है जो चुने हुए विषय से संबंधित नहीं हैं। वे सिस्टम जो इस प्रकार की खोज की अनुमति देते हैं, खोज अनुक्रमणिका कहलाते हैं। खोज निर्देशिका न केवल खोज पद्धति में खोज अनुक्रमणिका से भिन्न होती है, बल्कि उनके बनने के तरीके में भी भिन्न होती है। इंटरनेट पर किसी भी सर्च इंजन के दो भाग होते हैं। एक विशेष वेब पेज, जो सभी के लिए सुलभ है और उन्हें खोज करने की अनुमति देता है, एक बड़े, लगातार अद्यतन और अद्यतन डेटाबेस पर निर्भर करता है जिसमें इंटरनेट संसाधनों के बारे में जानकारी होती है।

इस डेटाबेस को फिर से भरने की विधि खोज इंजन के प्रकार, खोज निर्देशिकाओं पर निर्भर करती है, सबसे महत्वपूर्ण बात चयन की सटीकता है। आपके द्वारा पाया जाने वाला प्रत्येक संसाधन उपयोगी होना चाहिए। पृष्ठ का विषय मैन्युअल रूप से परिभाषित या चेक किया गया है। इस वजह से, खोज निर्देशिकाओं की मात्रा अपेक्षाकृत कम है। जब वॉल्यूम दस लाख पृष्ठों तक पहुंच जाता है, तो मैन्युअल श्रम की मात्रा इतनी अधिक होती है कि कैटलॉग की और वृद्धि रुक ​​जाती है।

इसके विपरीत, खोज अनुक्रमणिका व्यापक पहुंच वाले होते हैं। वेब पेज पर उपलब्ध शब्दों की परिभाषा के साथ, ऑटोमेशन अच्छी तरह से मुकाबला करता है, सर्च इंडेक्स का डेटा कई लाखों वेब पेजों को कवर कर सकता है। यह एक निर्देशिका को खोजने की तुलना में एक अनुक्रमणिका को खोजना अधिक कठिन बनाता है क्योंकि एक ही कीवर्ड विभिन्न विषयों के बारे में वेब पेजों पर दिखाई दे सकते हैं।

सूचना पुनर्प्राप्ति प्रणाली सार्वजनिक सर्वर पर इंटरनेट पर होस्ट की जाती है। खोज इंजन का आधार तथाकथित खोज इंजन या स्वचालित अनुक्रमणिका है। विशेष रोबोटिक प्रोग्राम (जिन्हें मकड़ियों के रूप में भी जाना जाता है) स्वचालित रूप से समय-समय पर कुछ एल्गोरिदम के आधार पर इंटरनेट को स्कैन करते हैं, जो मिले दस्तावेजों को अनुक्रमित करते हैं। वेब साइटों पर पोस्ट की गई जानकारी तक उपयोगकर्ता को पहुंच प्रदान करने के लिए खोज इंजन द्वारा बनाए गए इंडेक्स डेटाबेस का उपयोग किया जाता है। उपयोगकर्ता, संबंधित इंटरफ़ेस के ढांचे के भीतर, एक अनुरोध तैयार करता है, जिसे सिस्टम द्वारा संसाधित किया जाता है, जिसके बाद अनुरोध प्रसंस्करण के परिणाम ब्राउज़र विंडो में प्रदर्शित होते हैं। क्वेरी प्रोसेसिंग तंत्र में लगातार सुधार हो रहा है, और आधुनिक खोज इंजन केवल बड़ी संख्या में दस्तावेज़ों को सॉर्ट नहीं करते हैं। - खोज मूल और अत्यधिक जटिल एल्गोरिदम के आधार पर की जाती है, और इसके परिणामों का विश्लेषण और सॉर्ट किया जाता है ताकि उपयोगकर्ता को प्रस्तुत की गई जानकारी उसकी अपेक्षाओं को सबसे बड़ी सीमा तक पूरा कर सके।
वर्तमान में, खोज इंजन के विकास में, स्वचालित अनुक्रमणिका खोज इंजन और इंटरनेट संसाधनों के मैन्युअल रूप से संकलित कैटलॉग को संयोजित करने की प्रवृत्ति है। इन प्रणालियों के संसाधन सफलतापूर्वक एक दूसरे के पूरक हैं, और उनकी क्षमताओं को संयोजित करना काफी तार्किक है।

फिर भी, खोज इंजनों की क्षमताओं का अध्ययन, यहां तक ​​कि उनमें से सबसे शक्तिशाली, जैसे कि अल्टाविस्टा या हॉटबॉट, से पता चलता है कि एक अलग ऐसी प्रणाली द्वारा वर्ल्ड वाइड वेब संसाधनों का वास्तविक कवरेज 30% से अधिक नहीं है। इसलिए, आपको उनमें से किसी एक का उपयोग करने के लिए खुद को सीमित नहीं करना चाहिए। यदि आप एक प्रणाली का उपयोग करने में रुचि रखने वाली जानकारी नहीं ढूंढ पा रहे थे, तो दूसरे का उपयोग करने का प्रयास करें।

प्रत्येक खोज इंजन की अपनी विशेषताएं होती हैं और प्राप्त परिणाम की गुणवत्ता खोज के विषय और क्वेरी की सटीकता पर निर्भर करती है। इसलिए, जानकारी की खोज शुरू करते समय, सबसे पहले, आपको स्पष्ट रूप से यह समझने की आवश्यकता है कि आप वास्तव में क्या और कहाँ खोजना चाहते हैं। उदाहरण के लिए, अनुक्रमित दस्तावेजों की संख्या में विदेशी सिस्टम हड़ताली हैं। पेशेवर ज्ञान के क्षेत्र में खोज करने के लिए, विशेष रूप से एक विदेशी भाषा में जानकारी, अल्टाविस्टा, हॉटबॉट या नॉर्दर्न जैसे सिस्टम सबसे उपयुक्त हैं।

हालाँकि, रूसी में जानकारी खोजने के लिए, विशेष रूप से इंटरनेट के रूसी भाग में, रूसी खोज इंजन बेहतर अनुकूल हैं। सबसे पहले, वे विशेष रूप से वेब के रूसी-भाषा संसाधनों पर लक्षित होते हैं और, एक नियम के रूप में, इन संसाधनों के अनुसंधान के अधिक कवरेज और गहराई से प्रतिष्ठित होते हैं। दूसरे, रूसी प्रणाली रूसी भाषा की आकृति विज्ञान को ध्यान में रखते हुए काम करती है, अर्थात खोजे गए शब्दों के सभी रूप खोज में शामिल हैं। रूसी सिस्टम कई सिरिलिक एन्कोडिंग के सह-अस्तित्व के रूप में रूसी इंटरनेट संसाधनों की ऐसी ऐतिहासिक रूप से स्थापित विशेषता को बेहतर ढंग से ध्यान में रखते हैं।

2. वेब सर्च इंजन की समीक्षा और विशेषताएं इंटरनेट

2.1 विचरनेवाला

इंटरनेट पर रूसी भाषा की जानकारी खोजने के लिए, रूसी खोज इंजन का उपयोग करना बेहतर है। इस अनुभव में और निम्नलिखित अन्य में, हम इंटरनेट के रूसी-भाषी हिस्से में खोज करने के लिए डिज़ाइन की गई कई प्रणालियों का उपयोग करके जानकारी की खोज करेंगे। जैसा कि आप देखेंगे, वे मूल रूप से दुनिया के खोज इंजनों से भिन्न नहीं हैं। चूंकि हमने पहले ही कई प्रणालियों पर विचार किया है, और आप इंटरनेट पर जानकारी खोजने के सामान्य सिद्धांतों को जानते हैं, तो आगे के प्रयोगों में हम सभी पेचीदगियों पर ध्यान नहीं देंगे। चूंकि ये सिस्टम आपके साथ रूसी भाषा में संवाद करते हैं, इसलिए आप पिछले प्रयोगों से प्राप्त ज्ञान का उपयोग करके स्वतंत्र रूप से उनका अध्ययन करने में सक्षम होंगे।

आइए रामब्लर प्रणाली का उपयोग करके खोजें। जैसा कि आप देखेंगे, इस प्रणाली में मिली जानकारी को खोजने और जारी करने के लिए एक सुविधाजनक प्रणाली है।

आप वर्ल्ड वाइड वेब और समाचार समूहों के साथ-साथ इस प्रणाली के कैटलॉग और उत्पादों में दोनों को खोज सकते हैं। एक साधारण क्वेरी के अलावा, विस्तृत प्रश्नों के साथ काम करना संभव है। लेकिन हम अन्य रूसी खोज इंजनों की तरह ही एक साधारण क्वेरी निष्पादित करेंगे।

क्वेरी इनपुट फ़ील्ड में शब्द दर्ज करें इंटरनेट खोज।हम ऐसे दस्तावेज़ ढूंढना चाहते हैं जिनमें "खोज" और "इंटरनेट" शब्द दोनों हों।

बटन को क्लिक करे ढूँढ़ने के लिए!... हमें पाए गए पृष्ठों की एक सूची मिली है।

पाए गए पृष्ठों की सूची आसानी से व्यवस्थित है। सबसे पहले, उन पृष्ठों के लिंक होते हैं जो खोज मानदंड से सबसे अच्छी तरह मेल खाते हैं। अनुरोध को पूरी तरह से संतुष्ट करने वाले अधिकांश दस्तावेज़ ऐसे दस्तावेज़ होते हैं जिनमें खोज शब्द अक्सर दोहराए जाते हैं और एक दूसरे से बहुत दूर स्थित नहीं होते हैं। इसके अलावा, खोजे गए खोजशब्दों को पाए गए दस्तावेज़ के पाठ के एक छोटे टुकड़े में हाइलाइट किया गया है।

रामब्लर सिस्टम में, आप उन शब्दों को देख सकते हैं जो उपयोगकर्ता प्रश्नों में सबसे अधिक बार उपयोग किए जाते हैं। इसके अलावा, रामब्लर सबसे लोकप्रिय रूसी इंटरनेट साइटों की एक सूची रखता है। चूंकि सिस्टम में सभी जानकारी रूसी में प्रस्तुत की जाती है, हम आशा करते हैं कि आप भविष्य में इस खोज इंजन की क्षमताओं से स्वतंत्र रूप से परिचित हो सकेंगे।

2.2 Yandex

यांडेक्स सर्च इंजन www.uaandeh.ru पर स्थित है। उन्हें आधिकारिक तौर पर 23 सितंबर, 1997 को कमीशन दिया गया था।

यांडेक्स क्या है? इस प्रकार प्रणाली के निर्माता इस प्रश्न का उत्तर देते हैं। यांडेक्स एक पूर्ण-पाठ सूचना पुनर्प्राप्ति प्रणाली (आईएसएस) है जो रूसी और अंग्रेजी भाषाओं के आकारिकी को ध्यान में रखती है। यांडेक्स प्रणाली को विभिन्न संरचनाओं और विभिन्न प्रस्तुति विधियों (प्रारूपों) के इलेक्ट्रॉनिक ग्रंथों में जानकारी खोजने के लिए डिज़ाइन किया गया है। यांडेक्स (उच्चारण "यांडेक्स") का अर्थ "भाषा सूचकांक" या, अंग्रेजी वर्तनी में, यांडेक्स - फिर भी एक और इंडेक्स है। आप यांडेक्स को अंग्रेजी से रूसी में इंडेक्स शब्द के आंशिक अनुवाद के रूप में भी मान सकते हैं ("I" का अर्थ है "I")।

सर्च इंजन यांडेक्स के केंद्र में। आरयू सिस्टम कर्नेल है जो यांडेक्स उपसर्ग (यांडेक्स। साइट, यांडेक्स। लिब, यांडेक्स। डिक्ट, यांडेक्स.सीडी) के साथ सभी उत्पादों के लिए सामान्य है। यांडेक्स श्रृंखला के पहले उत्पाद (यांडेक्स। साइट, यांडेक्स। डिक्ट) को 18 अक्टूबर, 1996 को नेटकॉम'96 प्रदर्शनी में आम जनता के लिए प्रस्तुत किया गया था। "रूसी इंटरनेट" के लिए खोज इंजन। यांडेक्स लाइन की एक स्वाभाविक निरंतरता थी। जैसा कि कहा गया है, एक अच्छे प्रश्न में आधा उत्तर होता है। इंटरनेट पर ग्रंथों के ढेर में आपको जो चाहिए उसे खोजना और खोजना न केवल खोज इंजन का कौशल है, बल्कि अनुरोध करने वाले उपयोगकर्ता का भी है। यांडेक्स को उपयोगकर्ता को विशेष खोज कमांड जानने की आवश्यकता नहीं है। बस प्रश्न टाइप करें ("सस्ते कंप्यूटर कहां खोजें" या "हमें मॉस्को और मॉस्को क्षेत्र में टेलीफोन की आवश्यकता है"), और आपको परिणाम मिलेगा - उन पृष्ठों की एक सूची जहां ये शब्द पाए जाते हैं। जिस रूप में आपने क्वेरी में शब्द का उपयोग किया है, उसके बावजूद खोज रूसी भाषा के नियमों के अनुसार इसके सभी रूपों को ध्यान में रखती है। उदाहरण के लिए, यदि क्वेरी जाने के लिए सेट है, तो खोज में "go", "is go", "walked", "walked", आदि शब्दों वाले दस्तावेज़ों के लिंक मिलेंगे।

यांडेक्स न केवल भाषा प्रश्नों के साथ काम करता है, बल्कि आपको केवल कुछ सर्वरों पर खोज करने या स्पष्ट रूप से अनावश्यक सर्वरों को खोज से बाहर करने की अनुमति देता है। अब आप कैप्शन और फ़ाइल नामों से छवियों की खोज कर सकते हैं। साथ ही, स्क्रिप्ट, एप्लेट और स्टाइल जैसी वस्तुएं खोज के लिए उपलब्ध हो गईं (खोज नाम से की जाती है)। उन्नत खोज पृष्ठ पर नई सुविधाओं के साथ सुविधाजनक कार्य की पेशकश की जाती है, जहां एक जटिल क्वेरी भाषा को प्रपत्र में फ़ील्ड भरने तक सीमित कर दिया जाता है। परिणामों की मानक छँटाई के अलावा - प्रासंगिकता के अनुसार (अर्थात, क्वेरी के अनुपालन की डिग्री के अनुसार), आप अद्यतन की तिथि के अनुसार दस्तावेज़ों को सॉर्ट कर सकते हैं। सिस्टम की एक दिलचस्प विशेषता इंटरनेट पर कहीं भी यांडेक्स में खोज करने की क्षमता है। ऐसा करने के लिए, आपको यांडेक्स नाम से एक प्रोग्राम डाउनलोड करना होगा। बार और इसे स्थापित करें। उसके बाद, ब्राउज़र विंडो में एक नया पैनल दिखाई देगा। इसे एक खोज अनुरोध दर्ज करने के लिए डिज़ाइन किया गया है (बिना यैंडेक्स पृष्ठ खोले) और कई अन्य कार्य करने के लिए।

यांडेक्स एक विशिष्ट पोर्टल की तरह दिखता है, जिसके मुख्य पृष्ठ पर आप लगभग किसी भी विषय की सामग्री के लिंक पा सकते हैं। लेकिन यह उनका एकमात्र चेहरा नहीं है, "गंभीर" उपयोगकर्ताओं के लिए जो इस समय अनावश्यक जानकारी डाउनलोड करने में समय बर्बाद नहीं करना चाहते हैं, एक और यांडेक्स है। इसका पेज अपने मामूली डिजाइन और लोडिंग स्पीड से प्रभावित करता है। सर्च इंजन के इस सार का पता www.ya.ru है।

2.3 याहू

डेटाबेस: इंटरनेट संसाधनों, समाचार, मानचित्र, विज्ञापन जानकारी, खेल जानकारी, व्यवसाय, फ़ोन नंबर, व्यक्तिगत WWW पृष्ठ और ईमेल पते (अलग डेटाबेस) के लिए एक खोज सेवा द्वारा प्रबंधित।

खोज: सभी Yahoo पृष्ठ न केवल एक साधारण खोज बॉक्स प्रदान करते हैं, बल्कि उस खोज के विकल्प के साथ-साथ यूज़नेट या ईमेल खोज भी प्रदान करते हैं। खोज को एक निश्चित अवधि निर्दिष्ट करने तक सीमित किया जा सकता है। बूलियन ऑपरेटर (और, या) और अनुक्रमिक खोज भी समर्थित हैं। नोट: यदि आप Yahoo! एक सकारात्मक परिणाम के लिए नेतृत्व नहीं किया, खोज प्रक्रिया स्वचालित रूप से अल्टा विस्टा पर स्विच हो जाती है, जो खोज जारी रखती है, और सकारात्मक परिणामों के मामले में, यह स्वचालित रूप से मिली जानकारी को याहू को वापस कर देती है।

अगर याहू! अल्टा विस्टा के साथ जल्दी से कनेक्ट नहीं हो सकता, फिर याहू! खोज टूल के सेट के साथ एक लिंक पृष्ठ प्रदान करेगा। इनमें से किसी एक लिंक के चुने जाने के बाद, कीवर्ड आपकी पसंद के सर्च इंजन को पास कर दिए जाते हैं।

खोज को आसान बनाने का एक साधन "टिप सर्च" (TS) की उपस्थिति है - एक "संकेत" के साथ खोजें: Yahoo! यह एक अधीनस्थ निर्देशिका है, जिसका अर्थ है कि सिस्टम में खोज इंजन के रूप में कई पृष्ठ नहीं हैं, हालांकि, सबसे सामान्य कीवर्ड सेट करने से आप उच्च-स्तरीय पृष्ठ पर आवश्यक विषय ढूंढ सकते हैं (पहला पृष्ठ जो सामने दिखाई देता है) किसी संगठन या कंपनी के लिए किसी साइट पर जाने पर उपयोगकर्ता का)।

परिणाम: लिंक उनके वर्णनात्मक पाठ और अधीनस्थ पदानुक्रम के साथ, खोज अनुक्रम के शब्द क्रम के अनुसार प्रदर्शित होते हैं।

पता: http://www.yahoo.com/

2.4 अल्टाविस्टा

AltaVista (www. AltaVista.com) इंटरनेट पर सबसे पुराने सर्च इंजनों में से एक है। कंपनी द्वारा पहला वेब इंडेक्स 1995 में पेश किया गया था। खोज इंजन के मूल का जन्म DigitalEquipmentCorp में अनुसंधान प्रयोगशाला की एक अजीब विशेषता के कारण हुआ है। किसी कारण से, इस प्रयोगशाला के कर्मचारियों ने पिछले 10 वर्षों में अपने सभी इलेक्ट्रॉनिक पत्राचार को बनाए रखा है। जानकारी का यह ढेर न केवल डिस्क स्थान लेता है, बल्कि कम से कम कुछ लाभ लाता है, दस्तावेजों को अनुक्रमित करने और इलेक्ट्रॉनिक पत्राचार के ढेर में सही शब्दों की खोज के लिए एक कार्यक्रम बनाया गया था जो समय-समय पर पीला हो गया था। यह प्रणाली इतनी सफल रही कि बाद में यह सफलतापूर्वक वर्ल्ड वाइड वेब की विशालता में चली गई।

AltaVista इंडेक्स में 25 से अधिक भाषाओं में दस्तावेज़ शामिल हैं। अल्टाविस्टा वेबसाइट के स्थानीयकृत संस्करण 20 देशों के डोमेन में स्थित हैं। खोज क्षेत्र में सभी समर्थित भाषाओं में दस्तावेज़ शामिल हो सकते हैं, या केवल एक विशिष्ट भाषा में दस्तावेज़ों में, और एक समर्पित पृष्ठ पर, आप एक ही समय में सभी चयनित भाषाओं में खोज करने के लिए कई भाषाएं सीख सकते हैं।


निष्कर्ष और प्रस्ताव

वर्तमान में, इंटरनेट कम गति वाली टेलीफोन लाइनों से लेकर उच्च गति वाले डिजिटल उपग्रह चैनलों तक लगभग सभी ज्ञात संचार लाइनों का उपयोग करता है। इंटरनेट पर उपयोग किए जाने वाले ऑपरेटिंग सिस्टम भी विविध हैं। इंटरनेट पर अधिकांश कंप्यूटर यूनिक्स या वीएमएस पर चलते हैं। विशेष नेटवर्क राउटर जैसे नेटब्लेज़र या सिस्को, जिनका ओएस यूनिक्स ओएस जैसा दिखता है, का भी व्यापक रूप से प्रतिनिधित्व किया जाता है।

वास्तव में, इंटरनेट में विभिन्न कंपनियों और उद्यमों से संबंधित कई स्थानीय और वैश्विक नेटवर्क होते हैं, जो विभिन्न संचार लाइनों से जुड़े होते हैं। इंटरनेट की कल्पना विभिन्न आकारों के छोटे नेटवर्क के मोज़ेक के रूप में की जा सकती है जो सक्रिय रूप से एक दूसरे के साथ बातचीत करते हैं, फाइलें, संदेश आदि भेजते हैं।

इंटरनेट की टोपोलॉजी का एक उदाहरण एक्स-एटम नेटवर्क है, जिसमें कई सबनेट होते हैं, और साथ ही यह वर्ल्ड वाइड इंटरनेट का एक टुकड़ा है।

आज दुनिया में 130 मिलियन से अधिक कंप्यूटर हैं, और उनमें से 80% से अधिक कार्यालयों में छोटे स्थानीय क्षेत्र नेटवर्क से लेकर इंटरनेट जैसे वैश्विक नेटवर्क तक विभिन्न सूचनाओं और कंप्यूटर नेटवर्क में एकजुट हैं। एक नेटवर्क में कंप्यूटर को जोड़ने की दिशा में विश्वव्यापी रुझान कई महत्वपूर्ण कारणों से है, जैसे सूचना संदेशों के प्रसारण में तेजी, उपयोगकर्ताओं के बीच सूचनाओं का त्वरित आदान-प्रदान करने की क्षमता, संदेश प्राप्त करना और प्रसारित करना (फैक्स, ई-मेल पत्र, आदि) कार्यस्थल को छोड़े बिना, दुनिया में कहीं से भी किसी भी जानकारी को तुरंत प्राप्त करने की क्षमता, साथ ही विभिन्न सॉफ्टवेयर के तहत चल रहे विभिन्न निर्माताओं के कंप्यूटरों के बीच सूचनाओं का आदान-प्रदान।

कंप्यूटर नेटवर्क में इतने बड़े संभावित अवसर और नई संभावित वृद्धि जो सूचना परिसर अनुभव कर रही है, साथ ही साथ उत्पादन प्रक्रिया का एक महत्वपूर्ण त्वरण, हमें विकास के लिए इसे स्वीकार नहीं करने और उन्हें लागू नहीं करने का अधिकार नहीं देता है। अभ्यास।

इसलिए, पहले से मौजूद कंप्यूटर पार्क और सॉफ्टवेयर कॉम्प्लेक्स के आधार पर आईसीटी (सूचना और कंप्यूटर नेटवर्क) के आयोजन के मुद्दे का एक मौलिक समाधान विकसित करना आवश्यक है जो आधुनिक वैज्ञानिक और तकनीकी आवश्यकताओं को पूरा करता है, बढ़ती जरूरतों को ध्यान में रखते हुए और नए तकनीकी और सॉफ्टवेयर समाधानों के उद्भव के संबंध में नेटवर्क के क्रमिक विकास की संभावना।

इंटरनेट निरंतर तीव्रता के साथ विकसित हो रहा है, अनिवार्य रूप से दुनिया में सूचना के वितरण और प्राप्ति पर प्रतिबंध हटा रहा है। हालाँकि, सूचना के इस महासागर में आवश्यक दस्तावेज़ खोजना बहुत आसान नहीं है। यह भी ध्यान में रखा जाना चाहिए कि लंबे समय तक चलने वाले सर्वरों के साथ, नेटवर्क पर नए दिखाई देते हैं।

"सामान्य" -उद्देश्य सर्वरों के अलावा, एक या दूसरे क्षेत्र में विशेष साइटें हैं, जैसे उच्च-ऊर्जा भौतिकी के लिए - http://xxx.lanl.gov।

लेख फ़ाइलों को आयात करते समय, आपको यह भी ध्यान रखना चाहिए कि अक्सर उन्हें पोस्टस्क्रिप्ट प्रारूप (एक्सटेंशन के साथ, पीएस '', ईपीएस '') में संग्रहीत किया जाता है, जिसका उद्देश्य लेजर प्रिंटर पर छपाई करना है, इसलिए, इस मामले में, उन्हें प्राप्त करने के बाद डॉट मैट्रिक्स या इंकजेट प्रिंटर पर देखने और प्रिंट करने के लिए घोस्ट व्यू जैसे समर्पित प्रोग्राम का उपयोग करना चाहिए।

इसमें कोई संदेह नहीं है कि वैज्ञानिक कार्यों में इंटरनेट का उपयोग आपको सबसे अधिक जानकारी प्राप्त करने और दुनिया में सहकर्मियों के संपर्क में रहने की अनुमति देता है।

एक धारणा है कि इंटरनेट किताबों का स्थान ले लेगा और उनकी जगह ले लेगा। कई कारक वर्तमान में इसमें बाधा डाल रहे हैं। सबसे पहले, कंप्यूटर मॉनीटर से किताबें पढ़ते समय आराम की कमी। यद्यपि पोर्टेबल ई-पाठ पाठक पहले से मौजूद हैं, उनका स्क्रीन रिज़ॉल्यूशन स्पष्ट रूप से अपर्याप्त है। दूसरे, इलेक्ट्रॉनिक प्रकाशनों के लिए कॉपीराइट पूरी तरह से विकसित नहीं है।

भविष्य में, इंटरनेट अपने लचीलेपन, प्रतिक्रियात्मकता और अन्तरक्रियाशीलता के कारण पारंपरिक मीडिया को महत्वपूर्ण रूप से बदल देगा।

आज, कई लोग अप्रत्याशित रूप से अपने लिए वैश्विक नेटवर्क के अस्तित्व की खोज करते हैं जो दुनिया भर के कंप्यूटरों को इंटरनेट नामक एक सूचना स्थान में एकजुट करते हैं। यह क्या है, इसे परिभाषित करना आसान नहीं है। तकनीकी दृष्टिकोण से, इंटरनेट विभिन्न प्रोटोकॉल पर काम कर रहे अंतरराष्ट्रीय कंप्यूटर नेटवर्क का एक समामेलन है, जो सभी प्रकार के कंप्यूटरों को जोड़ता है, सभी उपलब्ध प्रकार की लाइनों पर भौतिक रूप से डेटा संचारित करता है - मुड़ जोड़ी और टेलीफोन तारों से फाइबर और उपग्रह चैनलों तक। इंटरनेट पर अधिकांश कंप्यूटर टीसीपी/आईपी का उपयोग करके जुड़े हुए हैं। हम कह सकते हैं कि इंटरनेट नेटवर्क का एक नेटवर्क है जो पूरे विश्व को घेर लेता है।


1. सूचना विज्ञान / कुर्नोसोव ए.पी., कुलेव एस.वी., उलेज़्को ए.वी. और आदि।; ईडी। ए.पी. कुर्नोसोवा।-एम: कोलोस, 2005. - 72 पी। (उच्च शिक्षण संस्थानों के छात्रों के लिए पाठ्यपुस्तकें और पाठ्यपुस्तकें)

2. सूचना विज्ञान पर कार्यशाला: पाठ्यपुस्तक। भत्ता / एड। ए.पी. कुर्नोसोवा - वोरोनिश: वीजीएयू, २००४.२३९ पी।

3. सूचना विज्ञान। पाठ्यपुस्तक। - तीसरा संस्करण, संशोधित / एड। एन.वी. मकारोवा. - एम .: वित्त और सांख्यिकी, 2002 .-- 256 पी।

4. सूचना विज्ञान। बेसिक कोर्स / साइमनोविच एस.वी. और अन्य-एसपीबी .: पीटर, २००६ .-- ६३९ पी .: बीमार।

5. क्रुपनिक ए.बी. इंटरनेट पर खोज: एक ट्यूटोरियल। - दूसरा संस्करण। - एसपीबी।: पीटर, 2004 ।-- 572 पी।

6. ओर्लोव ए.ए. इंटरनेट के लिए आवश्यक कार्यक्रम - एसपीबी।: पीटर, 2006 .-- 127 पी।

7. सोलोनित्सिन यू.ए., खोलमोगोरोव वी। इंटरनेट। विश्वकोश। - ३. - एसपीबी।: पीटर, 2003 ।-- 592 पी।

8. रेजनिकोव एफ.ए. हम इंटरनेट पर काम में जल्दी और आसानी से महारत हासिल करते हैं। - एम।: सर्वश्रेष्ठ पुस्तकें, 2002।-- 284 पी।

9. कंप्यूटर नेटवर्क और सूचना सुरक्षा उपकरण: पाठ्यपुस्तक। भत्ता / कमल्यान ए.के., कुलेव एस.ए., नज़रेंको के.एन. और अन्य - वोरोनिश: वीजीएयू, 2003 .-- 119 पी।

10. ओलिफ़र वी.जी., ओलिफ़र एन.ए. कंप्यूटर नेटवर्क। सिद्धांत, प्रौद्योगिकी, प्रोटोकॉल। - एसपीबी।: पीटर, 2002 ।-- 672 पी।: बीमार।

11. इंटरनेट: विश्वकोश / एड। एल मेलिखोवा। - दूसरा संस्करण।-एसपीबी ।; एम ।; खार्कोव; मिन्स्क; पीटर, 2000 .-- 527 पी।

12. मुश्तोवाती आई.एफ. इंटरनेट पर काम करने के लिए सेल्फ स्टडी गाइड / टोटल के तहत। ईडी। एम.आई. मोनास्टिर्स्की। - दूसरा संस्करण।, जोड़ें। और संशोधित।-रोस्तोव एन / ए: फीनिक्स, 2002.-312 पी।

13. पोपोव वी। इंटरनेट प्रौद्योगिकियों पर कार्यशाला: प्रशिक्षण पाठ्यक्रम / वी। पोपोव।-एसपीबी ।; एम ।; खार्कोव; मिन्स्क: पीटर, 2002 .-- 476 पी .: बीमार।

14. कंप्यूटर नेटवर्क और सूचना सुरक्षा उपकरण: पाठ्यपुस्तक / कमल्यान ए.के., कुलेव एस.ए., नज़रेंको के.एन. और अन्य-वोरोनिश: वीजीएयू, 2003.-119 पी।

15. ज़िका ए.ए. कंप्यूटर नेटवर्क - एम: ओल्मा-प्रेस, 2005. -448 पी।

16. कंप्यूटर नेटवर्क: प्रशिक्षण पाठ्यक्रम - दूसरा संस्करण। (+ सीडी-रोम)। - माइक्रोसॉफ्टप्रेस, रूसी संस्करण, 1998।

17. आधुनिक कंप्यूटर प्रौद्योगिकी के मूल तत्व। ईडी। खोमोनेंको ए.डी. - क्राउन प्रिंट, सेंट पीटर्सबर्ग 1998।

18. टीसीपी / आईपी नेटवर्क में पर्सनल कंप्यूटर। क्रेग हंट; अनुवाद अंग्रेज़ी से। - बीएचवी-कीव, 1997।

19. रूसी संघ का संघीय कानून "सूचना, सूचना और सूचना संरक्षण पर" दिनांक 20.02.1995 नंबर 24-FZ।

20. कॉमर डी। इंटरनेट के सिद्धांत: प्रति। अंग्रेजी से / डी. कॉमर। - एसपीबी ।; एम ।; खार्कोव; मिन्स्क: पीटर, 2002.-379 पी।

जानकारी की खोज एक ऐसा कार्य है जिसे मानवता कई शताब्दियों से हल कर रही है। जैसे-जैसे एक व्यक्ति के लिए संभावित रूप से उपलब्ध सूचना संसाधनों की मात्रा बढ़ती गई, आवश्यक दस्तावेज़ खोजने के लिए अधिक से अधिक परिष्कृत और परिष्कृत खोज उपकरण और तकनीकों का विकास किया गया।

के। मैनिंग की पुस्तक "सूचना पुनर्प्राप्ति का परिचय" के अनुसार, यह कहा जा सकता है कि किसी भी आईआरएस का प्रभावी संचालन आंतरिक कार्य के लिए एक बड़े सरणी (सूचना पुनर्प्राप्ति) से आवश्यक डेटा के बहुआयामी नमूने की गति और क्षमताओं पर आधारित है। तथ्य। यह खोज नियमों के संगठन, उपयोगकर्ता और प्रोग्राम इंटरफ़ेस के निर्माण और जानकारी प्रदान करने के रूप पर कुछ आवश्यकताओं को लागू करता है।

उपरोक्त आवश्यकताओं के कार्यान्वयन को संरचनात्मक घटकों की अगली श्रृंखला को सौंपा गया है, तथाकथित ब्लॉक [परिशिष्ट 4]।

ए.ए. वरफोलोमेव की पुस्तक पर आधारित। "सूचना सुरक्षा की मूल बातें", सूचना पुनर्प्राप्ति प्रणाली की ऐसी संरचना का चुनाव एक बहुत ही सरल तर्क पर आधारित है - सिस्टम के किसी भी ब्लॉक को डेटा प्राप्त करना चाहिए, इसे संसाधित करना चाहिए और इसे एक निश्चित क्रम में उपयोगकर्ता को जारी करना चाहिए, प्रदान करना प्रक्रिया का तर्क।

खोज इंजन जैसी किसी चीज़ का उल्लेख किए बिना सूचना पुनर्प्राप्ति प्रणाली के बारे में बात करना असंभव है। डीएन के अनुसार "इंटरनेट पर खोज इंजन और वेबसाइट प्रचार" पुस्तक में कोलिस्निचेंको, खोज इंजन- सूचना संसाधनों के बारे में जानकारी वाले रोबोट द्वारा उत्पन्न डेटाबेस वाला सिस्टम। सर्च इंजन की एक विशिष्ट विशेषता यह तथ्य है कि वेब पेजों के बारे में जानकारी वाला डेटाबेस एक रोबोट प्रोग्राम द्वारा तैयार किया जाता है। परिणाम प्राप्त होने पर, यदि दस्तावेज़ का शीर्षक और विवरण आपकी आवश्यकताओं को पूरा करता है, तो आप तुरंत संदर्भ द्वारा इसके मूल स्रोत पर जा सकते हैं। समस्या के परिणामों का और विश्लेषण करने में सक्षम होने के लिए इसे एक नई विंडो में करना अधिक सुविधाजनक है। कई खोज इंजन आपको पाए गए दस्तावेज़ों में खोज करने की अनुमति देते हैं, और अतिरिक्त शब्दों को पेश करके क्वेरी को परिष्कृत करना संभव है। यदि सिस्टम की इंटेलिजेंस अधिक है, तो ऐसे ही दस्तावेजों की खोज की भी संभावना है। हालांकि, समानता के निर्धारण को स्वचालित करना एक बहुत ही गैर-तुच्छ कार्य है, और अक्सर यह फ़ंक्शन हमेशा सही ढंग से काम नहीं करता है। कुछ खोज इंजन आपको परिणामों को फिर से क्रमबद्ध करने की अनुमति देते हैं। यह इस तथ्य पर ध्यान देने योग्य है कि विभिन्न खोज इंजन इंटरनेट पर सूचना के विभिन्न स्रोतों का वर्णन करते हैं। इसलिए, आप अपने आप को केवल एक निर्दिष्ट खोज इंजन में खोज करने तक सीमित नहीं कर सकते। ऐसे कई खोज उपकरण हैं जो अपना स्वयं का सूचकांक नहीं बनाते हैं, लेकिन अन्य खोज इंजनों की क्षमताओं का उपयोग करने में सक्षम हैं। यह, जैसा कि एन.ए. "स्वचालित सूचना प्रणाली, डेटाबेस और डेटा बैंक" पुस्तक में गेदमाकिन, मेटासर्च इंजन(खोज सेवाएं) - सिस्टम जो एक साथ कई खोज इंजनों को उपयोगकर्ता प्रश्न भेज सकते हैं, फिर परिणामों को जोड़ सकते हैं और उन्हें लिंक के साथ दस्तावेज़ के रूप में उपयोगकर्ता को प्रस्तुत कर सकते हैं।

साथ ही, डी.एन. Kolisnichenko लिखते हैं कि नेटवर्क पर आवश्यक जानकारी की सबसे सटीक और त्वरित खोज के लिए, IPS का उपयोग किया जाता है अनुक्रमण.

खोज सूचकांक- एक डेटा संरचना जिसमें दस्तावेजों के बारे में जानकारी होती है और खोज इंजन में उपयोग की जाती है।

इंडेक्सिंग(या अनुक्रमण) एक खोज इंजन द्वारा किया जाता है, तेजी से और सटीक सूचना पुनर्प्राप्ति प्रदान करने के लिए डेटा एकत्र करने, सॉर्ट करने और संग्रहीत करने की प्रक्रिया है। सूचकांक निर्माण में भाषा विज्ञान, गणित और कंप्यूटर विज्ञान से अंतःविषय अवधारणाएं शामिल हैं।

लोकप्रिय खोज इंजन प्राकृतिक भाषाओं में लिखे गए दस्तावेज़ों के पूर्ण-पाठ अनुक्रमण पर ध्यान केंद्रित करते हैं। वीडियो और ऑडियो और ग्राफिक्स जैसे मल्टीमीडिया दस्तावेज़ भी खोज में भाग ले सकते हैं।

ए.यू. केलिना ने अपनी पुस्तक "फंडामेंटल्स ऑफ इंफॉर्मेशन सिक्योरिटी" में लिखा है कि मेटासर्च इंजन अन्य खोज सेवाओं के इंडेक्स का उपयोग करते हैं और स्थानीय इंडेक्स को स्टोर नहीं करते हैं, जबकि कैश्ड पेज पर आधारित सर्च इंजन इंडेक्स और टेक्स्ट कॉर्पोरा दोनों को लंबे समय तक स्टोर करते हैं। पूर्ण-पाठ अनुक्रमणिका के विपरीत, आंशिक-पाठ सेवाएँ अनुक्रमणिका के आकार को कम करने के लिए अनुक्रमण की गहराई को सीमित करती हैं।

सर्च इंजन आर्किटेक्चर इंडेक्स करने के तरीके में भिन्न होता है। इंडेक्स निम्न प्रकार के होते हैं [परिशिष्ट 5]:

  • · प्रत्यक्ष सूचकांक।डायरेक्ट इंडेक्स प्रत्येक दस्तावेज़ के लिए शब्दों की एक सूची संग्रहीत करता है।
  • · उलटा सूचकांक।प्रत्येक खोज मानदंड की घटनाओं की एक सूची संग्रहीत करता है।

अनुक्रमणिका उपयोगकर्ता से छिपाए गए खोज इंजन का केवल एक हिस्सा है। इस उपकरण का दूसरा भाग है सूचना पुनर्प्राप्ति भाषा (आईपीएल), जिसके बारे में वरफोलोमेव ए.ए. विस्तार से लिखते हैं। "सूचना सुरक्षा की बुनियादी बातों" पुस्तक में। आईपीएल एक ऐसी भाषा है जो आपको सरल और दृश्य रूप में सिस्टम के लिए अनुरोध तैयार करने की अनुमति देती है। भले ही उपयोगकर्ता को प्राकृतिक भाषा में प्रश्न दर्ज करने के लिए कहा जाए, इसका मतलब यह नहीं है कि सिस्टम उपयोगकर्ता की क्वेरी को शब्दार्थ रूप से पार्स करेगा। मुख्य बिंदु यह है कि आमतौर पर वाक्यांश को शब्दों में तोड़ दिया जाता है, निषिद्ध और सामान्य शब्दों को इस सूची से हटा दिया जाता है, कभी-कभी शब्दावली को सामान्यीकृत किया जाता है, और फिर सभी शब्द या तो तार्किक AND या OR से जुड़े होते हैं।

वेरिएंट भी संभव हैं, जैसा कि एन.ए. "लोकप्रिय सूचना विज्ञान" पुस्तक में चुर्सिन। इसलिए, अधिकांश प्रणालियों में, कुछ वाक्यांशों को मुख्य वाक्यांशों के रूप में पहचाना जाएगा, और उन्हें अलग-अलग शब्दों में विभाजित नहीं किया जाएगा। एक अन्य तरीका अनुरोध और दस्तावेज़ के बीच निकटता की गणना करना है। अब तक, लगभग एक दर्जन विभिन्न निकटता उपाय ज्ञात हैं। यह अनुरोध के साथ दस्तावेज़ अनुपालन के ये प्रतिशत हैं जो संदर्भ जानकारी के रूप में जारी किए जाते हैं जब पाए गए दस्तावेज़ों की सूची होती है।

के मैनिंग के अनुसार, इंटरनेट पर आधुनिक सूचना पुनर्प्राप्ति प्रणालियों के बीच अल्टाविस्टा के पास सबसे उन्नत क्वेरी भाषा है। AND, OR, NOT के सामान्य सेट के अलावा, यह प्रणाली आपको NEAR का उपयोग करने की भी अनुमति देती है। अंतिम ऑपरेटर आपको प्रासंगिक खोज को व्यवस्थित करने की अनुमति देता है। सिस्टम में सभी दस्तावेज़ फ़ील्ड में विभाजित हैं, इसलिए अनुरोध में आप निर्दिष्ट कर सकते हैं कि उपयोगकर्ता दस्तावेज़ के किस भाग में कीवर्ड देखना चाहता है (लिंक, शीर्षक, आदि में)।

(इंटरनेट पुनर्प्राप्ति भाषाओं के बारे में अधिक जानकारी के लिए, परिशिष्ट देखें)

यू.आई. की पुस्तक से। कुडिनोव "आधुनिक सूचना विज्ञान के बुनियादी सिद्धांत", आप सीख सकते हैं कि सूचना पुनर्प्राप्ति प्रणाली में दस्तावेजों की प्रस्तुति के लिए सबसे आम मॉडल दस्तावेज़ की प्रस्तुति पर शर्तों के एक सेट के रूप में विभिन्न भिन्नताएं हैं। जैसा कि पहले उल्लेख किया गया है, यह दस्तावेज़ का संपूर्ण पाठ नहीं है, बल्कि केवल शब्दों का एक छोटा समूह है जो इसकी सामग्री को दर्शाता है। दस्तावेज़ के इस विचार के आधार पर, विभिन्न सूचना पुनर्प्राप्ति भाषाओं पर विचार करना आवश्यक है।

सबसे आम आईपीएल एक पारंपरिक भाषा है जो आपको शब्दों के एक सेट से तार्किक अभिव्यक्ति बनाने की अनुमति देती है। इस मामले में, बूलियन ऑपरेटरों AND, OR, NOT का उपयोग किया जाता है।

यह योजना काफी सरल है, और इसलिए आधुनिक सूचना पुनर्प्राप्ति प्रणालियों में इसका व्यापक रूप से उपयोग किया जाता है। लेकिन 20 साल पहले भी इसकी कमियां जगजाहिर थीं।

बूलियन खोजों का पैमाना ठीक नहीं है। AND ऑपरेटर प्रति अनुरोध दस्तावेजों की संख्या को काफी कम कर सकता है। इस मामले में, सब कुछ बहुत हद तक इस बात पर निर्भर करेगा कि डेटाबेस के लिए विशिष्ट खोज शब्द कैसे हैं। दूसरी ओर, OR ऑपरेटर एक अनुचित रूप से विस्तृत क्वेरी का कारण बन सकता है, जिसमें सूचना शोर के पीछे उपयोगी जानकारी खो जाएगी। इस आईपीएल के सफल अनुप्रयोग के लिए, सिस्टम की शब्दावली और इसके विषयगत फोकस का अच्छा ज्ञान होना चाहिए। एक नियम के रूप में, इस तरह के आईपीएल के साथ एक प्रणाली के लिए, जटिल शब्दकोशों के साथ विशेष दस्तावेजी लेक्सिकल डेटाबेस बनाए जाते हैं, जिन्हें थिसॉरी कहा जाता है और इसमें एक दूसरे के साथ शब्दकोश की शर्तों के संबंध के बारे में जानकारी होती है।

के. मैनिंग बताते हैं कि भारित बूलियन खोज बूलियन खोज का एक संशोधन है। इस खोज के पीछे का विचार काफी सरल है। माना जाता है कि यह शब्द दस्तावेज़ की सामग्री का कुछ सटीकता के साथ वर्णन करता है, और यह सटीकता शब्द के वजन के संदर्भ में व्यक्त की जाती है। इस मामले में, दस्तावेज़ की शर्तों और क्वेरी की शर्तों दोनों को तौला जा सकता है। अनुरोध ऊपर वर्णित आईपीएल में तैयार किया जा सकता है, लेकिन दस्तावेजों के मुद्दे को अनुरोध और दस्तावेज़ के बीच निकटता की डिग्री के आधार पर रैंक किया जाएगा। इस मामले में, निकटता माप इस तरह से बनाया गया है कि एक सामान्य बूलियन खोज भारित बूलियन खोज का एक विशेष मामला होगा।

लेकिन, ए.ए. वरफोलोमेव के विपरीत। , है। अश्मनोव ने अपनी पुस्तक "वेबसाइट प्रमोशन इन सर्च इंजन" में लिखा है कि हालांकि आईपीएल अभी सही नहीं हैं, लेकिन एल्गोरिथम पर विशेष ध्यान दिया जाना चाहिए। श्रेणी(क्रमबद्ध निर्माण) प्राप्त लिंक, क्योंकि यह कम महत्वपूर्ण नहीं है। आईआरएस में रैंकिंग के लिए सबसे अधिक उपयोग किए जाने वाले मानदंड हैं दस्तावेज़ में क्वेरी से शब्दों की उपस्थिति, उनकी संख्या, दस्तावेज़ की शुरुआत से निकटता, एक दूसरे से निकटता;

दस्तावेज़ों के शीर्षकों और उप-शीर्षकों में अनुरोध से शब्दों की उपस्थिति (शीर्षकों को विशेष रूप से स्वरूपित किया जाना चाहिए);

अन्य दस्तावेज़ों से इस दस्तावेज़ के संदर्भों की संख्या; संदर्भित दस्तावेजों का "सम्मान"।

विभिन्न खोज इंजन विभिन्न रैंकिंग एल्गोरिदम का उपयोग करते हैं, लेकिन प्रासंगिकता निर्धारित करने के मूल सिद्धांत इस प्रकार हैं:

  • दस्तावेज़ की पाठ्य सामग्री में क्वेरी शब्दों की संख्या (अर्थात html कोड में)।
  • · टैग जिसमें ये शब्द स्थित हैं।
  • दस्तावेज़ में खोज शब्दों का स्थान।
  • दस्तावेज़ में शब्दों की कुल संख्या में शब्दों का अनुपात जिसके लिए प्रासंगिकता निर्धारित की जाती है।

ये सिद्धांत सभी खोज इंजनों द्वारा लागू किए जाते हैं।

डेटाबेस HTML दस्तावेज़ों की एक समान रैंक वाली सूची को आउटपुट करता है और इसे अनुरोध करने वाले व्यक्ति को लौटाता है। विभिन्न खोज इंजन परिणामी सूची को प्रदर्शित करने के लिए अलग-अलग तरीके भी चुनते हैं - कुछ केवल लिंक दिखाते हैं; अन्य दस्तावेज़ में निहित पहले कुछ वाक्यों के साथ लिंक प्रदर्शित करते हैं, या लिंक के साथ दस्तावेज़ का शीर्षक प्रदर्शित करते हैं। सर्च इंजन रैंकिंग का एक अनिवार्य हिस्सा है सूचना पुनर्प्राप्ति।

इस अवधारणा के पहलुओं को के. मैनिंग द्वारा "सूचना पुनर्प्राप्ति का परिचय" पुस्तक में अच्छी तरह से प्रस्तुत किया गया है। जानकारी की खोजइसमें कुछ रणनीतियों, विधियों, तंत्रों और साधनों का उपयोग शामिल है। खोज प्रक्रिया का प्रबंधन करने वाले उपयोगकर्ता का व्यवहार न केवल सूचना की जरूरतों से निर्धारित होता है, बल्कि सिस्टम की सहायक विविधता - सिस्टम द्वारा प्रदान की जाने वाली तकनीकों और साधनों द्वारा भी निर्धारित किया जाता है।

कार्यनीति खोजें - उपयोगकर्ता की जानकारी की जरूरतों को व्यक्त करने और संतुष्ट करने के लिए सिस्टम या उपयोगकर्ता व्यवहार की सामान्य योजना (अवधारणा, वरीयता, सेटिंग), लक्ष्य की प्रकृति और खोज के प्रकार, और प्रणालीगत "रणनीतिक" निर्णयों द्वारा निर्धारित - डेटाबेस एक विशिष्ट आईएसएस में वास्तुकला, विधियों और खोज उपकरण। सामान्य तौर पर, रणनीति का चुनाव एक अनुकूलन समस्या है। व्यवहार में, यह काफी हद तक व्यावहारिक जरूरतों और उपलब्ध साधनों की क्षमताओं के बीच समझौता करने की कला से निर्धारित होता है।

खोज विधि - व्यक्तिगत तकनीकी चरणों के कार्यान्वयन के लिए मॉडल और एल्गोरिदम का एक सेट: किसी क्वेरी की खोज छवि बनाना, दस्तावेज़ों का चयन करना (प्रश्नों और दस्तावेज़ों की खोज छवियों का मिलान करना), क्वेरी का विस्तार करना, समस्या का स्थानीयकरण और मूल्यांकन करना।

खोज क्वेरी छवि - आईपीएल पर लिखा गया एक पाठ सूचना अनुरोध की अर्थपूर्ण सामग्री को व्यक्त करता है और सूचना पुनर्प्राप्ति के सबसे प्रभावी कार्यान्वयन के लिए आवश्यक निर्देश शामिल करता है।

जानकारी की खोज की प्रक्रिया एक निश्चित परिणाम के लिए सिस्टम के माध्यम से अग्रणी कदमों का एक क्रम है, और इसकी पूर्णता का आकलन करने की अनुमति देता है। चूंकि उपयोगकर्ता को आमतौर पर उस संसाधन की सूचना सामग्री के बारे में व्यापक ज्ञान नहीं होता है जिसमें वह खोज रहा है, वह केवल बाहरी आकलन या मध्यवर्ती पर आधारित क्वेरी अभिव्यक्ति की पर्याप्तता, साथ ही प्राप्त परिणाम की पूर्णता का आकलन कर सकता है। परिणाम और सामान्यीकरण, उनकी तुलना करना, उदाहरण के लिए, पिछले वाले के साथ।

खोज प्रक्रिया को निम्नलिखित मुख्य घटकों के रूप में दर्शाया जा सकता है:

  • 1) प्राकृतिक भाषा में एक प्रश्न तैयार करना, एक खोज इंजन और सेवाओं का चयन करना, उपयुक्त आईपीएल पर एक प्रश्न को औपचारिक बनाना;
  • 2) एक या अधिक खोज इंजनों में खोज करना;
  • 3) परिणामों का अवलोकन (संदर्भ);
  • 4) प्राप्त परिणामों का प्रारंभिक प्रसंस्करण: लिंक की सामग्री को देखना, प्रासंगिक डेटा निकालना और संग्रहीत करना;
  • 5) यदि आवश्यक हो, अनुरोध में संशोधन और प्राप्त परिणामों के बाद के प्रसंस्करण के साथ बार-बार (स्पष्ट) खोज करना।

चयनित सामग्रियों की मात्रा को कम करने के लिए, खोज परिणामों को स्रोतों (साइटों, पोर्टल्स), विषयों और अन्य आधारों के प्रकार द्वारा फ़िल्टर किया जाता है।

उपयोग की जाने वाली खोज तकनीकों के अनुसार, आईपी को 4 श्रेणियों में विभाजित किया जा सकता है:

  • 1. विषयगत कैटलॉग;
  • 2. विशिष्ट कैटलॉग (ऑनलाइन निर्देशिका);
  • 3. खोज इंजन (पूर्ण-पाठ खोज);
  • 4. मेटासर्च के साधन।

विषयगत कैटलॉगदस्तावेजों के प्रसंस्करण और कई श्रेणियों में से एक को उनके असाइनमेंट के लिए प्रदान करें, जिसकी सूची पूर्व निर्धारित है। यह वास्तव में वर्गीकरण आधारित अनुक्रमण है। इंडेक्सिंग स्वचालित रूप से या मैन्युअल रूप से उन विशेषज्ञों की मदद से किया जा सकता है जो लोकप्रिय वेबसाइटों को ब्राउज़ करते हैं और फिर से शुरू होने वाले दस्तावेज़ों (कीवर्ड, सार, सार) का संक्षिप्त विवरण लिखते हैं।

विशिष्ट कैटलॉगया संदर्भ किताबेंउद्योग और विषय, समाचार, शहर, ईमेल पते आदि द्वारा बनाए जाते हैं।

खोज इंजन(सबसे उन्नत इंटरनेट खोज इंजन) पूर्ण-पाठ खोज तकनीक को लागू करता है। पोल किए गए सर्वर पर स्थित टेक्स्ट को अनुक्रमित किया जाता है। सूचकांक में कई मिलियन दस्तावेजों की जानकारी हो सकती है।

धन का उपयोग करते समय मेटासर्चअनुरोध एक साथ कई खोज इंजनों द्वारा किया जाता है। खोज परिणाम को प्रासंगिकता के आधार पर क्रमबद्ध एक सामान्य सूची में संयोजित किया जाता है। प्रत्येक सिस्टम नेटवर्क नोड्स के केवल एक हिस्से को संसाधित करता है, जिससे खोज आधार का विस्तार करना संभव हो जाता है।

तथाकथित "खोज का संगठन" और "खोज का कार्यान्वयन" भी बहुत महत्वपूर्ण है, जिसके बारे में डी.एन. "इंटरनेट पर खोज इंजन और वेबसाइट प्रचार" पुस्तक में कोलिस्निचेंको।

खोज संगठन

आवश्यक जानकारी प्राप्त करने की प्रक्रिया को नौ मुख्य चरणों में विभाजित किया गया है:

  • ज्ञान के क्षेत्र की परिभाषा;
  • · प्रकार और डेटा स्रोतों का चुनाव;
  • · सूचना मॉडल को भरने के लिए आवश्यक सामग्री का संग्रह;
  • · सबसे उपयोगी जानकारी का चयन;
  • · सूचना प्रसंस्करण पद्धति का चुनाव (वर्गीकरण, क्लस्टरिंग, प्रतिगमन विश्लेषण, आदि);
  • · पैटर्न खोजने के लिए एल्गोरिथम का चुनाव;
  • · एकत्रित जानकारी में पैटर्न, औपचारिक नियम और संरचनात्मक लिंक खोजें;
  • · प्राप्त परिणामों की रचनात्मक व्याख्या;
  • निकाले गए "ज्ञान" का एकीकरण।

खोज करने के लिए, संबंधित डेटाबेस के साथ काम करने के लिए इंटरफ़ेस प्रारंभ में उपयोगकर्ता के कंप्यूटर पर लोड किया जाता है। यह एक स्थानीय या दूरस्थ डेटाबेस हो सकता है। प्रारंभ में, आपको खोज के प्रकार (सरल, उन्नत, आदि) पर निर्णय लेना चाहिए। फिर खोजने के लिए फ़ील्ड के एक सेट के साथ। आईआरएस इनपुट के लिए एक या अधिक क्षेत्रों की पेशकश कर सकता है। बाद के मामले में, ये आमतौर पर फ़ील्ड होते हैं: लेखक, शीर्षक (शीर्षक), समय अवधि, दस्तावेज़ प्रकार, कीवर्ड, शीर्षक, आदि।

खोज कार्यान्वयन

यह आम तौर पर किसी शब्द के प्रारंभिक अंशों (दाईं ओर काट-छाँट के साथ खोज) द्वारा खोज को व्यवस्थित करने के लिए स्वीकार किया जाता है, उदाहरण के लिए, "लाइब्रेरी" शब्द के बजाय, आप इसके खंड "लाइब्रेरी *" में प्रवेश कर सकते हैं। इसे ऐसे दस्तावेज़ मिलेंगे जिनमें न केवल "लाइब्रेरी" शब्द शामिल है, बल्कि "लाइब्रेरी", "लाइब्रेरियन", "लाइब्रेरी साइंस", आदि भी हैं। प्रत्येक मामले में, उपयोगकर्ता को यह कल्पना करनी चाहिए कि वह वास्तव में क्या खोजना चाहता है, क्योंकि प्रस्तावित में दिए गए शब्द को पूरी तरह से निर्दिष्ट करने की तुलना में संस्करण को बहुत अधिक संख्या में दस्तावेज़ मिलेंगे (बिना कांट-छांट के)। ऐसे मामले में, प्राप्त जानकारी में एक शोधन खोज करना संभव है और परिणामस्वरूप, अधिक प्रासंगिक डेटा प्राप्त होता है।

आईआरएस को खोज निष्पादन समय, उपयोगकर्ता को प्रदान किए गए इंटरफ़ेस और प्रदर्शित परिणामों के प्रकार की भी विशेषता है। आईआरएस चुनते समय, उनके मापदंडों जैसे कि कवरेज और गहराई पर ध्यान दिया जाता है। अंतर्गत कवरेजखोज इंजन आधार की मात्रा को तीन संकेतकों द्वारा मापा जाता है: अनुक्रमित जानकारी की कुल मात्रा, अद्वितीय सर्वरों की संख्या और अद्वितीय दस्तावेज़ों की संख्या। अंतर्गत गहराईयह समझा जाता है कि पृष्ठों की संख्या या एक सर्वर पर निर्देशिकाओं के नेस्टिंग की गहराई पर कोई सीमा है या नहीं।

इसके अलावा, सूचना पुनर्प्राप्ति के कुछ पहलुओं को वी.ए. द्वारा पुस्तक में शामिल किया गया है। Gvozdeva "स्वचालित सूचना प्रणाली के निर्माण की मूल बातें।" जैसा कि पुस्तक में लिखा गया है, खोज परिणामों को छाँटने के लिए प्रत्येक खोज इंजन का अपना एल्गोरिदम होता है। खोज के परिणामस्वरूप प्राप्त सूची की शुरुआत के करीब, आवश्यक दस्तावेज है, प्रासंगिकता जितनी अधिक होगी और खोज इंजन उतना ही बेहतर काम करेगा। वे सभी आपको कीवर्ड, विषयगत शीर्षकों और यहां तक ​​​​कि व्यक्तिगत अक्षरों का उपयोग करके नेटवर्क पर जल्दी से खोजने की अनुमति देते हैं, उदाहरण के लिए, सभी या लगभग सभी पाठ जहां ये शब्द मौजूद हैं। इस मामले में, उपयोगकर्ता को उन साइटों के पते के बारे में सूचित किया जाता है जहां पाए गए परिणाम लगातार मौजूद होते हैं। हालांकि, उनमें से किसी का भी दूसरों पर भारी लाभ नहीं है। जटिल प्रश्नों के लिए एक विश्वसनीय खोज करने के लिए, विशेषज्ञ क्रमिक रूप से या समानांतर (एक साथ) विभिन्न आईएसएस का उपयोग करने की सलाह देते हैं।

डी.एन. की पुस्तक से कदीवा "सूचना प्रौद्योगिकी और इलेक्ट्रॉनिक संचार" आप "पूर्ण-पाठ खोज इंजन" जैसी अवधारणा के बारे में जान सकते हैं। यह टेक्स्ट के सभी शब्दों को अनुक्रमित करता है जो उपयोगकर्ता को दिखाई देता है। आकृति विज्ञान की उपस्थिति सभी घोषणाओं या संयुग्मों में वांछित शब्दों को खोजना संभव बनाती है। कुछ मशीनें एक निश्चित दूरी पर वाक्यांशों या शब्दों की खोज करने में सक्षम होती हैं, जो अक्सर उचित परिणाम प्राप्त करने के लिए महत्वपूर्ण होता है। इसके अलावा, HTML में ऐसे टैग होते हैं जिन्हें एक खोज इंजन (शीर्षक, लिंक, छवि कैप्शन, आदि) द्वारा भी संसाधित किया जा सकता है। उसी समय, आपको यह जानने की जरूरत है कि इन टैग्स में शामिल किए गए कीवर्ड की संख्या जितनी कम होगी, उतनी ही बार वे साइट के पृष्ठों के टेक्स्ट में पाए जा सकते हैं और इसलिए, उनकी प्रासंगिकता उतनी ही अधिक होती है। ऐसे शब्दों की इष्टतम आवृत्ति 5% से अधिक नहीं है। बहुत सारे कीवर्ड नहीं होने चाहिए, उनमें ज्यादातर एक या दो शब्द होने चाहिए, जो सबसे अधिक इस्तेमाल किए जाने वाले शब्द हैं। जितने अधिक प्रासंगिक खोजशब्द होते हैं, उतने ही अधिक प्रतिस्पर्धी वे खोज इंजन के दृष्टिकोण से दस्तावेज़ देते हैं।

उपयोगकर्ता को उसके द्वारा तैयार किए गए अनुरोध की सटीकता के आधार पर उत्तर की पूर्णता और सटीकता प्राप्त होती है। खोज के परिणामस्वरूप, उसे आमतौर पर उसकी आवश्यकता से अधिक जानकारी प्रदान की जाती है, जिनमें से कुछ उत्पन्न क्वेरी के लिए बिल्कुल भी प्रासंगिक नहीं हो सकते हैं। यह देखना आसान है कि बहुत कुछ न केवल एक अच्छी तरह से तैयार की गई क्वेरी पर निर्भर करता है, बल्कि खोज इंजन की क्षमताओं पर भी निर्भर करता है, जो बहुत अलग हैं। इसी समय, यह तथ्य कि प्राप्त आंकड़ों में मुख्य आवश्यक जानकारी को छोड़ना संभव है, काफी स्पष्ट रूप से प्रकट होता है। अलग-अलग सामान्य शब्दों के रूप में सरल प्रश्न हजारों (सैकड़ों हजारों) दस्तावेजों की निकासी की ओर ले जाते हैं, जिनमें से अधिकांश की आवश्यकता उपयोगकर्ता को नहीं होती है ( सूचना शोर).

एक महत्वपूर्ण पहलू आईएसएस की बहुभाषावाद का समर्थन करने की क्षमता भी है, अर्थात विभिन्न भाषाओं में अनुरोधों को संसाधित करने की क्षमता। इसके अलावा, आमतौर पर पूर्ण-पाठ डेटाबेस में एक रूपात्मक विश्लेषक (आमतौर पर रूसी और अंग्रेजी) का उपयोग करके एक खोज की जाती है, जो स्वचालित रूप से मौजूदा शब्द रूपों को एक शब्द खंड, शब्द, वाक्यांश द्वारा ढूंढता है, भले ही क्वेरी शब्दों में कुछ टाइपो हों।

साथ ही, कोई भी आईपीएस की ऐसी विशेषता का उल्लेख करने में विफल नहीं हो सकता है जैसे कि खोज और संरचना उपकरण कई बार बुलाना खोज इंजन ... के अनुसार आई.एस. एशमनोव ने अपनी पुस्तक "वेबसाइट प्रमोशन इन सर्च इंजन" में लोगों को उनकी जरूरत की जानकारी खोजने में मदद करने के लिए सर्च इंजन का उपयोग किया है। इंटरनेट पर दस्तावेज़ों के बारे में जानकारी एकत्र करने के लिए एजेंट, स्पाइडर, क्रॉलर और रोबोट जैसे खोज टूल का उपयोग किया जाता है। ये विशेष प्रोग्राम हैं जो वेब पर पृष्ठों की खोज करते हैं, इन पृष्ठों पर हाइपरटेक्स्ट लिंक निकालते हैं और डेटाबेस बनाने के लिए उन्हें मिलने वाली जानकारी को स्वचालित रूप से अनुक्रमित करते हैं। दस्तावेज़ों को खोजने और संसाधित करने के तरीके को नियंत्रित करने वाले प्रत्येक खोज इंजन के अपने स्वयं के नियम होते हैं। कुछ लोग हर पेज पर हर लिंक का अनुसरण करते हैं और फिर, बदले में, हर नए पेज पर हर लिंक को एक्सप्लोर करते हैं, और इसी तरह। कुछ लोग ऐसे लिंक्स को नज़रअंदाज़ कर देते हैं जो ग्राफ़िक्स और ध्वनि फ़ाइलें, ऐनिमेशन फ़ाइलें ले जाते हैं; दूसरों को निर्देश दिया जाता है कि वे सबसे पहले सबसे लोकप्रिय पृष्ठों को ब्राउज़ करें। खोज इंजनों का वर्गीकरण ए.ए. वरफोलोमेव द्वारा पुस्तक में सबसे अच्छा प्रस्तुत किया गया है। "सूचना सुरक्षा की बुनियादी बातों":

  • · एजेंटों- खोज टूल का सबसे "बुद्धिमान"। वे केवल खोज के अलावा और भी बहुत कुछ कर सकते हैं: वे आपकी ओर से लेन-देन भी कर सकते हैं। पहले से ही, वे एक विशिष्ट विषय की साइटों की खोज कर सकते हैं और उनकी उपस्थिति के आधार पर क्रमबद्ध साइटों की सूची वापस कर सकते हैं। एजेंट दस्तावेज़ों की सामग्री को संसाधित कर सकते हैं, अन्य प्रकार के संसाधनों को ढूंढ और अनुक्रमित कर सकते हैं, न कि केवल पृष्ठ। उन्हें पहले से मौजूद डेटाबेस से जानकारी प्राप्त करने के लिए भी प्रोग्राम किया जा सकता है। एजेंट इंडेक्स की जानकारी के बावजूद, वे इसे सर्च इंजन डेटाबेस में वापस भेज देते हैं।
  • वेब पर सूचना के लिए सामान्य खोज प्रोग्रामों द्वारा की जाती है जिन्हें के रूप में जाना जाता है मकड़ियों... मकड़ियों पाए गए दस्तावेज़ की सामग्री की रिपोर्ट करते हैं, इसे अनुक्रमित करते हैं और सारांश जानकारी निकालते हैं। वे हेडर, कुछ लिंक भी देखते हैं, और अनुक्रमित जानकारी को सर्च इंजन के डेटाबेस में भेजते हैं।
  • · क्रौलरशीर्षलेखों को देखें और केवल पहला लिंक लौटाएं।
  • · रोबोटोंअलग-अलग घोंसले की गहराई, सूचकांक और यहां तक ​​कि दस्तावेज़ में लिंक की जांच के विभिन्न लिंक का पालन करने के लिए प्रोग्राम किया जा सकता है। उनकी प्रकृति के कारण, वे लूप में फंस सकते हैं, इसलिए लिंक का पालन करते समय उन्हें महत्वपूर्ण वेब संसाधनों की आवश्यकता होती है, हालांकि, रोबोट को उन साइटों पर खोज करने से रोकने के लिए डिज़ाइन किए गए तरीके हैं जिनके मालिक उन्हें अनुक्रमित नहीं करना चाहते हैं।

अंत में, हम कह सकते हैं कि नेटवर्क में आईएसएस, अपनी सभी बाहरी विविधता के साथ, इसके वर्गीकरण द्वारा, जिसे एल.जी. द्वारा पुस्तक में वर्णित किया गया है। गागरिना "स्वचालित सूचना प्रणाली":

वर्गीकरण सूचना पुनर्प्राप्ति प्रणाली

आईएसएस के वर्गीकरण में, सूचना के एक पदानुक्रमित (पेड़-समान) संगठन का उपयोग किया जाता है, जिसे क्लासिफायर कहा जाता है। क्लासिफायरियर के अनुभागों को HEADINGS कहा जाता है। आईएसएस वर्गीकरण का पुस्तकालय एनालॉग एक व्यवस्थित कैटलॉग है। क्लासिफायरियर को लेखकों की एक टीम द्वारा विकसित और बेहतर बनाया गया है। इसके बाद सिस्टम्स नामक विशेषज्ञों की एक अन्य टीम द्वारा इसका उपयोग किया जाता है। टैक्सोनोमिस्ट, क्लासिफायरियर को जानते हुए, दस्तावेज़ों को पढ़ते हैं और उन्हें वर्गीकरण सूचकांक प्रदान करते हैं जो यह दर्शाता है कि ये दस्तावेज़ किस क्लासिफायरियर के वर्गों से मेल खाते हैं।

विषय आईआरएस (वेब-रिंग्स)

उपयोगकर्ता के दृष्टिकोण से, आईएसएस विषय को सरलतम तरीके से व्यवस्थित किया गया है। अपनी रुचि के वांछित विषय के नाम की तलाश करें (विषय कुछ निरर्थक भी हो सकता है, उदाहरण के लिए, भारतीय संगीत), और संबंधित इंटरनेट संसाधनों की सूची नाम के साथ जुड़ी हुई है। यह विशेष रूप से उपयोगी होगा यदि वस्तुओं की पूरी सूची छोटी है।

शब्दावली आईपीएस

वर्गीकरण आईआरएस के उपयोग से जुड़ी सांस्कृतिक समस्याओं ने एक सामान्यीकृत अंग्रेजी नाम के साथ एक शब्दकोश-प्रकार आईआरएस का निर्माण किया खोज इंजन... शब्दकोश आईआरएस का मुख्य विचार इंटरनेट दस्तावेजों में पाए जाने वाले शब्दों का एक शब्दकोश बनाना है, जिसमें प्रत्येक शब्द के लिए, दस्तावेजों की एक सूची जिसमें से दिया गया शब्द लिया गया है, संग्रहीत किया जाएगा।

ए.यू. द्वारा पुस्तक की जानकारी के आधार पर। केलीना "सूचना सुरक्षा के बुनियादी सिद्धांत", आप यह पता लगा सकते हैं कि आईआरएस शब्दकोश के संचालन के लिए दो मुख्य एल्गोरिदम हैं: कीवर्ड का उपयोग करना और वर्णनकर्ताओं का उपयोग करना ( डिस्क्रिप्टर - सूचना पुनर्प्राप्ति भाषा की एक शाब्दिक इकाई (शब्द, वाक्यांश) जो किसी दस्तावेज़ की मुख्य शब्दार्थ सामग्री का वर्णन करने के लिए कार्य करती है या सूचना पुनर्प्राप्ति प्रणाली में दस्तावेज़ (सूचना) की खोज करते समय एक क्वेरी तैयार करती है।) पहले मामले में, दस्तावेज़ की सामग्री का मूल्यांकन करने के लिए, केवल उन शब्दों का उपयोग किया जाता है जो इसमें होते हैं, और अनुरोध पर, आईआरएस क्वेरी से शब्दों की तुलना दस्तावेज़ के शब्दों से करता है, संख्या, स्थान द्वारा इसकी प्रासंगिकता निर्धारित करता है। , और दस्तावेज़ में क्वेरी से शब्दों का वजन। आईआरएस, ऐतिहासिक कारणों से, विभिन्न संशोधनों में इस एल्गोरिथम का उपयोग करता है।

अपने अच्छे काम को नॉलेज बेस में भेजें सरल है। नीचे दिए गए फॉर्म का प्रयोग करें

छात्र, स्नातक छात्र, युवा वैज्ञानिक जो अपने अध्ययन और कार्य में ज्ञान के आधार का उपयोग करते हैं, वे आपके बहुत आभारी रहेंगे।

इसी तरह के दस्तावेज

    इंटरनेट पर डेटा भंडारण। हाइपरटेक्स्ट दस्तावेज़, फ़ाइलों के प्रकार। ग्राफिक फाइलें, उनके प्रकार और विशेषताएं। खोज इंजन और सूचना खोज नियम। इंटरनेट के खोज इंजनों का सर्वेक्षण। सर्च इंजन Yandex, Google, Rambler के बारे में सब कुछ।

    टर्म पेपर, जोड़ा गया ०३/२६/२०११

    इंटरनेट पर सूचना खोज उपकरण। बुनियादी आवश्यकताएं और सूचना पुनर्प्राप्ति के तरीके। खोज सेवाओं की संरचना और विशेषताएं। वैश्विक खोज इंजन WWW (वर्ल्ड वाइड वेब)। इंटरनेट पर जानकारी की खोज और संग्रह की योजना बनाना।

    सार, जोड़ा गया 11/02/2010

    इंटरनेट पर जानकारी खोजने के तरीकों की विशेषताएं, अर्थात् हाइपरटेक्स्ट लिंक, खोज इंजन और विशेष उपकरण का उपयोग करना। नए इंटरनेट संसाधनों का विश्लेषण। पश्चिमी और रूसी भाषा के खोज इंजनों के उद्भव और विवरण का इतिहास।

    सार, जोड़ा गया 05/12/2010

    इंटरनेट के निर्माण की संरचना और सिद्धांत, उसमें जानकारी खोजना और संग्रहीत करना। सूचना पुनर्प्राप्ति प्रणालियों के उद्भव और वर्गीकरण का इतिहास। Google, Yandex, Rambler, Yahoo खोज इंजनों के संचालन और विशेषताओं का सिद्धांत। यूआरएल के आधार पर खोजें।

    टर्म पेपर, जोड़ा गया 03/29/2013

    खोज इंजन की विशेषताएं यांडेक्स, गूगल, रामब्लर: समानताएं और अंतर, फायदे और नुकसान। कई शब्दों, सॉफ़्टवेयर उत्पादों की परिभाषा खोजें। दिशाओं के बारे में जानकारी के लिए खोजें: समारा के लिए लेखक और कवि, उनके काम, विज्ञान के डॉक्टर।

    परीक्षण, जोड़ा गया 08/22/2011

    काम की अवधारणा और सिद्धांत, आंतरिक संरचना और तत्व, खोज इंजन "रैम्बलर" के गठन और विकास का इतिहास। अनुसंधान और विश्लेषण, साथ ही इंटरनेट पर आर्थिक जानकारी खोजने के लिए इस खोज इंजन की प्रभावशीलता का मूल्यांकन।

    टर्म पेपर 05/10/2015 को जोड़ा गया

    वर्ल्ड वाइड वेब पर डेटा स्टोर करने के तरीके और उपकरण। हाइपरटेक्स्ट दस्तावेजों और ग्राफिक फाइलों की अवधारणा और किस्में। खोज इंजन के सिद्धांत और आपके लिए आवश्यक जानकारी खोजने के नियम। वेब पर कुछ सर्च इंजन की विशेषताएं।

    टर्म पेपर, जोड़ा गया ०४/१८/२०१०

इसे साझा करें