Všeobecné informácie.

V súčasnosti internet spája stovky miliónov serverov, na ktorých sa nachádzajú miliardy rôznych stránok a jednotlivé súbory obsahujúce rôzne druhy informácií. Toto je obrovské úložisko informácií. Existuje mnoho spôsobov vyhľadávania informácií na internete.

Vyhľadajte známu adresu. Potrebné adresy sú prevzaté z adresárov. Ak poznáte adresu, stačí ju zadať do panela s adresou v Prehliadači.

www.gov.ru je serverom ruských štátnych orgánov.

Konštrukcia adresy používateľom. Ak poznáte systém vytvárania adresy na internete, môžete pri hľadaní webových stránok vytvárať adresy.

K kľúčovému slovu musí byť pridaná tematická alebo geografická doména (názov spoločnosti, podniku, organizácie alebo jednoduché podstatné meno v angličtine) a musí byť zahrnutá intuícia.

Adresy komerčných webových stránok:

www.cnn.com (CNN World News),

www.sony.com (firma SONY),

www.mtv.com (Hudobné správy MTV).

Adresy vzdelávacích inštitúcií:

www.ntu.edu (Americká národná univerzita).

Adresy regionálnych serverov:

www.poland.net (Poľsko),

www.israil.net (Izrael).

Internetové vyhľadávače

Na vyhľadávanie informácií na internete boli vyvinuté špeciálne systémy na vyhľadávanie informácií. Vyhľadávače majú spoločnú adresu a zobrazujú sa ako webová stránka obsahujúca špeciálne nástroje na organizáciu vyhľadávania (hľadaný reťazec, adresár predmetu, odkazy). Ak chcete zavolať vyhľadávač, zadajte jeho adresu do panela s adresou v prehliadači.

Podľa spôsobu organizácie informácií sa systémy na vyhľadávanie informácií delia na dva typy: klasifikáciu (mazače) a slovník.

Rubikátory (klasifikátory) sú vyhľadávače, ktoré používajú hierarchickú (stromovú) organizáciu informácií. Pri vyhľadávaní informácií používateľ prezerá tematické nadpisy a postupne zužuje vyhľadávacie pole (napríklad ak potrebujete nájsť význam slova, najskôr musíte v klasifikátore nájsť slovník a potom nájsť požadované slovo. v ňom).

Vyhľadávače slovníkov sú výkonné automatické hardvérové a softvérové systémy. S ich pomocou sa zobrazujú (skenujú) informácie na internete. Údaje o umiestnení týchto alebo týchto informácií sa zadávajú do špeciálnych indexov referenčných kníh. V reakcii na dopyt sa vykoná vyhľadávanie podľa reťazca dotazu. Vďaka tomu sa používateľovi ponúknu adresy (URL), na ktorých sa hľadané slovo alebo skupina slov v čase skenovania našli. Výberom ktoréhokoľvek z navrhovaných odkazov na adresy URL môžete prejsť na nájdený dokument. Väčšina moderných vyhľadávacích nástrojov je zmiešaná.

Najznámejšie a najobľúbenejšie vyhľadávače:

www.aport.ru www.yahoo.com www.rambler.ru www.yandex.ru www.altavista.com www.google.com

Existujú systémy špecializujúce sa na vyhľadávanie informačných zdrojov v rôznych oblastiach.

Vyhľadávanie ľudí na internete:

www.whowhere.ru ww. bigfoot.com

Vyhľadávanie diskusných skupín (Usenet):

www.dejanews.com

Vyhľadávače tém:

Vyhľadajte softvér:

Hľadať v archívoch súborov:

http: // ftpseach. city.ru, http: // ftpsearch. licos.com

Adresáre (tematické zbierky odkazov s anotáciami):

http://www.atrus.ru

Efektívne vyhľadávanie informácií možno často vykonať pomocou regionálnych adresárov - špecializovaných serverov obsahujúcich údaje o podnikoch alebo webových zdrojov mesta alebo regiónu. Napríklad pre Petrohrad sa takýto adresár nachádza na adrese http://www.spb.ru.

Zoznam IPS možno nájsť na www.monk. newmail.ru

Podrobnejší zoznam vyhľadávacích nástrojov a adresárov je uvedený v tabuľke. 3.2.

Požiadajte o pravidlá vykonania

V každom vyhľadávacom nástroji môžete v sekcii Pomocníka získať informácie o tom, ako hľadať, ako zostaviť reťazec dotazu. Nasledujú informácie o typickom „priemernom“ dotazovacom jazyku.

Jednoduchá požiadavka.

Zadajte jedno slovo definujúce tému vášho hľadania. Napríklad do vyhľadávača Rambler.ru stačí zadať: automatické.

Existujú dokumenty obsahujúce slová uvedené v žiadosti. Uznávajú sa všetky formy slov v ruskom jazyku, prípad písmen sa spravidla ignoruje.

V dotaze môžete použiť znak „*“ alebo „?“. Podpísať „?“ jeden znak je nahradený kľúčovým slovom, ktoré je možné nahradiť ľubovoľným písmenom, a znak „*“ je postupnosťou znakov.

Napríklad dotaz automatický * vám umožní nájsť dokumenty, ktoré obsahujú slová automatický, automatický atď.

Komplexná požiadavka.

Pre získanie konkrétnejších informácií je často potrebné kombinovať kľúčové slová. V tomto prípade sa používajú ďalšie prepojovacie slová, funkcie, operátory, symboly, kombinácie operátorov oddelené zátvorkami.

Napríklad dotaz hudba & (beatles | beatles) znamená, že používateľ hľadá dokumenty obsahujúce slová hudba a beatles alebo hudba a beatles.

Tabuľka 3.1 zobrazuje pravidlá pre generovanie dotazov prijaté v systéme Aport (http://www.aport.ru).

Tabuľka 3.1

Operátory generovania dotazov

Prevádzkovateľ	Synonymá	Komentár
A	A &	Vyhľadávanie nájde dokumenty obsahujúce obe kľúčové slová. Nemusíte to písať. Napríklad dopyt: informatika a učebnica je ekvivalentný s učebnicou informatiky
ALEBO	ALEBO \|	Hľadajú sa dokumenty, v ktorých sa súčasne používa ktorékoľvek z uvedených slov alebo obidve slová
NIE	NIE - ~	Vyhľadávanie je obmedzené na dokumenty, ktoré neobsahujú slovo uvedené za operátorom
" "	" "	Dvojité alebo jednoduché úvodzovky vám umožňujú nájsť frázu
Dátum =	dátum: dátum =	Vyhľadávanie je obmedzené na dokumenty, ktoré spadajú do zadaného rozsahu dátumov. Príklad 1. Dátum meny = 01/02 / 2002-01 / 03/2002. Na základe tejto žiadosti budú vydané dokumenty obsahujúce slovo „mena“, ktoré majú dátum od 1. februára 2002 do 1. marca 2002. Príklad 2. dátum = 01/03/2002 mena Príklad 3. dátum:<02/03/2002 валюта

Tabuľka 3.2

Zoznam vyhľadávacích nástrojov a adresárov

Adresa	Popis
www.excite.com	Vyhľadávač s recenziami stránok a sprievodcami
www.alta-vista.com	Vyhľadávací server, k dispozícii sú možnosti pokročilého vyhľadávania
www.hotbot.com	Vyhľadať server
www.poland.net www.israil.net	Regionálne vyhľadávacie servery v Poľsku a Izraeli
www.ifoseek.com	Vyhľadávač (ľahko použiteľný)
www.ipl.org	Knižnica Internet Publik, verejná knižnica prevádzkovaná v rámci projektu World Village
www.wisewire.com	WiseWire - vyhľadávanie umelej inteligencie
www.webcrawler.com	WebCrawler - vyhľadávací nástroj, jednoduché použitie
www.yahoo.com	Webový adresár a rozhranie na prístup k fulltextovému vyhľadávaniu na serveri AltaVista
www.aport.ru	Aport - vyhľadávací server v ruskom jazyku
www.yandex.ru	Yandex - ruský vyhľadávací server
www.rambler.ru	Rambler - vyhľadávací server v ruskom jazyku
Zdroje online pomoci
www.yellow.com	Zlaté stránky internetu
mních. newmail.ru	Vyhľadávače rôznych profilov
www.top200.ru	Najlepších 200 webových stránok
www.allru.net
www.ru	Katalóg ruských internetových zdrojov
www.allru.net/z09. htm	Vzdelávacie zdroje
www.students.ru	Server ruských študentov
www.cdo.ru/index_new. asp	Centrum dištančného vzdelávania
www.open. ac. uk	Otvorená univerzita vo Veľkej Británii
www.ntu.edu	Americká národná univerzita
www.translate.ru	Elektronický prekladač textu
www.pomorsu.ru/guide. library.html	Zoznam odkazov na sieťové knižnice
www.elibrary.ru	Vedecká elektronická knižnica
www.citforum.ru	Digitálna knižnica
www.infamed.com/psy	Psychologické testy
www.pokoleniye.ru	Internetová federácia pre vzdelávanie na internete
www.metod. narod.ru	Vzdelávacie zdroje
www.spb. osi.ru/ic/distant	Dištančné vzdelávanie na internete
www.examen.ru	Skúšky a testy
www.kbsu.ru/~book/	Učebnica informatiky
Mega. km.ru	Encyklopédie a slovníky

Vyhľadávanie informácií na internete: úskalia

Problémy, ktoré neležia na povrchu, sa často prejavia iba „s odstupom času“ po dokončení určitej etapy vyhliadkovej práce a prípadne na základe jej výsledkov už bolo prijaté určité rozhodnutie. Čo bráni tomu, aby bola situácia transparentná od samého začiatku prevádzky toho alebo onoho systému na získavanie informácií (ISS)? Odpoveď je celkom jednoduchá: nedostatok komplexných informácií tohto druhu na strane vývojára. Priamym dôsledkom toho je nepresnosť prijatých údajov a ich nekontrolovaná strata. Je zriedkavé nájsť na webe vyhľadávací nástroj, ktorý nemá niektoré „nedokumentované“ funkcie. Zdá sa, že používateľ nepotrebuje toľko informácií, konkrétne:

ako je plnenie databázy ISS a aký je jej objem;

úplná škála možností systému v jazykoch vyhľadávania;

hlavné črty prezentácie výsledkov vyhľadávania, v prvom rade algoritmus na hodnotenie záznamov zo zoznamu odpovedí na vyhľadávací dotaz.

Bohužiaľ, zdrojom takýchto informácií zvyčajne nie je dokument dostupný na domovskej stránke vyhľadávača, ale publikácie jednotlivých autorov roztrúsené po webe, knihy a počítačové časopisy. Dôvody tohto stavu vecí zjavne možno pripísať nielen nedbanlivosti vývojára, ale aj faktoru zvanému marketingová politika. Jednoducho povedané, poskytnutie najkompletnejších informácií o sebe vyhľadávaču nemusí mať vždy pozitívny vplyv na jeho hodnotenie. Napriek tomu je v niektorých prípadoch používateľ celkom schopný prevziať kontrolu nad situáciou. Často je možné pomocou testovania zistiť zvláštnosti práce vybranej vyhľadávacej služby. Konštrukcia špeciálnych testovacích dotazov, ktoré rýchlo objasnia presne ten aspekt fungovania systému, ktorý je najdôležitejší pre aktuálnu úlohu, sa v mnohých prípadoch ukazuje ako nenáročný. Našu diskusiu budeme venovať tomu, ako sa vyhnúť problémom pri práci s IPS. Známe internetové vyhľadávače budú považované za príklady na ilustráciu prezentácie.

Pamäť počítača obsahuje informácie uložené ako dátový tok. Informácie môžu byť logicky usporiadané do súborov so záznamami v súboroch a jednotlivými položkami v záznamoch. Keď sú súbory takto usporiadané v databáze, každý záznam obsahuje identifikačný štítok alebo kľúč. Môže to byť číselný kód, meno alebo dátum.

Pri hľadaní záznamu počítač priamo alebo postupne, v závislosti od spôsobu uloženia údajov, zavolá dátové položky a skontroluje, či obsahujú správny kľúč. Ak sú údaje uložené na páske, sú súbory usporiadané postupne; ak sú údaje uložené na disku alebo pevnom disku, je k nim možný priamy alebo následný prístup.

Program na vyhľadávanie základných informácií. Keď kláves otvorí záznam, počítač naskenuje pamäť a zobrazí záznam.

Údaje uložené na magnetických diskoch

Stopy na magnetickom disku ukladajú nielen údaje, ale aj dátové adresy, vďaka čomu má počítač priamy prístup k informáciám. Pri hovore na obrázku nižšie sú dátové adresy zaznamenané v oblasti počítania a obsah kľúčových prvkov v oblasti klávesov.

Vyhľadávací program sa zapne po zadaní kľúča. V súboroch s priamou organizáciou vyhľadávací program zistí adresu údajov z kľúča, prijme informácie a nariadi operačnému systému, aby údaje prečítal.

Obrazovka vyhľadávania informácií umožňuje operátorovi získať informácie jednoduchým výberom položky z ponuky bez použitia klávesu.

HDD pozostáva z niekoľkých okrúhlych dosiek zostavených na jednej osi. Valec je tvorený dráhami, z ktorých každá zaujíma na každej doske rovnakú polohu. Valce sú očíslované zvonka dovnútra a dráhy valcov sú očíslované zhora nadol. Teda adresa jednej dátovej položky bude valec xx, track yy.

Ako prebieha vyhľadávanie

1. Sekvenčné vyhľadávanie.

Počítač skenuje údaje v presnom poradí. Čím väčšie je množstvo údajov, tým nižšia je účinnosť tejto metódy.

2. Priame vyhľadávanie.

Umiestnenie požadovaných údajov sa zistí pomocou klávesu. Preto musia byť údaje uložené v oblasti kľúčov.

3. Dvojité vyhľadávanie.

Údaje by mali byť usporiadané v rovnakom poradí ako kľúče. Vyhľadávanie začína kontrolou stredných údajov, aby sa určilo, či sa požadované údaje nachádzajú pod horným alebo spodným klávesom. To zúži hľadanie na polovicu.

Vyhľadávanie informácií na internete sa vykonáva dvoma hlavnými spôsobmi - pomocou adresárov (nazývaných tiež adresáre) a pomocou vyhľadávacích nástrojov.

Adresáre poskytujú kontextové vyhľadávanie štruktúrovaného prehliadania, zatiaľ čo vyhľadávacie nástroje, ako naznačuje ich názov, neposkytujú kontext, ale nachádzajú konkrétne slová alebo frázy.

Adresáre môžu byť ako obsah knihy a vyhľadávacie nástroje sú ako vecný register.

Vyhľadávače často kombinujú vyhľadávací nástroj aj adresáre.

Jasne to vidno na príklade prvej stránky Yandexu, kde je pod vyhľadávacím panelom umiestnený zoznam adresárov, ktoré umožňujú používateľovi spresniť dopyt, keď sa dostane hlbšie do každého z nich.

Vzhľadom na skutočnosť, že princíp organizácie adresárov je zrozumiteľný pre každého, kto použil knižničný katalóg - a medzi čitateľmi takýchto kníh, dovolíme si predpokladať, že drvivá väčšina - sa nebudeme pozastavovať nad technikou práce s adresármi a bude venovať väčšiu pozornosť práci s vyhľadávačmi. Na konci rozhovoru o adresároch uvedieme príklad „reťazca“, pozdĺž ktorého sa hľadá v adresári Yandex: Obchod> Reklama> Internetová reklama.

Všetky vyhľadávače pracujú podľa rovnakého algoritmu a sú založené na rovnakých princípoch. Rozdiely medzi nimi vznikajú iba na úrovni technickej implementácie týchto zásad v práci.

Aby sme pochopili, ako funguje vyhľadávací nástroj, skúsme otázku rozdeliť na dve časti: na čom je vyhľadávanie založené a ako je implementované.

Na čom je hľadanie založené

Všetky vyhľadávače sú založené na troch základných operátoroch, ktoré sú základom booleovskej algebry (nazýva sa tiež booleovská logika alebo booleovská logika).

Jedná sa o logické operátory „AND“, „OR“ a „NOT“. Fungujú nasledovne.

1. Logické „AND“. Ak je v dotaze operátor AND medzi dvoma slovami, potom vyhľadaním nájdete iba dokumenty, ktoré obsahujú obe slová. Ak napríklad hľadáte psa A Mačku, nájde sa dokument obsahujúci vetu „Pes prenasledoval mačku“ dokumenty pozostávajúce z textu „Mačka odpočívala“ alebo „Psie jedlo“ neuvidíme.

2. Logické „ALEBO“. Ak je medzi slovami operátor ALEBO, výsledkom vyhľadávania budú dokumenty obsahujúce aspoň jedno z týchto slov.

Ak neurobíme špeciálne obmedzujúce výhrady, potom sa nájdu aj materiály, v ktorých sú obidve tieto slová.

Na požiadanie psa alebo Mačky dostaneme dokumenty vylúčené z predchádzajúcej žiadosti a obsahujúce text „Mačka odpočívala“ alebo "psie žrádlo", ako aj materiál s návrhom „Pes prenasledoval mačku.“

3. Logické „NIE“. Ak dva predchádzajúce operátory opísali slová, ktoré chcete zahrnúť do dotazu, operátor NOT vylúči slová z dotazu. Používatelia, ktorí sa s operátormi dotazov stretnú prvýkrát, často vyjadrujú prekvapenie: hovoria, nie je to jednoduchšie a už vôbec nie zahrnúť do dotazu nepotrebné slovo? Prečo zaviesť ďalšieho operátora? Bohužiaľ nie. Nie je to jednoduchšie.

V skutočnosti, aby sme pochopili dôležitosť logického operátora NOT, je rozumné pamätať na to, že náš dopyt nevytvára na internete nič nové. Lovíme iba to, čo potrebujeme, z existujúceho obrovského, ale stále konečného radu. V takom prípade je potrebné obmedziť informačný odpad. Odrezali sme to pomocou operátora „NIE“. Žiaľ, nie je na nás, aby sme sa rozhodli, či tento odpad uvidíme v SERP. Takže napríklad na základe žiadosti o informácie o hrebeni strechy sa vždy objavia informačné odpadky vo forme dokumentov o malom hrboľatom koni, krasokorčuľovaní, hokeji, koňoch atď. Bez logického „NIE“ sa nezaobídete.

Pozrime sa na niekoľko príkladov toho, ako funguje logický operátor NOT.

Ak hľadáte psa, NIE mačku, nájde sa dokument obsahujúci text "psie žrádlo", a tu sú dokumenty so slovami „Mačka odpočívala“ alebo „Pes prenasledoval mačku“ a dokonca „Krmivo pre psy a mačky“ bude z vydania vylúčený.

Často sa stretávame s trochu zložitejšou verziou dotazu, ktorý obsahuje všetky alebo takmer všetky vyššie uvedené operátory. V tomto prípade je lepšie použiť prvok, ako sú zátvorky. Konzoly umožňujú oddeliť slová dotazu rovnakého typu od ostatných. Samotný prekladač je navyše vizuálne oveľa pohodlnejšie rozlišovať medzi jednotlivými fragmentmi požiadavky. Nebudeme príliš teoretizovať o zátvorkách, ale jednoducho ukážeme, ako tento prvok funguje na konkrétnych príkladoch. Podľa nášho názoru to objasní, ako a na čo sa zátvorky používajú.

Požiadajte teda o nadýchané AND (psy ALEBO mačky)

vám umožní získať dokumenty týkajúce sa tak nadýchaných psov, ako aj nadýchaných mačiek - samostatne alebo spoločne. V tomto prípade sa zátvorky „otvárajú“ podľa obvyklých aritmetických pravidiel pre vynášanie spoločného faktora z hranatej zátvorky (pre tých, ktorí nemajú radi matematiku, sa ponáhľame povedať, že sa do nej ďalej nebudeme venovať). Žiadosť je však nadýchaná A (psy ALEBO mačky) NIE (psy A Mačky)

vydá dokumenty, v ktorých sa píše o nadýchaných psoch alebo nadýchaných mačkách, ale nebude obsahovať texty, kde budú súčasne spomenuté mačky aj psy.

Ešte raz opakujeme, všetky dnešné vyhľadávače fungujú na základe analýzy týchto troch operátorov, aj keď nuansy ich písania v rôznych vyhľadávačoch sa môžu líšiť.

Ako je vyhľadávanie implementované

Každý plnohodnotný vyhľadávací nástroj má svojho vlastného personálu robotov alebo pavúkov. Tiež sa im hovorí crawler a pavúk. Jedná sa o programy, ktoré preskakujú zo stránky na stránku a skenujú texty na nich bez toho, aby sa ponorili do ich obsahu. Potom odhodia dokumenty na servery svojich pánov a prejdú na ďalšie stránky. Ako pavúk určí, kam má ísť? Nájde takzvaný hypertextový odkaz (ten, ktorý pri umiestnení kurzora nad ktorý má kurzor formu otvorenej dlane a po kliknutí na ktorý dôjde k prechodu na inú stránku) a sleduje ho. To je dôvod, prečo, ak na stránku nevedie žiadny odkaz, pavúk na ňu tiež nepríde. Výnimkou je situácia, keď vlastník stránky o tom bude ručne informovať vyhľadávací nástroj vyplnením špeciálneho formulára na webovej stránke vyhľadávača.

Na serveri vyhľadávacieho nástroja je text rozdelený na samostatné slová, každému z nich sú priradené súradnice, ktoré sa potom zadajú do tabuľky servera spolu s odkazom na internetovú adresu, na ktorú bol text v čase zverejnenia navštívil ho pavúk.

Samotný vyhľadávač je veľká lokálna sieť pozostávajúca z výkonných počítačov s obrovským množstvom diskovej pamäte. Tieto stroje sú rozdelené do podskupín (nazývaných klastre), medzi ktoré sú distribuované informácie zhromaždené pavúkmi.

Keď vyhľadávač dostane požiadavku, hľadá odpoveď v svojej tabuľke, nie na internete.

Je dôležité pochopiť, ako sa pavúk rozhoduje, ako často by mal navštíviť konkrétnu stránku. Tento algoritmus vyzerá približne nasledovne. Po práci so stránkou sa na ňu pavúk vráti napríklad po dvoch týždňoch. A ak vidí, že nedošlo k žiadnym zmenám, plánuje ďalšiu návštevu po dlhšom období - povedzme o mesiac. A ak ani potom neobjaví nič nové, potom sa sem vráti ešte neskôr, o mesiac a pol alebo dva.

Preto sa často stáva, že vyhľadávací nástroj poskytne na požiadanie výsledok a pokus prejsť na stránku pomocou prijatého odkazu je neúčinný - s najväčšou pravdepodobnosťou žiadna stránka jednoducho neexistuje na tom istom mieste, ale pavúk nie ho dlho navštevoval, a preto vyhľadávací nástroj, ktorý systém nevie o jeho odstránení.

Celý komplex procesov opísaných vyššie sa nazýva indexovanie.

História vývoja vyhľadávacích nástrojov

Dejiny vývoja vyhľadávacích nástrojov sú podľa nášho názoru najkompletnejšie predstavené v knihe „The Invisible Internet“ od renomovaných odborníkov v oblasti neviditeľného internetu Chrisa Shermana a Harryho Pricea.

Do polovice 60. rokov bolo počítačov málo. Izolovaní jeden od druhého si nemohli vymieňať informácie.

V roku 1962 profesor Licklider z poprednej americkej technickej univerzity - Massachusetts Institute of Technology - sformuloval koncept globálnej počítačovej siete „Galactic Network“. Túto myšlienku začal realizovať zamestnanec amerického ministerstva obrany Larry Robberts, ktorý štyri roky po uverejnení článku profesora navrhol spojiť jednotlivé počítače ministerstva do siete, ktorú opísal Licklider. To sú predpoklady pre vznik siete ARPANET, ktorá sa potom zmenila na to, čomu sa dnes hovorí internet. Prvý uzol ARPANET sa objavil v roku 1969 a v priebehu niekoľkých nasledujúcich rokov boli k nemu pripojené univerzity a rôzni dodávatelia pracujúci na objednávkach americkej armády.

V roku 1973 americké ministerstvo obrany iniciovalo nový program na zabezpečenie spoľahlivej vzájomnej komunikácie počítačov pomocou veľmi veľkého množstva rôznych pripojení. Cieľom tohto riešenia bolo zvýšiť odolnosť systému voči pokusom o masívne narušenie elektronickej komunikácie. Keďže k tomu všetkému došlo počas studenej vojny, išlo o odolnosť voči hrozným následkom, ktoré hrozili strategickou jadrovou konfrontáciou. Pretože „ARPANET“ bola jediná sieť, ktorá na systémovej úrovni znižovala svoju schopnosť odolávať zničeniu, vznikla myšlienka vytvoriť „sieť sietí“, ktorá by teoreticky mohla byť nekonečne veľká. Tento projekt sa nazýval „Internetting“ a samotná sieť sa nazývala „Internet“.

Keďže počet počítačov pripojených k internetu narastal, objektívne sa stala naliehavou otázka potreby nástrojov, ktoré by umožňovali ľahké vyhľadávanie textových a iných súborov na vzdialenom počítači, ideálne kdekoľvek na internete.

Prístup k súborom v najskorších fázach vývoja internetu bol vykonaný v dvoch fázach, z ktorých každá bola vykonaná ručne: špeciálne príkazy boli zadávané z klávesnice. Mimochodom, potom mohli počítače ovládať iba špecialisti, ktorí mohli zadávať príkazy do príslušného riadku. Grafické rozhranie, ktoré umožňuje nepripravenej osobe pohodlne pracovať so strojom, ešte nebolo vynájdené. Takže najskôr bolo pomocou programu Telnet nadviazané priame spojenie s počítačom, na ktorom je požadovaný súbor. V tejto fáze sa nadväzovalo iba spojenie, v tej chvíli sa neprenieslo nič a nikde. A až potom pomocou špeciálneho programu - FTP - bolo možné vziať tento konkrétny súbor.

Je zrejmé, že nájdenie správneho dokumentu zabralo veľa času: bolo potrebné poznať presnú adresu počítača, na ktorom sa nachádza.

Medzitým sa spisy stávali čoraz viac, záujem o ne neustále stúpal a na zistenie adresy jedného z nich bolo zvyčajne potrebné kontaktovať diskusné skupiny so žiadosťou o pomoc a v nádeji, že jeden z účastníkov navrhnúť vyhľadávanú adresu, na ktorej sú uložené potrebné informácie.

Vďaka tomu sa začali objavovať špeciálne servery FTP, ktoré boli úložiskom súborov organizovaných v adresári, na princípe ukladania informácií do osobného počítača. Takéto servery existujú dodnes.

Prvý funkčný nástroj na získavanie súborov s otvoreným zdrojovým kódom pre súbory uložené na serveroch FTP sa nazýval Archie a bol vytvorený v roku 1990 skupinou systémových administrátorov a starších študentov na McGill University v Montreale. Archie bol prototypom dnešných vyhľadávacích nástrojov, ale oveľa primitívnejší a obmedzenejšími možnosťami. Surfoval po internete, hľadal súbory na rôznych FTP serveroch a nahral zoznam adresárov z každého servera, ktorý našiel, na svoj vlastný a vytvoril zdieľaný adresár.

Tento katalóg bol potom spracovaný a uložený v centrálnej databáze, v ktorej bolo možné organizovať vyhľadávania. V tom čase už vyhľadávanie na vlastnom počítači existovalo dlhší čas a napriek tomu, že vyžadovalo aj zadávanie príkazov, nespôsobovalo žiadne ťažkosti v práci. Bez špeciálneho školenia však človek nemohol plne využívať počítač. Databázu hostila McGill University a aktualizovala sa každý mesiac.

V roku 1991 tím Marka McCahilla z University of Minnesota vytvoril program Golden Gopher, ktorý kombinuje protokoly Telnet a FTP. Všetko, čo používateľ musel urobiť, aby získal prístup k požadovaným informáciám, bolo kliknúť na hypertextový odkaz uvedený v ponuke. Prvýkrát v histórii teda nebolo potrebné zadávať žiadne príkazy, takže odteraz sa ľudia mohli „túlať“ po internetových zdrojoch bez špeciálneho školenia.

Program ukazoval používateľovi postupne sa objavujúce podrobné menu, ktoré mu umožňovalo bez problémov prejsť hlboko do adresárovej základne a priblížiť sa a priblížiť ku konkrétnym dokumentom, ktoré boli účelom vyhľadávania. Tento algoritmus je v skutočnosti dnes zachovaný v adresároch umiestnených na internete.

Bolo možné prijímať textové aj grafické a hudobné dokumenty bez toho, aby boli viazané na nejaký konkrétny formát. A čo je najdôležitejšie, v zásade je možné ľahko nájsť a prijať potrebné informácie na internete.

Problémy však stále zostali. Jeden z nich, a to celkom vážny, bol spojený s tým, že počítače boli postavené na rôznych platformách, ktoré si niekedy nerozumeli. Tu môžete nakresliť analógiu s ľuďmi, ktorí hovoria úplne inými jazykmi, a preto nevedia nadviazať viac či menej zmysluplnú konverzáciu. V tých časoch si navzájom konkurovali nie operačné systémy, ako tomu je teraz, ale výrobcovia počítačového hardvéru. Dnes už nie je také dôležité, kto počítač vyrobil. Oveľa dôležitejšie je to, čo je na ňom nainštalované: Windows, Linux, Mac OS alebo iný systém. A potom to boli výrobcovia hardvéru, ktorí definovali tvár internetu.

Objektívne vznikala myšlienka, podľa ktorej by počítače rôznych platforiem mali byť schopné pracovať v jednom protokole, ktorý by umožňoval prezeranie stránok bez ohľadu na konkrétny stroj, na ktorom boli tieto stránky vytvorené. Bolo potrebné vymyslieť taký univerzálny protokol a urobiť ho užívateľsky prívetivým. Prvý človek, ktorý hádal, že skombinuje jednoduchú formu hypertextu, ktorá bola v tom čase známa, s univerzálnymi komunikačnými protokolmi, bol Tim Berners-Lee.

Aby mal používateľ k dispozícii jednoduchý, ale na platforme nezávislý nástroj, vytvoril Berners-Lee HTML (HyperText Markup Language, tj. Hypertextový značkovací jazyk). Všetky webové dokumenty formátované pomocou značiek HTML sú viditeľné úplne rovnaké na celom svete bez ohľadu na typ počítača, na ktorom osoba otvorila webovú stránku. Preto si aj dnes pri preklade súboru do formátu HTML, napríklad na počítači s operačným systémom MacOS, môžete byť istí, že súbor bude na počítači so systémom Windows vyzerať úplne rovnako.

Berners-Lee potom prišiel s Universal Resource Identifier, metódou štandardizácie adries, ktorá prideľuje počítačom na internete jedinečné adresy (dnes im hovoríme URL, čo je používateľ, ktorý je oboznámený, zvyčajne začína „www“). Nakoniec vynálezca dal všetky tieto prvky dokopy vytvorením systému vo forme webových serverov, ktoré ukladajú dokumenty HTML a prezentujú ich iným počítačom tak, že na príslušné adresy URL vytvára požiadavky na dokumenty vo formáte HTML.

Berners-Lee však chcel vidieť internet ako informačný priestor, v ktorom je voľný prístup ku všetkým typom údajov. V raných fázach vývoja globálneho webu prevládali jednoduché textové dokumenty HTML. Do tej doby existovali systémy na vyhľadanie informácií na lokálnych strojoch, takže sa objavilo niekoľko serverov, ktoré sa pokúsili indexovať časť webových stránok a predtým, ako niečo vyhľadajú na internete, ponúkli vyhľadanie potrebných informácií na týchto serveroch.

Hlavným problémom bolo zároveň nájsť stránky, ktoré by sa v zásade dali indexovať. Pretože na internete chýba centralizovaná štruktúra a spoločný obsah, jediným spôsobom, ako to dosiahnuť, bolo nájsť odkaz na stránku a nasledovať tento odkaz a potom pridať nájdený zdroj do indexu.

Onedlho však nastal ďalší problém. Najpopulárnejšie stránky navštevovali pavúky častejšie ako ostatné, pretože ich označoval maximálny počet odkazov. Pavúky, ktorých počet a možnosti boli obmedzené, „viseli“ na takýchto stránkach a míňali zdroje, takže mnoho ďalších adries, ktoré sú stále menej obľúbené, nechali bez povšimnutia. Na vyriešenie tohto problému bolo potrebné vytvoriť program, ktorý by umožňoval ignorovať už indexované stránky a zamerať sa na hľadanie nových. V opačnom prípade hrozil problém so zdrojmi.

V roku 1993 študent fyziky MIT Mathew Gray vytvoril prvého známeho webového robota s názvom „World Wide Web Wanderer“ alebo jednoducho „Wanderer“, čo v preklade z angličtiny znamená „tulák“ alebo „tulák“. Ide o to, že Gray sa začal zaujímať o štatistiku. Výsledkom tohto nadšenia bol vznik „tuláka“: vynález mal pomôcť študentovi analyzovať veľkosť internetu a rýchlosť jeho rastu. „Wanderer“ jednoducho prišiel na stránku a určil samotný fakt jej existencie bez toho, aby obsah nájdenej adresy zadal do databázy. Napriek tomu, že tvorca robota nesledoval žiadne ďalšie ciele, jeho mozgové dieťa, ktoré skutočne debutovalo v „pretekoch“ progresívnych internetových objavov, tvorilo základ pre komplexnejšie programy, ktoré pridali možnosť uložiť obsah stránky v databáze na schopnosť „tuláka“ navigovať na webe. údaje po ich návšteve.

Stalo sa tak, že rok 1994 bol zlomovým bodom v histórii vytvárania vyhľadávacích nástrojov. Brian Pinkerton, absolvent univerzity vo Washingtone, bol unavený z nekonečného množstva e-mailov, ktoré mu jeho priatelia posielali s informáciami o dobrých stránkach, ktoré našli na internete. Stránky samozrejme potreboval, ale nával správ s ich adresami bol otravný a návšteva všetkých stránok zabrala veľa času. Pinkerton však našiel riešenie problému - vytvoril robota, ktorého nazval WebCrawler (niečo ako „terénne vozidlo pre internet“). WebCrawler, podobne ako Wanderer, prechádzal zo stránky na stránku, pamätal si celý text webového dokumentu a ukladal ho do databázy, ktorá bola prístupná na hľadanie slov. Vynálezca predstavil svoje duchovné dieťa verejnosti v apríli 1994 a urobil to virtuálne - prostredníctvom webového rozhrania. Databáza v tom čase obsahovala informácie od 6 000 rôznych serverov. Za týždeň sa začal rozširovať a každý deň pribudlo viac ako 100 nových serverov. Takto sa zrodil prvý vyhľadávač.

Zároveň bol do používania internetových užívateľov zavedený termín „crawler“ alebo „pavúk“, ktorý sa používa, ako sme už povedali, dodnes.

1994 - WebCrawler, Lycos, Yahoo!

1995 - Infoseek, SavvySearch, AltaVista, MetCrawler, Excite. Vznik metasearch motorov.

1996 - HotBot, LookSmart.

1997 - Severné svetlo.

1998 - Google, InvisibleWeb.com.

Ruské vyhľadávače sa objavili v nasledujúcom poradí:

2004 - ruská verzia Google (www.google.ru) a ruská verzia Yahoo! (http://ru.yahoo.com).

Z čoho sa web skladá

Predtým, ako pristúpime k popisu jazyka dotazov vyhľadávacieho nástroja, zvážme, z akých prvkov sa web obvykle skladá, s ktorými musí pavúk pracovať.

Musím povedať, že jazyk HTML je celkom jednoduchý a logický. Je to spôsob, ako rozdeliť text pomocou špeciálnych prvkov - značiek, ktoré určujú štruktúru a vzhľad textu pri prezeraní v prehliadači. O značkách by ste mali vedieť, že sú vždy spárované a že môžu byť otváranie(uveďte začiatok konkrétneho formátovania) a krytina(uveďte jeho koniec). Uzatváracia značka má rovnaký pravopis ako otváracia značka, ale predchádza jej lomka.

Uveďme príklad veľmi jednoduchého webu (obr. 1).

Ryža. 1. Príklad stránky zobrazenej v prehľadávači Mozilla Firefox.

V hornej časti stránky zobrazenej na obrázku, tj. Nie v texte webu, ale v hornom poli rámca stránky, vedľa okrúhlej ikony prehliadača je nápis: „Zobrazuje sa zariadenie stránky. “ Nachádza sa v takzvanej hlavičke stránky (ktorá je uzavretá medzi úvodnou značkou) a zatváracia značka). Upozorňujeme vás na skutočnosť, že toto je názov celej stránky, nie text.

V strede obrázku je zobrazená tučnou kurzívou: „Toto je jednoduchá stránka.“ Tento nápis je nadpisom textu. Písmo pre frázu „Toto je jednoduchý web“ je väčšie ako písmo textu na webe, je špeciálne zvýraznené ako nadpis textu. Pri označovaní pomocou HTML je tento text umiestnený pod značkou , ale zároveň spolu s visačkou <TITLE>je vo vnútri značky <Head>... Teda obsah uzavretý v <TITLE>, Je súčasťou toho, čo je v <Head>... Toto usporiadanie poskytuje pavúkovi ďalšiu príležitosť na lepšiu identifikáciu kľúčových slov na webe. Ak sú totiž slová umiestnené v záhlaví textu, alebo ešte lepšie na celej stránke, zvyšuje sa pravdepodobnosť, že stránka a text budú venované téme formulovanej týmito slovami.</p><p>Pod vetou „Toto je jednoduchá stránka“ sú štyri spôsoby, ako napísať hlavný text stránky:</p><p>- obvyklé;</p><p>- tučné písmo (napísané pod značkou <B>);</p><p>- kurzíva (písaná pod značkou <i>);</p><p>Hlavný text stránky, bez ohľadu na to, aký typ písma je napísaný, sa nachádza vo vnútri značky <BODY>... Je to obsah značky <BODY>je hlavným predmetom pavúka a je s ním nakladané ako s textom stránky (v skutočnosti je to vlastne text stránky).</p><p>Ak chcete zobraziť interné značky stránok, v prehliadači Mozilla Firefox presuňte kurzor na ľubovoľnú oblasť poľa, ktorá nie je obsadená textom, a stlačte pravé tlačidlo myši. V rozbaľovacej ponuke vyberte položku Zobraziť zdroj stránky.</p><p>Pokiaľ ide o lokalitu, ktorú sme skúmali na obr. 1, bude tento zdrojový kód vyzerať takto:</p><blockquote><p>Ukazujeme zariadenie stránky:</p><p><SPAN STYLE=«font-size: large»>Toto je jednoduchá stránka</p><p>Toto je text na stránke. Bežné písmo.</p><p>Tučné písmo.</p><p>Kurzíva.</I></p> </blockquote><p>Tu môžete vidieť všetky prvky, ktoré sme popísali vyššie. Značky sú navyše viditeľné v zdrojovom kóde <P>Ktoré poskytujú umiestnenie textu na novom riadku a s medzerou vo vzťahu k textu umiestnenému na predchádzajúcom riadku.</p><p>Predvolené označenie HTML neznamená žiadne zabalenie ani formátovanie. Preto sa text, ktorý neobsahuje žiadne značky, reprodukuje za sebou, ale s ohľadom na medzery medzi slovami. Aby bol text napísaný nielen na nový riadok, ale s medzerou vzhľadom na riadok vyššie, používa sa značka, ako sme už ukázali, <P>A aby bol text napísaný na nový riadok, ale bez medzery medzi hornými a dolnými riadkami, použije sa značka <BR>.</p><p>Začiatok webu vytvoreného pomocou značiek HTML je označený značkou <HTML>, a končí sa značkou</HTML>.</p> <h4>4.5.1. Tradičné internetové vyhľadávače</h4> <p>Na vyhľadanie informácií sa používajú špeciálne externé služby - vyhľadávacie servery: vyhľadávače a katalógy.</p> <p>Vyhľadávače sú servery, ktoré automaticky zhromažďujú informácie o obsahu stránok pomocou špeciálnych robotických programov.</p> <p>Ľudia vyberajú informácie pre adresárové servery. Na rozdiel od vyhľadávacích nástrojov sú informácie v katalógoch presnejšie štruktúrované a vo vertikálnej hierarchickej forme.</p> <p>Vyhľadávače aj adresáre sú externé služby alebo, ako sa tiež nazývajú, samostatné systémy. Charakteristikou autonómnych systémov je, že cyklus práce s informáciami sa vykonáva úplne priamo v tomto systéme, počnúc získavaním informácií z primárneho zdroja a končiac poskytovaním vyhľadávacej služby koncovému používateľovi.</p> <p>Automatické vyhľadávače pokrývajú viac informácií, ich informácie sa aktualizujú častejšie, a preto sú relevantnejšie. Informácie na týchto serveroch sú však zle štruktúrované, pretože hodnotenie obsahu konkrétnej stránky je ťažké formalizovať. Najčastejšie robotický program vyberá dokumenty iba na základe prítomnosti hľadaných slov v texte dokumentu. Príkladom vyhľadávacieho nástroja je AltaVista (http://www.altavista.com).</p> <p>Všetky informácie v katalógoch majú jasnú vertikálnu hierarchickú štruktúru. Táto štruktúra je navyše postavená na základe sémantického obsahu. Toto je hlavná hodnota adresárov spracovávaných ľuďmi: nemôžete nájsť veľa stránok obsahujúcich tieto kľúčové slová, ale mnoho stránok venovaných tejto téme. Príkladom adresára je server Yahoo (http://www.yahoo.com).</p> <p><img src='https://i2.wp.com/opds.sut.ru/old/electronic_manuals/pospd/pic/4_5_2.gif' width="100%" loading=lazy loading=lazy></p> <p>WWW adresáre obsahujúce veľké množstvo záznamov sú často umiestňované na ich stránky miestnymi vyhľadávacími strojmi. Implementované ako tradičné šablóny, ktoré sa príliš nelíšia od šablón v automatických indexoch.</p> <p>Pre vyhľadávače aj katalógy je stanovený určitý princíp výberu informácií. Tento princíp je stanovený buď v algoritmoch vyhľadávacích nástrojov, alebo v pravidlách práce ľudí (pre adresáre). Podľa toho, kde a aký typ informácií sa akumuluje, sa hodnotia dve charakteristiky autonómnych systémov - priestorová mierka a špecializácia.</p> <p>Priestorová škála má obmedziť počet primárnych zdrojov informácií na určitý konečný limit. Napríklad vyhľadávací nástroj je možné vytvoriť iba na jednom webe. Vyhľadávanie môže byť obmedzené na jednu geografickú doménu (napríklad ru). Takéto systémy sa nazývajú regionálne.</p> <p>Existuje veľa vyhľadávacích nástrojov, ktoré tieto obmedzenia nemajú. Hovorí sa im globálne systémy získavania informácií.</p> <p>Rysy regionálneho prístupu môžu byť prítomné aj v globálnych systémoch. Napríklad systém Lycos (http://www.lycos.com) triedi výsledky vyhľadávania podľa toho, z ktorej oblasti požiadavka pochádza.</p> <p>Najobľúbenejšie vyhľadávače sú natoľko načítané, že je potrebné vytvoriť „zrkadlá“. Zrkadlá by mali obsahovať presnú repliku primárneho vyhľadávacieho nástroja a zaistiť rýchle doručenie prístupov z konkrétnej geografickej oblasti.</p> <p>Pri odkazovaní na konkrétny vyhľadávací nástroj by ste mali vziať do úvahy, aké služby poskytuje. Napríklad v domácom vyhľadávacom nástroji Yandex (http://www.yandex.ru) je zavedené vyhľadávanie nielen pre stránky, ale aj pre servery. Podstata tejto metódy spočíva v tom, že sa kľúčové slová nehľadajú na všetkých stránkach, ale iba podľa názvov (čo je obsiahnuté v HTML medzi značkami „title“). V zahraničných serveroch AltaVista bola vytvorená samostatná služba Real Names, ktorá obsahuje zoznam všetkých registrovaných stránok spoločností a organizácií.</p> <p><img src='https://i2.wp.com/opds.sut.ru/old/electronic_manuals/pospd/pic/4_5_4.gif' width="100%" loading=lazy loading=lazy></p> <p>Ďalšou dôležitou službou je špecializácia na vyhľadávanie. V súčasnosti je internet úložiskom rôznych typov informácií. Preto môže byť aj vyhľadávanie informácií formalizované. Môžete vyhľadávať výlučne grafické obrázky, môžete vyhľadávať multimediálne nahrávky vo formáte MP3 atď. Na mnohých vyhľadávacích nástrojoch môžete určiť typ informácií, ktoré hľadáte. okrem toho existujú servery, ktoré sa špecializujú na vyhľadávanie informácií striktne špecifického typu. FTPSearch (http://ftpsearch.lycos.com) sa špecializuje výlučne na vyhľadávanie súborov. Indexuje najrôznejšie ftp servery pre súbory, ktoré sa tam nachádzajú. Vyhľadávanie sa vykonáva priamo podľa názvu hľadaného súboru. Podobne sa MP3Search (http://mp3.box.sk) špecializuje na vyhľadávanie výlučne súborov MP3.</p> <p>Ďalším dôležitým bodom je, aký dotazovací jazyk konkrétny systém používa. Čím je tento jazyk zložitejší, tým je vyhľadávanie jemnejšie doladené. V súčasnosti pre vyhľadávače neexistuje jediný jednotný jazyk dopytov. Vývoj takého jazyka by umožnil integrovať rôzne vyhľadávacie služby do jedného super vyhľadávača. Vo februári 1999 bol zahájený projekt SESP (Search Engine Standards Project), do ktorého je zapojených 15 najväčších vyhľadávačov na internete. Úlohou projektu je štandardizovať prácu vyhľadávacích služieb (materiály o tom nájdete na http://www.searchenginewatch.com).</p> <p><img src='https://i1.wp.com/opds.sut.ru/old/electronic_manuals/pospd/pic/4_5_5.gif' width="100%" loading=lazy loading=lazy></p> <h4>4.5.2. Systémy metasearch</h4> <p>Ďalším sľubným smerom vo vývoji vyhľadávacích služieb na webe je používanie metasearch systémov. Srdcom metasearch motorov je rozhranie medzi používateľom a viacerými vyhľadávacími nástrojmi. Systém metasearch nie je určený na indexovanie a zhromažďovanie informácií. jeho účelom je čisté vyhľadávanie a spracovanie výsledkov vyhľadávania.</p> <p>Metasystém umožňuje, podľa želania užívateľa, obmedziť jeho vyhľadávanie na určité vyhľadávacie servery, kontrolovať existenciu zdrojov, na ktoré poukazujú výsledky vyhľadávania, vykonávať spresnené vyhľadávanie vo výsledkoch vyhľadávania atď. Metasearch motory sú často označované ako klienti vyhľadávacích nástrojov.</p> <p>Príkladom systému metasearch je domáci vývoj DISCO Seeker od spoločnosti DISCO (http://www.disco.ru).</p> <p>Hlavnou črtou metasearch systémov novej generácie je zjednotenie vyhľadávacích nástrojov rôzneho zamerania. V rámci jednej aplikácie môžete vyhľadávať informácie rôznych typov. Pri spracovaní vyhľadávacieho dotazu je povolené spojenie s viac ako 100 vyhľadávacími nástrojmi (vrátane špecializovaných). Výsledky vyhľadávania sú dodatočne spracované: systém duplikuje odkazy, ktoré duplikujú tie, ktoré už boli nájdené; skontroluje sa dostupnosť prijatých adries. Je možné nakonfigurovať prácu s vyhľadávacími servermi (môžete vybrať servery, s ktorými bude systém pracovať, určiť maximálny počet odkazov prijatých z každého servera atď.).</p> <p>Avšak ani v prípade použitia vyhľadávacích nástrojov sa nezaobíde bez znalosti tradičných vyhľadávacích nástrojov - slúžia ako základ akéhokoľvek vyhľadávania.</p> </td> <p>Hľadanie informácií je úloha, ktorú ľudstvo rieši už mnoho storočí. Ako narastal objem informačných zdrojov potenciálne dostupných pre jednu osobu, boli vyvíjané stále sofistikovanejšie a sofistikovanejšie vyhľadávacie nástroje a techniky na nájdenie potrebného dokumentu.</p> <p>Podľa knihy K. Manninga „Úvod do získavania informácií“ možno povedať, že efektívna prevádzka ktoréhokoľvek IRS je založená na rýchlosti a schopnostiach multidimenzionálneho výberu potrebných údajov z veľkého poľa (načítanie informácií) pre internú prácu s údaje. To ukladá určité požiadavky na organizáciu pravidiel vyhľadávania, štruktúru používateľského a programového rozhrania a formulár na poskytovanie informácií.</p> <p>Implementácia vyššie uvedených požiadaviek je zverená ďalšej sérii konštrukčných komponentov, takzvaným blokom [dodatok 4].</p> <p>Podľa knihy A.A. Varfolomeeva. „Základy informačnej bezpečnosti“, výber práve takejto štruktúry systému na získavanie informácií je založený na veľmi jednoduchej logike - akýkoľvek blok systému musí prijímať údaje, spracovávať ich a vydávať ich používateľovi v určitom poradí, pričom poskytuje logika postupu.</p> <p>Nie je možné hovoriť o systémoch získavania informácií bez toho, aby sme spomenuli niečo také ako vyhľadávací nástroj. Podľa D.N. Kolisnichenko v knihe „Vyhľadávače a propagácia webových stránok na internete“ <b>Vyhľadávač</b>- systém s databázou generovanou robotom obsahujúci informácie o informačných zdrojoch. Charakteristickým znakom vyhľadávacích strojov je skutočnosť, že databáza obsahujúca informácie o webových stránkach je generovaná robotickým programom. Po prijatí výsledku, ak názov a popis dokumentu zodpovedajú vašim požiadavkám, môžete okamžite prejsť na jeho pôvodný zdroj pomocou odkazu. Je pohodlnejšie to urobiť v novom okne, aby ste mohli ďalej analyzovať výsledky problému. Mnoho vyhľadávacích nástrojov umožňuje vyhľadávať v nájdených dokumentoch a je možné spresniť dotaz zavedením ďalších výrazov. Ak je inteligencia systému vysoká, existuje tiež možnosť nájsť podobné dokumenty. Automatizácia určovania podobnosti je však veľmi netriviálna úloha a často táto funkcia nefunguje vždy správne. Niektoré vyhľadávače vám umožňujú znova usporiadať výsledky. Stojí za to venovať pozornosť skutočnosti, že rôzne vyhľadávače popisujú rôzny počet zdrojov informácií na internete. Preto sa nemôžete obmedziť na vyhľadávanie iba v jednom zo zadaných vyhľadávacích nástrojov. Existujú rôzne vyhľadávacie nástroje, ktoré netvoria svoj vlastný index, ale sú schopné využívať možnosti iných vyhľadávacích nástrojov. Toto, ako N.A. Gaidmamakin v knihe „Automatizované informačné systémy, databázy a databázy“, <b>metasearch motory</b>(vyhľadávacie služby) - systémy, ktoré môžu odosielať dotazy používateľov súčasne do niekoľkých vyhľadávacích nástrojov, potom kombinovať výsledky a prezentovať ich používateľovi vo forme dokumentu s odkazmi.</p> <p>Tiež D.N. Kolisnichenko píše, že na čo najpresnejšie a najrýchlejšie vyhľadanie potrebných informácií v sieti sa používa IPS <i>indexovanie</i>.</p> <p><b>Index vyhľadávania</b>- dátová štruktúra, ktorá obsahuje informácie o dokumentoch a používa sa vo vyhľadávačoch.</p> <p><b>Indexovanie</b>(alebo indexovanie) vykonávané vyhľadávačom je proces zhromažďovania, triedenia a ukladania údajov s cieľom poskytnúť rýchle a presné vyhľadávanie informácií. Tvorba indexu zahŕňa interdisciplinárne koncepty z lingvistiky, matematiky a informatiky.</p> <p>Populárne vyhľadávače sa zameriavajú na fulltextové indexovanie dokumentov napísaných v prirodzených jazykoch. Na vyhľadávaní sa môžu podieľať aj multimediálne dokumenty, ako napríklad video, audio a grafika.</p> <p>A.Yu. Kelina v knihe „Základy informačnej bezpečnosti“ píše, že metasearchové motory používajú indexy iných vyhľadávacích služieb a neukladajú lokálny index, zatiaľ čo vyhľadávače založené na stránkach v pamäti ukladajú dlho indexové aj textové korpusy. Na rozdiel od fulltextových indexov obmedzujú služby čiastočného textu hĺbku indexovania, aby sa zmenšila veľkosť indexu.</p> <p>Architektúra vyhľadávača sa líši v spôsobe indexovania. Indexy sú týchto typov [dodatok 5]:</p> <ul><li>· <b>Priamy index.</b> Priamy index ukladá zoznam slov pre každý dokument.</li> <li>· <b>Invertovaný index.</b> Uloží zoznam výskytov každého kritéria vyhľadávania.</li> </ul><p>Register je iba časťou vyhľadávacieho nástroja, ktorá je používateľovi skrytá. Druhá časť tohto zariadenia je <b>jazyk na načítanie informácií (IPL)</b>, o ktorom podrobne píše Varfolomeev A.A. v knihe „Základy bezpečnosti informácií“. IPL je jazyk, ktorý umožňuje formulovať požiadavku na systém v jednoduchej a vizuálnej podobe. Aj keď je používateľ vyzvaný na zadanie dotazov v prirodzenom jazyku, neznamená to, že systém sémanticky analyzuje jeho dopyt. Ide o to, že fráza je zvyčajne rozdelená na slová, zakázané a bežné slová sú z tohto zoznamu odstránené, niekedy sa vykoná normalizácia slovníka a potom sú všetky slová prepojené buď logickým AND alebo OR.</p> <img src='https://i2.wp.com/vuzlit.ru/imag_/15/121482/image002.png' height="127" width="254" loading=lazy loading=lazy><p>Možné sú aj varianty, ako uvádza N.A. Chursin v knihe „Populárna informatika“. Vo väčšine systémov budú teda niektoré frázy považované za kľúčové frázy a nebudú rozdelené na jednotlivé slová. Ďalším prístupom je výpočet vzdialenosti medzi požiadavkou a dokumentom. Teraz je známych asi tucet rôznych opatrení blízkosti. Práve tieto percentá súladu dokumentov s požiadavkou sa vydávajú ako referenčné informácie, keď sa nachádza zoznam nájdených dokumentov.</p> <p>Podľa K. Manninga má AltaVista najpokročilejší dotazovací jazyk spomedzi moderných systémov na získavanie informácií na internete. Okrem obvyklej sady AND, OR, NOT, vám tento systém umožňuje používať aj NEAR. Posledný operátor vám umožňuje organizovať kontextové vyhľadávanie. Všetky dokumenty v systéme sú rozdelené do polí, takže v žiadosti môžete určiť, v ktorej časti dokumentu chce používateľ vidieť kľúčové slovo (v odkaze, názve atď.).</p> <p>(Viac informácií o jazykoch na vyhľadávanie v internete nájdete v prílohe)</p> <p>Z knihy Yu.I. Kudinova „Základy modernej informatiky“ sa môžete dozvedieť, že najbežnejšími modelmi na prezentáciu dokumentov v systéme získavania informácií sú rôzne variácie na prezentáciu dokumentu ako súboru pojmov. Ako už bolo spomenuté, nejedná sa o celý text dokumentu, ale iba o malú množinu výrazov, ktoré odrážajú jeho obsah. Na základe tejto myšlienky dokumentu je potrebné zvážiť rôzne jazyky na získavanie informácií.</p> <p>Najbežnejším IPL je tradičný jazyk, ktorý vám umožňuje vytvárať logické výrazy zo sady výrazov. V takom prípade sa použijú logické operátory AND, OR, NOT.</p> <p>Táto schéma je dosť jednoduchá, a preto sa najčastejšie používa v moderných systémoch na vyhľadávanie informácií. Ale ešte pred 20 rokmi boli dobre známe aj jeho nedostatky.</p> <p>Booleovské vyhľadávania nie sú dostatočne široké. Operátor AND môže dramaticky znížiť počet dokumentov na žiadosť. V takom prípade bude všetko veľmi závisieť od toho, aké sú typické hľadané výrazy pre databázu. Operátor OR môže naopak viesť k neprimerane širokému dotazu, v ktorom sa užitočné informácie stratia za informačným šumom. Na úspešné uplatnenie tohto IPL by mal mať človek dobrú znalosť slovnej zásoby systému a jeho tematického zamerania. Spravidla sa pre systém s takýmto IPL vytvárajú špeciálne dokumentárne lexikálne databázy so zložitými slovníkmi, ktoré sa nazývajú tezaury a obsahujú informácie o vzájomnom vzťahu pojmov slovníka.</p> <p>K. Manning poukazuje na to, že vážené booleovské vyhľadávanie je modifikáciou booleovského vyhľadávania. Myšlienka tohto hľadania je celkom jednoduchá. Predpokladá sa, že tento výraz s určitou presnosťou popisuje obsah dokumentu a táto presnosť je vyjadrená ako závažnosť výrazu. V tomto prípade je možné vážiť podmienky dokumentu aj podmienky dotazu. Žiadosť môže byť formulovaná v IPL popísanom vyššie, ale vydávanie dokladov bude zoradené v závislosti od stupňa blízkosti medzi požiadavkou a dokumentom. V tomto prípade je meranie vzdialenosti skonštruované takým spôsobom, že bežné logické vyhľadávanie by bolo špeciálnym prípadom váženého boolovského vyhľadávania.</p> <p>Na rozdiel od A.A. Varfolomeeva. , JE. Ashmanov vo svojej knihe „Propagácia webových stránok vo vyhľadávačoch“ píše, že hoci IPL teraz nie sú dokonalé, algoritmu by sa mala venovať osobitná pozornosť. <b>poradie</b>(usporiadané budovanie) prijatých odkazov, pretože nie je o nič menej dôležité. Najčastejšie používanými kritériami na hodnotenie v IRS sú prítomnosť slov z dopytu v dokumente, ich počet, blízkosť začiatku dokumentu, vzájomná blízkosť;</p> <p>Prítomnosť slov z žiadosti v nadpisoch a podnadpisoch dokumentov (nadpisy musia byť špeciálne naformátované);</p> <p>Počet odkazov na tento dokument z iných dokumentov; „Zodpovednosť“ referenčných dokumentov.</p> <p>Rôzne vyhľadávače používajú rôzne algoritmy hodnotenia, ale základné zásady na určenie relevancie sú tieto:</p> <ul><li>· Počet dopytovaných slov v textovom obsahu dokumentu (t. J. V html-kóde).</li> <li>· Značky, v ktorých sa tieto slová nachádzajú.</li> <li>· Umiestnenie hľadaných slov v dokumente.</li> <li>· Podiel slov, pre ktoré je relevantnosť určená, na celkovom počte slov v dokumente.</li> </ul><p>Tieto princípy uplatňujú všetky vyhľadávače.</p> <p>Databáza vypíše na porovnanie podobný zoznam dokumentov HTML a vráti ho osobe, ktorá podáva žiadosť. Rôzne vyhľadávače tiež volia rôzne spôsoby zobrazenia výsledného zoznamu - niektoré zobrazujú iba odkazy; iné zobrazujú odkazy s prvými niekoľkými vetami obsiahnutými v dokumente alebo názov dokumentu spolu s odkazom. Hodnotenie vyhľadávacích nástrojov je podstatnou súčasťou servera <i>získavanie informácií.</i></p> <p>Aspekty tohto konceptu sú dobre predstavené v knihe K. Manninga „Úvod do získavania informácií“. <b>Vyhľadávanie informácií</b> zahŕňa použitie určitých stratégií, metód, mechanizmov a prostriedkov. Správanie používateľa, ktorý riadi proces vyhľadávania, je determinovaný nielen informačnými potrebami, ale aj inštrumentálnou rozmanitosťou systému - technológiami a prostriedkami poskytovanými systémom.</p> <p><b><i>Stratégia vyhľadávania</i> </b>- všeobecný plán (koncept, preferencia, nastavenie) systému alebo používateľského správania na vyjadrenie a uspokojenie informačných potrieb používateľa, určený jednak povahou cieľa a typom vyhľadávania, jednak systémovými „strategickými“ rozhodnutiami - databáza architektúra, metódy a vyhľadávacie nástroje v konkrétnom ISS. Vo všeobecnosti je výber stratégie problémom s optimalizáciou. V praxi to do značnej miery určuje umenie dosiahnuť kompromis medzi praktickými potrebami a schopnosťami dostupných prostriedkov.</p> <p><b><i>Metóda vyhľadávania</i> </b>- súbor modelov a algoritmov na implementáciu jednotlivých technologických etáp: zostavenie vyhľadávacieho obrazu dotazu, výber dokumentov (priraďovanie vyhľadávacích obrázkov dotazov a dokumentov), rozšírenie dotazu, lokalizácia a vyhodnotenie problému.</p> <p><b><i>Obrázok vyhľadávacieho dotazu</i> </b><i> </i>- text napísaný na IPL, ktorý vyjadruje sémantický obsah žiadosti o informácie a obsahuje pokyny potrebné na čo najefektívnejšiu implementáciu vyhľadávania informácií.</p> <p>Proces hľadania informácií je postupnosť krokov, ktoré vedú systémom k určitému výsledku a umožňujú posúdiť jeho úplnosť. Pretože používateľ zvyčajne nemá komplexné vedomosti o informačnom obsahu zdroja, v ktorom hľadá, môže posúdiť adekvátnosť výrazu dotazu a úplnosť získaného výsledku iba na základe externých hodnotení alebo medziproduktov. výsledky a zovšeobecnenia, ich porovnanie napríklad s predchádzajúcimi.</p> <p>Proces vyhľadávania môže byť reprezentovaný vo forme nasledujúcich hlavných komponentov:</p> <ul><li>1) formulácia dotazu v prirodzenom jazyku, výber vyhľadávača a služieb, formalizácia dotazu na príslušnom IPL;</li> <li>2) vykonávanie vyhľadávania v jednom alebo viacerých vyhľadávacích nástrojoch;</li> <li>3) prehľad výsledkov (referencie);</li> <li>4) predbežné spracovanie získaných výsledkov: zobrazenie obsahu odkazov, extrahovanie a ukladanie relevantných údajov;</li> <li>5) v prípade potreby úprava žiadosti a vykonanie opakovaného (upresňujúceho) vyhľadávania s následným spracovaním výsledkov.</li> </ul><p>Na zníženie objemu vybratých materiálov sú výsledky vyhľadávania filtrované podľa typu zdrojov (stránky, portály), tém a ďalších dôvodov.</p> <p>Podľa použitých technológií vyhľadávania možno IP rozdeliť do 4 kategórií:</p> <ul><li>1. Tematické katalógy;</li> <li>2. Špecializované katalógy (online adresáre);</li> <li>3. Vyhľadávače (fulltextové vyhľadávanie);</li> <li>4. Metasearch.</li> </ul><p><i>Tematické katalógy</i> zabezpečujú spracovanie dokumentov a ich zaradenie do jednej z niekoľkých kategórií, ktorých zoznam je vopred určený. Toto je vlastne indexácia založená na klasifikácii. Indexáciu je možné vykonať automaticky alebo manuálne pomocou odborníkov, ktorí prezerajú populárne webové stránky a zostavujú krátky popis dokumentov k životopisu (kľúčové slová, abstrakt, abstrakt).</p> <p><i>Špecializované katalógy</i> alebo <i>referenčná literatúra</i> sú tvorené priemyslom a témou, správami, mestami, e-mailovými adresami atď.</p> <p><i>Vyhľadávače</i>(najpokročilejší internetový vyhľadávací nástroj) implementuje technológiu fulltextového vyhľadávania. Texty umiestnené na dotazovaných serveroch sú indexované. Register môže obsahovať informácie o niekoľkých miliónoch dokumentov.</p> <p>Pri použití finančných prostriedkov <i>metasearch</i>žiadosť je vykonaná súčasne niekoľkými vyhľadávacími nástrojmi. Výsledok vyhľadávania sa skombinuje do všeobecného zoznamu zoradeného podľa dôležitosti. Každý systém spracováva iba časť sieťových uzlov, čo umožňuje rozšíriť základňu vyhľadávania.</p> <p>Veľmi dôležitá je aj takzvaná „organizácia vyhľadávania“ a „implementácia vyhľadávania“, o ktorých D.N. Kolisnichenko v knihe „Vyhľadávače a propagácia webových stránok na internete“.</p> <p><b>Vyhľadajte organizáciu</b></p> <p>Postup hľadania potrebných informácií je rozdelený do deviatich hlavných etáp:</p> <ul><li>· Definícia oblasti znalostí;</li> <li>· Výber typu a zdrojov údajov;</li> <li>· Zbierka materiálov potrebných na vyplnenie informačného modelu;</li> <li>· Výber najužitočnejších informácií;</li> <li>· Výber metódy spracovania informácií (klasifikácia, zhlukovanie, regresná analýza atď.);</li> <li>· Voľba algoritmu na hľadanie vzorov;</li> <li>· Hľadať vzory, formálne pravidlá a štrukturálne odkazy v zozbieraných informáciách;</li> <li>· Tvorivá interpretácia získaných výsledkov;</li> <li>· Integrácia extrahovaných „znalostí“.</li> </ul><p>Na vykonanie vyhľadávania sa rozhranie pre prácu s príslušnou databázou najskôr načíta do počítača používateľa. Môže to byť lokálna alebo vzdialená databáza. Spočiatku by ste sa mali rozhodnúť pre typ vyhľadávania (jednoduché, pokročilé atď.). Potom so súborom polí, ktoré chcete vyhľadať. IRS môže ponúknuť jedno alebo viac polí na zadanie. V druhom prípade ide spravidla o polia: autor, názov (názov), časové obdobie, typ dokumentu, kľúčové slová, nadpisy atď.</p> <p><b>Implementácia vyhľadávania</b></p> <p>Je všeobecne akceptované organizovať vyhľadávanie podľa počiatočných fragmentov slova (vyhľadávanie so skrátením vpravo), napríklad namiesto slova „knižnica“ môžete zadať jeho fragment „knižnica *“. V takom prípade sa nájdu dokumenty, ktoré neobsahujú iba slovo „knižnica“, ale aj „knižnica“, „knihovník“, „knižničná veda“ atď. V každom prípade si používateľ musí predstaviť, čo konkrétne chce nájsť, pretože v navrhovanom variante nájde oveľa väčší počet dokumentov, než keď úplne zadáte dané slovo (bez skrátenia). V takom prípade je možné vykonať spresnenie vyhľadávania v prijatom rade informácií a v dôsledku toho získať relevantnejšie údaje.</p> <p>IRS sa tiež vyznačujú časom vykonania vyhľadávania, rozhraním poskytnutým používateľovi a typom zobrazených výsledkov. Pri výbere IRS sa venuje pozornosť ich parametrom, ako je pokrytie a hĺbka. Pod <i>pokrytie</i> objem základne vyhľadávača sa meria tromi ukazovateľmi: celkový objem indexovaných informácií, počet jedinečných serverov a počet jedinečných dokumentov. Pod <i>hĺbka</i> rozumie sa, či existuje limit na počet stránok alebo na hĺbku vnorenia adresárov na jednom serveri.</p> <p>Niektorým aspektom získavania informácií sa venuje kniha V.A. Gvozdeva "Základy budovania automatizovaných informačných systémov." Ako je uvedené v knihe, každý vyhľadávací modul má svoje vlastné algoritmy na triedenie výsledkov vyhľadávania. Čím bližšie je začiatok zoznamu získaného ako výsledok vyhľadávania, požadovaný dokument je, tým vyššia je relevantnosť a lepšie funguje vyhľadávací nástroj. Všetky z nich vám umožňujú rýchlo nájsť na webe pomocou kľúčových slov, tematických nadpisov a dokonca aj jednotlivých písmen, napríklad všetky alebo takmer všetky texty, v ktorých sa tieto slová nachádzajú. V takom prípade sa používateľovi oznámia adresy stránok, na ktorých sú nájdené výsledky neustále prítomné. Žiadny z nich však nemá v porovnaní s ostatnými zdrvujúcu výhodu. Aby bolo možné spoľahlivo vyhľadávať zložité dotazy, odborníci odporúčajú používať postupne alebo paralelne (súčasne) rôzne ISS.</p> <p>Z knihy D.N. Kadeeva "Informačné technológie a elektronická komunikácia" sa môžete dozvedieť o takom koncepte ako "fulltextový vyhľadávací nástroj". Indexuje všetky slová textu, ktoré sú pre používateľa viditeľné. Prítomnosť morfológie umožňuje nájsť požadované slová vo všetkých deklináciách alebo konjugáciách. Niektoré stroje sú schopné vyhľadávať frázy alebo slová na danú vzdialenosť, čo je často dôležité pre získanie rozumného výsledku. Okrem toho existujú značky v HTML, ktoré môže spracovať aj vyhľadávací nástroj (nadpisy, odkazy, titulky k obrázkom atď.). Zároveň musíte vedieť, že čím menší počet kľúčových slov zahrnutých do týchto značiek, tým častejšie sa môžu vyskytovať v textoch stránok, a tým je vyššia ich relevantnosť. Optimálna frekvencia takýchto slov nie je väčšia ako 5%. Kľúčových slov by nemalo byť veľa, mali by pozostávať väčšinou z jedného alebo dvoch slov, ktoré tvoria najčastejšie používané výrazy. Čím relevantnejšie kľúčové slová sú, tým sú konkurencieschopnejšie a poskytujú dokument z pohľadu vyhľadávacích nástrojov.</p> <p>Používateľ dostane úplnosť a presnosť odpovede v závislosti od presnosti ním formulovanej požiadavky. Výsledkom vyhľadávania je, že mu je zvyčajne poskytnutých oveľa viac informácií, ako potrebuje, pričom niektoré z nich nemusia byť vôbec generované dopytu. Je ľahké vidieť, že veľa závisí nielen od dobre formulovaného dotazu, ale aj od možností vyhľadávacích nástrojov, ktoré sú veľmi odlišné. Súčasne sa celkom jasne prejavuje skutočnosť, že v získaných údajoch je možné preskočiť hlavné potrebné informácie. Jednoduché dotazy vo forme oddelených, pomerne bežných pojmov, vedú k extrakcii tisícov (státisícov) dokumentov, z ktorých drvivú väčšinu používateľ nepotrebuje ( <i>informačný šum</i>).</p> <p>Dôležitým aspektom je tiež schopnosť ISS podporovať viacjazyčnosť, to znamená schopnosť spracovávať žiadosti v rôznych jazykoch. Vyhľadávanie v plnotextových databázach sa zvyčajne vykonáva pomocou morfologických analyzátorov (spravidla ruských a anglických), ktoré automaticky nájdu existujúce slovné formy podľa fragmentu slova, slova, frázy, aj keď sú v dotaze nejaké preklepy slová.</p> <p>Tiež nemožno nespomenúť takú vlastnosť IPS ako pri <b><i>vyhľadávacie a štruktúrovacie nástroje</i> </b> niekedy nazývaný <b><i>vyhľadávače</i> </b>... Podľa I.S. Ashmanov, vo svojej knihe „Propagácia webových stránok vo vyhľadávačoch“, slúžia vyhľadávače na to, aby ľuďom pomohli nájsť potrebné informácie. Na zhromažďovanie informácií o dokumentoch na internete sa používajú vyhľadávacie nástroje, ako sú agenti, pavúky, prehľadávače a roboty. Jedná sa o špeciálne programy, ktoré vyhľadávajú stránky na webe, extrahujú hypertextové odkazy na týchto stránkach a automaticky indexujú informácie, ktoré nájdu, aby vytvorili databázu. Každý vyhľadávač má svoju vlastnú sadu pravidiel upravujúcich spôsob vyhľadávania a spracovania dokumentov. Niektorí sledujú každý odkaz na každej stránke, ktorú nájdu, a potom zase preskúmajú každý odkaz na každej novej stránke atď. Niektorí ľudia ignorujú odkazy, ktoré vedú k grafickým a zvukovým súborom, súborom animácií; ostatným je nariadené, aby si najskôr prezreli najobľúbenejšie stránky. Klasifikáciu vyhľadávacích nástrojov najlepšie predstavuje kniha A. A. Varfolomeeva. „Základy informačnej bezpečnosti“:</p> <ul><li>· <b>Agenti</b>- najinteligentnejší z vyhľadávacích nástrojov. Môžu robiť viac než len vyhľadávať: môžu dokonca vykonávať transakcie vo vašom mene. Už teraz môžu vyhľadávať stránky s konkrétnou témou a vracať zoznamy stránok zoradené podľa ich účasti. Agenti môžu spracovávať obsah dokumentov, vyhľadávať a indexovať ďalšie typy zdrojov, nielen stránky. Môžu byť tiež naprogramované na získavanie informácií z už existujúcich databáz. Bez ohľadu na informácie, ktoré agenti indexujú, odovzdajú ich späť do databázy vyhľadávacieho modulu.</li> <li>Všeobecné vyhľadávanie informácií na webe vykonávajú programy známe ako <b>pavúky</b>... Pavúky nahlásia obsah nájdeného dokumentu, indexujú ho a extrahujú súhrnné informácie. Pozerajú tiež na hlavičky, niektoré odkazy a odosielajú indexované informácie do databázy vyhľadávacieho nástroja.</li> <li>· <b>Prehľadávače</b> prezrite si hlavičky a vráťte iba prvý odkaz.</li> <li>· <b>Roboty</b> môže byť naprogramovaný tak, aby sledoval rôzne odkazy s rôznou hĺbkou vnorenia, index a dokonca kontroloval odkazy v dokumente. Vzhľadom na svoju povahu sa môžu zaseknúť v slučkách, takže pri sledovaní odkazov potrebujú značné webové zdroje. Existujú však metódy navrhnuté tak, aby roboti nemohli vyhľadávať na stránkach, ktorých vlastníci nechcú, aby boli indexované.</li> </ul><p>Na záver môžeme povedať, že ISS v sieti so všetkou ich vonkajšou rozmanitosťou svojou klasifikáciou, ktorú popisuje kniha L.G. Gagarina „Automatizované informačné systémy“:</p> <p>Systémy vyhľadávania klasifikačných informácií</p> <p>V klasifikácii ISS sa používa hierarchická (stromová) organizácia informácií, ktorá sa nazýva KLASIFIKÁTOR. Sekcie klasifikátora sa nazývajú OKRUHY. Knižničný analóg klasifikácie ISS je systematický katalóg. Klasifikátor je vyvinutý a vylepšený tímom autorov. Potom ho používa ďalší tím špecialistov s názvom SYSTEMATORS. Taxonici, ktorí poznajú klasifikátora, prečítali dokumenty a priradili im klasifikačné indexy označujúce, ktorým oddielom klasifikátora tieto dokumenty zodpovedajú.</p> <p>Predmet IRS (webové prstene)</p> <p>Z pohľadu používateľa má predmetná ISS najjednoduchšiu štruktúru. Vyhľadajte názov požadovaného predmetu, ktorý vás zaujíma (predmetom môže byť aj niečo nepodstatné, napríklad indická hudba) a k názvu sú priradené zoznamy príslušných internetových zdrojov. To by bolo obzvlášť užitočné, ak je úplný zoznam položiek malý.</p> <p>Slovník IPS</p> <p>Kultúrne problémy spojené s používaním klasifikácie IRS viedli k vytvoreniu IRS typu slovníka so zovšeobecneným anglickým názvom <i>vyhľadávače</i>... Hlavnou myšlienkou slovníka IRS je vytvoriť slovník slov nachádzajúcich sa v internetových dokumentoch, do ktorého bude pre každé slovo uložený zoznam dokumentov, z ktorých je dané slovo prevzaté.</p> <p>Na základe informácií z knihy A.Yu. Kelina "Základy informačnej bezpečnosti", môžete zistiť, že existujú dva hlavné algoritmy pre fungovanie slovníka IRS: používanie kľúčových slov a deskriptorov ( <u><i>Deskriptor</i> </u><i>- lexikálna jednotka (slovo, fráza) jazyka na vyhľadávanie informácií, ktorá slúži na opísanie hlavného sémantického obsahu dokumentu alebo na formulovanie dotazu pri hľadaní dokumentu (informácie) v systéme na vyhľadávanie informácií</i>). V prvom prípade sa na vyhodnotenie obsahu dokumentu použijú iba tie slová, ktoré sa v ňom vyskytujú, a na požiadanie IRS porovná slová z dotazu so slovami dokumentu a určí ich relevantnosť podľa počtu, umiestnenia , hmotnosť slov z dopytu v dokumente. IRS z historických dôvodov používa tento algoritmus v rôznych modifikáciách.</p> <script>document.write("<img style='display:none;' src='//counter.yadro.ru/hit;artfast_after?t44.1;r"+ escape(document.referrer)+((typeof(screen)=="undefined")?"": ";s"+screen.width+"*"+screen.height+"*"+(screen.colorDepth? screen.colorDepth:screen.pixelDepth))+";u"+escape(document.URL)+";h"+escape(document.title.substring(0,150))+ ";"+Math.random()+ "border='0' width='1' height='1' loading=lazy loading=lazy>");</script> </div> </div> </div> </article> <script> var send_pid_view = 10902; </script> <div class="entry-meta-niz">Nadpis: <a href="https://domo-print.ru/sk/category/metallocycle/" title="">Kovové kazety</a> </div> <div class="fonts20">Zdieľaj toto</div> <script type="text/javascript" src="//yandex.st/share/share.js" charset="utf-8"></script> <div class="yashare-auto-init b-share_theme_counter" data-yasharel10n="ru" data-yasharequickservices="vkontakte,facebook,odnoklassniki,twitter,moimir,yaru,gplus" data-yasharetheme="counter" data-yasharetype="middle"></div> <div class="zem_rp_wrap zem_rp_th_vertical" id="zem_rp_first"><div class="zem_rp_content"><div class="related_post_title">Príspevky podľa témy</div><ul class="related_post zem_rp"> <li data-position="0" data-poid="in-10949" data-post-type="none"><a href="https://domo-print.ru/sk/repair-and-cleaning/gadanie-na-runah-onlain-na-vzaimootnosheniya-runnye-gadaniya-na-lyubov/" class="zem_rp_thumbnail"><img src="/uploads/00fefe83bd28eab92917a12bb8db34c5.jpg" alt="Runové veštenie pre lásku a vzťahy s mužom a ženou" width="150" height="150" / loading=lazy loading=lazy></a><a href="https://domo-print.ru/sk/repair-and-cleaning/gadanie-na-runah-onlain-na-vzaimootnosheniya-runnye-gadaniya-na-lyubov/" class="zem_rp_title">Runové veštenie pre lásku a vzťahy s mužom a ženou</a></li> <li data-position="0" data-poid="in-10949" data-post-type="none"><a href="https://domo-print.ru/sk/stone/tri-prostyh-rasklada-taro-na-cheloveka-podrobnye-instrukcii-gadaniya-na/" class="zem_rp_thumbnail"><img src="/uploads/005e0738811016f0ad7b756969233639.jpg" alt="Veštenie z osobnosti: charakter, správanie, konanie Veštenie z tarotu" width="150" height="150" / loading=lazy loading=lazy></a><a href="https://domo-print.ru/sk/stone/tri-prostyh-rasklada-taro-na-cheloveka-podrobnye-instrukcii-gadaniya-na/" class="zem_rp_title">Veštenie z osobnosti: charakter, správanie, konanie Veštenie z tarotu</a></li> <li data-position="0" data-poid="in-10949" data-post-type="none"><a href="https://domo-print.ru/sk/stone/soyuz-mezhdu-bliznecami-bliznecy-sovmestimost-v-lyubovnyh/" class="zem_rp_thumbnail"><img src="/uploads/08b8f1f1ce74b743ee6dc12bda5412a7.jpg" alt="Blíženci kompatibilita v milostných vzťahoch znamenia zverokruhu" width="150" height="150" / loading=lazy loading=lazy></a><a href="https://domo-print.ru/sk/stone/soyuz-mezhdu-bliznecami-bliznecy-sovmestimost-v-lyubovnyh/" class="zem_rp_title">Blíženci kompatibilita v milostných vzťahoch znamenia zverokruhu</a></li> <li data-position="0" data-poid="in-10949" data-post-type="none"><a href="https://domo-print.ru/sk/stone/sposoby-lecheniya-narodnymi-sredstvami-oteka-slizistoi-nosa-domashnee/" class="zem_rp_thumbnail"><img src="/uploads/7079577d86c37d5e83d7689ea0e1bfe5.jpg" alt="Domáce lieky na hrdlo s ľudovými prostriedkami Skutočný recept na bolesť v krku" width="150" height="150" / loading=lazy loading=lazy></a><a href="https://domo-print.ru/sk/stone/sposoby-lecheniya-narodnymi-sredstvami-oteka-slizistoi-nosa-domashnee/" class="zem_rp_title">Domáce lieky na hrdlo s ľudovými prostriedkami Skutočný recept na bolesť v krku</a></li> </ul></div></div> <div class="comments"> </div> </div> <aside class="col-4 sidebar"> <ul> <li id="recentcomments" class="widget widget_recentcomments"> <div class="widgettitle">Nový obsah</div> <ul> <li><a href="https://domo-print.ru/sk/glass-facades/diareya-temperatura-37-5-bez-rvoty-chto-delat-pri-rasstroistve-zheludochno-kishechnogo-trakta-prichiny-i/">Teplota hnačky 37,5 bez zvracania. Čo robiť pre narušený gastrointestinálny trakt. Príčiny a liečba hnačiek s horúčkou u dospelých</a></li> <li><a href="https://domo-print.ru/sk/insulation-of-facades/podrobno-o-snovideniyah-k-chemu-snitsya-tlya-tolkovanie-sna-tlya-v/">Výklad spánku vošiek v snoch. Kde voška sedela</a></li> <li><a href="https://domo-print.ru/sk/paint/chto-znachit-luna-v-rybah-luna-v-goroskope-muzhchiny-lunnye-ryby--/">Mesiac v mužskom horoskope</a></li> <li><a href="https://domo-print.ru/sk/brick/sonnik-k-chemu-snitsya-son-vo-sne-vo-sne-nichego-ne-vizhu-tolkovatel-snov/">Vo sne nevidím nič Tlmočník snov sibírskeho liečiteľa N</a></li> <li><a href="https://domo-print.ru/sk/corrugated-sheet/muzhchina-skorpion-seks-zhelaniya-i-zhenshchiny-chto-lyubit-muzhchina-skorpion-v/">Čo miluje Škorpión v posteli?</a></li> <li><a href="https://domo-print.ru/sk/siding/k-chemu-snitsya-lestnica-po-sonniku-sonnik-lestnica-vo-sne-k-chemu-snitsya/">Prečo snívať o schodisku v knihe snov</a></li> <li><a href="https://domo-print.ru/sk/corrugated-sheet/kak-opredelit-hvataet-li-rebenku-grudnogo-moloka-po-kakim-priznakam/">Aké sú znaky toho, aby ste pochopili, že dieťa nemá dostatok materského mlieka Skontrolujte, či má dieťa dostatok mlieka</a></li> <li><a href="https://domo-print.ru/sk/aluminum-panels/magicheskie-znaki-rodinki-rodimye-pyatna-rodimoe-pyatno-na/">Čo je materské znamienko na zadnej strane?</a></li> <li><a href="https://domo-print.ru/sk/insulation-of-facades/miron-znachenie-imeni-miron-redkoe-no-silnoe-imya-sokrashchenie-imeni/">Miron: zriedkavé, ale silné meno Skratka názvu Miron</a></li> <li><a href="https://domo-print.ru/sk/corrugated-sheet/tolkovanie-sna-stremyanka-v-sonnikah-magiya-chisel-starinnyi-francuzskii-sonnik/">Kúzlo čísel Stará francúzska kniha snov</a></li> </ul> </li> <li id="recentcomments" class="widget widget_recentcomments"> <div class="widgettitle">Populárne materiály</div> <ul> <li><a href="https://domo-print.ru/sk/metallocycle/k-chemu-snyatsya-neozhidannye-gosti-k-chemu-snitsya-gost-po-sonniku-tolkovanie/">Prečo hosť sníva o knihe snov</a></li> <li><a href="https://domo-print.ru/sk/siding/k-chemu-snitsya-kavkazskaya-ovcharka-zhenshchine-k-chemu-snitsya-ovcharka-snitsya/">Aký je sen kaukazského ovčiaka pre ženu</a></li> <li><a href="https://domo-print.ru/sk/stone/igry-v-voenno-patrioticheskom-lagere-scenarii-voenno-patrioticheskoi-igry/">Scenár vojensko-vlasteneckej hry „Rameno k plecu“ (5. ročník) na túto tému</a></li> <li><a href="https://domo-print.ru/sk/design-and-decor/ottopyrennye-mochki-ushei-forma-ushei-i-harakter-o-chem-govorit/">Vyčnievajúce ušné laloky. Tvar a charakter ucha. čo hovorí tvar uší. Obe ramená sú zdvihnuté</a></li> <li><a href="https://domo-print.ru/sk/design-and-decor/hronicheskii-vulvit-u-rebenka-vospalitelnyi-process-naruzhnyh-polovyh/">Zápalový proces vonkajších pohlavných orgánov - vulvitída u dievčat: príčiny vývoja, spôsoby liečby a prevencia infekcie</a></li> <li><a href="https://domo-print.ru/sk/repair-and-cleaning/gadanie-na-taro-put-put-taro-osobennosti-vypolneniya/">Tarotová cesta: vlastnosti zarovnania, príklad veštenia z večnosti</a></li> <li><a href="https://domo-print.ru/sk/metallocycle/kakimi-byvayut-vaginy-kto-iz-zhenshchin-lan-a-kto-sloniha-nbsp-zhelezy/">Čo sú to vagíny: ktorá žena je srna a ktorá je slon?</a></li> <li><a href="https://domo-print.ru/sk/brick/ipotechnyi-kredit-dokumenty-dlya-banka-kakie-dokumenty-nuzhny/">Aké dokumenty sú potrebné na registráciu hypotéky na byt v Sberbank - zoznam dokumentov pre rôzne pôžičkové programy</a></li> <li><a href="https://domo-print.ru/sk/brick/platezhnaya-sistema-kontakt-kak-poluchit-denezhnye-perevody-kontakt/">"Kontakt" s prevodmi peňazí: banky, podmienky, tarify</a></li> <li><a href="https://domo-print.ru/sk/plaster/magistral-kart-voiti-v-lichnyi-toplivnye-karty-magistral-tnk-udobnyi/">Palivové karty magistral tnk, pohodlné konto osobnej karty</a></li> </ul> </li> <li> </li> </ul> </aside> </div> </div> <footer class="main-footer"> <div class="wrap"> <ul class="widgets row cf"> <li class="widget col-4 widget_text" id="text-4"> <div class="textwidget"><img src="/logo.png" alt="" / loading=lazy loading=lazy></div> </li><li class="widget col-4 widget_text" id="text-5"> <div class="textwidget"> <div class="spmenu"> <a href="https://twitter.com/" title="Sledujte na Twitteri" target="_blank"><span class="sprite_twitter"></span></a> <a href="https:/" title="Prihláste sa na odber informačného kanála G +" target="_blank"><span class="sprite_gplus"></span></a> <a href="" title="Prihláste sa na odber na Vkontakte" target="_blank"><span class="sprite_vk"></span></a> <a href="https://facebook.com/" title="Čítajte na Facebooku" target="_blank"><span class="sprite_fbook" target="_blank"></span></a> </div> </div> </li> </ul> </div> <div class="lower-foot"> <div class="wrap"> <div class="widgets"> <div id="text-2"> <div class="textwidget">Autorské práva 2021.domo-print.ru. Povieme vám všetko o fasádach. Všetky práva vyhradené.</div> </div><div id="nav_menu-2"><div class="menu-footer-container"><ul id="menu-footer" class="menu"> <li class="menu-item type-post_type object-page "><a href="">o projekte</a></li> <li class="menu-item type-post_type object-page "><a href="">Kontakty</a></li> </ul></div></div> </div> </div> </div> </footer> </div> <script> /* <![CDATA[ */ var rcGlobal = { serverUrl :'https://domo-print.ru', infoTemp :'%REVIEWER% - %POST%', loadingText :'Загрузка', noCommentsText :'No comments', newestText :'« К началу', newerText :'« В будущее', olderText :'В прошлое »', showContent :'', external :'', avatarSize :'32', avatarPosition :'left', anonymous :'Аноним' } ; /* ]]> */ </script> <div id="wpfront-scroll-top-container"><img src="https://domo-print.ru/wp-content/plugins/wpfront-scroll-top/images/icons/1.png" alt="" / loading=lazy loading=lazy></div> <script type="text/javascript">function wpfront_scroll_top_init() { if(typeof wpfront_scroll_top == "function" && typeof jQuery !== "undefined") { wpfront_scroll_top({ "scroll_offset":100,"button_width":0,"button_height":0,"button_opacity":0.8,"button_fade_duration":200,"scroll_duration":400,"location":1,"marginX":20,"marginY":20,"hide_iframe":false,"auto_hide":false,"auto_hide_after":2} );} else { setTimeout(wpfront_scroll_top_init, 100);} }wpfront_scroll_top_init();</script> <script type='text/javascript'> var q2w3_sidebar_options = new Array(); q2w3_sidebar_options[0] = { "sidebar" : "primary-sidebar", "margin_top" : 50, "margin_bottom" : 2500, "stop_id" : "", "screen_max_width" : 799, "screen_max_height" : 0, "width_inherit" : false, "refresh_interval" : 1500, "window_load_hook" : false, "disable_mo_api" : false, "widgets" : ['execphp-3'] } ; </script> <script type="text/javascript" defer src="https://domo-print.ru/wp-content/cache/autoptimize/js/autoptimize_5fdbf2a97d91b7569facf24e6a8fe54c.js"></script></body> </html>