Organizácia vyhľadávania v informačných systémoch. Klasifikácia internetových informačných zdrojov

Kocheganova Polina

Metódy vyhľadávania informácií o vzdelávaní na internete

Najdôležitejšou podmienkou a vedúcim faktorom, ktorý určuje úspešnosť vzdelávacích aktivít pomocou výpočtovej techniky, je pripravenosť študentov na produktívne činnosti v didaktickom počítačovom prostredí.

Osvojenie si efektívnych metód a prostriedkov hľadania, spracovania a využívania vzdelávacích informácií umožňuje nielen zintenzívniť vzdelávacie procesy, ale aj rozvíjať kognitívne záujmy študentov, túžbu po produktívnej, tvorivej činnosti.

Vďaka všadeprítomnému vývoju a aplikácii počítačových technológií sú dnes informácie vo všetkých oblastiach ľudskej činnosti v jednej alebo inej elektronickej podobe: veda, výroba, obchod, literatúra, zábava atď. Internet je kompatibilný s rôznymi elektronickými sieťami a databázami a umožňuje vám pohodlný prístup k takmer všetkým informáciám.

Informačné zdroje dostupné cez internet sú obrovské. Ide o desiatky miliónov dokumentov prezentovaných rôznymi spôsobmi, ktorých počet neustále rastie. V závislosti od spôsobu prezentácie, typu a povahy informácií sa líšia aj spôsoby prístupu k nim, preto pred zvážením metód vyhľadávania zvážime klasifikáciu informačných zdrojov.

Podľa princípu organizácie a použitia možno vyhľadávacie nástroje rozdeliť na katalógy (príručky, adresáre) a vyhľadávače.

    Katalógy

Adresáre sú adresáre obsahujúce zoznamy internetových adries zoskupené podľa určitých kritérií. Spravidla sú zoskupené podľa tém (veda, umenie, správy atď.), Kde sa každá téma rozvetvuje do niekoľkých podúrovní.

Zvláštnosťou týchto prostriedkov na vyhľadávanie informácií je, že vytvorenie štruktúry, databázy a ich neustále aktualizovanie je vykonávané „manuálne“ tímom editorov a programátorov a samotný proces vyhľadávania si vyžaduje priamu účasť používateľa, nezávisle na tom presun z odkazu na odkaz.

    Vyhľadávače

Činnosť vyhľadávacích nástrojov spočíva v neustálom postupnom štúdiu všetkých internetových stránok dostupných pre daný vyhľadávací stroj so všetkými ich odkazmi a vetvami. Vďaka neustálej aktualizácii informácií sa vyhľadávač po určitom období (asi mesiaci) pravidelne vracia do už študovaných uzlov, aby zistil a zaregistroval zmeny. Všetky prečítané informácie sú indexované, to znamená, že sa vytvorí špecializovaná databáza, v ktorej sú zakódované všetky internetové stránky preskúmané systémom.

Po prijatí žiadosti od používateľa prehľadávač preskúma všetky indexované informácie a vytvorí zoznam dokumentov zodpovedajúcich vyhľadávacej úlohe. Nájdené dokumenty sú zoradené podľa umiestnenia kľúčových slov (v nadpise, na začiatku textu, v prvých odsekoch) a frekvencie ich výskytu v texte.

Napriek podobnému princípu fungovania sa vyhľadávacie nástroje líšia, pokiaľ ide o jazyky dotazov, zóny vyhľadávania, hĺbku vyhľadávania v dokumente, spôsoby hodnotenia a priority, takže použitie rôznych vyhľadávacích nástrojov poskytuje rôzne výsledky.

Viac alebo menej vážny prístup k akémukoľvek problému začína analýzou možných metód jeho riešenia. Vyhľadávanie informácií na internete je možné vykonať pomocou niekoľkých metód, ktoré sa významne líšia tak v efektivite a kvalite vyhľadávania, ako aj v type získavaných informácií. V niektorých prípadoch musíte použiť veľmi namáhavé metódy - výsledok stojí za to.

Je možné rozlíšiť nasledujúce hlavné metódy vyhľadávania informácií na internete, ktoré sa v závislosti od cieľov a zámerov hľadača používajú jednotlivo alebo vo vzájomnej kombinácii:

    Priame vyhľadávanie pomocou hypertextových odkazov

Pretože všetky stránky na WWW sú skutočne vzájomne prepojené, informácie je možné získať postupným prezeraním prepojených stránok pomocou prehľadávača.

Aj keď táto úplne manuálna metóda vyhľadávania vyzerá ako úplná anachronika na webe s viac ako 60 miliónmi webov, „manuálne“ prehliadanie webu je často jedinou možnosťou v konečných fázach vyhľadávania informácií, keď mechanické „kopanie“ umožní hlbšiu analýzu. Pre tento typ vyhľadávania platí aj použitie katalógov, klasifikovaných a tematických zoznamov a všetkých druhov malých príručiek.

    Používanie vyhľadávacích nástrojov

Dnes je táto metóda jednou z hlavných a v skutočnosti jedinou metódou predbežného vyhľadávania. Výsledkom môže byť zoznam sieťových zdrojov, ktoré je potrebné podrobne zvážiť.

Používanie vyhľadávacích nástrojov je zvyčajne založené na použití kľúčových slov, ktoré sa do vyhľadávacích nástrojov odovzdávajú ako argumenty vyhľadávania: čo treba hľadať. Ak je to správne, vytvorenie zoznamu kľúčových slov si vyžaduje predbežnú prácu na príprave tezauru.

    Hľadajte pomocou špeciálnych nástrojov

Táto plne automatizovaná metóda môže byť veľmi efektívna pri uskutočňovaní počiatočných vyhľadávaní.

Spider je kľúčový nástroj na prehľadávanie webu. Ako už bolo uvedené, spider je program, ktorý získava niektoré alebo všetky zdroje z veľkého počtu webov, hlavne na účely vytvárania obrátených indexov, ktoré budú neskôr použité vyhľadávacími aplikáciami. Rovnako ako ostatní weboví klienti, aj tento spider zadáva požiadavky HTTP na prístup k prostriedkom webových stránok a analyzuje odpovede. Hlavné rozdiely medzi pavúkom a prehľadávačom sú oveľa väčší počet stránok, na ktoré sa pristupuje a odosielajú žiadosti, chýbajúce zobrazovanie odpovedí a pomerne neobvyklé používanie odpovedí.

V praxi je však možné od stránok požadovať iba zlomok zdrojov. Mnoho pavúkov napríklad nevyžaduje obrázky ani multimediálne zdroje. To sa deje, ak sa pavúk používa iba na vytvorenie indexu textových zdrojov.

    Analýza nových zdrojov

Vyhľadávanie novovzniknutých zdrojov môže byť potrebné pri opakovaných cykloch vyhľadávania, vyhľadávaní najnovších informácií alebo pri analýze trendov vývoja dynamiky výskumného objektu.

Ďalším možným dôvodom môže byť to, že väčšina vyhľadávacích nástrojov aktualizuje svoje indexy so značným oneskorením kvôli veľkému množstvu spracovaných údajov. Toto oneskorenie je zvyčajne tým dlhšie, čím menej populárna je téma záujmu. Táto úvaha môže byť veľmi dôležitá pri vyhľadávaní vo vysoko špecializovanej oblasti. Môže to zahŕňať napríklad prácu so sociálnymi sieťami, videoobsahom.

Skutočne užitočné metódy vyhľadávania informácií o vzdelávaní na internete:

    Vypracovanie tezauru

Pre efektívne využitie vyhľadávacích nástrojov je potrebný zoznam kľúčových slov, usporiadaný s prihliadnutím na sémantické vzťahy medzi nimi, t.j. tezaurus. Pri zostavovaní tezauru je potrebné zabezpečiť spracovanie synoným, homoným a morfologických variácií kľúčových slov. Nie je potrebné zadávať názov samotnej témy.

    Pozrite si stránky vyhľadávania 2-3–4

    Výber vyhľadávacích nástrojov

Postupnosť používania vyhľadávacích nástrojov je stanovená v súlade s poklesom očakávanej efektívnosti vyhľadávania pri použití každého vyhľadávacieho nástroja.

Celkovo je známych asi 180 vyhľadávacích serverov, ktoré sa líšia v oblastiach pokrytia, princípoch vyhľadávania (a teda vo vstupnom jazyku a povahe vnímaných dotazov), veľkosti indexovej základne, rýchlosti aktualizácie informácií, schopnosť vyhľadávať „neštandardné“ informácie a podobne. Hlavnými kritériami pre výber vyhľadávacích serverov sú objem indexovej základne servera a stupeň rozvoja samotného vyhľadávacieho nástroja, to znamená úroveň zložitosti dotazov, ktoré vníma.

    Používajte zdroje v anglickom jazyku, aj keď tento jazyk neovládate. Dnes už technický strojový preklad nie je len zbierkou slov ako kedysi. Dobré a užitočné zahraničné stránky sú preložené viac než adekvátne.

    Na vyhľadanie informácií o vzdelávaní použite špecializované zdroje:e- knižnica, banka dizertačných prác, kybernetický trh, archívne weby atď.

Po dokončení práce možno dospieť k záveru, že internet obsahuje veľmi veľké množstvo vzdelávacích informácií o rôznych témach vo forme článkov v elektronických novinách, správ, referenčných kníh, grafických obrázkov, zvukových a obrazových súborov a oveľa viac. Pri surfovaní na internete môžete nájsť akékoľvek informácie, inými slovami, ak by sa niekedy nejaké údaje zadali do počítača, potom ich s najväčšou pravdepodobnosťou nájdete niekde na obrovských plochách internetu.

Na internete neexistujú žiadne informácie, ktoré by sa dali nájsť, potrebujete iba vedieť, kde a ako hľadať.

Bibliografia

    Garmashov M. Yu., Korotkov A. M. Príprava študentov na produktívne aktivity v didaktickom počítačovom prostredí. - Volgograd, 2001.

    I. P. Norenkov Znalostný manažment v informačnom a vzdelávacom prostredí. - M: MESI, 2000.

    Putilov G.P. Koncepcia budovania informačného a vzdelávacieho prostredia pre technickú univerzitu. - M.: MGIEM, 1999.

    Nástroje na vyhľadávanie informácií na INTERNETE // Afanasy-Exchange (Tver). - 28. marca 1997.

    Uskov V.L. Dištančné inžinierske vzdelávanie na základe internetu / knižnice časopisu "Information Technologies", 2000, č. 3.

    Demin Igor Svyatoslavovich Vyhľadajte vedecké a vzdelávacie informácie na internete // Vestnik TSU. 2008. č. 9.

Vyhľadávanie informácií na globálnom internete: všeobecné informácie

Podľa princípu organizácie a použitia možno vyhľadávacie nástroje rozdeliť na:

    Katalógy ... Adresáre sú adresáre obsahujúce zoznamy internetových adries zoskupené podľa určitých kritérií. Spravidla sú zoskupené podľa tém (veda, umenie, správy atď.), Kde sa každá téma rozvetvuje do niekoľkých podúrovní. Niektoré adresáre vyhľadávania:

názov

Hej!

www.au.ru

Atrus (vyžaduje sa registrácia)

www.atrus.ru

List.ru

www.list.ru

Konštelácia

www.stars.ru

Slimák

www.ulitka.ru

Ivan Susanin

www.susanin.ru

    Vyhľadávače autá ... Na podrobné vyhľadávanie dokumentov sa používajú špecializované vyhľadávače - vyhľadávače. Po prijatí žiadosti od používateľa vyhľadávací modul vytvorí zoznam dokumentov zodpovedajúcich vyhľadávacej úlohe. Nájdené dokumenty sú zoradené podľa umiestnenia kľúčových slov (v nadpise, na začiatku textu, v prvých odsekoch) a frekvencie ich výskytu v texte. Používanie rôznych vyhľadávacích nástrojov poskytuje rôzne výsledky. Najbežnejšie vyhľadávače sú:

názov

Ja ndex

www. yandex. ru

ALE prístav

www.aport.ru

R ambler

www.rambler.ru

G uhlie

www.google.ru

M eil

www. poštou.ru

Ja NS

www.yahoo.com

ALE ltavista

www.altavista.com

Vyhľadávací dopyt môže pozostávať z jedného alebo viacerých slov a môže obsahovať rôzne interpunkčné znamienka. Pokiaľ ide o prípad, vo všeobecnosti ide o pravopis hľadaných slov a operátorovna tom nezáleží , to znamená, že slová „abstraktné“, „abstraktné“, abstraktné, „ABSTRAKT“ a „ABSTRAKT“ budú vnímané rovnako. To plne platí pre latinskú abecedu. Takže: „Yes „a„ ÁNO “a dokonca aj„ yeS “,„ áno “a„ ÁNO “sú pri vyhľadávaní rovnaké.

Praktická práca "Vyhľadávanie informácií na globálnom internete"



Skrytie arómy v púčikoch,

Kvitnú orgovány.

Máj kvitne, čo znamená

Dnes je sviatok - máj!

    Uložiť báseň:


  1. Vyhľadávanie obrázky z dovolenky:


  2. Skontrolujte výsledky vyhľadávania nachádza sa na 1 stránke. Prejdite na 2. stránku: posuňte koliesko myši tak, aby bolo v dolnej časti okna prehliadača, a klikniteĽ KM odkazom na stránku2 .

    Prosím vyber obrázok, ktorý sa vám páči, a kliknite naňĽ KM.

V novom okne uvidíte ten istý obrázok, len vo zväčšenej veľkosti. Napravo od neho budú informácie o veľkosti obrázku a stránkach, na ktorých sa nachádza.

    Skopírujte obrázok :

    1. vykonaj kliknutieNS CM na obrázku;

      vyberte tímSkopírujte obrázok ;

      zatvorte okno prehliadača kliknutím na tlačidloZavrieť .

    Vložte obrázok do dokumentu:

    1. choďte do okna textového editora (mala by existovať gratulačná báseň);

      pripnite kurzor kliknutímĽ KM po poslednom znaku básne (tento! ) a stlačte tlačidloZadajte presunúť kurzor na nový riadok;

      vykonaj kliknutieNS KM;

      v miestnej ponuke vyberte príkazVložte .

    Uložte dokument vo vašom osobnom priečinku pod menomGratulujeme *** z *** ... Namiesto prvého *** zadajte meno osoby, ktorej bude blahoželanie zaslané; namiesto druhého *** zadajte svoje meno. Napríklad,Gratulujem Anastasii od Olgy ... Zatvorte program textového editora.

    Spustite prehliadač Google Chrome
    .

    Choďte do svojej poštovej schránky na portálipoštou . ru

    V hlavnej ponuke pošty (v hornej časti okna) vyberte príkazNapíš správu .

    Vyplňte povinné polia :


  1. Vyberte tlačidloposlať (nachádza sa v hornej a dolnej časti okna prehliadača).

    Zatvorte okno prehliadača.

    Vypnite počítač.

Cvičenie 1

Úloha : Nájdite názov najväčšieho sladkovodného jazera na svete.


Pre optimálnu a rýchlu prácu s vyhľadávacími nástrojmi existujú určité pravidlá pre písanie dotazov. Podrobný zoznam pre konkrétny vyhľadávací server nájdete spravidla na serveri samotnom pod odkazmi Pomoc, Nápoveda, Pravidlá pre zadanie žiadosti atď.

    Usporiadajte svoje vyhľadávanie a vyplňte tabuľku s výsledkami vyhľadávania:

    Otázka

    Výsledky hľadania (počet stránok)

    yandex . ru

    rambler . ru

    google.ru

    poštou .ru

    aport . ru

    Ako nájsť človeka na internete fotografovaním?

    Ako sa zaregistrovať na webovej stránke Vkontakte?

    Ako odstrániť červené oči?

    Zatvorte prehliadač (ukončite program).

Cvičenie 2

Úloha : nájsťživotopis ministra školstva Ruskej federácie A.A. Fursenka pomocou vyhľadávacieho nástrojag oogle. r u

Cvičenie # 3

Vyhľadávanie literárnych diel na internete




Pozor! Na prezeranie kníh vo formáteFB2 potrebujete špeciálny program („čítačku“). Napríklad,AlReader .

Kurzová práca

Na tému: „Organizácia ukladania a vyhľadávania informácií na internete“


Úvod

Internet ako médium informácií v Rusku ešte nemôže konkurovať tradičným médiám, má však v tomto ohľade veľké vyhliadky a v budúcnosti bude schopný konať rovnako ako iné informačné zdroje.

V súčasnosti viac alebo menej pravidelne používa viac ako 500 miliónov ľudí

Internet a za dva roky ich počet podľa odborníkov presiahne 1 miliardu, inými slovami, viac ako 16% svetovej populácie. Takéto kolosálne publikum samozrejme nemohlo zostať nevyžiadané - internet sa už dlho zmenil na obrovskú informačnú platformu.

Na celom svete, a teraz aj v našej krajine, sa prítomnosť fungujúcich webových stránok stáva znakom stabilnej a profesionálnej práce spoločnosti. Internet sa dlho nestal iba komunikačným prostriedkom, ale aj poľom pre serióznu komerčnú činnosť. Takmer každá zahraničná spoločnosť má svoje vlastné zastúpenie na internete, teda virtuálne sídlo. Celkový obrat spoločností obchodujúcich na internete dosahuje miliardy dolárov. V Rusku čoraz viac spoločností tiež používa internet na propagáciu svojich výrobkov a služieb. Toto je ľahké overiť pri pohľade na reklamné publikácie. Spolu s obvyklými telefónnymi a faxovými číslami sa nachádza čoraz viac e-mailových a webových adries. Nedostatok internetovej adresy bude čoskoro taký ťažký ako nedostatok faxu. Tí, ktorí zaujmú ich miesto teraz, budú mať v budúcnosti výrazný prospech. Toto je efektívnosť a relevantnosť. Tradičné masmédiá so všetkou svojou viditeľnosťou a známosťou už nie sú schopné zabezpečiť primeranú úroveň efektívnosti požadovanú moderným človekom. Čoraz viac ľudí sa preto obracia na internet, aby získali najnovšie informácie: o službách a cenách, počasí, výmenných kurzoch, iba správach. Informácie na webe môžete meniť niekoľkokrát denne. V tlačených médiách je potrebné reklamy objednávať minimálne týždeň vopred alebo aj viac. A na internete je všetko funkčné: nový tovar alebo služby, nová zľava alebo nový dodávateľ - zajtra sa o nich dozvedia zákazníci. Nie je potrebné čakať, kým vyjde ďalší tlačený inzerát. Informácie na stránke budú vždy aktuálne, najaktuálnejšie. Toto sa cení, priťahuje milióny používateľov na internet.


1. Ukladanie dát v sieti Internet

1.1 Hypertextové dokumenty, typy súborov

Hypertextovým dokumentom sa rozumie dokument obsahujúci takzvané odkazy na iný dokument. To všetko je implementované prostredníctvom protokolu HyperText Transfer Protocol (HTTP).

Informácie v webových dokumentoch možno nájsť podľa kľúčových slov. To znamená, že každý webový prehľadávač obsahuje konkrétne odkazy, prostredníctvom ktorých sa vytvárajú takzvané hypertextové odkazy, ktoré umožňujú miliónom používateľov internetu vyhľadávať informácie po celom svete.

Hypertextové dokumenty sa vytvárajú na základe jazyka HTML (HyperText Markup Language). Tento jazyk je veľmi jednoduchý, jeho ovládacie kódy, ktoré v skutočnosti zostavuje prehľadávač na zobrazenie na obrazovke, pozostávajú z textu ASCII. Odkazy, zoznamy, nadpisy, obrázky a formuláre sa nazývajú prvky HTML, ktoré vám umožňujú kliknutím zobraziť ďalší dokument kliknutím myši.

Existujú dva spôsoby, ako vytvoriť hypertextové dokumenty. Môžete použiť jeden z editorov WYSIWYG HTML (napríklad Netscape Composer, ktorého základné informácie sú popísané v sekcii „Spracovanie textu v počítači“, Microsoft FrontPage, HotDog atď.), Ktoré nevyžadujú špeciálne znalosti o vnútorná štruktúra vytvoreného dokumentu. Táto metóda umožňuje vytvárať dokumenty pre WWW bez znalosti jazyka HTML. HTML editory automatizujú vytváranie hypertextových dokumentov, eliminujú rutinnú prácu. Ich možnosti sú však obmedzené, výrazne zväčšujú veľkosť výsledného súboru a výsledok získaný s ich pomocou nie vždy zodpovedá očakávaniam vývojára. Ale táto metóda je samozrejme nevyhnutná pre začiatočníkov pri príprave hypertextových dokumentov.

Alternatívou je vytvorenie a označenie dokumentu pomocou bežného editora obyčajného textu (napríklad emacs alebo NotePad). Táto metóda ručne vkladá príkazy HTML do textu. Ak vytvoríte dokumenty týmto spôsobom, budete presne vedieť, čo robíte.

Ako bolo uvedené, dokument HTML obsahuje symbolické informácie. Jeho súčasťou je samotný text, t.j. údaje, ktoré tvoria obsah dokumentu. Ďalší - značky(značkovacie značky), nazývané tiež značenie vlajok, - špeciálne konštrukcie jazyka HTML používané na označenie dokumentu a kontrolu jeho zobrazenia. Práve tagy jazyka HTML určujú, v akej podobe bude text prezentovaný, ktoré z jeho komponentov budú pôsobiť ako hypertextové odkazy, ktoré grafické alebo multimediálne objekty by mali byť v dokumente obsiahnuté. Grafické a zvukové informácie obsiahnuté v dokumente HTML sú uložené v samostatných súboroch. Prehliadače dokumentov HTML (prehľadávače) interpretujú značky značiek a podľa toho usporiadajú text a grafiku na obrazovke. V prípade súborov obsahujúcich dokumenty HTML sú akceptované prípony .htm alebo .html.

Pri písaní značiek sa nerozlišujú veľké a malé písmená . Vo väčšine prípadov sa značky používajú v pároch. Pár sa skladá z počiatočnej značky a koncovej značky. Syntax úvodnej značky:

<имя_тега [атрибуты]>

Zátvorky použité v popisoch syntaxe naznačujú, že prvok môže chýbať. Názov záverečnej značky sa líši od názvu úvodnej značky iba v tom, že jej predchádza lomka:

Atribúty značiek sú napísané v nasledujúcom formáte:

meno [= "hodnota"]

Úvodzovky pri zadávaní hodnoty argumentu sú voliteľné a možno ich vynechať. Pre niektoré atribúty nemusí byť hodnota uvedená. Koncová značka nemá žiadne atribúty.

Akcia ľubovoľnej spárovanej značky začína tam, kde sa nachádza začiatočná značka, a končí sa, keď sa vyskytne zodpovedajúca koncová značka. Často sa nazýva dvojica začiatočných a koncových značiek kontajner a časť textu ohraničená úvodnou a záverečnou značkou je element .

Poradie znakov, ktoré tvoria text, môže pozostávať z medzier, tabulátorov, riadkov, posunov riadkov, písmen, interpunkčných znamienok, čísel a špeciálnych znakov (napríklad +, #, $, @), s výnimkou nasledujúce štyri znaky, ktoré majú v HTML špeciálny význam:< (меньше), >(väčšie ako), & (ampersand) a „(úvodzovka). Ak potrebujete do textu zahrnúť ktorýkoľvek z týchto znakov, mali by ste ho zakódovať do špeciálnej postupnosti znakov.

Nerozbitné medzery je možné klasifikovať aj ako špeciálne znaky. Použitie tohto symbolu je jedným zo spôsobov, ako zväčšiť medzeru medzi niektorými slovami v texte. Na tieto účely nemôžete použiť bežné medzery, pretože skupina po sebe nasledujúcich medzier je prehľadávačom interpretovaná ako jedna.

1.2 Grafické súbory, ich typy a vlastnosti

V dnešnej dobe vyzerá plnofarebná vysokokvalitná grafika v realistických farbách na počítačoch triedy PC úplne bežne. Nie je to však tak dávno pred výsadou publikačných systémov, ktoré sa zvyčajne stavali na platformách Macintosh alebo na grafických staniciach Silicon Graphics. Ako poslednú možnosť si užívatelia PC vystačili s grafikou s farbami, maximálnou hĺbkou 8 bitov / pixel (256 farieb) pri pomerne slabom rozlíšení 320X200 alebo 16 farbami pri rozlíšení 640X480.

Teraz, s vývojom architektúr grafických adaptérov a znížením nákladov na videopamäť na rôznych mikroobvodoch, je priemerný používateľ celkom prístupný k systémom na platforme PC, ktoré úspešne pracujú s realistickými (TrueColor) obrazmi s hĺbkou 24 bitov / pixelov (viac ako 16 miliónov farieb).

V súvislosti s technickým pokrokom vznikla potreba prenosu na platformu PC a prispôsobenie rôznych formátov na kódovanie a ukladanie grafických informácií z iných platforiem (napríklad Macintosh, kde sa podobný vývoj vyvíja už druhú dekádu), alebo vývoj naše vlastné grafické formáty orientované na PC, ktoré plne zohľadňujú všetky vlastnosti architektúry ich grafických adaptérov.

Navyše v posledných 5 rokoch začal v súvislosti s bleskovým rýchlym šírením internetu a najmä s technológiami World Wide Web, vznikať problém iného druhu - vývoj obrazových formátov, ktoré sú dostatočne kompaktné na to, prenos v sieti s minimálnymi oneskoreniami a sú hardvérovo nezávislé, pretože sú pripojené k sieti počítače rôznych architektúr.

V tejto súvislosti by som rád stručne zvážil niekoľko bežných grafických formátov a stručne popísal ich možnosti. Všetky tieto informácie sú zhrnuté v nasledujúcej tabuľke:

Formát Max. hlboko farby Max. počet farieb

Max. veľkosť obrázku,

Kódujte viac obrázkov
BMP 24 16"777"216 65535x65535 RLE * -
GIF 8 256 65535x65535 LZW +
Jpeg 24 16"777"216 65535x65535 Jpeg -
PCX 24 16"777"216 65535x65535 RLE -
Obrázok PNG 48 281"474"976"710"656 Deflácia (LZ77) -
Tiff 24 16"777"216 spolu 4'294'967'295 LZW, RLE a ďalšie * +

Ďalej je potrebné poznamenať, že najkompaktnejšie formáty sú JPEG, GIF, PNG, ktoré sú navyše nezávislé na platforme. Formát BMP je štandardný formát pre Windows, ale kvôli prehnaným veľkostiam súborov sa veľmi nepoužíva, najmä pri ukladaní grafiky s farebnou hĺbkou 24 bitov / pixel. Pokiaľ ide o formát TIFF, treba poznamenať, že rovnako ako JPEG, GIF, je čiastočne nezávislý na platforme, je však príliš veľký na použitie na webe a ešte horšie je, že je ťažké ho interpretovať. Okrem toho musia byť akékoľvek softvérové ​​produkty vrátane prehliadačov grafických súborov, ktoré obsahujú kód na kódovanie / dekódovanie údajov pomocou algoritmu LZW, distribuované na základe príslušnej licenčnej zmluvy spoločnosti Unisys Corp., vlastníka algoritmu, čo ďalej zvyšuje ich náklady. Produkty.

Ďalej by som sa chcel zamerať na multiplatformové formáty akceptované na internete ako de facto štandard: JPEG, GIF, PNG.

Hneď chcem poznamenať, že formátu PNG (Portable Network Graphic) sa nebude venovať veľká pozornosť, aj keď si to možno zaslúži. Je to dôsledok skutočnosti, že tento formát sa objavil nie tak dávno a napriek všetkým výhodám sa mu zatiaľ nedostalo univerzálneho uznania.

Osoba alebo spoločnosť, ktorá má v úmysle umiestniť na svoje disky veľké množstvo obrázkov a prípadne ich poskytnúť na použitie na internete, teda stojí pred dilemou: čo si zvoliť GIF alebo JPEG.

Formát GIF vyvinutý spoločnosťou CompuServe a pôvodne navrhovaný ako formát na výmenu obrázkov na webe je formát s pomerne vysokým kompresným pomerom obrázkov. Okrem toho má GIF ďalšie funkcie, vďaka ktorým je atraktívne jeho použitie na webe. Prvým je možnosť zmeniť poradie zobrazovania obrazových riadkov na obrazovke a vyplniť medzery medzi nimi dočasnými informáciami. Vizuálne to vyzerá tak, že pri sťahovaní zo siete (čo sa často deje pri katastroficky nízkej rýchlosti) sa obraz na obrazovke zobrazí akoby „v nízkej kvalite“, a potom po načítaní ďalších informácií obnoví chýbajúce riadky obrázka. Užívateľ tak môže získať predstavu o obsahu obrázka ešte pred dokončením procesu sťahovania a prerušiť sťahovanie nepotrebného veľkého súboru. Druhou možnosťou je uložiť viac ako jeden obrázok do jedného súboru, čo umožňuje základnú animáciu po jednotlivých snímkach. Ďalším charakteristickým znakom súboru GIF je, že jedna z farieb môže byť vyhlásená za „priehľadnú“. Keď sa zobrazí obrázok, jeho časti, ktoré sú namaľované touto farbou, sa nezobrazia na obrazovke a na pozadí, na ktorom je obrázok zobrazený. je superponovaný, bude pod nimi viditeľný. Najväčšou nevýhodou GIF je, že dokáže uložiť maximálne 256 farieb, čo je v poslednej dobe čoraz menej prijateľných. Používateľov GIF zároveň prenasleduje rovnaká nepríjemnosť ako v prípade formátu TIFF: GIF tiež využíva kompresiu LZW, a preto je možné každý obrázok distribuovať, iba ak existuje zodpovedajúca licenčná zmluva.

Formát JPEG je formát TrueColor, čo znamená, že môže ukladať obrázky s farebnou hĺbkou 24 bitov / pixel. Táto farebná hĺbka je dostatočná na prakticky presnú reprodukciu obrázkov akejkoľvek zložitosti. Hlbšia farebná reprezentácia (napr. 32 bitov / pixel) je v skutočnosti na nerozoznanie od tej pri prezeraní na moderných monitoroch a pri tlači na väčšine dostupných tlačiarní. Táto farebná hĺbka môže byť užitočná iba pri publikovaní. JPEG má všeobecne vyššiu mieru kompresie obrázkov ako GIF (tento aspekt je podrobnejšie popísaný v kapitole „Postupy pri používaní JPEG“), ale nedokáže uložiť viac obrázkov do jedného súboru. Nedávno bola vyvinutá modifikácia formátu JPEG s názvom Progressive JPEG, ktorú je možné zhruba preložiť do ruštiny ako „postupný JPEG“, ktorý je určený na rovnaké úlohy ako prekladané zobrazovanie obrázkov GIF. Vďaka tomu bol formát JPEG ako webový štandard ešte atraktívnejší. JPEG má však aj svoje nevýhody. Na rozdiel od formátu GIF, ktorý dokáže efektívne komprimovať obrázky takmer s akýmkoľvek obsahom, sa JPEG zameriava predovšetkým na realistické obrázky, to znamená na fotografické obrázky, a kvalita spracovania kompresie sa pri spracovaní obrázkov s jasne definovanými čiarami a farebnými hranicami výrazne zníži.

Stále je teda nemožné urobiť konečnú voľbu v prospech jedného alebo druhého formátu. Formát JPEG mi však pripadá zaujímavejší z pohľadu pôvodného kompresného algoritmu a veľkých možností vývoja do budúcnosti. Tiež formát JPEG by sa mal považovať za jednoznačne pružnejší: umožňuje vám vybrať si medzi dobrou kvalitou obrazu alebo dobrým kompresným pomerom a nájsť prijateľný kompromis pre každý konkrétny prípad. Preto je celý ďalší výskum venovaný tomuto konkrétnemu formátu.

1.3 Vyhľadávacie nástroje a pravidlá pre vyhľadávanie informácií

Pohodlie internetu spočíva v tom, že v ňom nájdete takmer všetky informácie, aj keď nevieme, kde presne sa nachádzajú. Pokiaľ nie je známa adresa stránky s materiálom, o ktorý sa zaujímame, a taktiež neexistuje stránka s vhodnými odkazmi, musíme hľadať materiály po celom internete. K tomu použite internetové vyhľadávače - špeciálne webové stránky, ktoré vám umožňujú nájsť požadovaný dokument.

Existujú dve hlavné metódy vyhľadávania na internete. V prvom prípade hľadáte webové stránky týkajúce sa konkrétnej témy. Vyhľadávanie sa vykonáva výberom tematickej kategórie a jej postupným zužovaním. Takéto vyhľadávače sa nazývajú adresáre vyhľadávania. Sú vhodné, keď sa potrebujete sami oboznámiť s novou témou alebo sa dostať k známym „klasickým“ zdrojom o danej téme. Druhá metóda vyhľadávania sa používa, keď je téma úzka, konkrétna alebo potrebujete vzácne, málo známe zdroje. V takom prípade si musíte predstaviť, aké kľúčové slová by sa mali nachádzať v dokumente o téme, ktorá vás zaujíma. Tieto slová musia byť zvolené tak, aby sa s najväčšou pravdepodobnosťou našli v potrebných dokumentoch, ktoré nesúvisia so zvolenou témou. Systémy, ktoré umožňujú tento druh vyhľadávania, sa nazývajú indexy vyhľadávania. Vyhľadávacie adresáre sa líšia od indexov vyhľadávania nielen metódou vyhľadávania, ale aj spôsobom ich vytvorenia. Akýkoľvek vyhľadávací nástroj na internete sa skladá z dvoch častí. Špecializovaná webová stránka, ktorá je prístupná každému a umožňuje mu vyhľadávať, sa spolieha na veľkú, neustále aktualizovanú a aktualizovanú databázu, ktorá obsahuje informácie o internetových zdrojoch.

Spôsob doplňovania tejto databázy závisí od typu vyhľadávača, prehľadávacích adresárov, najdôležitejšia je presnosť výberu. Každý zdroj, ktorý nájdete, by mal byť užitočný. Téma stránky je definovaná alebo kontrolovaná ručne. Z tohto dôvodu je objem adresárov vyhľadávania pomerne malý. Keď sa objem priblíži k miliónu strán, množstvo manuálnej práce je také veľké, že sa zastaví ďalší rast katalógu.

Vyhľadávacie indexy sú naopak šírkou dosahu. S definíciou slov dostupných na webovej stránke si automatizácia poradí dobre, údaje z indexu vyhľadávania môžu pokrývať mnoho miliónov webových stránok. To sťažuje hľadanie indexu ako hľadanie v adresári, pretože na webových stránkach s rôznymi témami sa môžu zobraziť rovnaké kľúčové slová.

Systémy na získavanie informácií sú hostené na internete na verejných serveroch. Základom vyhľadávacích nástrojov sú takzvané vyhľadávače, alebo automatické indexy. Špeciálne robotické programy (známe tiež ako pavúky) automaticky periodicky skenujú internet na základe určitých algoritmov a indexujú nájdené dokumenty. Vytvorené databázy indexov používajú vyhľadávače na to, aby používateľovi poskytli prístup k informáciám zverejneným na webových stránkach. Používateľ formuluje požiadavku v rámci príslušného rozhrania, ktorá je spracovaná systémom, po ktorom sú v okne prehliadača zobrazené výsledky spracovania požiadavky. Mechanizmy spracovania dotazov sa neustále zlepšujú a moderné vyhľadávače nielen triedia obrovské množstvo dokumentov. - Vyhľadávanie sa uskutočňuje na základe originálnych a veľmi komplexných algoritmov a jeho výsledky sa analyzujú a triedia tak, aby informácie poskytované používateľovi v najväčšej miere splnili jeho očakávania.
V súčasnosti existuje vo vývoji vyhľadávacích nástrojov tendencia kombinovať automatické vyhľadávače indexov a ručne zostavované katalógy internetových zdrojov. Zdroje týchto systémov sa navzájom úspešne dopĺňajú a je celkom logické kombinovať ich schopnosti.

Štúdie schopností vyhľadávacích nástrojov, aj tých najsilnejších z nich, ako sú AltaVista alebo HotBot, však ukazujú, že skutočné pokrytie zdrojov World Wide Web samostatným takýmto systémom nepresahuje 30%. Preto by ste sa nemali obmedzovať na používanie žiadneho z nich. Ak ste nedokázali nájsť informácie, ktoré vás zaujímajú, pomocou jedného systému, skúste použiť iný.

Každý vyhľadávací nástroj má svoje vlastné charakteristiky a kvalita získaného výsledku závisí od predmetu vyhľadávania a presnosti dotazu. Preto pri začatí vyhľadávania informácií musíte v prvom rade jasne pochopiť, čo presne a kde chcete nájsť. Zahraničné systémy napríklad zarážajú počet indexovaných dokumentov. Pre vyhľadávanie v oblasti odborných znalostí, najmä informácií v cudzom jazyku, sú najvhodnejšie systémy ako AltaVista, HotBot alebo Northern.

Na vyhľadávanie informácií v ruštine, najmä v ruskej časti internetu, sú však vhodnejšie ruské vyhľadávače. Po prvé, sú osobitne zamerané na ruskojazyčné zdroje webu a spravidla sa vyznačujú väčším pokrytím a hĺbkou výskumu týchto zdrojov. Po druhé, ruské systémy pracujú s prihliadnutím na morfológiu ruského jazyka, to znamená, že do hľadania sú zahrnuté všetky formy požadovaných slov. Ruské systémy lepšie zohľadňujú takú historicky zavedenú vlastnosť ruských internetových zdrojov, ako je koexistencia niekoľkých kódovaní v azbuke.

2. Prehľad a charakteristika webových vyhľadávacích nástrojov Internet

2.1 Rambler

Na vyhľadávanie informácií v ruskom jazyku na internete je lepšie používať ruské vyhľadávače. V tejto skúsenosti a v ďalších, budeme hľadať informácie pomocou niekoľkých systémov určených na vyhľadávanie v rusky hovoriacej časti internetu. Ako uvidíte, zásadne sa nelíšia od svetových vyhľadávačov. Pretože sme už preskúmali niekoľko systémov a poznáte všeobecné princípy vyhľadávania informácií na internete, v ďalších experimentoch sa nebudeme venovať všetkým zložitostiam. Pretože tieto systémy s vami komunikujú v ruštine, budete ich môcť nezávisle študovať pomocou poznatkov získaných z predchádzajúcich experimentov.

Poďme hľadať pomocou systému Rambler. Ako uvidíte, tento systém má pohodlný systém na vyhľadávanie a vydávanie nájdených informácií.

Môžete vyhľadávať v sieti WWW aj v diskusných skupinách, ako aj v katalógu tohto systému a vo výrobkoch. Okrem jednoduchého dotazu je možné pracovať aj s podrobnými dotazmi. Vykonáme však jednoduchý dopyt, rovnako ako v prípade iných ruských vyhľadávacích nástrojov.

Zadajte slová do vstupného poľa dotazu Vyhľadávanie na internete. Chceme nájsť dokumenty, ktoré obsahujú slovo „hľadať“ aj slovo „internet“.

Kliknite na tlačidlo Nájsť!... Dostali sme zoznam nájdených stránok.

Zoznam nájdených stránok je pohodlne usporiadaný. Najskôr existujú odkazy na stránky, ktoré najlepšie zodpovedajú kritériám vyhľadávania. Požiadavke najviac vyhovujú dokumenty, v ktorých sa hľadané slová často opakujú a nachádzajú sa neďaleko od seba. Zistené kľúčové slová sú navyše zvýraznené v krátkom fragmente textu nájdeného dokumentu.

V systéme Rambler vidíte slová, ktoré sa najčastejšie používajú v dotazoch používateľov. Okrem toho Rambler vedie zoznam najpopulárnejších ruských internetových stránok. Pretože všetky informácie v systéme sú prezentované v ruštine, dúfame, že sa v budúcnosti budete môcť nezávisle oboznámiť s funkciami tohto vyhľadávacieho nástroja.

2.2 Yandex

Vyhľadávací modul Yandex sa nachádza na www.uaandeh.ru. Oficiálne bola uvedená do prevádzky 23. septembra 1997.

Čo je Yandex? Takto odpovedajú tvorcovia systému na túto otázku. Yandex je systém fulltextového vyhľadávania informácií (ISS), ktorý zohľadňuje tvaroslovie ruského a anglického jazyka. Systém Yandex je navrhnutý na vyhľadávanie informácií v elektronických textoch rôznych štruktúr a rôznych prezentačných metód (formátov). Yandex (vyslovuje sa „Yandex“) znamená „jazykový index“ alebo v angličtine Yandex - YetAnotherINDEX. Yandex môžete tiež považovať za čiastočný preklad slova Index z angličtiny do ruštiny („I“ znamená „I“).

V srdci vyhľadávacieho nástroja Yandex. Ru je systémové jadro spoločné pre všetky produkty s predponou Yandex (Yandex. Site, Yandex. Lib, Yandex. Dict, Yandex.CD). Prvé produkty série Yandex (Yandex. Site, Yandex. Dict) boli predstavené širokej verejnosti 18. októbra 1996 na výstave Netcom'96. Vyhľadávač pre „ruský internet“. bolo prirodzeným pokračovaním línie Yandex. Ako bolo uvedené, dobrá otázka obsahuje polovicu odpovede. Vyhľadávanie a hľadanie toho, čo potrebujete, v hromade textov na internete, nie je len zručnosť vyhľadávacieho nástroja, ale aj používateľa, ktorý zadáva požiadavku. Yandex nevyžaduje, aby používateľ poznal špeciálne vyhľadávacie príkazy. stačí napísať otázku („kde nájsť lacné počítače“ alebo „potrebujeme telefóny v Moskve a moskovskom regióne“) a dostanete výsledok - zoznam stránok, kde sa tieto slová nachádzajú. Bez ohľadu na formu, v ktorej ste použili slovo v dotaze, vyhľadávanie zohľadňuje všetky jeho formy podľa pravidiel ruského jazyka. Napríklad ak je dopyt nastavený na go, potom sa pri vyhľadávaní nájdu odkazy na dokumenty, ktoré obsahujú slová „go“, „goes“, „walked“, „walked“ atď.

Yandex pracuje nielen s jazykovými dotazmi, ale umožňuje vám vyhľadávať iba na určitých serveroch ALEBO vylúčiť z vyhľadávania zjavne nepotrebné servery. Teraz môžete vyhľadávať obrázky podľa titulkov a názvov súborov. Na vyhľadávanie boli sprístupnené aj objekty ako skripty, applety a štýly (vyhľadávanie sa vykonáva podľa názvu). Pohodlná práca s novými funkciami je ponúkaná na stránke rozšíreného vyhľadávania, kde sa zložitý dotazovací jazyk redukuje na vyplnenie polí vo formulári. Okrem štandardného triedenia výsledkov - podľa dôležitosti (to znamená podľa stupňa súladu s dotazom) môžete dokumenty triediť podľa dátumu aktualizácie. Zaujímavou funkciou systému je schopnosť vyhľadávať v serveri Yandex kdekoľvek na internete. Aby ste to dosiahli, musíte si stiahnuť program s názvom Yandex. Bar a nainštalujte ho. Potom sa v okne prehliadača zobrazí nový panel. Je navrhnutý tak, aby zadal požiadavku na vyhľadávanie (bez nutnosti otvorenia stránky Yandex) a vykonával množstvo ďalších funkcií.

Yandex vyzerá ako typický portál, na ktorého hlavnej stránke nájdete odkazy na materiály takmer akejkoľvek témy. Nie je to však jeho jediná tvár, pre „vážnych“ používateľov, ktorí nechcú strácať čas sťahovaním informácií, ktoré sú v tejto chvíli nepotrebné, existuje ďalší Yandex. Jeho stránka zaujme skromným dizajnom a rýchlosťou načítania. Adresa tejto podstaty vyhľadávacieho nástroja je www.ya.ru.

2.3 Yahoo

Databázy: Spravuje ich vyhľadávacia služba pre internetové zdroje, správy, mapy, reklamné informácie, športové informácie, firmy, telefónne čísla, osobné WWW stránky a e-mailové adresy (samostatná databáza).

Vyhľadávanie: Všetky stránky Yahoo ponúkajú nielen jednoduché vyhľadávacie pole, ale aj možnosti tohto vyhľadávania, ako aj vyhľadávanie v sieti Usenet alebo e-mailu. Vyhľadávanie je možné obmedziť na konkrétne časové obdobie. Podporované sú aj logické operátory (a, alebo) a sekvenčné vyhľadávanie. Poznámka: Ak hľadáte na Yahoo! neviedlo k pozitívnemu výsledku, proces vyhľadávania sa automaticky prepne na Alta Vista, ktorý pokračuje v hľadaní, a v prípade pozitívnych výsledkov automaticky vráti nájdené informácie spoločnosti Yahoo!.

Ak Yahoo! sa nedokáže dostatočne rýchlo pripojiť k Alta Vista, potom Yahoo! poskytne odkazovú stránku so súborom vyhľadávacích nástrojov. Po výbere jedného z týchto odkazov sa kľúčové slová odovzdajú vyhľadávaču podľa vášho výberu.

Prostriedkom na uľahčenie vyhľadávania je prítomnosť „tipového vyhľadávania“ (TS) - vyhľadávanie s „nápovedou“: Yahoo! Je to podriadený adresár, čo znamená, že systém nemá toľko stránok ako vyhľadávače, avšak nastavenie najvšeobecnejších kľúčových slov vám umožní nájsť potrebnú tému na stránke na vysokej úrovni (prvá stránka, ktorá sa zobrazí vpredu používateľa pri návšteve stránky) pre organizáciu alebo spoločnosť.

Výsledky: Odkazy sa zobrazujú podľa slovosledu postupnosti vyhľadávania spolu s ich popisným textom a podriadenou hierarchiou.

Adresa: http://www.yahoo.com/

2.4 Altavista

AltaVista (www. AltaVista.com) je jeden z najstarších vyhľadávacích nástrojov na internete. Prvý webový index zaviedla spoločnosť v roku 1995. Za jadrom vyhľadávacieho modulu vďačí zvláštna vlastnosť výskumného laboratória v DigitalEquipmentCorp. Z nejakého dôvodu zamestnanci tohto laboratória uchovávali všetku elektronickú korešpondenciu za posledných 10 rokov. Aby táto hromada informácií nezaberala iba miesto na disku, ale priniesla aspoň určitú výhodu, bol vytvorený program na indexovanie dokumentov a hľadanie správnych slov v hromade elektronickej korešpondencie, ktorá z času na čas zožltla. Ukázalo sa, že systém bol taký úspešný, že následne úspešne migroval do rozsiahlosti siete WWW.

Register AltaVista obsahuje dokumenty vo viac ako 25 jazykoch. Lokalizované verzie webových stránok AltaVista sa nachádzajú v doménach 20 krajín. Rozsah hľadania môže obsahovať dokumenty vo všetkých podporovaných jazykoch alebo iba v dokumentoch v konkrétnom jazyku. Na vyhradenej stránke sa môžete naučiť vyhľadávať vo viacerých jazykoch súčasne vo všetkých vybraných jazykoch.


Závery a ponuky

V súčasnosti internet využíva takmer všetky známe komunikačné linky od nízkorýchlostných telefónnych liniek po vysokorýchlostné digitálne satelitné kanály. Operačné systémy používané na internete sú tiež rozmanité. Väčšina počítačov na internete pracuje na systéme Unix alebo VMS. Široké zastúpenie majú aj špeciálne sieťové smerovače ako NetBlazer alebo Cisco, ktorých OS sa podobá na Unix OS.

Internet v skutočnosti pozostáva z mnohých miestnych a globálnych sietí patriacich rôznym spoločnostiam a podnikom, ktoré sú prepojené rôznymi komunikačnými linkami. Internet si môžeme predstaviť ako mozaiku malých sietí rôznych veľkostí, ktoré medzi sebou aktívne interagujú, posielajú súbory, správy atď.

Príkladom topológie internetu je sieť X-Atom, ktorá sa skladá z niekoľkých podsietí a súčasne je fragmentom celosvetového internetu.

Dnes je na svete viac ako 130 miliónov počítačov a viac ako 80% z nich je zjednotených v rôznych informačných a počítačových sieťach od malých lokálnych sietí v kanceláriách po globálne siete, ako je internet. Celosvetový trend pripájania počítačov do siete je spôsobený mnohými dôležitými dôvodmi, ako je zrýchlenie prenosu informačných správ, schopnosť rýchlej výmeny informácií medzi používateľmi, prijímanie a prenos správ (faxy, listy E-Mail, atď.) bez toho, aby ste opustili pracovisko, schopnosť okamžite prijímať akékoľvek informácie odkiaľkoľvek na svete, ako aj výmena informácií medzi počítačmi rôznych výrobcov, pracujúcich pod iným softvérom.

Takéto obrovské potenciálne príležitosti, ktoré počítačová sieť prináša, a nový rast potenciálu, ktorý informačný komplex zažíva, ako aj výrazné zrýchlenie výrobného procesu, nám nedávajú právo neprijímať to pre rozvoj a neuplatňovať ich v prax.

Preto je potrebné vyvinúť zásadné riešenie otázky organizácie IKT (informačnej a počítačovej siete) na základe už existujúceho počítačového parku a softvérového komplexu, ktorý spĺňa moderné vedecké a technické požiadavky, s prihliadnutím na rastúce potreby a možnosť ďalšieho postupného rozvoja siete v súvislosti so vznikom nových technických a softvérových riešení.

Internet sa neustále vyvíja s neutíchajúcou intenzitou a v podstate ruší obmedzenia týkajúce sa šírenia a prijímania informácií vo svete. V tomto oceáne informácií však nie je veľmi ľahké nájsť požadovaný dokument. Je tiež potrebné mať na pamäti, že spolu s dlhoročnými servermi sa v sieti objavujú nové.

Okrem „univerzálnych“ serverov existujú aj špecializované weby v jednej alebo druhej oblasti, napríklad pre fyziku vysokých energií - http://xxx.lanl.gov.

Pri importe súborov článkov by ste mali pamätať na to, že sa často ukladajú vo formáte PostScript (s príponou PS '', EPS '') určeným na tlač na laserovej tlačiarni, preto v takom prípade po prijatí na na prezeranie a tlač na ihličkových alebo atramentových tlačiarňach by sa mal používať špeciálny program, napríklad GhostView.

Niet pochýb o tom, že použitie internetu vo vedeckej práci vám umožňuje prijímať najhorúcejšie informácie a byť v kontakte s kolegami z celého sveta.

Špekuluje sa, že internet knihy nahradí a nahradí. Tomu v súčasnosti bráni niekoľko faktorov. Po prvé, nedostatok pohodlia pri čítaní kníh z monitora počítača. Aj keď prenosné čítačky elektronických textov už existujú, ich rozlíšenie obrazovky je zjavne nedostatočné. Po druhé, autorské práva na elektronické publikácie nie sú úplne vyvinuté.

Internet v budúcnosti výrazne nahradí tradičné médiá vďaka svojej flexibilite, odozve a interaktivite.

Dnes veľa ľudí neočakávane objavuje existenciu globálnych sietí, ktoré spájajú počítače po celom svete do jedného informačného priestoru zvaného internet. Nie je ľahké definovať, o čo ide. Z technického hľadiska je internet zlúčením nadnárodných počítačových sietí fungujúcich na rôznych protokoloch, spájajúcich všetky druhy počítačov a fyzicky prenášajúcich údaje cez všetky dostupné typy liniek - od krútených dvojliniek a telefónnych káblov po optické a satelitné kanály. Väčšina počítačov na internete je pripojených pomocou protokolu TCP / IP. Môžeme povedať, že internet je sieť sietí, ktorá obklopuje celú planétu.


1. Informatika / Kurnosov A.P., Kulev S.V., Ulezko A.V. a pod .; Ed. A.P. Kurnosova.-M: KolosS, 2005. - 72 s. (Učebnice a učebnice pre študentov vysokých škôl)

2. Workshop o informatike: Učebnica. príspevok / Red. A.P.Kurnosova - Voronež: VGAU, 2004.239 s.

3. Informatika. Učebnica. - 3. vydanie, prepracované / vyd. N.V. Makarovej. - M .: Financie a štatistika, 2002. - 256 s.

4. Informatika. Základný kurz / Simonovich S.V. a ďalší-SPb.: Peter, 2006 .-- 639 s.: zle.

5. Krupnik A.B. Vyhľadávanie na internete: návod. - 2. vyd. - SPB.: Peter, 2004. - 572 s.

6. Orlov A.A. Potrebné programy pre internet - SPb.: Peter, 2006 .-- 127 s.

7. Solonitsyn Yu.A., Kholmogorov V. Internet. Encyklopédia. - 3. dňa - SPb.: Peter, 2003. - 592 s.

8. Reznikov F.A. Prácu na internete zvládame rýchlo a ľahko. - M.: Najlepšie knihy, 2002. - 284 s.

9. Počítačové siete a nástroje na zabezpečenie informácií: učebnica. príspevok / Kamalyan A.K., Kulev S.A., Nazarenko K.N. a ďalší - Voronež: VGAU, 2003. - 119 s.

10. Olifer V.G., Olifer N.A. Počítačové siete. Princípy, technológie, protokoly. - SPb.: Peter, 2002. - 672 s.: Chorý.

11. Internet: Encyklopédia / Red. L. Melikhovej. - 2. vydanie - SPb.; M .; Charkov; Minsk; Peter, 2000. - 527 s.

12. Mushtovatyi I.F. Sprievodca samoštúdiom pre prácu na internete / Celkom. vyd. M.I. Monastyrsky. - 2. vyd., Pridať. a revidované.-Rostov n / a: Phoenix, 2002.-312 s.

13. Popov V. Workshop on Internet technologies: Training course / V. Popov.-SPb.; M .; Charkov; Minsk: Peter, 2002. - 476 s .: Ill.

14. Počítačové siete a nástroje na zabezpečenie informácií: Textbook / Kamalyan A.K., Kulev S.A., Nazarenko K.N. a i.-Voronež: VGAU, 2003.-119 s.

15. Zaika A.A. Počítačové siete - M: Olma-Press, 2005. -448 s.

16. Počítačové siete: Výcvikový kurz - 2. vyd. (+ CD-ROM). - MicrosoftPress, ruské vydanie, 1998.

17. Základy modernej výpočtovej techniky. Ed. Khomonenko A.D. - Crown print, Petrohrad 1998.

18. Osobné počítače v sieťach TCP / IP. Craig Hunt; preklad. Z angličtiny. - BHV-Kyjev, 1997.

19. Federálny zákon Ruskej federácie „O informáciách, informatizácii a ochrane informácií“ z 20. 2. 1995 č. 24-FZ.

20. Comer D. Princípy internetu: Per. z angličtiny / D. Comer. - SPB; M .; Charkov; Minsk: Peter, 2002.-379 s.

Hľadanie informácií je úloha, ktorú ľudstvo rieši už mnoho storočí. Ako rástol objem informačných zdrojov potenciálne dostupných jednej osobe, boli vyvinuté čoraz sofistikovanejšie a sofistikovanejšie vyhľadávacie nástroje a techniky na nájdenie potrebného dokumentu.

Podľa knihy K. Manninga „Úvod do získavania informácií“ možno povedať, že efektívna prevádzka ľubovoľného IRS je založená na rýchlosti a schopnostiach multidimenzionálneho výberu potrebných údajov z veľkého poľa (načítanie informácií) pre internú prácu s údaje. To ukladá určité požiadavky na organizáciu pravidiel vyhľadávania, na konštrukciu používateľského a programového rozhrania a na formu poskytovania informácií.

Implementácia vyššie uvedených požiadaviek je zverená ďalšej sérii konštrukčných prvkov, takzvaným blokom [príloha 4].

Na základe knihy A.A. Varfolomeeva. „Základy informačnej bezpečnosti“, výber práve takej štruktúry systému na získavanie informácií je založený na veľmi jednoduchej logike - akýkoľvek blok systému musí prijímať údaje, spracovávať ich a vydávať ich používateľovi v určitom poradí, pričom poskytuje logika procesu.

Je nemožné hovoriť o systémoch vyhľadávania informácií bez toho, aby sme spomenuli niečo ako vyhľadávač. Podľa D.N. Kolisnichenko v knihe „Vyhľadávače a propagácia webových stránok na internete“, Vyhľadávač- systém s databázou generovanou robotom obsahujúci informácie o informačných zdrojoch. Charakteristickým znakom vyhľadávacích strojov je skutočnosť, že databáza obsahujúca informácie o webových stránkach je generovaná robotickým programom. Po obdržaní výsledku, ak nadpis a popis dokumentu zodpovedajú vašim požiadavkám, môžete okamžite prejsť na pôvodný zdroj ako referencia. Je pohodlnejšie to urobiť v novom okne, aby ste mohli ďalej analyzovať výsledky problému. Mnoho vyhľadávacích nástrojov umožňuje vyhľadávať v nájdených dokumentoch a dopyt je možné spresniť zavedením ďalších výrazov. Ak je inteligencia systému vysoká, existuje tiež možnosť vyhľadávať podobné dokumenty. Automatizácia určovania podobnosti je však veľmi nepodstatná úloha a táto funkcia často nefunguje vždy správne. Niektoré vyhľadávače vám umožňujú pretriediť výsledky. Stojí za to venovať pozornosť skutočnosti, že rôzne vyhľadávače popisujú rôzny počet zdrojov informácií na internete. Preto sa nemôžete obmedziť na vyhľadávanie iba v jednom zo zadaných vyhľadávacích nástrojov. Existujú rôzne vyhľadávacie nástroje, ktoré netvoria svoj vlastný index, ale sú schopné využívať možnosti iných vyhľadávacích nástrojov. Toto, ako N.A. Gaidmamakin v knihe „Automatizované informačné systémy, databázy a databázy“, metasearch motory(vyhľadávacie služby) - systémy, ktoré môžu odosielať dotazy používateľov súčasne do niekoľkých vyhľadávacích nástrojov, potom kombinovať výsledky a prezentovať ich používateľovi vo forme dokumentu s odkazmi.

Tiež D.N. Kolisnichenko píše, že na čo najpresnejšie a najrýchlejšie vyhľadanie potrebných informácií v sieti sa používa IPS indexovanie.

Vyhľadávací index- dátová štruktúra, ktorá obsahuje informácie o dokumentoch a používa sa vo vyhľadávačoch.

Indexovanie(alebo indexovanie) vykonávané vyhľadávačom je proces zhromažďovania, triedenia a ukladania údajov s cieľom poskytnúť rýchle a presné vyhľadávanie informácií. Tvorba indexov zahŕňa interdisciplinárne koncepty z lingvistiky, matematiky a informatiky.

Populárne vyhľadávače sa zameriavajú na fulltextové indexovanie dokumentov napísaných v prirodzených jazykoch. Na vyhľadávaní sa môžu podieľať aj multimediálne dokumenty, ako napríklad video, audio a grafika.

A.Yu. Kelina v knihe „Základy informačnej bezpečnosti“ píše, že metasearchové motory používajú indexy iných vyhľadávacích služieb a neukladajú lokálny index, zatiaľ čo vyhľadávače založené na stránkach v pamäti ukladajú dlho indexové aj textové korpusy. Na rozdiel od fulltextových indexov čiastočné textové služby obmedzujú hĺbku indexovania, aby sa zmenšila veľkosť indexu.

Architektúra vyhľadávacieho modulu sa líši v spôsobe indexovania. Indexy sú nasledujúceho typu [príloha 5]:

  • · Priamy index. Priamy index ukladá zoznam slov pre každý dokument.
  • · Obrátený index. Ukladá zoznam výskytov každého kritéria vyhľadávania.

Register je iba časťou vyhľadávacieho nástroja, ktorá je používateľovi skrytá. Druhá časť tohto prístroja je jazyk na načítanie informácií (IPL), o ktorých podrobne píše Varfolomeev A.A. v knihe „Základy informačnej bezpečnosti“. IPL je jazyk, ktorý umožňuje formulovať požiadavku na systém v jednoduchej a vizuálnej podobe. Aj keď je používateľ vyzvaný na zadanie dotazov v prirodzenom jazyku, neznamená to, že systém sémanticky analyzuje jeho dopyt. Hlavné je, že fráza je zvyčajne rozdelená na slová, zakázané a bežné slová sa z tohto zoznamu odstránia, niekedy je slovná zásoba normalizovaná a všetky slová sú potom spojené logickým AND alebo OR.

Možné sú aj varianty, ako uvádza N.A. Chursin v knihe „Populárna informatika“. Vo väčšine systémov budú teda niektoré frázy považované za kľúčové frázy a nebudú rozdelené na jednotlivé slová. Ďalším prístupom je výpočet vzdialenosti medzi požiadavkou a dokumentom. V súčasnosti je známych asi tucet rôznych mierových opatrení. Práve tieto percentá zhody dokumentov s požiadavkou sú uvedené ako referenčné informácie pri zozname nájdených dokumentov.

Podľa K. Manninga má AltaVista najpokročilejší dotazovací jazyk spomedzi moderných systémov na vyhľadávanie informácií na internete. Okrem obvyklej množiny AND, OR, NOT vám tento systém umožňuje používať aj NEAR. Posledný operátor vám umožňuje organizovať kontextové vyhľadávanie. Všetky dokumenty v systéme sú rozdelené do polí, takže v žiadosti môžete určiť, v ktorej časti dokumentu chce používateľ vidieť kľúčové slovo (v odkaze, názve atď.).

(Viac informácií o jazykoch vyhľadávania na internete nájdete v prílohe)

Z knihy Yu.I. Kudinov „Základy modernej informatiky“ sa môžete dozvedieť, že najbežnejším modelom prezentácie dokumentov v systéme na vyhľadanie informácií sú rôzne variácie prezentácie dokumentu ako súboru pojmov. Ako už bolo spomenuté vyššie, nejde o celý text dokumentu, ale iba o malý súbor výrazov, ktoré odrážajú jeho obsah. Na základe tejto myšlienky dokumentu je potrebné zvážiť rôzne jazyky na získavanie informácií.

Najbežnejším IPL je tradičný jazyk, ktorý vám umožňuje vytvárať logické výrazy zo sady výrazov. V takom prípade sa použijú logické operátory AND, OR, NOT.

Táto schéma je dosť jednoduchá, a preto sa najčastejšie používa v moderných systémoch na vyhľadávanie informácií. Ale ešte pred 20 rokmi boli dobre známe aj jeho nedostatky.

Booleovské vyhľadávania nemajú mierku. Operátor AND môže drasticky znížiť počet dokumentov na požiadanie. V takom prípade bude všetko veľmi závisieť od toho, aké sú typické hľadané výrazy pre databázu. Operátor OR môže na druhej strane viesť k neprimerane širokému dotazu, v ktorom sa za informačným šumom stratia užitočné informácie. Pre úspešné uplatnenie tohto IPL je potrebné dobre poznať slovnú zásobu systému a jeho tematické zameranie. Spravidla sa pre systém s takýmto IPL vytvárajú špeciálne dokumentárne lexikálne databázy so zložitými slovníkmi, ktoré sa nazývajú tezaury a obsahujú informácie o vzájomnom vzťahu pojmov slovníka.

K. Manning zdôrazňuje, že vážené booleovské vyhľadávanie je modifikáciou booleovského vyhľadávania. Myšlienka tohto hľadania je celkom jednoduchá. Predpokladá sa, že tento výraz s určitou presnosťou popisuje obsah dokumentu a táto presnosť je vyjadrená ako závažnosť výrazu. V takom prípade je možné zvážiť podmienky dokumentu aj podmienky dotazu. Žiadosť môže byť formulovaná v IPL popísanom vyššie, ale vydanie dokumentov bude zoradené v závislosti od stupňa blízkosti medzi požiadavkou a dokumentom. V tomto prípade je meranie vzdialenosti skonštruované takým spôsobom, že bežné logické vyhľadávanie by bolo špeciálnym prípadom váženého boolovského vyhľadávania.

Ale na rozdiel od A.A. Varfolomeeva. , JE. Ashmanov vo svojej knihe „Propagácia webových stránok vo vyhľadávačoch“ píše, že hoci IPL nie sú v súčasnosti dokonalé, je potrebné venovať osobitnú pozornosť algoritmu poradie(usporiadané budovanie) prijatých odkazov, pretože to nie je menej dôležité. Najčastejšie používaným kritériom pre zaradenie do IRS je prítomnosť slov z dotazu v dokumente, ich počet, blízkosť k začiatku dokumentu, blízkosť k sebe;

Prítomnosť slov z žiadosti v nadpisoch a podnadpisoch dokumentov (nadpisy musia byť špeciálne naformátované);

Počet odkazov na tento dokument z iných dokumentov; „Zodpovednosť“ referenčných dokumentov.

Rôzne vyhľadávače používajú rôzne algoritmy hodnotenia, ale základné princípy pre určenie relevancie sú nasledovné:

  • · Počet dopytovaných slov v textovom obsahu dokumentu (t. J. V html kóde).
  • · Značky, v ktorých sa nachádzajú tieto slová.
  • · Umiestnenie hľadaných slov v dokumente.
  • · Podiel slov, pre ktoré je relevantnosť určená, na celkovom počte slov v dokumente.

Tieto princípy uplatňujú všetky vyhľadávače.

Do databázy sa vydá podobne hodnotený zoznam dokumentov HTML a vráti sa osobe, ktorá žiada. Rôzne vyhľadávače tiež volia rôzne spôsoby zobrazenia výsledného zoznamu - niektoré zobrazujú iba odkazy; iné zobrazujú odkazy na prvých pár viet obsiahnutých v dokumente alebo názov dokumentu spolu s odkazom. Hodnotenie vyhľadávacích nástrojov je podstatnou súčasťou servera získavanie informácií.

Aspekty tohto konceptu sú dobre prezentované v knihe K. Manninga „Úvod do získavania informácií“. Vyhľadávanie informácií Zahŕňa použitie určitých stratégií, metód, mechanizmov a prostriedkov. Správanie používateľa, ktorý riadi proces vyhľadávania, je determinovaný nielen informačnými potrebami, ale aj inštrumentálnou rozmanitosťou systému - technológiami a prostriedkami poskytovanými systémom.

Stratégia vyhľadávania - všeobecný plán (koncepcia, preferencia, nastavenie) správania systému alebo používateľa na vyjadrenie a uspokojenie informačných potrieb používateľa z dôvodu povahy cieľa a typu vyhľadávania a systémových „strategických“ rozhodnutí - architektúra databázy , metódy a vyhľadávacie nástroje v konkrétnej ISS Vo všeobecnosti je výber stratégie problémom s optimalizáciou. V praxi to do značnej miery určuje umenie dosiahnuť kompromis medzi praktickými potrebami a schopnosťami dostupných prostriedkov.

Metóda vyhľadávania - súbor modelov a algoritmov na implementáciu jednotlivých technologických etáp: zostavenie vyhľadávacieho obrazu dotazu, výber dokumentov (priraďovanie vyhľadávacích obrázkov dotazov a dokumentov), ​​rozšírenie dotazu, lokalizácia a vyhodnotenie problému.

Obrázok vyhľadávacieho dotazu - text napísaný na IPL, ktorý vyjadruje sémantický obsah žiadosti o informácie a obsahuje pokyny potrebné na čo najefektívnejšiu implementáciu vyhľadávania informácií.

Proces hľadania informácií predstavuje postupnosť krokov, ktoré vedú cez systém k určitému výsledku a umožňujú posúdiť jeho úplnosť. Pretože používateľ zvyčajne nemá komplexné vedomosti o informačnom obsahu zdroja, v ktorom hľadá, môže posúdiť primeranosť výrazu dotazu a úplnosť získaného výsledku iba na základe externých hodnotení alebo medziproduktov. výsledky a zovšeobecnenia, ktoré sa porovnávajú napríklad s predchádzajúcimi.

Proces vyhľadávania môže byť reprezentovaný vo forme nasledujúcich hlavných komponentov:

  • 1) formulovanie dopytu v prirodzenom jazyku, výber vyhľadávacieho modulu a služieb, formulovanie dopytu na príslušnom IPL;
  • 2) vykonávanie vyhľadávania v jednom alebo viacerých vyhľadávacích nástrojoch;
  • 3) prehľad výsledkov (referencie);
  • 4) predbežné spracovanie získaných výsledkov: prezeranie obsahu odkazov, extrahovanie a ukladanie relevantných údajov;
  • 5) ak je to potrebné, upravte požiadavku a vykonajte opakované (objasňujúce) vyhľadávanie s následným spracovaním výsledkov.

Na zníženie objemu vybratých materiálov sú výsledky vyhľadávania filtrované podľa typu zdrojov (stránky, portály), tém a ďalších dôvodov.

Podľa použitých technológií vyhľadávania možno IP rozdeliť do 4 kategórií:

  • 1. Tematické katalógy;
  • 2. Špecializované katalógy (online adresáre);
  • 3. vyhľadávače (fulltextové vyhľadávanie);
  • 4. Prostriedky metasearch.

Tematické katalógy zabezpečujú spracovanie dokumentov a ich zaradenie do jednej z niekoľkých kategórií, ktorých zoznam je vopred určený. Toto je vlastne indexácia založená na klasifikácii. Indexáciu je možné vykonať automaticky alebo manuálne pomocou odborníkov, ktorí prezerajú populárne webové stránky a zostavujú krátky popis dokumentov so životopisom (kľúčové slová, abstrakt, abstrakt).

Špecializované katalógy alebo referenčná literatúra sú tvorené priemyslom a témou, správami, mestami, e-mailovými adresami atď.

Vyhľadávače(najpokročilejší vyhľadávací modul na internete) implementuje technológiu fulltextového vyhľadávania. Texty umiestnené na dopytovaných serveroch sú indexované. Register môže obsahovať informácie o niekoľkých miliónoch dokumentov.

Pri použití finančných prostriedkov metasearch požiadavka sa vykonáva súčasne niekoľkými vyhľadávacími nástrojmi. Výsledok vyhľadávania sa skombinuje do všeobecného zoznamu zoradeného podľa dôležitosti. Každý systém spracováva iba časť sieťových uzlov, čo umožňuje rozšíriť základňu vyhľadávania.

Veľmi dôležité sú tiež takzvané „organizácie vyhľadávania“ a „implementácia vyhľadávania“, o ktorých D.N. Kolisnichenko v knihe „Vyhľadávače a propagácia webových stránok na internete“.

Vyhľadajte organizáciu

Postup hľadania potrebných informácií je rozdelený do deviatich hlavných etáp:

  • · Vymedzenie oblasti vedomostí;
  • · Výber typu a zdrojov údajov;
  • · Zber materiálov potrebných na vyplnenie informačného modelu;
  • · Výber najužitočnejších informácií;
  • · Výber metódy spracovania informácií (klasifikácia, zhlukovanie, regresná analýza atď.);
  • · Voľba algoritmu na hľadanie vzorov;
  • · Hľadanie vzorov, formálnych pravidiel a štrukturálnych väzieb v zhromaždených informáciách;
  • · Tvorivá interpretácia získaných výsledkov;
  • · Integrácia extrahovaných „znalostí“.

Na vykonanie vyhľadávania sa rozhranie pre prácu s príslušnou databázou najskôr načíta do počítača používateľa. Môže to byť lokálna alebo vzdialená databáza. Spočiatku by ste sa mali rozhodnúť pre typ vyhľadávania (jednoduché, pokročilé atď.). Potom so súborom polí, ktoré chcete vyhľadať. IRS môže ponúknuť jedno alebo viac polí na zadanie. V druhom prípade ide zvyčajne o polia: autor, názov (titul), časové obdobie, typ dokumentu, kľúčové slová, nadpisy atď.

Implementácia vyhľadávania

Všeobecne sa akceptuje organizovanie vyhľadávania podľa počiatočných fragmentov slova (vyhľadávanie so skrátením vpravo), napríklad namiesto slova „knižnica“ môžete zadať jeho fragment „knižnica *“. Nájdete tu dokumenty, ktoré obsahujú nielen slovo „knižnica“, ale aj „knižnica“, „knihovník“, „knižničná veda“ atď. V každom prípade si používateľ musí predstaviť, čo konkrétne chce nájsť, pretože v navrhovanom variant nájde oveľa väčší počet dokumentov ako pri úplnom zadaní daného slova (bez skrátenia). V takom prípade je možné vykonať zdokonalené vyhľadávanie v prijatom informačnom poli a vo výsledku získať relevantnejšie údaje.

IRS sa tiež vyznačujú časom vykonania vyhľadávania, rozhraním poskytnutým používateľovi a typom zobrazených výsledkov. Pri výbere IRS sa venuje pozornosť ich parametrom, ako sú pokrytie a hĺbka. Pod pokrytie rozumie sa objem základne vyhľadávacieho modulu, meraný tromi ukazovateľmi: celkový objem indexovaných informácií, počet jedinečných serverov a počet jedinečných dokumentov. Pod hĺbka rozumie sa tým, či existuje obmedzenie počtu stránok alebo hĺbky vnorenia adresárov na jednom serveri.

Niektorým aspektom získavania informácií sa venuje kniha V.A. Gvozdeva "Základy budovania automatizovaných informačných systémov." Ako je uvedené v knihe, každý vyhľadávací modul má svoje vlastné algoritmy na triedenie výsledkov vyhľadávania. Čím bližšie k začiatku zoznamu získaného v dôsledku vyhľadávania je požadovaný dokument, tým vyššia je relevantnosť a tým lepšie funguje vyhľadávací nástroj. Všetky z nich vám umožňujú rýchlo nájsť v sieti pomocou kľúčových slov, tematických nadpisov a dokonca aj jednotlivých písmen, napríklad všetky alebo takmer všetky texty, v ktorých sa tieto slová nachádzajú. V takom prípade sa používateľovi oznámia adresy webov, na ktorých sú neustále nájdené výsledky. Žiadny z nich však nemá v porovnaní s ostatnými zdrvujúcu výhodu. Aby bolo možné spoľahlivo vyhľadávať zložité dotazy, odborníci odporúčajú používať postupne alebo paralelne (súčasne) rôzne ISS.

Z knihy D.N. Kadeeva "Informačné technológie a elektronická komunikácia" sa môžete dozvedieť o takom koncepte ako "fulltextový vyhľadávací nástroj". Indexuje všetky slová textu, ktorý je viditeľný pre používateľa. Prítomnosť tvaroslovia umožňuje nájsť požadované slová vo všetkých deklináciách alebo konjugáciách. Niektoré stroje sú schopné vyhľadávať frázy alebo slová v danej vzdialenosti, čo je často dôležité pre dosiahnutie primeraného výsledku. Okrem toho existujú v HTML značky, ktoré môže spracovať aj vyhľadávací nástroj (nadpisy, odkazy, titulky k obrázkom atď.). Zároveň musíte vedieť, že čím je menej kľúčových slov obsiahnutých v týchto značkách, tým častejšie ich možno nájsť v textoch stránok, a tým je vyššia ich relevantnosť. Optimálna frekvencia takýchto slov nie je vyššia ako 5%. Kľúčových slov by nemalo byť veľmi veľa, mali by sa skladať väčšinou z jedného alebo dvoch slov, ktoré tvoria najbežnejšie používané výrazy. Čím relevantnejšie kľúčové slová majú, tým sú konkurencieschopnejšie pre daný dokument z hľadiska vyhľadávacích nástrojov.

Používateľ dostane úplnosť a presnosť odpovede v závislosti od presnosti ním formulovanej požiadavky. Výsledkom hľadania je, že mu je zvyčajne poskytnutých oveľa viac informácií, ako potrebuje, z ktorých niektoré nemusia byť pre vygenerovaný dopyt vôbec relevantné. Je ľahké vidieť, že veľa závisí nielen od dobre formulovaného dotazu, ale aj od možností vyhľadávacích nástrojov, ktoré sú veľmi odlišné. Zároveň sa celkom zreteľne prejavuje skutočnosť, že v získaných údajoch je možné preskočiť hlavné potrebné informácie. Jednoduché dotazy vo forme samostatných, pomerne bežných výrazov vedú k vyťaženiu tisícov (stotisíc) dokumentov, ktorých drvivú väčšinu používateľ nepotrebuje ( informačný šum).

Dôležitým aspektom je tiež schopnosť ISS podporovať viacjazyčnosť, to znamená schopnosť spracovávať žiadosti v rôznych jazykoch. Vyhľadávanie v plnotextových databázach sa zvyčajne vykonáva pomocou morfologických analyzátorov (zvyčajne ruských a anglických), ktoré automaticky nájdu existujúce tvary slov podľa fragmentu slova, slova, frázy, aj keď v slovách dopytu sú nejaké preklepy.

Tiež nemožno nespomenúť takú vlastnosť IPS ako pri vyhľadávacie a štruktúrovacie nástroje niekedy sa volá vyhľadávače ... Podľa I.S. Ashmanov vo svojej knihe „Propagácia webových stránok vo vyhľadávačoch“ používa vyhľadávače, ktoré ľuďom pomáhajú nájsť informácie, ktoré potrebujú. Na zhromažďovanie informácií o dokumentoch na internete sa používajú vyhľadávacie nástroje, ako sú agenti, pavúky, prehľadávače a roboty. Jedná sa o špeciálne programy, ktoré vyhľadávajú stránky na webe, extrahujú hypertextové odkazy na týchto stránkach a automaticky indexujú informácie, ktoré nájdu, aby vytvorili databázu. Každý vyhľadávací nástroj má svoju vlastnú sadu pravidiel upravujúcich spôsob vyhľadávania a spracovania dokumentov. Niektorí sledujú každý odkaz na každej stránke, ktorú nájdu, a potom zase preskúmajú každý odkaz na každej novej stránke atď. Niektorí ľudia ignorujú odkazy, ktoré vedú ku grafickým a zvukovým súborom, animačným súborom; ostatným sa dáva pokyn, aby najskôr prezerali najobľúbenejšie stránky. Klasifikáciu vyhľadávacích nástrojov najlepšie predstavuje kniha A. A. Varfolomeeva. „Základy informačnej bezpečnosti“:

  • · Agenti- najinteligentnejší z vyhľadávacích nástrojov. Môžu robiť viac než len vyhľadávať: môžu dokonca vykonávať transakcie vo vašom mene. Už teraz môžu vyhľadávať stránky s konkrétnou témou a vracať zoznamy stránok zoradené podľa ich účasti. Agenti môžu spracovávať obsah dokumentov, vyhľadávať a indexovať ďalšie typy zdrojov, nielen stránky. Môžu byť tiež naprogramované na získavanie informácií z už existujúcich databáz. Bez ohľadu na informácie, ktoré agenti indexujú, odovzdajú ich späť do databázy vyhľadávacieho modulu.
  • Všeobecné hľadanie informácií na webe sa vykonáva programami známymi ako pavúky... Pavúky nahlásia obsah nájdeného dokumentu, indexujú ho a extrahujú súhrnné informácie. Pozerajú tiež na hlavičky, niektoré odkazy a odosielajú indexované informácie do databázy vyhľadávacieho nástroja.
  • · Prehľadávače prezrieť hlavičky a vrátiť iba prvý odkaz.
  • · Roboti môžu byť naprogramované tak, aby sledovali rôzne odkazy s rôznou hĺbkou vnorenia, indexovali a dokonca kontrolovali odkazy v dokumente. Vďaka svojej povahe sa môžu zaseknúť v slučkách, takže pri sledovaní odkazov potrebujú značné webové zdroje. Existujú však metódy, ktoré robotom bránia v hľadaní na stránkach, ktorých vlastníci nechcú, aby boli indexovaní.

Na záver môžeme povedať, že ISS v sieti so všetkou ich vonkajšou rozmanitosťou svojou klasifikáciou, ktorú popisuje kniha L.G. Gagarina "Automatizované informačné systémy":

Systémy na vyhľadávanie klasifikačných informácií

V klasifikácii ISS sa používa hierarchická (stromová) organizácia informácií, ktorá sa nazýva KLASIFIKÁTOR. Sekcie klasifikátora sa nazývajú OKRUHY. Knižničným analógom klasifikácie ISS je systematický katalóg. Klasifikátor je vyvinutý a vylepšený tímom autorov. Potom ho používa ďalší tím špecialistov s názvom SYSTEMATORS. Taxonici, ktorí poznajú klasifikátora, prečítali dokumenty a priradili im klasifikačné indexy označujúce, ktorým oddielom klasifikátora tieto dokumenty zodpovedajú.

Predmet IRS (webové krúžky)

Z pohľadu používateľa je predmetná ISS organizovaná najjednoduchším spôsobom. Vyhľadajte názov požadovaného predmetu, ktorý vás zaujíma (predmetom môže byť aj niečo nepodstatné, napríklad indická hudba) a k názvu sú priradené zoznamy zodpovedajúcich internetových zdrojov. To by bolo obzvlášť užitočné, ak je kompletný zoznam položiek malý.

Slovník IPS

Kultúrne problémy spojené s použitím klasifikácie IRS viedli k vytvoreniu slovníka typu IRS so zovšeobecneným anglickým názvom vyhľadávače... Hlavnou myšlienkou slovníka IRS je vytvorenie slovníka zo slov nájdených v internetových dokumentoch, v ktorom bude pre každé slovo uložený zoznam dokumentov, z ktorých je dané slovo prevzaté.

Na základe informácií z knihy A.Yu. Kelina "Základy informačnej bezpečnosti", môžete zistiť, že existujú dva hlavné algoritmy pre fungovanie slovníka IRS: používanie kľúčových slov a deskriptorov ( Deskriptor - lexikálna jednotka (slovo, fráza) jazyka na vyhľadávanie informácií, ktorá slúži na opísanie hlavného sémantického obsahu dokumentu alebo na formulovanie dotazu pri hľadaní dokumentu (informácie) v systéme na vyhľadávanie informácií). V prvom prípade sa na vyhodnotenie obsahu dokumentu použijú iba tie slová, ktoré sa v ňom vyskytujú, a na požiadanie IRS porovná slová z dotazu so slovami dokumentu a určí ich relevantnosť podľa počtu, umiestnenia a váha slov z dotazu v dokumente. IRS z historických dôvodov používa tento algoritmus v rôznych modifikáciách.

Odošlite svoju dobrú prácu do znalostnej bázy je jednoduché. Použite nasledujúci formulár

Študenti, doktorandi, mladí vedci, ktorí využívajú vedomostnú základňu pri štúdiu a práci, vám budú veľmi vďační.

Podobné dokumenty

    Ukladanie dát na internete. Hypertextové dokumenty, typy súborov. Grafické súbory, ich typy a vlastnosti. Vyhľadávacie nástroje a pravidlá vyhľadávania informácií. Prieskum internetových vyhľadávačov. Všetko o vyhľadávačoch Yandex, Google, Rambler.

    semestrálna práca, pridané 26. 3. 2011

    Nástroje na vyhľadávanie informácií na internete. Základné požiadavky a metódy získavania informácií. Štruktúra a charakteristika vyhľadávacích služieb. Globálne vyhľadávače WWW (World Wide Web). Plánovanie vyhľadávania a zhromažďovania informácií na internete.

    abstrakt, pridané dňa 02.02.2010

    Charakteristika metód na vyhľadanie informácií na internete, menovite použitie hypertextových odkazov, vyhľadávacích nástrojov a špeciálnych nástrojov. Analýza nových internetových zdrojov. História vzniku a opis vyhľadávačov v západnom a ruskom jazyku.

    abstrakt, pridané 05.12.2010

    Štruktúra a princípy budovania internetu, vyhľadávania a ukladania informácií v ňom. História vzniku a klasifikácie systémov získavania informácií. Princíp činnosti a charakteristika vyhľadávacích nástrojov Google, Yandex, Rambler, Yahoo. Hľadajte podľa adries URL.

    semestrálna práca, pridané 29. 3. 2013

    Charakteristika vyhľadávacích nástrojov Yandex, Google, Rambler: podobnosti a rozdiely, výhody a nevýhody. Vyhľadajte definíciu množstva výrazov, softvérových produktov. Vyhľadajte informácie o smeroch: spisovatelia a básnici, ich diela, doktori vied pre Samaru.

    test, pridané 22. 8. 2011

    Koncept a princípy práce, vnútorná štruktúra a prvky, história formovania a vývoja vyhľadávača "Rambler". Výskum a analýza, ako aj hodnotenie efektívnosti tohto vyhľadávacieho nástroja pri hľadaní ekonomických informácií na internete.

    semestrálna práca pridaná 10.10.2015

    Metódy a nástroje na ukladanie údajov v sieti WWW. Koncept a variácie hypertextových dokumentov a grafických súborov. Princípy vyhľadávacích nástrojov a pravidlá hľadania potrebných informácií. Charakteristika niektorých vyhľadávacích nástrojov na webe.

    semestrálna práca, pridané 18. 4. 2010

Zdieľaj toto