Organizzazione della ricerca nei sistemi informativi. Classificazione delle risorse informative su Internet

Kocheganova Polina

Metodi per trovare informazioni educative su Internet

La condizione più importante e il fattore trainante che determina il successo delle attività educative che utilizzano la tecnologia informatica è la disponibilità degli studenti per attività produttive in un ambiente informatico didattico.

Padroneggiare metodi e mezzi efficaci di ricerca, elaborazione e utilizzo delle informazioni educative consente non solo di intensificare i processi educativi, ma anche di sviluppare gli interessi cognitivi degli studenti, il desiderio di attività produttive e creative.

Grazie allo sviluppo e all'applicazione onnipresenti delle tecnologie informatiche, le informazioni in tutte le aree dell'attività umana sono ora in una forma o in un'altra forma elettronica: scienza, produzione, commercio, letteratura, intrattenimento, ecc. Internet è compatibile con varie reti elettroniche e database e consente di accedere comodamente a quasi tutti i tipi di informazioni.

Le risorse informative disponibili via Internet sono enormi. Si tratta di decine di milioni di documenti presentati in vario modo, il cui numero è in costante aumento. A seconda del metodo di presentazione, del tipo e della natura delle informazioni, differiscono anche le modalità di accesso alle stesse, pertanto, prima di considerare le modalità di ricerca, prenderemo in considerazione la classificazione delle risorse informative.

Secondo il principio di organizzazione e utilizzo, gli strumenti di ricerca possono essere suddivisi in cataloghi (libri di consultazione, elenchi) e motori di ricerca.

    Cataloghi

Le directory sono directory contenenti elenchi di indirizzi Internet, raggruppati secondo determinati criteri. Di norma, sono raggruppati per argomento (scienza, arte, notizie, ecc.), In cui ogni argomento si dirama in diversi sottolivelli.

La particolarità di questi mezzi di reperimento delle informazioni è che la creazione di una struttura, una banca dati e il loro costante aggiornamento vengono effettuati "manualmente" da un team di redattori e programmatori, e il processo di ricerca stesso richiede la partecipazione diretta dell'utente, in autonomia passare da un collegamento all'altro.

    Motori di ricerca

L'azione dei motori di ricerca consiste in uno studio sequenziale costante di tutti i siti Internet disponibili per un determinato motore di ricerca, con tutti i loro collegamenti e rami. A causa del costante aggiornamento delle informazioni, il motore di ricerca torna regolarmente dopo un certo periodo (circa un mese) sui nodi già studiati per rilevare e registrare le modifiche. Tutte le informazioni lette vengono indicizzate, ovvero viene creato un database specializzato in cui vengono codificate tutte le pagine Internet esaminate dal sistema.

Alla ricezione di una richiesta da parte dell'utente, il motore di ricerca esamina tutte le informazioni indicizzate e produce un elenco di documenti corrispondenti all'attività di ricerca. I documenti trovati sono classificati in base alla posizione delle parole chiave (nell'intestazione, all'inizio del testo, nei primi paragrafi) e alla frequenza della loro occorrenza nel testo.

Nonostante il principio di funzionamento simile, i motori di ricerca differiscono in termini di linguaggi di query, zone di ricerca, profondità di ricerca all'interno di un documento, metodi di classificazione e priorità, quindi l'uso di motori di ricerca diversi fornisce risultati diversi.

Un approccio più o meno serio a qualsiasi problema inizia con un'analisi dei possibili metodi per risolverlo. La ricerca di informazioni su Internet può essere eseguita utilizzando diversi metodi, che differiscono notevolmente sia per l'efficienza e la qualità della ricerca, sia per il tipo di informazioni recuperate. In alcuni casi, devi usare metodi molto laboriosi: ne vale la pena.

Si possono distinguere i seguenti metodi principali di ricerca di informazioni su Internet, che, a seconda degli scopi e degli obiettivi del ricercatore, vengono utilizzati singolarmente o in combinazione tra loro:

    Ricerca diretta tramite collegamenti ipertestuali

Poiché tutti i siti nel WWW sono effettivamente collegati tra loro, le informazioni possono essere recuperate visualizzando in sequenza le pagine collegate utilizzando un browser.

Sebbene questo metodo di ricerca completamente manuale sembri un completo anacronismo su un Web di oltre 60 milioni di siti, la navigazione Web "manuale" è spesso l'unica opzione nelle fasi finali del recupero delle informazioni, quando lo "scavo" meccanico lascia il posto a un'analisi più approfondita. L'uso di cataloghi, elenchi classificati e tematici e tutti i tipi di piccoli libri di consultazione si applica anche a questo tipo di ricerca.

    Uso dei motori di ricerca

Oggi questo metodo è uno dei principali e, di fatto, l'unico nel condurre una ricerca preliminare. Quest'ultimo può comportare un elenco di risorse di rete da considerare in dettaglio.

Di norma, l'utilizzo dei motori di ricerca si basa sull'utilizzo di parole chiave che vengono passate ai motori di ricerca come argomenti di ricerca: cosa cercare. Se eseguita correttamente, la formazione di un elenco di parole chiave richiede un lavoro preliminare sulla preparazione di un thesaurus.

    Cerca utilizzando strumenti speciali

Questo metodo completamente automatizzato può essere molto efficace per condurre ricerche iniziali.

Spider è uno strumento chiave per la ricerca sul Web. Come affermato in precedenza, uno spider è un programma che ottiene alcune o tutte le risorse da un gran numero di siti, principalmente allo scopo di creare indici invertiti che verranno successivamente utilizzati dalle applicazioni di ricerca. Come altri client Web, lo spider effettua richieste HTTP per accedere alle risorse del sito Web e analizza le risposte. Le principali differenze tra uno spider e un browser sono il numero molto maggiore di siti a cui si accede e che inviano richieste, la mancanza di qualsiasi visualizzazione delle risposte e l'uso piuttosto insolito delle risposte.

In pratica, però, solo una frazione delle risorse può essere richiesta ai siti. Molti spider, ad esempio, non richiedono immagini o risorse multimediali. Questa operazione viene eseguita se lo spider viene utilizzato per creare un indice di sole risorse di testo.

    Analisi di nuove risorse

La ricerca di risorse di nuova formazione può essere necessaria quando si eseguono cicli di ricerca ripetuti, si cercano le informazioni più recenti o si analizzano le tendenze nello sviluppo dell'oggetto di ricerca in dinamica.

Un'altra possibile ragione potrebbe essere che la maggior parte dei motori di ricerca aggiorna i propri indici con un ritardo significativo a causa di enormi quantità di dati elaborati, e questo ritardo è solitamente più lungo, meno popolare è l'argomento di interesse. Questa considerazione può essere molto importante quando si effettua una ricerca in un'area tematica altamente specializzata. Ciò può includere, ad esempio, il lavoro con i social network, i contenuti video.

Metodi davvero utili per trovare informazioni educative su Internet:

    Stesura di un thesaurus

Per un uso efficace dei motori di ricerca è necessario un elenco di parole chiave, organizzato tenendo conto delle relazioni semantiche tra loro, ad es. dizionario dei sinonimi. Nella compilazione di un thesaurus è necessario prevedere l'elaborazione di sinonimi, omonimi e variazioni morfologiche delle parole chiave. Non è necessario inserire il nome dell'argomento stesso.

    Vedi 2-3-4 pagine di ricerca

    Selezione dei motori di ricerca

La sequenza di utilizzo dei motori di ricerca è stabilita in base alla diminuzione dell'efficienza di ricerca prevista con l'uso di ciascuna macchina.

In totale sono noti circa 180 server di ricerca, differenziati per regioni di copertura, principi di ricerca (e, di conseguenza, per lingua di input e natura delle query percepite), dimensione della base dell'indice, velocità di aggiornamento delle informazioni, capacità di cercare informazioni "non standard" e simili. I criteri principali per la scelta dei server di ricerca sono il volume dell'indice di base del server e il grado di sviluppo del motore di ricerca stesso, ovvero il livello di complessità delle query che percepisce.

    Utilizza risorse in lingua inglese anche se non conosci la lingua. Oggi, la traduzione automatica tecnica non è più solo una raccolta di parole come una volta. I siti stranieri buoni e utili vengono tradotti in modo più che adeguato.

    Utilizza fonti specializzate per trovare informazioni educative:e- biblioteca, una banca di tesi di laurea, un mercato informatico, siti di archivi, ecc.

Quando si completa il lavoro, si può giungere alla conclusione che una grande quantità di informazioni educative su vari argomenti è memorizzata su Internet sotto forma di articoli su giornali elettronici, rapporti, libri di consultazione, immagini grafiche, file audio e video e molto altro di più. Durante la navigazione in Internet, puoi trovare qualsiasi informazione, in altre parole, se dei dati sono mai stati inseriti in un computer, molto probabilmente possono essere trovati da qualche parte nelle vaste distese di Internet.

Non ci sono informazioni che non possono essere trovate su Internet, devi solo sapere dove e come cercare.

Bibliografia

    Garmashov M. Yu., Korotkov A. M. Preparazione degli studenti per attività produttive in un ambiente informatico didattico. - Volvograd, 2001.

    IP Norenkov Gestione della conoscenza nell'ambiente informativo ed educativo. - M.: MESI, 2000.

    Putilov G.P. Il concetto di costruzione di un ambiente informativo e educativo per un'università tecnica. - M.: MGIEM, 1999.

    Strumenti di ricerca di informazioni in INTERNET // Afanasy-Exchange (Tver). - 28 marzo 1997.

    Uskov V.L. Formazione ingegneristica a distanza sulla base di Internet / Biblioteca della rivista "Information Technologies", 2000, № 3.

    Demin Igor Svyatoslavovich Cerca informazioni scientifiche ed educative su Internet // Vestnik TSU. 2008. N. 9.

Ricerca di informazioni su Internet globale: informazioni generali

Secondo il principio di organizzazione e utilizzo, gli strumenti di ricerca possono essere suddivisi in:

    Cataloghi ... Le directory sono directory contenenti elenchi di indirizzi Internet, raggruppati secondo determinati criteri. Di norma, sono raggruppati per argomento (scienza, arte, notizie, ecc.), In cui ogni argomento si dirama in diversi sottolivelli. Alcune directory di ricerca:

Nome

Ehi!

www.au.ru

Atrus (è richiesta la registrazione)

www.atrus.ru

List.ru

www.list.ru

Costellazione

www.stars.ru

Lumaca

www.ulitka.ru

Ivan Susanin

www.susanin.ru

    Motori di ricerca automobili ... Per una ricerca dettagliata dei documenti, vengono utilizzati motori di ricerca specializzati: i motori di ricerca. Alla ricezione di una richiesta da parte dell'utente, il motore di ricerca produce un elenco di documenti corrispondenti all'attività di ricerca. I documenti trovati sono classificati in base alla posizione delle parole chiave (nell'intestazione, all'inizio del testo, nei primi paragrafi) e alla frequenza della loro occorrenza nel testo. L'utilizzo di motori di ricerca diversi fornisce risultati diversi. I più comuni tra i motori di ricerca sono:

Nome

io indice

www. yandex. ru

MA porta

www.aport.ru

R ambler

www.rambler.ru

G carbone

www.google.ru

m eil

www. posta.ru

io NS

www.yahoo.com

MA ltavista

www.altavista.com

Una query di ricerca può essere costituita da una o più parole, può contenere vari segni di punteggiatura. Per quanto riguarda il caso, poi, in generale, il caso dell'ortografia delle parole di ricerca e degli operatorinon importa , cioè, le parole "astratto", "Astratto", astratto, "ASTRATTO" e "ASTRATTO" saranno percepite allo stesso modo. Questo vale pienamente per l'alfabeto latino. Soiaes "e" yES ", e anche" yeS "," yes "e" YES "sono tutti uguali per la ricerca.

Lavoro pratico "Ricerca di informazioni in Internet globale"



Nascondendo l'aroma nei boccioli,

I lillà stanno fiorendo.

Maggio sta sbocciando, il che significa

Oggi è una vacanza - Primo maggio!

    Salva poesia:


  1. Ricerca foto delle vacanze:


  2. Controlla i risultati della ricerca situato in 1 pagina. Vai alla seconda pagina: fai scorrere la rotellina del mouse per essere nella parte inferiore della finestra del browser e fai clic sul KM per collegamento alla pagina2 .

    Si prega di selezionare l'immagine che ti piace e cliccaci sopral km.

Nella nuova finestra, vedrai la stessa immagine, solo con una dimensione maggiore. A destra di esso ci saranno informazioni sulla dimensione dell'immagine e sui siti su cui si trova.

    Copia l'immagine :

    1. eseguire un clicNS CM nella foto;

      selezionare squadraCopia immagine ;

      chiudi la finestra del browser facendo clic sul pulsanteChiudere .

    Inserisci una foto nel documento:

    1. vai alla finestra dell'editor di testo (dovrebbe esserci una poesia di congratulazioni);

      fissa il cursore con un clicl KM dopo l'ultimo carattere della poesia (questo! ) e premere il tastoaccedere per spostare il cursore su una nuova riga;

      eseguire un clicNS km;

      nel menu locale selezionare il comandoInserire .

    Salva il documento nella tua cartella personale sotto il nomeCongratulazioni a *** da *** ... Al posto del primo ***, digita il nome della persona a cui verrà inviata la congratulazione; invece del secondo ***, digita il tuo nome. Per esempio,Congratulazioni per Anastasia da Olga ... Chiudi il programma dell'editor di testo.

    Avvia il tuo browser Google Cromo
    .

    Vai alla tua casella di posta sul portaleposta . ru

    Nel menu principale della posta (nella parte superiore della finestra), seleziona il comandoScrivi un messaggio .

    Compila i campi richiesti :


  1. Seleziona il pulsanteInviare (si trova sia nella parte superiore che in quella inferiore della finestra del browser).

    Chiudi la finestra del browser.

    Spegni il computer.

Esercizio 1

L'obiettivo : Trova il nome del più grande lago d'acqua dolce del mondo.


Per un lavoro ottimale e veloce con i motori di ricerca, ci sono alcune regole per scrivere le query. Un elenco dettagliato per un server di ricerca specifico può, di regola, essere trovato sul server stesso sotto i collegamenti Aiuto, Suggerimento, Regole per effettuare una richiesta, ecc.

    Organizza la tua ricerca e compila la tabella con i risultati della ricerca:

    Domanda

    Risultati della ricerca (numero di pagine)

    yandex . ru

    vagabondo . ru

    google.ru

    posta .ru

    aport . ru

    Come trovare una persona su Internet tramite la fotografia?

    Come registrarsi sul sito Web Vkontakte?

    Come rimuovere gli occhi rossi?

    Chiudere il browser (uscire dal programma).

Esercizio 2

L'obiettivo : trovarebiografia del ministro della Pubblica Istruzione della Federazione Russa A.A. Fursenko usando un motore di ricercaG oogle. R tu

Esercizio n. 3

Ricerca di opere letterarie su Internet




Attenzione! Per visualizzare i libri in formatoFB2 è necessario un programma speciale ("lettore"). Per esempio,AlReader .

Lavoro del corso

Sul tema: "Organizzazione dell'archiviazione e del recupero di informazioni su Internet"


introduzione

Internet come mezzo di informazione in Russia non può ancora competere con i media tradizionali, ma ha grandi prospettive in questo senso e potrà continuare ad agire alla pari con altre risorse di informazione in futuro.

Attualmente, oltre 500 milioni di persone usano più o meno regolarmente

Internet, e in due anni il loro numero, secondo gli esperti, supererà il miliardo, cioè più del 16% della popolazione mondiale. Naturalmente, un pubblico così colossale non poteva rimanere non reclamato: Internet si è da tempo trasformato in un'enorme piattaforma di informazioni.

In tutto il mondo, e ora anche nel nostro Paese, la presenza di un sito web funzionante sta diventando segno di un lavoro stabile e professionale dell'azienda. Internet è diventato da tempo non solo un mezzo di comunicazione, ma anche un campo per una seria attività commerciale. Quasi ogni azienda straniera ha un proprio ufficio di rappresentanza su Internet, un ufficio virtuale. Il fatturato totale delle aziende che commerciano su Internet raggiunge miliardi di dollari. In Russia, un numero crescente di aziende utilizza Internet anche per promuovere i propri prodotti e servizi. Questo è facile da verificare guardando le pubblicazioni pubblicitarie. Accanto ai soliti numeri di telefono e fax si trovano sempre più indirizzi di posta elettronica e di siti Web. Presto, la mancanza di un indirizzo Internet sarà difficile quanto la mancanza di un fax. Coloro che prendono il loro posto ora ne trarranno vantaggi significativi in ​​futuro. Questa è efficienza e pertinenza. I mass media tradizionali, con tutta la loro visibilità e familiarità, non sono più in grado di fornire l'adeguato livello di efficienza richiesto da una persona moderna. Pertanto, sempre più persone si rivolgono a Internet per ottenere le ultime informazioni: su servizi e prezzi, meteo, tassi di cambio, solo notizie. È possibile modificare le informazioni sul sito Web più volte al giorno. Nella carta stampata, gli annunci devono essere ordinati con almeno una settimana di anticipo, o anche di più. E su Internet tutto è operativo: nuovi beni o servizi, un nuovo sconto o un nuovo fornitore: domani i clienti lo scopriranno. Non è necessario attendere fino al rilascio del prossimo annuncio cartaceo. Le informazioni sul sito saranno sempre aggiornate, le più fresche. Questo è ciò che viene apprezzato, questo è ciò che attrae milioni di utenti su Internet.


1. Archiviazione dati in rete Internet

1.1 Documenti ipertestuali, tipi di file

Un documento ipertestuale è inteso come un documento contenente i cosiddetti collegamenti ad un altro documento. Tutto questo viene implementato tramite l'HyperText Transfer Protocol (HTTP).

Le informazioni nei documenti Web possono essere trovate tramite parole chiave. Ciò significa che ogni browser Web contiene collegamenti specifici attraverso i quali si formano i cosiddetti collegamenti ipertestuali, consentendo a milioni di utenti Internet di cercare informazioni in tutto il mondo.

I documenti ipertestuali sono basati su HTML (HyperText Markup Language). Questo linguaggio è molto semplice, i suoi codici di controllo, che, infatti, vengono compilati dal browser per la visualizzazione sullo schermo, sono costituiti da testo ASCII. Collegamenti, elenchi, intestazioni, immagini e moduli sono chiamati elementi HTML che consentono di fare clic per visualizzare un altro documento con un clic del mouse.

Esistono due modi per creare documenti ipertestuali. È possibile utilizzare uno degli editor HTML WYSIWYG (ad esempio Netscape Composer, le cui basi sono discusse nella sezione "Elaborazione testi su un computer", Microsoft FrontPage, HotDog, ecc.), che non richiedono particolari conoscenze struttura interna del documento creato. Questo metodo consente di creare documenti per il WWW senza conoscere l'HTML. Gli editor HTML automatizzano la creazione di documenti ipertestuali, eliminano il lavoro di routine. Tuttavia, le loro capacità sono limitate, aumentano notevolmente le dimensioni del file risultante e il risultato ottenuto con il loro aiuto non sempre soddisfa le aspettative dello sviluppatore. Ma, naturalmente, questo metodo è indispensabile per i principianti nella preparazione di documenti ipertestuali.

Un'alternativa è creare e contrassegnare il documento utilizzando un normale editor di testo (come emacs o NotePad). Questo metodo inserisce manualmente i comandi HTML nel testo. Creando documenti in questo modo, sai esattamente cosa stai facendo.

Come notato, un documento HTML contiene informazioni simboliche. Una parte di esso è il testo stesso, ad es. i dati che costituiscono il contenuto del documento. Altro - tag(tag di markup), chiamati anche bandiere di marcatura, - costrutti speciali del linguaggio HTML utilizzati per contrassegnare un documento e controllarne la visualizzazione. Sono i tag del linguaggio HTML che determinano in quale forma verrà presentato il testo, quali dei suoi componenti svolgeranno il ruolo di collegamenti ipertestuali, quali oggetti grafici o multimediali dovrebbero essere inclusi nel documento. Le informazioni grafiche e sonore incluse nel documento HTML sono memorizzate in file separati. I visualizzatori di documenti HTML (browser) interpretano i flag di markup e organizzano il testo e la grafica sullo schermo di conseguenza. Per i file contenenti documenti HTML, sono accettate le estensioni .htm o .html.

Le lettere maiuscole e minuscole non vengono distinte quando si scrivono i tag . Nella maggior parte dei casi, i tag vengono utilizzati in coppia. La coppia è composta da un tag di inizio e un tag di fine. Sintassi del tag di apertura:

<имя_тега [атрибуты]>

Le parentesi usate nelle descrizioni della sintassi indicano che l'elemento potrebbe essere mancante. Il nome del tag di chiusura differisce dal nome del tag di apertura solo in quanto è preceduto da una barra:

Gli attributi dei tag sono scritti nel seguente formato:

nome [= "valore"]

Le virgolette quando si specifica un valore di argomento sono facoltative e possono essere omesse. Per alcuni attributi, potrebbe non essere specificato un valore. Il tag di fine non ha attributi.

L'azione di qualsiasi tag accoppiato inizia dove si incontra il tag di inizio e termina quando si incontra il tag di fine corrispondente. Spesso viene chiamata una coppia di tag di inizio e fine contenitore, e la parte del testo, delimitata dai tag di apertura e chiusura, è elemento .

La sequenza di caratteri che compongono il testo può essere costituita da spazi, tabulazioni, avanzamenti di riga, ritorni a capo, lettere, segni di punteggiatura, numeri e caratteri speciali (ad esempio, +, #, $, @), con l'eccezione di i seguenti quattro caratteri che hanno significati speciali in HTML:< (меньше), >(maggiore di), & (e commerciale) e "(virgolette doppie). Se è necessario includere uno di questi caratteri nel testo, è necessario codificarlo con una sequenza di caratteri speciale.

Gli spazi unificatori possono anche essere classificati come caratteri speciali. L'uso di questo simbolo è un modo per aumentare lo spazio tra alcune parole nel testo. Gli spazi ordinari non possono essere utilizzati per questi scopi, poiché un gruppo di spazi consecutivi viene interpretato dal browser come uno.

1.2 File grafici, loro tipi e caratteristiche

Al giorno d'oggi, l'uso di grafica a colori e di alta qualità con colori realistici su computer di classe PC sembra completamente comune. Non molto tempo fa, però, questo era un privilegio dei sistemi editoriali, che di solito erano costruiti su piattaforme Macintosh o stazioni grafiche di Silicon Graphics. Come ultima risorsa, gli utenti di PC si sono accontentati di una grafica a colori, una profondità massima di 8 bit/pixel (256 colori) con una risoluzione piuttosto debole di 320X200, o 16 colori con una risoluzione di 640X480.

Ora, con lo sviluppo di architetture di adattatori video e la riduzione del costo della memoria video su vari microcircuiti, l'utente medio è abbastanza accessibile ai sistemi su una piattaforma PC che funzionano con successo con immagini realistiche (TrueColor) con una profondità di 24 bit / pixel (più di 16 milioni di colori).

In connessione con il progresso tecnico, è sorta la necessità di trasferire sulla piattaforma PC e adattare vari formati per la codifica e la memorizzazione di informazioni grafiche da altre piattaforme (ad esempio, Macintosh, dove sono stati sviluppati sviluppi simili per il secondo decennio), o lo sviluppo di i nostri formati grafici orientati al PC, tenendo pienamente conto di tutte le caratteristiche dell'architettura dei loro adattatori video.

Inoltre, negli ultimi 5 anni, in connessione con la diffusione fulminea di Internet e, in particolare, delle tecnologie del World Wide Web, ha iniziato a sorgere un problema di tipo diverso: lo sviluppo di formati di immagine sufficientemente compatti per trasmissione in rete con ritardi minimi e sono indipendenti dall'hardware, poiché sono collegati alla rete computer di varie architetture.

A questo proposito, vorrei prendere in considerazione brevemente diversi formati grafici comuni e descrivere brevemente le loro capacità. Tutte queste informazioni sono riassunte nella seguente tabella:

Formato massimo profondo colori massimo numero di colori

massimo dimensione dell'immagine,

Codifica più immagini
BMP 24 16"777"216 65535x65535 RL * -
GIF 8 256 65535x65535 LZW +
JPEG 24 16"777"216 65535x65535 JPEG -
PCX 24 16"777"216 65535x65535 RLE -
Immagine PNG 48 281"474"976"710"656 Deflazione (LZ77) -
tiff 24 16"777"216 totale 4'294'967'295 LZW, RLE e altri * +

Inoltre, va notato che i formati più compatti sono JPEG, GIF, PNG, che peraltro sono indipendenti dalla piattaforma. Il formato BMP è un formato standard di Windows, ma non è molto diffuso a causa delle dimensioni esorbitanti dei file, soprattutto quando si salvano grafici con una profondità di colore di 24 bit/pixel. Per quanto riguarda il formato TIFF, va notato che, come JPEG, GIF, è parzialmente indipendente dalla piattaforma, ma troppo grande per l'uso sul web e, peggio ancora, troppo difficile da interpretare. Inoltre, qualsiasi prodotto software, inclusi visualizzatori di file grafici, contenente codice per la codifica/decodifica dei dati mediante l'algoritmo LZW deve essere distribuito in base all'apposito contratto di licenza di Unisys Corp., proprietario dell'algoritmo, che aumenta ulteriormente il costo di questi prodotti.

Ulteriore considerazione, vorrei passare ai formati multipiattaforma accettati su Internet come standard di fatto: JPEG, GIF, PNG.

Voglio notare subito che il formato PNG (Portable Network Graphic) non riceverà molta attenzione, anche se, forse, lo merita. Questa è una conseguenza del fatto che questo formato è apparso non molto tempo fa e, nonostante tutti i suoi vantaggi, non ha ancora ricevuto un riconoscimento universale.

Quindi, in effetti, una persona o un'azienda che intende inserire un gran numero di immagini sui propri dischi e, eventualmente, fornirle per l'utilizzo su Internet, si trova di fronte a un dilemma: cosa scegliere GIF o JPEG.

Il formato GIF, sviluppato da CompuServe e originariamente proposto come formato per lo scambio di immagini sul web, è un formato con un rapporto di compressione delle immagini piuttosto elevato. Inoltre, GIF ha funzionalità aggiuntive che lo rendono attraente da usare sul web. Il primo è la possibilità di modificare l'ordine di visualizzazione delle linee dell'immagine sullo schermo, riempiendo gli spazi tra di esse con informazioni temporanee. Visivamente, sembra che mentre scarica dalla rete (cosa che spesso accade con una velocità catastroficamente bassa), l'immagine appare sullo schermo come "in bassa qualità", e quindi, man mano che vengono caricate informazioni aggiuntive, ripristina le mancanti linee dell'immagine. Pertanto, l'utente può avere un'idea del contenuto dell'immagine anche prima che il processo di download sia completato e interrompere il download di un file di grandi dimensioni non necessario. La seconda possibilità è quella di memorizzare più di un'immagine in un file, il che rende possibile l'animazione elementare fotogramma per fotogramma. Un'altra caratteristica distintiva di GIF è che uno dei colori può essere dichiarato "trasparente", quindi quando l'immagine viene visualizzata, quelle parti di essa che sono dipinte con questo colore non verranno visualizzate sullo schermo e sullo sfondo su cui l'immagine è sovrapposto sarà visibile sotto di essi. Il più grande svantaggio di GIF è che può memorizzare un massimo di 256 colori, cosa che ultimamente è diventata sempre meno accettabile. Allo stesso tempo, gli utenti GIF sono ossessionati dallo stesso fastidio del formato TIFF: GIF utilizza anche la compressione LZW, e quindi ogni immagine può essere distribuita solo se esiste un accordo di licenza corrispondente.

Il formato JPEG è un formato TrueColor, il che significa che può memorizzare immagini con una profondità di colore di 24 bit/pixel. Questa profondità di colore è sufficiente per una riproduzione virtualmente accurata di immagini di qualsiasi complessità. Una rappresentazione cromatica più profonda (ad esempio 32 bit/pixel) risulta infatti essere praticamente indistinguibile da quella visualizzata sui moderni monitor e stampata sulla maggior parte delle stampanti disponibili. Questa profondità di colore può essere utile solo nella pubblicazione. JPEG ha generalmente un tasso di compressione delle immagini più elevato rispetto a GIF (questo aspetto è descritto più dettagliatamente nel capitolo "Pratiche per l'utilizzo di JPEG"), ma non ha la possibilità di memorizzare più immagini in un unico file. Recentemente è stata sviluppata una modifica del formato JPEG, chiamata Progressive JPEG, che può essere approssimativamente tradotta in russo come "JPEG graduale", che è destinata alle stesse attività della visualizzazione interlacciata di immagini GIF. Ciò ha reso il formato JPEG ancora più attraente come standard web. Tuttavia, JPEG ha anche i suoi svantaggi. A differenza di GIF, che può comprimere in modo efficiente le immagini di quasi tutti i contenuti, JPEG si concentra principalmente su immagini realistiche, ovvero immagini di natura fotografica, e la qualità della compressione viene notevolmente ridotta quando vengono elaborate immagini con linee e confini di colore chiaramente definiti.

Pertanto, è ancora impossibile fare una scelta definitiva a favore dell'uno o dell'altro formato. Tuttavia, il formato JPEG mi sembra più interessante dal punto di vista dell'algoritmo di compressione originale e grandi opportunità di sviluppo in futuro. Inoltre, il formato JPEG va considerato inequivocabilmente più flessibile: permette di scegliere tra una buona qualità dell'immagine o un buon rapporto di compressione e trovare un compromesso accettabile per ogni caso specifico. Pertanto, tutte le ulteriori ricerche sono dedicate a questo particolare formato.

1.3 Motori di ricerca e regole per la ricerca delle informazioni

La comodità di Internet è che puoi trovare quasi tutte le informazioni al suo interno, anche quando non sappiamo esattamente dove si trovi. Se l'indirizzo della pagina con il materiale che ci interessa è sconosciuto e non c'è nemmeno una pagina con collegamenti adeguati, dobbiamo cercare i materiali in tutta Internet. Per fare ciò, utilizzare i motori di ricerca Internet: siti Web speciali che consentono di trovare il documento desiderato.

Esistono due metodi principali per la ricerca in Internet. Nel primo caso, stai cercando pagine web relative a un argomento specifico. La ricerca viene effettuata scegliendo una categoria tematica e restringendola progressivamente. Tali motori di ricerca sono chiamati directory di ricerca e sono utili quando è necessario familiarizzare con un nuovo argomento o accedere alle note risorse "classiche" su un determinato argomento. Il secondo metodo di ricerca viene utilizzato quando l'argomento è ristretto, specifico o sono necessarie risorse rare e poco conosciute. In questo caso, devi immaginare quali parole chiave dovrebbero essere trovate nel documento sull'argomento di tuo interesse. Queste parole devono essere scelte in modo tale che sia più probabile che si trovino nei documenti necessari che non sono correlati all'argomento scelto. I sistemi che consentono questo tipo di ricerca sono chiamati indici di ricerca. Le directory di ricerca differiscono dagli indici di ricerca non solo nel metodo di ricerca, ma anche nel modo in cui sono formati. Qualsiasi motore di ricerca su Internet è composto da due parti. Una pagina web specializzata, accessibile a tutti e che consente loro di effettuare ricerche, si basa su un ampio database costantemente aggiornato e aggiornato che contiene informazioni sulle risorse Internet.

Il metodo di rifornimento di questo database dipende dal tipo di motore di ricerca, dalle directory di ricerca, la cosa più importante è l'accuratezza della selezione. Ogni risorsa che trovi dovrebbe essere utile. L'argomento della pagina viene definito o verificato manualmente. Per questo motivo, il volume delle directory di ricerca è relativamente piccolo. Quando il volume si avvicina al milione di pagine, la quantità di lavoro manuale è così grande che l'ulteriore crescita del catalogo si interrompe.

Gli indici di ricerca, al contrario, sono ad ampio raggio. Con la definizione delle parole disponibili su una pagina web, l'automazione se la cava bene, i dati dell'indice di ricerca possono coprire molti milioni di pagine web. Ciò rende la ricerca in un indice più difficile rispetto alla ricerca in una directory perché le stesse parole chiave possono apparire su pagine web su argomenti diversi.

I sistemi di recupero delle informazioni sono ospitati su Internet su server pubblici. La base dei motori di ricerca sono i cosiddetti motori di ricerca, o indici automatici. Speciali programmi robotici (noti anche come spider) scansionano automaticamente e periodicamente Internet in base a determinati algoritmi, indicizzando i documenti trovati. I database di indicizzazione creati vengono utilizzati dai motori di ricerca per fornire all'utente l'accesso alle informazioni pubblicate sui siti Web. L'utente, nell'ambito dell'interfaccia corrispondente, formula una richiesta, che viene elaborata dal sistema, dopodiché i risultati dell'elaborazione della richiesta vengono visualizzati nella finestra del browser. I meccanismi di elaborazione delle query sono in costante miglioramento e i moderni motori di ricerca non si limitano a ordinare un numero enorme di documenti. - La ricerca viene effettuata sulla base di algoritmi originali e molto complessi, e i suoi risultati vengono analizzati e ordinati in modo tale che le informazioni presentate all'utente soddisfino al massimo le sue aspettative.
Attualmente, nello sviluppo dei motori di ricerca, c'è la tendenza a combinare motori di ricerca indicizzati automatici e cataloghi di risorse Internet compilati manualmente. Le risorse di questi sistemi si completano a vicenda con successo ed è abbastanza logico combinare le loro capacità.

Tuttavia, gli studi sulle capacità dei motori di ricerca, anche i più potenti, come AltaVista o HotBot, mostrano che la reale copertura delle risorse del World Wide Web da parte di un tale sistema separato non supera il 30%. Pertanto, non limitarti a utilizzare nessuno di essi. Se non sei riuscito a trovare le informazioni che ti interessano utilizzando un sistema, prova a utilizzarne un altro.

Ogni motore di ricerca ha le sue caratteristiche e la qualità del risultato ottenuto dipende dall'oggetto della ricerca e dall'accuratezza della query. Pertanto, quando inizi a cercare informazioni, prima di tutto, devi capire chiaramente cosa esattamente e dove vuoi trovare. Ad esempio, i sistemi stranieri colpiscono per il numero di documenti indicizzati. Per la ricerca nel campo della conoscenza professionale, in particolare delle informazioni in una lingua straniera, i sistemi come AltaVista, HotBot o Northern sono i più adatti.

Tuttavia, per la ricerca di informazioni in russo, specialmente nella parte russa di Internet, i motori di ricerca russi sono più adatti. Innanzitutto, sono specificamente mirati specificamente alle risorse in lingua russa del Web e, di regola, si distinguono per una maggiore copertura e profondità di ricerca di queste risorse. In secondo luogo, i sistemi russi funzionano tenendo conto della morfologia della lingua russa, ovvero tutte le forme delle parole cercate sono incluse nella ricerca. I sistemi russi tengono meglio conto di una caratteristica storicamente consolidata delle risorse Internet russe come la coesistenza di diverse codifiche cirilliche.

2. Revisione e caratteristiche dei motori di ricerca web Internet

2.1 vagabondo

Per cercare informazioni in lingua russa su Internet, è meglio utilizzare i motori di ricerca russi. In questa esperienza e nelle altre seguenti, cercheremo informazioni utilizzando diversi sistemi progettati per cercare nella parte di Internet di lingua russa. Come vedrai, non sono fondamentalmente diversi dai motori di ricerca mondiali. Poiché abbiamo già considerato diversi sistemi e conosci i principi generali della ricerca di informazioni su Internet, in ulteriori esperimenti non ci soffermeremo su tutte le complessità. Poiché questi sistemi comunicano con te in russo, sarai in grado di studiarli in modo indipendente utilizzando le conoscenze acquisite da esperimenti precedenti.

Cerchiamo usando il sistema Rambler. Come vedrai, questo sistema dispone di un comodo sistema per la ricerca e l'emissione delle informazioni trovate.

Puoi cercare sia nel World Wide Web che nei newsgroup, così come nel catalogo di questo sistema e nei prodotti. Oltre a una semplice query, è possibile lavorare con query dettagliate. Ma eseguiremo una semplice query, proprio come per altri motori di ricerca russi.

Inserisci le parole nel campo di input della query Ricerca Internet. Vogliamo trovare documenti che contengano sia la parola "cerca" che la parola "Internet".

Fare clic sul pulsante Trovare!... Abbiamo un elenco di pagine trovate.

L'elenco delle pagine trovate è organizzato convenientemente. Innanzitutto, ci sono collegamenti alle pagine che corrispondono meglio ai criteri di ricerca. Soddisfano maggiormente la richiesta sono i documenti in cui le parole di ricerca sono spesso ripetute e si trovano non lontano l'una dall'altra. Inoltre, le parole chiave rilevate sono evidenziate in un breve frammento del testo del documento trovato.

Nel sistema Rambler, puoi vedere le parole che vengono utilizzate più spesso nelle query degli utenti. Inoltre, Rambler mantiene un elenco dei siti Internet russi più popolari. Poiché tutte le informazioni nel sistema sono presentate in russo, ci auguriamo che in futuro sarai in grado di familiarizzare autonomamente con le capacità di questo motore di ricerca.

2.2 Yandex

Il motore di ricerca Yandex si trova su www.uaandeh.ru. È stata ufficialmente incaricata il 23 settembre 1997.

Cos'è Yandex? Ecco come i creatori del sistema rispondono a questa domanda. Yandex è un sistema di recupero delle informazioni (ISS) full-text che tiene conto della morfologia delle lingue russa e inglese. Il sistema Yandex è progettato per cercare informazioni in testi elettronici di varie strutture e diversi metodi di presentazione (formati). Yandex (pronunciato "Yandex") sta per "language index" o, nella grafia inglese, Yandex - YetAnotherINDEX. Puoi anche considerare Yandex come una traduzione parziale della parola Index dall'inglese al russo ("I" significa "I").

Al centro del motore di ricerca Yandex. Ru è il kernel di sistema comune a tutti i prodotti con il prefisso Yandex (Yandex. Site, Yandex. Lib, Yandex. Dict, Yandex.CD). I primi prodotti della serie Yandex (Yandex. Site, Yandex. Dict) sono stati presentati al pubblico il 18 ottobre 1996 alla fiera Netcom'96. Motore di ricerca per "Internet russo". era una naturale continuazione della linea Yandex. Come detto, una buona domanda contiene metà della risposta. Cercare e trovare ciò di cui si ha bisogno in un mucchio di testi su Internet non è solo abilità del motore di ricerca, ma anche dell'utente che fa la richiesta. Yandex non richiede all'utente di conoscere comandi di ricerca speciali. basta digitare la domanda ("dove trovare computer economici" o "abbiamo bisogno dei telefoni di Mosca e della regione di Mosca") e otterrai il risultato: un elenco di pagine in cui si trovano queste parole. Indipendentemente dalla forma in cui hai utilizzato la parola nella query, la ricerca tiene conto di tutte le sue forme secondo le regole della lingua russa. Ad esempio, se la query è impostata su go, la ricerca troverà collegamenti a documenti contenenti le parole "go", "is", "walked", "walked", ecc.

Yandex funziona non solo con le query linguistiche, ma consente anche di cercare solo su determinati server OPPURE escludere dalla ricerca i server ovviamente non necessari. Ora puoi cercare le immagini per didascalie e nomi di file. Inoltre, oggetti come script, applet e stili sono diventati disponibili per la ricerca (la ricerca viene eseguita per nome). Il lavoro conveniente con nuove funzionalità è offerto nella pagina di ricerca avanzata, dove un linguaggio di query complesso si riduce alla compilazione di campi in un modulo. Oltre all'ordinamento standard dei risultati, per pertinenza (ovvero per grado di conformità con la query), è possibile ordinare i documenti per data di aggiornamento. Una caratteristica interessante del sistema è la possibilità di cercare in Yandex ovunque su Internet. Per fare ciò, è necessario scaricare un programma con il nome Yandex. Barra e installalo. Successivamente, apparirà un nuovo pannello nella finestra del browser. È progettato per inserire una richiesta di ricerca (senza dover aprire una pagina Yandex) ed eseguire una serie di altre funzioni.

Yandex sembra un tipico portale, nella cui pagina principale è possibile trovare collegamenti a materiali di quasi tutti gli argomenti. Ma questa non è la sua unica faccia, per gli utenti "seri" che non vogliono perdere tempo a scaricare informazioni che al momento non sono necessarie, c'è un altro Yandex. La sua pagina colpisce per il suo design modesto e la velocità di caricamento. L'indirizzo di questa essenza del motore di ricerca è www.ya.ru.

2.3 Yahoo

Database: Gestito da un servizio di ricerca di risorse Internet, notizie, mappe, informazioni pubblicitarie, informazioni sportive, commerciali, numeri di telefono, pagine WWW personali e indirizzi e-mail (database separato).

Ricerca: tutte le pagine Yahoo offrono non solo una semplice casella di ricerca, ma anche opzioni per tale ricerca, nonché ricerche Usenet o e-mail. La ricerca può essere limitata all'indicazione di un determinato periodo di tempo. Sono supportati anche gli operatori booleani (and, or) e la ricerca sequenziale. Nota: se cerchi su Yahoo! non ha portato a un risultato positivo, il processo di ricerca passa automaticamente ad Alta Vista, che continua la ricerca e, in caso di risultati positivi, restituisce automaticamente le informazioni trovate a Yahoo!.

Se Yahoo! non riesce a connettersi abbastanza velocemente con Alta Vista, quindi Yahoo! fornirà una pagina di collegamento con una serie di strumenti di ricerca. Dopo aver selezionato uno di questi collegamenti, le parole chiave vengono passate a un motore di ricerca di tua scelta.

Un mezzo per rendere più facile la ricerca è la presenza di un "tip search" (TS) - ricerca con un "suggerimento": Yahoo! È una directory subordinata, il che significa che il sistema non ha tante pagine quante sono i motori di ricerca, tuttavia, l'impostazione delle parole chiave più generiche consentirà di trovare l'argomento necessario in una pagina di alto livello (la prima pagina che appare davanti di un utente quando visita un sito) per un'organizzazione o una società.

Risultati: i collegamenti vengono visualizzati in base all'ordine delle parole specificate dalla sequenza di ricerca, insieme al loro testo descrittivo e alla gerarchia subordinata.

Indirizzo: http://www.yahoo.com/

2.4 Altavista

AltaVista (www.AltaVista.com) è uno dei più antichi motori di ricerca su Internet. Il primo indice web è stato introdotto dalla società nel 1995. Il cuore del motore di ricerca deve la sua nascita a una strana caratteristica del laboratorio di ricerca di DigitalEquipmentCorp. Per qualche ragione, i dipendenti di questo laboratorio hanno conservato tutta la loro corrispondenza elettronica negli ultimi 10 anni. Affinché questo mucchio di informazioni non occupi solo spazio su disco, ma porti almeno qualche vantaggio, è stato creato un programma per indicizzare i documenti e cercare le parole giuste in un mucchio di corrispondenza elettronica che di tanto in tanto è diventata gialla. Il sistema si è rivelato un tale successo che successivamente è migrato con successo nella vastità del World Wide Web.

L'Indice AltaVista contiene documenti in oltre 25 lingue. Le versioni localizzate del sito Web AltaVista si trovano in domini di 20 paesi. L'ambito di ricerca può includere documenti in tutte le lingue supportate, o solo in documenti in una lingua specifica, e su una pagina dedicata, puoi imparare più lingue per cercare contemporaneamente in tutte le lingue selezionate.


Conclusioni e offerte

Attualmente, Internet utilizza quasi tutte le linee di comunicazione conosciute, dalle linee telefoniche a bassa velocità ai canali satellitari digitali ad alta velocità. Anche i sistemi operativi utilizzati su Internet sono diversi. La maggior parte dei computer su Internet gira su Unix o VMS. Sono ampiamente rappresentati anche router di rete speciali come NetBlazer o Cisco, il cui sistema operativo ricorda il sistema operativo Unix.

Internet è infatti costituito da molte reti locali e globali appartenenti a diverse società e imprese, collegate da varie linee di comunicazione. Internet può essere immaginato come un mosaico di piccole reti di diverse dimensioni che interagiscono attivamente tra loro, inviando file, messaggi, ecc.

Un esempio della topologia di Internet è la rete X-Atom, che consiste in diverse sottoreti e allo stesso tempo è un frammento di Internet in tutto il mondo.

Oggi ci sono più di 130 milioni di computer nel mondo, e più dell'80% di loro sono uniti in varie reti informatiche e informatiche, dalle piccole reti locali negli uffici alle reti globali come Internet. La tendenza mondiale verso la connessione di computer in rete è dovuta a una serie di importanti ragioni, come l'accelerazione della trasmissione di messaggi informativi, la capacità di scambiare rapidamente informazioni tra utenti, ricevere e inviare messaggi (fax, lettere di posta elettronica, ecc.) senza lasciare il posto di lavoro, la possibilità di ricevere istantaneamente qualsiasi informazione da qualsiasi parte del mondo, nonché lo scambio di informazioni tra computer di produttori diversi, che funzionano con software diversi.

Le enormi opportunità potenziali che la rete informatica porta con sé e il nuovo potenziale aumento che sta vivendo il complesso informativo, nonché una significativa accelerazione del processo produttivo, non ci danno il diritto di non accettarlo per lo sviluppo e di non applicarlo in la pratica.

Pertanto, è necessario sviluppare una soluzione fondamentale al problema dell'organizzazione di una ICT (information and computer network) sulla base di un parco informatico esistente e di un complesso software che soddisfi le moderne esigenze scientifiche e tecniche, tenendo conto delle crescenti esigenze e della possibilità di ulteriore sviluppo graduale della rete in connessione con l'emergere di nuove soluzioni tecniche e software.

Internet continua ad evolversi con inesorabile intensità, cancellando sostanzialmente le restrizioni alla distribuzione e ricezione delle informazioni nel mondo. Tuttavia, in questo mare di informazioni non è molto facile trovare il documento richiesto. Va inoltre tenuto presente che insieme ai server di vecchia data, sulla rete ne appaiono di nuovi.

Oltre ai server per scopi "generali", ci sono siti specializzati in un'area o nell'altra, ad esempio per la fisica delle alte energie - http://xxx.lanl.gov.

Quando si importano file di articoli, bisogna anche tenere presente che spesso vengono memorizzati in formato PostScript (con estensione PS '', EPS '') destinati alla stampa su stampante laser, quindi, in questo caso, dopo averli ricevuti per la visualizzazione e la stampa su stampanti a matrice di punti oa getto d'inchiostro dovrebbero utilizzare un programma dedicato come GhostView.

Non c'è dubbio che l'uso di Internet nel lavoro scientifico ti consente di ricevere le informazioni più calde e rimanere in contatto con i colleghi del mondo.

Si presume che Internet soppianterà e sostituirà i libri. Attualmente una serie di fattori lo ostacolano. In primo luogo, la mancanza di comfort durante la lettura di libri dal monitor di un computer. Sebbene esistano già lettori di e-text portatili, la loro risoluzione dello schermo è chiaramente insufficiente. In secondo luogo, il diritto d'autore per le pubblicazioni elettroniche non è stato completamente sviluppato.

In futuro, Internet sostituirà in modo significativo i media tradizionali grazie alla sua flessibilità, reattività e interattività.

Oggi molte persone scoprono inaspettatamente da sole l'esistenza di reti globali che uniscono i computer di tutto il mondo in un unico spazio informativo chiamato Internet. Non è facile definire cosa sia. Da un punto di vista tecnico, Internet è una fusione di reti informatiche transnazionali che operano sotto vari protocolli, collegano tutti i tipi di computer, trasmettono fisicamente dati su tutti i tipi di linee disponibili, dai doppini e dai cavi telefonici alle fibre e ai canali satellitari. La maggior parte dei computer su Internet è connessa tramite TCP/IP. Possiamo dire che Internet è una rete di reti che avvolge l'intero globo.


1. Informatica / Kurnosov A.P., Kulev S.V., Ulezko A.V. e così via.; Ed. A.P. Kurnosova.-M: KolosS, 2005. - 72 p. (Libri di testo e libri di testo per studenti di istituti di istruzione superiore)

2. Workshop sull'informatica: libro di testo. assegno / Ed. A.P. Kurnosova - Voronezh: VGAU, 2004.239 p.

3. Informatica. Manuale. - 3a ed., Rivisto / Ed. N.V. Makarova. - M.: Finanza e statistica, 2002 .-- 256 p.

4. Informatica. Corso base / Simonovich S.V. e altri-SPb.: Peter, 2006 .-- 639 p.: ill.

5. Krupnik A.B. Ricerca in Internet: un tutorial. - 2a ed. - SPB .: Pietro, 2004 .-- 572 p.

6. Orlov A.A. Programmi necessari per Internet - SPb .: Peter, 2006 .-- 127 p.

7. Solonitsyn Yu.A., Kholmogorov V. Internet. Enciclopedia. - 3 di. - SPb.: Pietro, 2003 .-- 592 p.

8. Reznikov FA Gestiamo rapidamente e facilmente il lavoro su Internet. - M .: I migliori libri, 2002 .-- 284 p.

9. Reti informatiche e strumenti per la sicurezza delle informazioni: libro di testo. indennità / Kamalyan A.K., Kulev S.A., Nazarenko K.N. e altri - Voronezh: VGAU, 2003 .-- 119 p.

10. Olifer V.G., Olifer N.A. Reti di computer. Principi, tecnologie, protocolli. - SPb.: Pietro, 2002 .-- 672 p.: ill.

11. Internet: Enciclopedia / Ed. L. Melikhova. - 2a ed.-SPb.; M .; Kharkov; Minsk; Pietro, 2000 .-- 527 p.

12. Mushtovatyi I.F. Guida all'autoapprendimento per lavorare su Internet / Under total. ed. MI. Monastirsky. - 2a ed., Aggiungi. e rivisto.-Rostov n / a: Phoenix, 2002.-312 p.

13. Popov V. Workshop sulle tecnologie Internet: corso di formazione / V. Popov.-SPb .; M .; Kharkov; Minsk: Peter, 2002 .-- 476 p.: Ill.

14. Reti informatiche e strumenti di sicurezza delle informazioni: libro di testo / Kamalyan A.K., Kulev S.A., Nazarenko K.N. e altri-Voronezh: VGAU, 2003.-119 p.

15. Zaika A.A. Reti di computer - M: Olma-Press, 2005. -448 p.

16. Reti di calcolatori: Corso di formazione - 2° ed. (+ CD-ROM). - MicrosoftPress, edizione russa, 1998.

17. Fondamenti della moderna tecnologia informatica. Ed. Khomonenko d.C. - Stampa della corona, San Pietroburgo 1998.

18. Personal computer in reti TCP/IP. Craig Hunt; trad. Dall'inglese. - BHV-Kiev, 1997.

19. Legge federale della Federazione Russa "Sull'informazione, l'informatizzazione e la protezione delle informazioni" del 20.02.1995 n. 24-FZ.

20. Comer D. Principi di Internet: Per. dall'inglese / D. Comer. - SPB.; M .; Kharkov; Minsk: Peter, 2002.-379 p.

La ricerca di informazioni è un compito che l'umanità sta risolvendo da molti secoli. Con l'aumentare del volume delle risorse informative potenzialmente disponibili per una persona, sono stati sviluppati strumenti e tecniche di ricerca sempre più sofisticati e sofisticati per trovare il documento necessario.

Secondo il libro di K. Manning "Introduzione al recupero delle informazioni", si può affermare che il funzionamento effettivo di qualsiasi IRS si basa sulla velocità e sulle capacità di campionamento multidimensionale dei dati necessari da una vasta gamma (recupero delle informazioni) per il lavoro interno con dati. Ciò impone determinati requisiti sull'organizzazione delle regole di ricerca, sulla costruzione dell'interfaccia utente e del programma e sul modulo per fornire informazioni.

L'attuazione dei requisiti di cui sopra è affidata alla successiva serie di componenti strutturali, i cosiddetti blocchi [Appendice 4].

Basato sul libro di A.A. Varfolomeev. "Nozioni di base sulla sicurezza delle informazioni", la scelta di una tale struttura di un sistema di recupero delle informazioni si basa su una logica molto semplice: qualsiasi blocco del sistema deve ricevere dati, elaborarli ed emetterli all'utente in un certo ordine, fornendo la logica del processo.

È impossibile parlare di sistemi di recupero delle informazioni senza menzionare un motore di ricerca. Secondo D.N. Kolisnichenko nel libro "Motori di ricerca e promozione di siti web su Internet", Motore di ricerca- un sistema con un database generato da un robot contenente informazioni sulle risorse informative. Una caratteristica distintiva dei motori di ricerca è il fatto che il database contenente le informazioni sulle pagine Web è generato da un programma robot. Al ricevimento del risultato, se il titolo e la descrizione del documento soddisfano i tuoi requisiti, puoi immediatamente andare alla sua fonte originale tramite il link. È più conveniente farlo in una nuova finestra per poter analizzare ulteriormente i risultati del problema. Molti motori di ricerca consentono di cercare nei documenti trovati ed è possibile affinare la query introducendo termini aggiuntivi. Se l'intelligenza del sistema è elevata, c'è anche la possibilità di cercare documenti simili. Tuttavia, automatizzare la determinazione della somiglianza è un compito molto non banale e spesso questa funzione non funziona sempre correttamente. Alcuni motori di ricerca consentono di riordinare i risultati. Vale la pena prestare attenzione al fatto che diversi motori di ricerca descrivono un diverso numero di fonti di informazioni su Internet. Pertanto, non puoi limitarti a cercare solo in uno dei motori di ricerca specificati. Esistono vari strumenti di ricerca che non formano un proprio indice, ma sono in grado di utilizzare le capacità di altri motori di ricerca. Questo, come N.A. Gaidmamakin nel libro "Sistemi informativi automatizzati, banche dati e banche dati", motori di metaricerca(servizi di ricerca) - sistemi in grado di inviare query dell'utente contemporaneamente a più motori di ricerca, quindi combinare i risultati e presentarli all'utente sotto forma di documento con collegamenti.

Inoltre, D.N. Kolisnichenko scrive che per la ricerca più accurata e rapida delle informazioni necessarie sulla rete, viene utilizzato l'IPS indicizzazione.

Indice di ricerca- una struttura dati che contiene informazioni sui documenti e viene utilizzata nei motori di ricerca.

Indicizzazione(o indicizzazione) eseguita da un motore di ricerca è il processo di raccolta, ordinamento e archiviazione dei dati al fine di fornire un recupero delle informazioni rapido e accurato. La creazione dell'indice include concetti interdisciplinari di linguistica, matematica e informatica.

I motori di ricerca più diffusi si concentrano sull'indicizzazione full-text di documenti scritti in lingue naturali. Possono partecipare alla ricerca anche documenti multimediali come video e audio e grafica.

A.Yu. Kelina scrive nel suo libro "Fondamenti di sicurezza delle informazioni" che i motori di metaricerca utilizzano indici di altri servizi di ricerca e non memorizzano un indice locale, mentre i motori di ricerca basati su pagine memorizzate nella cache memorizzano sia l'indice che i corpora di testo per lungo tempo. A differenza degli indici full-text, i servizi di testo parziale limitano la profondità di indicizzazione per ridurre le dimensioni dell'indice.

L'architettura del motore di ricerca differisce nel modo in cui è indicizzata. Gli indici sono dei seguenti tipi [Appendice 5]:

  • · Indice diretto. L'indice diretto memorizza un elenco di parole per ogni documento.
  • · Indice invertito. Memorizza un elenco di occorrenze di ciascun criterio di ricerca.

L'indice è solo una parte del motore di ricerca nascosta all'utente. La seconda parte di questo apparato è linguaggio di recupero delle informazioni (IPL), di cui Varfolomeev A.A. scrive in dettaglio. nel libro "Fondamenti di sicurezza delle informazioni". IPL è un linguaggio che permette di formulare una richiesta al sistema in forma semplice e visiva. Anche se all'utente viene richiesto di immettere le query in linguaggio naturale, ciò non significa che il sistema eseguirà l'analisi semantica della query dell'utente. Il punto principale è che di solito la frase viene suddivisa in parole, le parole proibite e comuni vengono rimosse da questo elenco, a volte il vocabolario viene normalizzato e quindi tutte le parole sono collegate da AND o OR logico.

Sono possibili anche varianti, come indicato da N.A. Chursin nel libro "Popular Informatica". Quindi, nella maggior parte dei sistemi, alcune frasi verranno riconosciute come frasi chiave e non verranno suddivise in parole separate. Un altro approccio consiste nel calcolare la prossimità tra la richiesta e il documento. Si conoscono ormai una dozzina di diverse misure di prossimità. Sono queste percentuali di conformità del documento alla richiesta che vengono fornite come informazioni di riferimento quando l'elenco dei documenti trovati.

Secondo K. Manning, AltaVista possiede il linguaggio di interrogazione più avanzato tra i moderni sistemi di recupero delle informazioni su Internet. Oltre al consueto set di AND, OR, NOT, questo sistema consente anche di utilizzare NEAR. L'ultimo operatore permette di organizzare una ricerca contestuale. Tutti i documenti nel sistema sono suddivisi in campi, quindi nella richiesta è possibile specificare in quale parte del documento l'utente vuole vedere la parola chiave (nel link, titolo, ecc.).

(Per ulteriori informazioni sui linguaggi di ricerca su Internet, vedere l'appendice)

Dal libro di Yu.I. Kudinov "Fondamenti di informatica moderna", puoi imparare che i modelli più comuni per la presentazione di documenti in un sistema di recupero delle informazioni sono varie variazioni sulla presentazione di un documento come un insieme di termini. Come accennato in precedenza, questo non è l'intero testo del documento, ma solo un piccolo insieme di termini che ne riflettono il contenuto. Sulla base di questa idea del documento, è necessario considerare vari linguaggi di recupero delle informazioni.

L'IPL più comune è un linguaggio tradizionale che consente di costruire espressioni logiche da una serie di termini. In questo caso vengono utilizzati gli operatori booleani AND, OR, NOT.

Questo schema è abbastanza semplice e quindi è più ampiamente utilizzato nei moderni sistemi di recupero delle informazioni. Ma anche 20 anni fa, i suoi difetti erano ben noti.

Le ricerche booleane non si adattano bene. L'operatore AND può ridurre drasticamente il numero di documenti per richiesta. In questo caso, tutto dipenderà molto da quanto sono tipici i termini di ricerca per il database. L'operatore OR, d'altra parte, può portare a una query irragionevolmente ampia, in cui le informazioni utili andranno perse dietro il rumore delle informazioni. Per l'applicazione di successo di questo IPL, si dovrebbe avere una buona conoscenza del vocabolario del sistema e del suo focus tematico. Di norma, per un sistema con tale IPL, vengono creati speciali database lessicali documentali con dizionari complessi, che sono chiamati thesauri e contengono informazioni sulla relazione tra i termini del dizionario.

K. Manning sottolinea che una ricerca booleana ponderata è una modifica della ricerca booleana. L'idea alla base di questa ricerca è abbastanza semplice. Si crede che il termine descriva il contenuto del documento con una certa precisione, e questa precisione è espressa in termini di peso del termine. In questo caso possono essere pesati sia i termini del documento che i termini della query. La richiesta può essere formulata nell'IPL sopra descritto, ma l'emissione di documenti sarà classificata in base al grado di prossimità tra la richiesta e il documento. In questo caso, la misura di prossimità è costruita in modo tale che una normale ricerca booleana sarebbe un caso speciale di una ricerca booleana pesata.

Ma, a differenza di A.A. Varfolomeev. , È. Ashmanov, nel suo libro "Promozione di siti Web nei motori di ricerca", scrive che sebbene gli IPL non siano perfetti ora, occorre prestare particolare attenzione all'algoritmo classifica(costruzione ordinata) dei collegamenti ricevuti, poiché non è meno importante. I criteri più frequentemente utilizzati per la classificazione nell'IRS sono la presenza di parole della query nel documento, il loro numero, la vicinanza all'inizio del documento, la vicinanza l'una all'altra;

La presenza di parole della richiesta nelle intestazioni e nei sottotitoli dei documenti (i titoli devono essere appositamente formattati);

Il numero di collegamenti a questo documento da altri documenti; "Rispettabilità" dei documenti di riferimento.

Diversi motori di ricerca utilizzano algoritmi di ranking diversi, ma i principi di base per determinare la pertinenza sono i seguenti:

  • · Il numero di parole di query nel contenuto testuale del documento (cioè nel codice html).
  • · Tag in cui si trovano queste parole.
  • · La posizione delle parole di ricerca nel documento.
  • · La proporzione di parole la cui rilevanza è determinata nel numero totale di parole nel documento.

Questi principi sono applicati da tutti i motori di ricerca.

Il database emette un elenco di documenti HTML con classificazione simile e lo restituisce alla persona che effettua la richiesta. Diversi motori di ricerca scelgono anche modi diversi per visualizzare l'elenco risultante: alcuni mostrano solo collegamenti; altri visualizzano i collegamenti con le prime frasi contenute nel documento o il titolo del documento insieme al collegamento. Il posizionamento sui motori di ricerca è una parte essenziale di recupero delle informazioni.

Aspetti di questo concetto sono ben presentati nel libro di K. Manning "Introduction to Information Retrieval". Ricerca informazioni implica l'uso di determinate strategie, metodi, meccanismi e mezzi. Il comportamento dell'utente che gestisce il processo di ricerca è determinato non solo dalle esigenze informative, ma anche dalla diversità strumentale del sistema - tecnologie e mezzi forniti dal sistema.

Strategia di ricerca - il piano generale (concetto, preferenza, impostazione) del sistema o comportamento dell'utente per esprimere e soddisfare i bisogni informativi dell'utente, determinato sia dalla natura dell'obiettivo e dal tipo di ricerca, sia da decisioni "strategiche" sistemiche - il database architettura, metodi e strumenti di ricerca in uno specifico ISS. In generale, la scelta di una strategia è un problema di ottimizzazione. In pratica, è in gran parte determinato dall'arte di raggiungere un compromesso tra le esigenze pratiche e le capacità dei mezzi a disposizione.

Metodo di ricerca - un insieme di modelli e algoritmi per l'implementazione delle singole fasi tecnologiche: costruzione di un'immagine di ricerca di una query, selezione di documenti (confronto di immagini di ricerca di query e documenti), espansione di una query, localizzazione e valutazione del problema.

Immagine query di ricerca - un testo scritto sull'IPL che esprima il contenuto semantico di una richiesta di informazioni e contenga le istruzioni necessarie per la più efficace implementazione dell'information retrieval.

Il processo di ricerca delle informazioni è una sequenza di passaggi che portano attraverso il sistema a un determinato risultato e che consentono di valutarne la completezza. Poiché l'utente di solito non ha una conoscenza completa del contenuto informativo della risorsa in cui sta cercando, può valutare l'adeguatezza dell'espressione di query, nonché la completezza del risultato ottenuto, basandosi solo su valutazioni esterne o su valutazioni intermedie. risultati e generalizzazioni, confrontandoli, ad esempio , con i precedenti.

Il processo di ricerca può essere rappresentato sotto forma dei seguenti componenti principali:

  • 1) formulare una query in linguaggio naturale, scegliere un motore di ricerca e servizi, formalizzare una query sull'apposito IPL;
  • 2) condurre una ricerca in uno o più motori di ricerca;
  • 3) una panoramica dei risultati (riferimenti);
  • 4) elaborazione preliminare dei risultati ottenuti: visualizzazione del contenuto dei link, estrazione e memorizzazione dei dati rilevanti;
  • 5) se necessario, modificare la richiesta ed effettuare una ripetuta ricerca (chiarificante) con successiva elaborazione dei risultati.

Per ridurre il volume dei materiali selezionati, i risultati della ricerca vengono filtrati per tipo di fonti (siti, portali), argomenti e altri motivi.

In base alle tecnologie di ricerca utilizzate, l'IP può essere suddiviso in 4 categorie:

  • 1. Cataloghi tematici;
  • 2. Cataloghi specializzati (directory online);
  • 3. Motori di ricerca (ricerca full-text);
  • 4. Mezzi di metaricerca.

Cataloghi tematici provvedere al trattamento degli atti e alla loro attribuzione ad una delle diverse categorie, il cui elenco è predeterminato. Questa è in realtà un'indicizzazione basata sulla classificazione. L'indicizzazione può essere eseguita automaticamente o manualmente con l'aiuto di specialisti che navigano su siti Web popolari e compongono una breve descrizione dei documenti del curriculum (parole chiave, abstract, abstract).

Cataloghi specializzati o libri di riferimento sono creati per settore e argomento, per notizie, per città, per indirizzo email, ecc.

Motori di ricerca(il motore di ricerca Internet più avanzato) implementano la tecnologia di ricerca full-text. I testi che si trovano sui server interrogati vengono indicizzati. L'indice può contenere informazioni su diversi milioni di documenti.

Quando si utilizzano i fondi metaricerca la richiesta viene effettuata contemporaneamente da più motori di ricerca. Il risultato della ricerca viene combinato in un elenco generale ordinato per rilevanza. Ogni sistema elabora solo una parte dei nodi della rete, il che consente di ampliare la base di ricerca.

Molto importanti sono anche la cosiddetta "organizzazione della ricerca" e "l'attuazione della ricerca", su cui D.N. Kolisnichenko nel libro "Motori di ricerca e promozione di siti web su Internet".

Cerca organizzazione

La procedura per reperire le informazioni necessarie è suddivisa in nove fasi principali:

  • · Definizione dell'area di conoscenza;
  • · Scelta del tipo e delle fonti dei dati;
  • · Raccolta dei materiali necessari alla compilazione del modello informativo;
  • · Selezione delle informazioni più utili;
  • · Scelta del metodo di elaborazione delle informazioni (classificazione, clustering, analisi di regressione, ecc.);
  • · Scelta di un algoritmo per la ricerca di pattern;
  • · Ricerca di schemi, regole formali e collegamenti strutturali nelle informazioni raccolte;
  • · Interpretazione creativa dei risultati ottenuti;
  • · Integrazione della "conoscenza" estratta.

Per condurre una ricerca, l'interfaccia per lavorare con il database corrispondente viene inizialmente caricata sul computer dell'utente. Può essere un database locale o remoto. Inizialmente, dovresti decidere il tipo di ricerca (semplice, avanzata, ecc.). Quindi con una serie di campi da cercare. L'IRS può offrire uno o più campi per l'input. In quest'ultimo caso, di solito si tratta di campi: autore, titolo (titolo), periodo di tempo, tipo di documento, parole chiave, titoli, ecc.

Implementazione della ricerca

È generalmente accettato organizzare una ricerca per i frammenti iniziali di una parola (ricerca con troncamento a destra), ad esempio, invece della parola "libreria", è possibile inserire il suo frammento "libreria *". Questo troverà documenti che contengono non solo la parola "biblioteca", ma anche "biblioteca", "biblioteca", "scienza bibliotecaria", ecc. In ogni caso, l'utente deve immaginare cosa esattamente vuole trovare, poiché nella proposta la variante troverà un numero di documenti molto maggiore rispetto a quando si specifica completamente la parola data (senza troncamento). In tal caso, è possibile effettuare una ricerca di raffinamento nell'array di informazioni ricevuto e, di conseguenza, ottenere dati più rilevanti.

IRS si caratterizzano anche per il tempo di esecuzione della ricerca, l'interfaccia fornita all'utente e il tipo di risultati visualizzati. Quando si sceglie un IRS, si presta attenzione ai loro parametri come copertura e profondità. Sotto copertura si comprende il volume della base del motore di ricerca, misurato da tre indicatori: il volume totale delle informazioni indicizzate, il numero di server univoci e il numero di documenti univoci. Sotto profondità resta inteso se esiste un limite al numero di pagine o alla profondità di annidamento delle directory su un server.

Inoltre, alcuni aspetti del recupero delle informazioni sono trattati nel libro di V.A. Gvozdeva "Fondamenti per la costruzione di sistemi informativi automatizzati". Come scritto nel libro, ogni motore di ricerca ha i propri algoritmi per l'ordinamento dei risultati di ricerca. Più il documento richiesto è vicino all'inizio dell'elenco ottenuto a seguito della ricerca, maggiore è la pertinenza e migliore è il funzionamento del motore di ricerca. Tutti consentono di trovare rapidamente sul web utilizzando parole chiave, titoli tematici e anche singole lettere, ad esempio, tutti o quasi tutti i testi in cui sono presenti queste parole. In tal caso, l'utente viene informato degli indirizzi dei siti in cui i risultati riscontrati sono costantemente presenti. Tuttavia, nessuno di loro ha un vantaggio schiacciante sugli altri. Per eseguire una ricerca affidabile di query complesse, gli esperti raccomandano di utilizzare in sequenza o in parallelo (simultaneamente) vari ISS.

Dal libro di D.N. Kadeeva "Tecnologia dell'informazione e comunicazioni elettroniche" puoi conoscere un concetto come "motore di ricerca full-text". Indicizza tutte le parole del testo che è visibile all'utente. La presenza della morfologia permette di trovare le parole desiderate in tutte le declinazioni o coniugazioni. Alcune macchine sono in grado di cercare frasi o parole a una determinata distanza, che spesso è importante per ottenere un risultato ragionevole. Inoltre, sono presenti tag in HTML che possono essere elaborati anche da un motore di ricerca (titoli, link, didascalie delle immagini, ecc.). Allo stesso tempo, devi sapere che minore è il numero di parole chiave incluse in questi tag, più spesso possono essere trovate nei testi delle pagine del sito e, quindi, maggiore è la loro rilevanza. La frequenza ottimale di tali parole non è superiore al 5%. Non dovrebbero esserci molte parole chiave, dovrebbero consistere principalmente di una o due parole, formando i termini più comunemente usati. Più le parole chiave sono pertinenti, più il documento è competitivo dal punto di vista dei motori di ricerca.

L'utente riceve la completezza e l'accuratezza della risposta a seconda dell'accuratezza della richiesta da lui formulata. Come risultato della ricerca, di solito gli vengono fornite molte più informazioni di quelle di cui ha bisogno, alcune delle quali potrebbero non essere affatto pertinenti alla query generata. È facile vedere che molto dipende non solo da una query ben formulata, ma anche dalle capacità dei motori di ricerca, che sono molto diverse. Allo stesso tempo, si manifesta abbastanza chiaramente il fatto che nei dati ottenuti è possibile saltare le principali informazioni necessarie. Semplici query sotto forma di termini separati abbastanza comuni portano all'estrazione di migliaia (centinaia di migliaia) di documenti, la stragrande maggioranza dei quali l'utente non ha bisogno ( rumore delle informazioni).

Un aspetto importante è anche la capacità dell'ISS di supportare il multilinguismo, ovvero la capacità di elaborare richieste in diverse lingue. Inoltre, di solito viene eseguita una ricerca nei database full-text utilizzando analizzatori morfologici (di solito russo e inglese), che trovano automaticamente le forme di parole esistenti per un frammento di parola, parola, frase, anche se ci sono alcuni errori di battitura nelle parole della query.

Inoltre, non si può non menzionare una caratteristica dell'IPS come con strumenti di ricerca e strutturazione a volte chiamato motori di ricerca ... Secondo l'I.S. Ashmanov, nel suo libro "Promozione di siti Web nei motori di ricerca", i motori di ricerca vengono utilizzati per aiutare le persone a trovare le informazioni di cui hanno bisogno. Strumenti di ricerca come agenti, spider, crawler e robot vengono utilizzati per raccogliere informazioni sui documenti su Internet. Si tratta di programmi speciali che cercano pagine sul Web, estraggono collegamenti ipertestuali su queste pagine e indicizzano automaticamente le informazioni che trovano per costruire un database. Ogni motore di ricerca ha il proprio insieme di regole che governano come trovare ed elaborare i documenti. Alcuni seguono ogni collegamento in ogni pagina che trovano e poi, a loro volta, esplorano ogni collegamento in ogni nuova pagina e così via. Alcune persone ignorano i collegamenti che portano a file grafici e audio, file di animazione; ad altri viene chiesto di sfogliare prima le pagine più popolari. La classificazione dei motori di ricerca è presentata al meglio nel libro di A.A. Varfolomeev. "Fondamenti di sicurezza delle informazioni":

  • · agenti- il più "intelligente" degli strumenti di ricerca. Possono fare molto di più della semplice ricerca: possono persino eseguire transazioni per tuo conto. Possono già cercare siti di un argomento specifico e restituire elenchi di siti ordinati in base alla loro presenza. Gli agenti possono elaborare il contenuto dei documenti, trovare e indicizzare altri tipi di risorse, non solo pagine. Possono anche essere programmati per recuperare informazioni da database preesistenti. Indipendentemente dalle informazioni che gli agenti indicizzano, le restituiscono al database del motore di ricerca.
  • La ricerca generale di informazioni sul Web viene effettuata da programmi noti come ragni... Gli spider riportano il contenuto del documento trovato, lo indicizzano ed estraggono le informazioni di riepilogo. Guardano anche le intestazioni, alcuni collegamenti e inviano le informazioni indicizzate al database del motore di ricerca.
  • · crawler guarda attraverso le intestazioni e restituisci solo il primo collegamento.
  • · Robot può essere programmato per seguire vari collegamenti di diverse profondità di annidamento, indicizzare e persino controllare i collegamenti nel documento. A causa della loro natura, possono rimanere bloccati in loop, quindi hanno bisogno di risorse Web significative quando seguono i collegamenti, tuttavia, esistono metodi progettati per impedire ai robot di cercare su siti i cui proprietari non vogliono che vengano indicizzati.

In conclusione, possiamo dire che ISS in rete, con tutta la loro diversità esterna, dalla sua classificazione, che è descritta nel libro di L.G. Gagarina "Sistemi Informativi Automatizzati":

Sistemi di recupero delle informazioni di classificazione

Nella classificazione ISS, viene utilizzata un'organizzazione gerarchica (ad albero) delle informazioni, chiamata CLASSIFIER. Le sezioni del classificatore sono chiamate INTESTAZIONI. L'analogo bibliotecario della classificazione ISS è un catalogo sistematico. Il classificatore è sviluppato e migliorato da un team di autori. Viene quindi utilizzato da un altro team di specialisti chiamato SYSTEMATORS. I tassonomisti, conoscendo il classificatore, leggono i documenti e assegnano loro indici di classificazione indicando a quali sezioni del classificatore corrispondono questi documenti.

Soggetto IRS (Web-ring)

Dal punto di vista dell'utente, l'argomento ISS è organizzato nel modo più semplice. Cerca il nome dell'argomento desiderato di tuo interesse (l'argomento può anche essere qualcosa di inconsistente, ad esempio la musica indiana) e gli elenchi delle risorse Internet corrispondenti sono associati al nome. Ciò sarebbe particolarmente utile se l'elenco completo degli elementi è piccolo.

Vocabolario IPS

I problemi culturali associati all'uso della classificazione IRS hanno portato alla creazione di un IRS di tipo dizionario con un nome inglese generalizzato motori di ricerca... L'idea principale del dizionario IRS è quella di creare un dizionario dalle parole trovate nei documenti Internet, in cui, per ogni parola, verrà memorizzato un elenco di documenti da cui viene presa la parola data.

Sulla base delle informazioni tratte dal libro di A.Yu. Kelina "Fondamenti di sicurezza delle informazioni", puoi scoprire che ci sono due algoritmi principali per il funzionamento del dizionario IRS: usando parole chiave e usando descrittori ( Descrittore - un'unità lessicale (parola, frase) di un linguaggio di recupero informazioni che serve a descrivere il contenuto semantico principale di un documento o a formulare una query durante la ricerca di un documento (informazione) in un sistema di recupero informazioni). Nel primo caso, per valutare il contenuto del documento, vengono utilizzate solo quelle parole che si verificano in esso e, su richiesta, l'IRS confronta le parole della query con le parole del documento, determinandone la rilevanza per numero, posizione , peso delle parole della query nel documento. L'IRS per ragioni storiche utilizza questo algoritmo in varie modifiche.

Inviare il tuo buon lavoro nella knowledge base è semplice. Usa il modulo sottostante

Studenti, dottorandi, giovani scienziati che utilizzano la base di conoscenza nei loro studi e nel loro lavoro ti saranno molto grati.

Documenti simili

    Archiviazione dei dati su Internet. Documenti ipertestuali, tipi di file. File grafici, loro tipi e caratteristiche. Motori di ricerca e regole di ricerca delle informazioni. Indagine sui motori di ricerca di Internet. Tutto sui motori di ricerca Yandex, Google, Rambler.

    tesina aggiunta il 26/03/2011

    Strumenti di ricerca di informazioni su Internet. Requisiti di base e metodi di recupero delle informazioni. La struttura e le caratteristiche dei servizi di ricerca. Motori di ricerca globali WWW (World Wide Web). Pianificazione della ricerca e raccolta di informazioni su Internet.

    abstract, aggiunto il 02/11/2010

    Caratteristiche dei metodi per la ricerca di informazioni su Internet, ovvero l'utilizzo di collegamenti ipertestuali, motori di ricerca e strumenti speciali. Analisi di nuove risorse Internet. La storia dell'emergere e la descrizione dei motori di ricerca occidentali e in lingua russa.

    abstract, aggiunto il 05/12/2010

    La struttura e i principi della costruzione di Internet, della ricerca e dell'archiviazione delle informazioni al suo interno. La storia della nascita e della classificazione dei sistemi di recupero delle informazioni. Il principio di funzionamento e le caratteristiche dei motori di ricerca Google, Yandex, Rambler, Yahoo. Cerca per URL.

    tesina, aggiunta il 29/03/2013

    Caratteristiche dei motori di ricerca Yandex, Google, Rambler: somiglianze e differenze, vantaggi e svantaggi. Cerca una definizione di una serie di termini, prodotti software. Cerca informazioni sulle direzioni: scrittori e poeti, le loro opere, dottori della scienza per Samara.

    test, aggiunto il 22/08/2011

    Concetto e principi di lavoro, struttura interna ed elementi, storia di formazione e sviluppo del motore di ricerca "Rambler". Ricerca e analisi, nonché valutazione dell'efficacia di questo motore di ricerca per la ricerca di informazioni economiche su Internet.

    tesina aggiunta il 05/10/2015

    Metodi e strumenti per la memorizzazione dei dati sul World Wide Web. Il concetto e le varietà di documenti ipertestuali e file grafici. I principi dei motori di ricerca e le regole per trovare le informazioni di cui hai bisogno. Caratteristiche di alcuni motori di ricerca sul Web.

    tesina, aggiunta il 18/04/2010

Condividi questo