Google

Il file robots.txt e i motori di ricerca

 

Il file robots.txt è un file di testo richiesto dalla quasi totalità degli spider o robot dei motori di ricerca per conoscere quali file o cartelle devono essere indicizzate e quali no. Tuttavia, non tutti gli spider seguono alla lettera le indicazioni presenti sul file robots.txt e indicizzano tutte le pagine e le cartelle presenti. Questi li definisco "spider cattivi" e possono essere esclusi bannando il loro ip.

Per capire come si deve compilare il file robots.txt continua a leggere questo articolo. Il file robots.txt deve essere inserito all'interno della stessa cartella che contiene la vostra home page, che è poi il posto dove lo spider si aspetta che sia.

Esempio di corretta compilazione del file robots.txt

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /group/

User-agent: msnbot Crawl-delay: 10

User-agent: Teoma Crawl-delay: 10

User-agent: Slurp Crawl-delay: 10

User-agent: aipbot Disallow: /

User-agent: BecomeBot Disallow: /

User-agent: psbot Disallow: /

Fine della compilazione del file robots.txt

Il file robots.txt deve essere salvato come semplice file di testo e deve essere sempre nominato così: robots.txt

 

Diamo ora un rapido sguardo a quello che c'è scritto nel file robots.txt.

 

La riga User-agent: * significa che il file robots.txt si rivolge a tutti gli spider. L'asterisco significa "Tutti". Scrivere Disallow: /cgi-bin/ significa dire a tutti gli spider di non indicizzare la cartella cgi-bin. Nota come il nome della cartella in questione deve essere inserita tra i caratteri //

Se avessi messo la seguente riga "Disallow: /" allora avrei detto a tutti gli spider di non indicizzare nulla. Mentre la riga "Crawl-delay: 10" si riferisce a quegli spider che richiedono di memorizzare troppe pagine contemporaneamente, rischiando di rallentare la visualizzazione del vostro sito agli ignari visitatori. Lo spider di Google non è uno di questi e non richiede le pagine del nostro sito un sito con una eccessiva frequenza. Il valore 10 sta ad indicare il tempo, espresso in secondi, tra la richiesta di una pagine e l'altra.

La riga User Agent: MSNbot si rivolge allo spider del motore di ricerca MSN.com, mentre Slurp è di Yahoo e Teoma e per AskJeeves. Gli altri in elenco sono quelli che chiamo "spider cattivi" che non servono a nessuno....

Per vedere il contenuto dei file robot.txt basta scrivere il nome di dominio di un sito ed aggiungere robot.txt. Se il file è presente allora verrà mostrato dal tuo browser.

Google e Yahoo memorizzano le pagine anche dei siti che non contengono il file robots.txt, mentre MSM sembra voler richiedere la presenza del file robots.txt prima di iniziare ad indicizzare un sito.

ATTENZIONE: il file in questione si deve chiamare robots.txt e NON robot.txt.

Lista degli spider

 

Ecco di seguito una breve lista con i nomi degli spider dei principali motori di ricerca internazionali:

 

Nome spiderMotore di ricerca
googlebotGoogle
fastFast - Alltheweb
slurpInktomi - Yahoo!
scooterAltavista
mercatorAltavista
Ask JeevesAsk Jeeves
teoma_agentTeoma
ia_archiverAlexa - Internet Archive

 

Il nome (User-agent) degli spider di altri motori di ricerca può essere individuato cercando nei log del server HTTP che gestisce il sito web oppure consultando le pagine dei motori di ricerca dedicate ai webmaster. Quasi sempre, vengono indicati i nomi degli spider e come bloccarli usando il file robots.txt.

 


Risparmia acquistando Meridiana online! Clicca qui!