I file Robot.txt

Scritto il May 3, 2008
Categoria: Motori di ricerca | Lascia un commento

File robot.txt

I file robot.txt servono per guidare il motore di ricerca all’interno di un sito definendo quali pagine scansionare e quali escludere dall’indicizzazione.

I file robot sono dei file di testo con dei comandi che indicano il nome della directory e il file da escludere dalla scansione del motore di ricerca e viene inserito in una pagina web attraverso una stringa nei meta tag.

I meta robots

Molti motori di ricerca utilizzano funzioni automatiche e dispongono di software chiamati Robots, Spider o Crawler.
Questi software, giunti al sito indicato, compiono una lettura completa della pagina e riportano al motore di ricerca il contenuto del TITLE e dei META.
Di solito tornano a visitare periodicamente i siti inclusi nei database.
Per impedire ai Robots di “leggere” alcune pagine di un sito si utilizzano i “Meta Robots” quindi, ad esempio, si può indicare al Robots di utilizzare solo le informazioni presenti nel file “index.htm” e non nel resto del sito

<meta name=”robots” contents=”index,nofollow”>

I file Robots.TXT

Per tenere sotto controllo i vari Robots è possibile usare un file che dovrà essere chiamato “robots.txt”: il file deve essere nella directory “root” del sito .
Nel caso di un dominio di II livello, dovrà trovarsi nella root principale del sito.
Appena un Robots arriva al sito al quale è stato inviato dal motore, verifica la presenza del file robots text; se il file è presente, lo legge e adatta il proprio comportamento in base alle regole contenute nel file.
Il file robots.txt può contenere comandi rivolti a più di un Robot e ognuno eseguirà quelli che gli vengono imposti.

User-agent: *
Disallow: /

Per abilitare tutti i robots ad ogni sezione del sito

User-agent: *
Disallow:

Esclude tutti i robots da alcune parti del server

NB:un sito di primo livello ha un indirizzo del tipo http://www.nomedelsito.com; mentre un sito di II livello risponde ad un indirizzo come http://www.nomedelsito.com/sito2.

Commenti

Lascia un commento