Indice del forum Olimpo Informatico
I Forum di Zeus News
Leggi la newsletter gratuita - Attiva il Menu compatto
 
 FAQFAQ   CercaCerca   Lista utentiLista utenti   GruppiGruppi   RegistratiRegistrati 
 ProfiloProfilo   Messaggi privatiMessaggi privati   Log inLog in 

    Newsletter RSS Facebook Twitter Contatti Ricerca
* [tutorial] Robot Exclusion Standard
Nuovo argomento   Rispondi    Indice del forum -> Linguaggi per Internet
Precedente :: Successivo  
Autore Messaggio
juzo kun
Dio maturo
Dio maturo


Registrato: 19/04/04 09:32
Messaggi: 1853
Residenza: tra la tastiera e la sedia

MessaggioInviato: 10 Dic 2005 14:36    Oggetto: * [tutorial] Robot Exclusion Standard Rispondi citando

Sotto questo nome sborone si nascondono le procedure per impedire che i vari spider dei motori di ricerca passino a leggere zone oppure l'intero vostro sito.

Ora, la domanda sorge spontanea: perché, mentre tutti in genere anelano alla visibilità sui motori, ci dovrebbe essere qualcuno che ne vuole sparire?

Ci possono essere motivi temporanei (un sito "lavori in corso", per esempio) oppure tecnici (le interrogazioni degli spider sono lavoro in più per i server, e alcuni provider di spazio web, specie se gratuiti, semplicemente non gradiscono).

Comunque, quale che sia, i modi di farsi escludere - in modo volontario, naturalmente - si riducono a due.

Il primo è il meta tag già discusso qua:

Codice:
<meta name="robots" content="noindex,nofollow" />


Questo meta indica all'eventuale spider di non indicizzare la pagina e di non seguire i link alle pagine successive. Va inserito in ogni pagina che si desidera venga ignorata e può essere fatto in ogni configurazione (la pagina è la vostra, anche se il dominio è in prestito).

Il secondo metodo, più globale, è il Robot Exclusion Standard del titolo. Attenzione: se avete il sito su domini non vostri (geocities, libero, altervista) probabilmente non funzionerà perché ereditate le impostazioni da chi vi fornisce lo spazio web.

Questo metodo è un semplicissimo file di formato testo (potete scriverlo col notepad o qualsiasi equivalente) che deve avere il nome di robots.txt e stare nella root del vostro sito (cioè al livello principale, lo stesso dove sta la pagina indice).

La sintassi è semplice: va scritto prima lo user-agent e poi gli elementi da ignorare.
Codice:
User-agent: *
Disallow: /

In questo modo indico a tutti gli spider (indicati dall'asterisco, il carattere-jolly dell'informatica) di ignorare tutto il sito (indicato dalla barra, che in questo caso sta per root). Questo può essere un po' drastico e non molto utile.

Proviamo ad essere più precisi rispetto alle sezioni da escludere:
Codice:
User-agent: *
Disallow: /immagini/
Disallow: /prove/

Questo comando indica a tutti gli spider di ignorare le due cartelle "immagini" e "prove" (già più utile).

Si possono escludere anche singoli file e indicare singoli spider:
Codice:
User-agent: googlebot
Disallow: nisba.htm
Disallow: /prova/none.htm

Questo comando indica allo spider di Google di ignorare sia il file "nisba.htm" che il file "none.htm" dentro alla cartella "prova", mentre gli altri (Yahoo, eccetera) lo leggeranno tranquillamente (googlebot è il nome in codice dello spider di Google)

...eccetera.

Non esiste il comando "allow", o meglio, potete scriverlo ma viene ignorato (è rindondante: uno spider da per scontato che voi vogliate essere trovati).

Attenzione: questo metodo non protegge dall'umana curiosità! Non è una protezione di sicurezza, in nessun modo, è solo un'indicazione tecnica! Se un utente è appena smaliziato, basta che scriva
Codice:
http://www.ilnomedelvostrodominio.bla/robots.txt

nella barra dell'url del browser, e gli basta leggerlo per vedere che cosa avete escluso oppure no... per poi andare a curiosare. (Chi, moi?..)

Se volete celare parti del vostro sito dall'umana ficcanasaggine ci sono altri metodi che comportano script lato server, controlli di sicurezza, password... eccetera. Questo serve semplicemente a non trovarvi col vostro sito fatto a metà su Google (cosa che può essere alquanto imbarazzante).

Ulteriori informazioni le trovate (in inglese) a questo link: robots.txt site

Cià
JK


L'ultima modifica di juzo kun il 09 Apr 2006 00:32, modificato 1 volta
Top
Profilo Invia messaggio privato HomePage
rebelia
Dio maturo
Dio maturo


Registrato: 17/07/03 09:22
Messaggi: 7987

MessaggioInviato: 17 Dic 2005 16:03    Oggetto: Rispondi

wow! bel tutorial, grazie, me l'ero fatto sfuggire!
Top
Profilo Invia messaggio privato HomePage
Mostra prima i messaggi di:   
Nuovo argomento   Rispondi    Indice del forum -> Linguaggi per Internet Tutti i fusi orari sono GMT + 2 ore
Pagina 1 di 1

 
Vai a:  
Non puoi inserire nuovi argomenti
Non puoi rispondere a nessun argomento
Non puoi modificare i tuoi messaggi
Non puoi cancellare i tuoi messaggi
Non puoi votare nei sondaggi