R: [Zope-it] robots.txt

TrashMan trashman@httconsulting.com
Wed, 31 Jul 2002 16:27:42 +0200


Google indicizza tutti i giorni...se paghi!=20
Altrimenti manda i suoi spider una o due volte il mese...e di solito ci
stanno 3-4 gg.

Robot.txt serve per dirgli cosa non indicizzare e non cosa indicizzare!!
Prima di fare lo scandaglio ogni spiderino controlla l'esistenza di
robot.txt e poi agisce. Non e' venuto perche' hai messo *, sarebbe
venuto lo stesso!
Puoi anche mettere, per avere lo stesso risultato:

<meta NAME=3D"robots" CONTENT=3D"index,follow">

Ma la situazione non migliorera'. I motori di nuova generazione lavorano
su altre basi (densit=E0, ricorrenza, pesantezza .....)

Per completezza metto la desc di robot.txt

******************
Search engines will look in your root domain for a special file named
"robots.txt" (http://www.mydomain.com/robots.txt). The file tells the
robot (spider) which files it may spider (download). This system is
called, The Robots Exclusion Standard.=20
The format for the robots.txt file is special. It consists of records.
Each record consists of two fields : a User-agent line and one or more
Disallow: lines. The format is:

<Field> ":" <value>
*******************


Enjoy

Massi

-------------------------------------------------------------------
HT&T Consulting S.r.l.
Web: http://www.httconsulting.com
-------------------------------------------------------------------


-----Messaggio originale-----
Da: zope-it-admin@zope.org [mailto:zope-it-admin@zope.org] Per conto di
Giuseppe Masili
Inviato: mercoled=EC 31 luglio 2002 13.02
A: zope-it@zope.org
Oggetto: [Zope-it] robots.txt


Guardando i log di apache di zope.it ho notato=20
che alcuni IP cercavano il file robots.txt

Cosi' ho deciso di crearlo settando

  User-agent: *

Probabilmente Google e' impazzito di gioia
nel notare questa mia scelta, perche' da
questa mattina sta indicizzando tutto il sito.

Ora, io sono molto contento che la visibilita'
aumenti notevolmente, dato che facendo delle prove
tutto quello che viene richiamato e' online in tempo
reale, ma un giorno si fermera'?

Per i miei gusti sta generando troppo traffico...

Altra curiosita':
perche' google usa sempre un IP diverso per=20
indicizzare tutto il sito?

216.239.46.88 - - [31/Jul/2002:13:14:02 +0200] "GET
/Members/jh/long_process_html HTTP/1.0" 200 7022
216.239.46.20 - - [31/Jul/2002:13:16:00 +0200] "GET
/Members/flymax/index_html?stampa=3Don HTTP/1.0" 200 1197
216.239.46.101 - - [31/Jul/2002:13:16:58 +0200] "GET
/Members/fog/index_html?stampa=3Don HTTP/1.0" 200 1679

--=20
Giuseppe Masili
Nekhem Developer - adel@nekhem.com
Admin Zope Italy - http://www.zope.it

_______________________________________________
Zope-it maillist  -  Zope-it@zope.org
http://lists.zope.org/mailman/listinfo/zope-it