El archivo suele hallarse en el directorio "docroot"
o "htdocs" (entre otros y dependiendo del tipo de servidor que se
utilice) que es donde se almacena la información publica del sistema.
El formato convencional suele ser el siguiente:
# robots.txt for http://www.noticiasdot.com
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
En este caso permitimos a los buscadores
indexar el contenido integro de Noticiasdot.com salvo el contenido en el
directorio cgi-bin y en el directorio de imágenes.
La primera línea corresponde a un comentario (#).
La segunda línea indica a que robot se le hace la solicitud; en este caso, la
orden es para todos (*).
La tercera línea muestra a que ruta se le quita el acceso, conjuntamente con los
directorios que le siguen en orden jerárquico.
En este mismo fichero podemos limitar o
ampliar el acceso a directorios a distintos buscadores:
Tomemos como ejemplo el fichero robots.txt de
la Casa Blanca:
# robots.txt for http://www.whitehouse.gov/
User-agent: *
Disallow: /cgi-bin
Disallow: /search
Disallow: /query.html
Disallow: /help
Disallow: /360pics/iraq
(..)
User-agent: whsearch
Disallow: /cgi-bin
Disallow: /search
Disallow: /query.html
Disallow: /help
Disallow: /sitemap.html
Disallow: /privacy.html
Disallow: /accessibility.html
En este caso permitimos el acceso a todos los
buscadores a nuestro sitio, aunque le bloqueamos el acceso a una serie de
directorios determinados.
Por el contrario, a través del comando "User-agent:
whsearch", estamos procediendo a
dar unas ordenes especificas a este buscador, indicándole que puede "indexar"
todo el contenido salvo los directorios que específicamente le indicamos.
También podemos prohibir
el acceso de cualquier robot a nuestro
sitio, aunque no sea este el caso a través de los siguientes
comandos:
# Ejemplo archivo robots.txt
User-agent: *
Disallow: / |