La razón es que utilizan herramientas de software denominadas
'spiders' y 'crawlers' para detectar y registrar la existencia de nuevas
páginas, pero en esta tarea de rastreo se pierden muchos contenidos valiosos.
Lo más usual, sin embargo, es que los motores de búsqueda ni
siquiera tengan en sus índices una enorme cantidad de bases de datos de
universidades, centros de investigación, organismos de la administración pública
y demás.
Cuando los buscadores se enfrentan con este tipo de bases de datos, se limitan a
registrar la página Web inicial y no penetran en sus vastos contenidos.
Sherman y Price -invisible-web.net- indican cuatro tipos de contenidos
invisibles en el ciberespacio, que denominan como la "Web opaca", "la privada",
"la propietaria" y "la realmente invisible":
La Web opaca se compone de archivos que podrían estar incluidos en los índices
de los motores de búsqueda, pero no lo están debido a razones de extensión de la
indización.
La Web privada consiste de sitios que podrían estar indexados en los motores de
búsqueda, pero que son excluidos en forma deliberada, porque las páginas están
protegidas por contraseñas o porque contienen un campo "noindex" para no
permitir que el motor de búsqueda vaya más allá.
La Web propietaria incluye páginas en las que es necesario registrarse para
tener acceso al contenido, ya sea en forma gratuita o pagada.
La Web realmente invisible se compone de páginas que no pueden ser indexadas por
limitaciones técnicas de los buscadores.
|