Además de obedecer robots.txt, obedezca los elementos y enlaces nofollow
y noindex
en <meta>
:
-
Hay muchos que creen que robots.txt es no es la forma correcta de la indexación de bloques y debido a ese punto de vista, han instruido a muchos propietarios de sitios a confiar en la etiqueta <meta name="robots" content="noindex">
para indicar a los rastreadores web que no indexen una página.
-
Si está intentando hacer un gráfico de conexiones entre sitios web (algo similar a PageRank), se supone que
(y <meta name="robots" content="nofollow">
) indica que el sitio de origen no confía lo suficiente en el sitio de destino Para darle un aval adecuado. Entonces, si bien puede indexar el sitio de destino, no debe almacenar la relación entre los dos sitios.
El SEO es más un arte que una ciencia real, y lo practica mucha gente que sabe lo que está haciendo, y mucha gente que lee los resúmenes ejecutivos de las personas que saben lo que están haciendo. Se encontrará con problemas en los que se le bloquearán los sitios para hacer cosas que otros sitios consideraron perfectamente aceptables debido a alguna regla que alguien escuchó o leyó en una publicación de blog en SEOmoz que puede o no interpretarse correctamente.
Debido a ese elemento humano, a menos que seas Google, Microsoft o Yahoo !, se presume que eres malicioso a menos que se demuestre lo contrario. Debe tener un cuidado especial para actuar como si no fuera una amenaza para el propietario de un sitio web, y actuar de acuerdo con la forma en que desearía que actuara un rastreador potencialmente malicioso (pero con suerte benigno):
- deje de rastrear un sitio una vez que detecte que está siendo bloqueado: 403 / 401s en páginas que sepa que funcionan, limitaciones, tiempos de espera, etc.
- evite los rastreos exhaustivos en períodos de tiempo relativamente cortos: rastree una parte del sitio y vuelva más tarde (unos días más tarde) para rastrear otra parte. No hagas solicitudes paralelas.
- evite rastrear áreas potencialmente sensibles: URL con
/admin/
en ellas, por ejemplo.
Incluso entonces, va a ser una batalla cuesta arriba a menos que recurras a técnicas de sombrero negro como la falsificación UA o el enmascaramiento deliberado de tus patrones de rastreo: muchos propietarios de sitios, por las mismas razones anteriores, bloquearán un rastreador desconocido a la vista en lugar de arriesgarse a que alguien no intente "piratear su sitio". Prepárate para muchos fracasos.
Una cosa que podrías hacer para combatir la imagen negativa que tendrá un rastreador desconocido es aclarar en tu cadena de agente de usuario quién eres:
Aarobot Crawler 0.9 created by John Doe. See http://example.com/aarobot.html for more information.
Donde http://example.com/aarobot.html
explica lo que estás tratando de lograr y por qué no eres una amenaza. Esa página debe tener algunas cosas:
- Información sobre cómo contactarlo directamente
- Información sobre lo que recopila el rastreador y por qué lo recopila
- Información sobre cómo darse de baja y que se eliminen todos los datos recopilados
La última es clave: una buena opción de exclusión es como una Money Back Guarantee ™ y obtiene una buena cantidad de buena voluntad. Debería ser humano: un paso simple (ya sea una dirección de correo electrónico o, idealmente, un formulario) y completo (no debería haber ningún "error": optar por dejar de rastrear sin excepción).