Robots.txt disallow
Siento mucho haber tardado unos días más de los esperado para escribir los resultados de mi experimento con con el robots.txt. He estado más atareado de lo que uno mismo quisiera, tanto que ni tan solo he podido seguir como me hubiera gustado la evolución de dicho experimento.
4 meses sin Google
En un post pasado publiqué porque quería probar de bloquear el robot de Google para el presente site entero. La acción fué bloquear el robot de Google (googlebot) mediante el archivo robots.txt con el siguiente comando:
#mode patada en el culo: on
#Google go home
User-agent: Googlebot
Disallow: /
Al cabo de 4 meses puedo decir que me ha pasado lo siguiente:
- Lo primero que me pasó fue que me desapareció el sitelink
- Luego fueron desapareciendo todas los snippets de mis posts. Al mismo tiempo desaparecía la copia en el cache de Google. Pero no ha desaparecido ninguna url del site.
- A medida que pasaban los días fuí perdiendo posiciones para muchas combinaciones de palabras clave, pero no para todas! A pesar que hace tiempo que me dejó de salir el snippet sigo saliendo por mi nombre (Isaac Sunyer) o por búsquedas surrealistas como Primer día de verano.
- Las entradas que he publicado nuevos han tenido suerte distinta. El primero se ha indexado (probablemente porque se mandaron los pings y aun no se había enterado del disallow) y el otro no. Muy probablemente ya no se indexaría nada más.
Conclusiones del experimento Disallow
- Tal y como ya sabía, el robots.txt es una muy mala herramienta para desindexar páginas que no interesan.
- Cuando uno bloquea a googlebot, el contenido indexado de la web va desapareciendo, pero no las url de las secciones. Google sigue intentando entrar a las mismas url, aunque lleve 4 meses bloqueado.
- A pesar de haber reducido el 90% del tráfico orgánico, mi empresa de posicionamiento por resultados no se ha resentido y mis hijos pueden seguir comiendo cada día.
- Lo que creo que puede ser más interesante del experimento es lo que viene ahora, el desbloqueo y el proceso de reindexación.
La entrada Robots.txt disallow ha sido publicada el 02 de agosto de 2010 en Laboratorio de posicionamiento | 10 Comentarios »
Gracias por compartir los resultados del experimento! ahora estoy ansioso por ver la segunda parte, como indexará la página de nuevo.
Igual que Emilio… a ver a que velocidad va a trabajar indexando!
[...] This post was mentioned on Twitter by Yapci Bello and Christian Oliveira, crislopez. crislopez said: RT @YaPCi: Experimento bloqueando bot Google – Robots.txt disallow http://ping.fm/BchrJ [...]
Buenos dias,
Soy Ignacio Pacheco, estaría interesado en
realizar un intercambio con ustedes.
ignacio.jimdo@googlemail.com
Qué sugieres para desindexar páginas que no interesan entonces?
Buena Pregunta, Javier. Yo creo que lo ideal para desindexar es que realmente deje de existir (devuelva error 404) e informar en WT o una redirección 301. En ambos casos la url realmente desaparece, con lo que si se desea que la página continue existiendo, yo haría un cambio de url.
Yo quiero que la URL siga accesible para los humanos. ;)
Me quedo con la duda de si en vez de 4 meses, hubieses esperado 6 o más, hubieses seguido apareciendo buscando tu nombre. No obstante, es posible que sí, ya sabemos todo lo ambiguas que resultan a veces las declaraciones de Google, robots.txt sí, pero “sin embargo, es posible que quizá…”
Gracias por tu respuesta :)
Good work! Those guys at your competition (I don’t need to say who) don’t even have a clue! Keep em coming! I have a Commentary site of my own… I will place a link back to your post.You do not need to return the favor, I just wanted to inform you as to what I was doing.
Disallow
Esta instrucción indica al (los) robot especificado con la instrucción anterior las carpetas y páginas que no debe indexar, el paquete de instalación de Joomla ya viene dotado de origen de un buen fichero robots.txt que indica a los bot que disallowen (no metan las narices en) las siguientes carpetas: administrator, cache, components, images, includes, installation, language, libraries, media, modules, plugins, templates, tmp y xmlrpc, osea todas las del backend
Algunos ejemplos:
User-agent: *
Disallow:
Indicas a todos los robots que no dejen de indexar nada, osea que pueden indexarlo todo
User-agent: googlebot
Disallow: /administrator/cache/
Informas al robot de Google que no tenga en cuenta la carpeta cache de la carpeta administrator
User-agent: Yahoobot
Disallow: /posicionamiento-web/robotstxt-user-agent-y-disallow.html
Señalas al robot de Yahoo que se olvide de esta página porque el pobre ya se sabe de memoria el contenido
Sitemap
Para acelerar la mejora del posicionamiento web de nuestro sitio, podemos (y debemos) aprovechar el fichero robot.txt para indicarle a los motores de búsqueda donde está el mapa del sitio de nuestra web y también los de los subdominios, esto se consigue añadiendo la siguiente instrucción tantas veces como mapas haya en el sitio:
Sitemap: urldelsitemap
Los sitemap normalmente se confeccionan con ficheros xml, ahora bien podéis hacer servir tambien ficheros de rss (que tambien son xml) y de texto (.txt) basta que pongáis las direcciones de todas las páginas del sitio que queráis que aparezcan en los buscadores.
El robots.txt es muy util, y la aplicacion disallow nos ayuda mucho para no perder pagerank y fuerza en nuestro sitio. Ya que con ese comando podemos decirle a los robots que no queremos que tome encuenta paginas de nuestro sitio como, enlaces.html, mapa-del-sitio.html, etc.
A mi en ese aspecto me ha ayudado muchisimo.
Saludos,
Josh Carter – vudu