Robots.txt disallow

Siento mucho haber tardado unos días más de los esperado para escribir los resultados de mi experimento con con el robots.txt. He estado más atareado de lo que uno mismo quisiera, tanto que ni tan solo he podido seguir como me hubiera gustado la evolución de dicho experimento.

4 meses sin Google

En un post pasado publiqué porque quería probar de bloquear el robot de Google para el presente site entero. La acción fué bloquear el robot de Google (googlebot) mediante el archivo robots.txt con el siguiente comando:

#mode patada en el culo: on
#Google go home
User-agent: Googlebot
Disallow: /

Al cabo de 4 meses puedo decir que me ha pasado lo siguiente:

  • Lo primero que me pasó fue que me desapareció el sitelink
  • Luego fueron desapareciendo todas los snippets de mis posts. Al mismo tiempo desaparecía la copia en el cache de Google. Pero no ha desaparecido ninguna url del site.
  • A medida que pasaban los días fuí perdiendo posiciones para muchas combinaciones de palabras clave, pero no para todas! A pesar que hace tiempo que me dejó de salir el snippet sigo saliendo por mi nombre (Isaac Sunyer) o por búsquedas surrealistas como Primer día de verano.
  • Las entradas que he publicado nuevos han tenido suerte distinta. El primero se ha indexado (probablemente porque se mandaron los pings y aun no se había enterado del disallow) y el otro no. Muy probablemente ya no se indexaría nada más.

Conclusiones del experimento Disallow

  • Tal y como ya sabía, el robots.txt es una muy mala herramienta para desindexar páginas que no interesan.
  • Cuando uno bloquea a googlebot, el contenido indexado de la web va desapareciendo, pero no las url de las secciones. Google sigue intentando entrar a las mismas url, aunque lleve 4 meses bloqueado.
  • A pesar de haber reducido el 90% del tráfico orgánico, mi empresa de posicionamiento por resultados no se ha resentido y mis hijos pueden seguir comiendo cada día.
  • Lo que creo que puede ser más interesante del experimento es lo que viene ahora, el desbloqueo y el proceso de reindexación.

La entrada Robots.txt disallow ha sido publicada el 02 de agosto de 2010 en Laboratorio de posicionamiento | 12 Comentarios »

12 Comentarios en “Robots.txt disallow”

  1. 1 Emilio dice (03 / agosto / 2010):

    Gracias por compartir los resultados del experimento! ahora estoy ansioso por ver la segunda parte, como indexará la página de nuevo.

  2. 2 Alemany dice (03 / agosto / 2010):

    Igual que Emilio… a ver a que velocidad va a trabajar indexando!

  3. 3 Tweets that mention Robots.txt disallow -- Topsy.com dice (05 / agosto / 2010):

    […] This post was mentioned on Twitter by Yapci Bello and Christian Oliveira, crislopez. crislopez said: RT @YaPCi: Experimento bloqueando bot Google – Robots.txt disallow http://ping.fm/BchrJ […]

  4. 4 Ignacio Pacheco dice (12 / octubre / 2010):

    Buenos dias,
    Soy Ignacio Pacheco, estaría interesado en
    realizar un intercambio con ustedes.
    ignacio.jimdo@googlemail.com

  5. 5 Javier Lorente dice (18 / noviembre / 2010):

    Qué sugieres para desindexar páginas que no interesan entonces?

  6. 6 Isaac dice (18 / noviembre / 2010):

    Buena Pregunta, Javier. Yo creo que lo ideal para desindexar es que realmente deje de existir (devuelva error 404) e informar en WT o una redirección 301. En ambos casos la url realmente desaparece, con lo que si se desea que la página continue existiendo, yo haría un cambio de url.

  7. 7 Javier Lorente dice (18 / noviembre / 2010):

    Yo quiero que la URL siga accesible para los humanos. ;)

    Me quedo con la duda de si en vez de 4 meses, hubieses esperado 6 o más, hubieses seguido apareciendo buscando tu nombre. No obstante, es posible que sí, ya sabemos todo lo ambiguas que resultan a veces las declaraciones de Google, robots.txt sí, pero “sin embargo, es posible que quizá…”

    Gracias por tu respuesta :)

  8. 8 Nada Rowton dice (13 / septiembre / 2011):

    Good work! Those guys at your competition (I don’t need to say who) don’t even have a clue! Keep em coming! I have a Commentary site of my own… I will place a link back to your post.You do not need to return the favor, I just wanted to inform you as to what I was doing.

  9. 9 Pablo Galcia dice (12 / noviembre / 2011):

    Disallow
    Esta instrucción indica al (los) robot especificado con la instrucción anterior las carpetas y páginas que no debe indexar, el paquete de instalación de Joomla ya viene dotado de origen de un buen fichero robots.txt que indica a los bot que disallowen (no metan las narices en) las siguientes carpetas: administrator, cache, components, images, includes, installation, language, libraries, media, modules, plugins, templates, tmp y xmlrpc, osea todas las del backend

    Algunos ejemplos:
    User-agent: *
    Disallow:
    Indicas a todos los robots que no dejen de indexar nada, osea que pueden indexarlo todo

    User-agent: googlebot
    Disallow: /administrator/cache/
    Informas al robot de Google que no tenga en cuenta la carpeta cache de la carpeta administrator

    User-agent: Yahoobot
    Disallow: /posicionamiento-web/robotstxt-user-agent-y-disallow.html
    Señalas al robot de Yahoo que se olvide de esta página porque el pobre ya se sabe de memoria el contenido

    Sitemap
    Para acelerar la mejora del posicionamiento web de nuestro sitio, podemos (y debemos) aprovechar el fichero robot.txt para indicarle a los motores de búsqueda donde está el mapa del sitio de nuestra web y también los de los subdominios, esto se consigue añadiendo la siguiente instrucción tantas veces como mapas haya en el sitio:
    Sitemap: urldelsitemap
    Los sitemap normalmente se confeccionan con ficheros xml, ahora bien podéis hacer servir tambien ficheros de rss (que tambien son xml) y de texto (.txt) basta que pongáis las direcciones de todas las páginas del sitio que queráis que aparezcan en los buscadores.

  10. 10 Josh Carter | vudu dice (02 / febrero / 2012):

    El robots.txt es muy util, y la aplicacion disallow nos ayuda mucho para no perder pagerank y fuerza en nuestro sitio. Ya que con ese comando podemos decirle a los robots que no queremos que tome encuenta paginas de nuestro sitio como, enlaces.html, mapa-del-sitio.html, etc.
    A mi en ese aspecto me ha ayudado muchisimo.
    Saludos,
    Josh Carter – vudu

  11. 11 Eze dice (14 / febrero / 2012):

    Hola, les comentó algo que me sucedió ya por segunda vez. Agregué paginas que no existian como disallow a robots.txt, suponiendo que era mejor para el posicionamiento.

    La primera vez estuve varias semanas en los puestos 160, hasta de a poco volver al puesto 10 al 20.

    Mi duda es que tambien hice algunos cambios en la plantilla, borrando un par de enlaces y poniendo otros en su lugar (como es la plantilla, impacta en unas 70 paginas)…No he encontrado referencias de gente que le haya pasado lo mismo, y como les decia ahora me ocurre por segunda vez, me gustaria ver su opinion si el disallow de robots.txt pudo haber ocasionado esto. Gracias

  12. 12 jrosell dice (12 / mayo / 2012):

    Acabo de fer el mateix experiment :)
    Com dius el interesant és veure el que pasa amb la reindexació.


Deja tu comentario, pregunta o opinión sobre Robots.txt disallow