Mejorando la indexación con robots.txt y Sitemaps
Mirando los resultados de la búsqueda site:microsano.org veo resultados duplicados y malas indexaciones (hay que decir que ayer y los días pasados era peor, pero por algún problema no pude escribir este post ayer). Y es que entre la página principal, la página permanente, la página de categoría, la página de archivo… se genera un buen número de contenidos duplicados con Wordpress.
Para intentar mejorar la indexación, aprovechando la “nueva” funcionalidad, creé un robots.txt para Googlebot. El contenido del archivo es el siguiente:
User-agent: googlebot
Disallow: /2006/
Disallow: /*/feed/
Disallow: /*/trackback/
Disallow: /feed/
Disallow: /wp-login.php
Con eso le digo a googlebot que no indexe las páginas de categorías, los archivos, el feed, el formulario de inicio de sesión y, a destacar, el uso de wildcards, la “nueva funcionalidad” para hacer que sí indexe las entradas pero no sus respectivos feeds y trackbacks. Si quieres usar un robots.txt, antes de subirlo te recomiendo que lo pruebes en la página de Google Sitemaps para robots.txt, donde te hará un test y podrás introducir una url y te dirá si será indexada o no.
Hablando del Sitemaps de Google, también he creado uno (es el segundo, ya que el primero no me lo validó Google, por algún error en el archivo) y actualmente está pendiente de validación, por lo que veré si funciona. Lo he creado con la herramienta de neuroticweb para crear sitemaps.
Siguiendo con el tema del Sitemaps de Google, estas son las consulas de búsqueda más usuales para Microsano.org:
- microsano
- microsano blog
- “microsano org”
- “www microsano org”
- nintendo wifi latinoamerica
- sudoku
- jugar al sudoku
- microsano foro
- proximos lanzamientos nintendo ds
Interesante la herramienta. En cuanto a la indexación de mi sitio, espero que se mejoren los resultados, al menos en cuanto a contenidos duplicados. Recomiendo hacer algo al respecto a otros usuarios de Wordpress. También otra opción es usar el comando “more” de Wordpress, ya que así los contenidos no serán tan duplicados porque, al menos en algunas entradas, el contenido completo sólo se verá en una página; seguro que pruebo hacer eso también.
Actualización: parece que ahora sí me han aceptado el Sitemap (el anterior estaba comprimido, debe haber sido ese el problema), en los próximos días veremos qué pasa.
Escrito por Philippe Portes el 18 de Febrero de 2006 con
1 comentario.
Lee más artículos sobre Microsano.org
- [+] Menéame: Destaca este artículo
- [+] Del.icio.us: Añade este artículo a favoritos
- [+] Furl: Añade este artículo a favoritos

28 de Febrero de 2007, a las 11:08.
A mi me dejó de indexar google de repente un día sin más.
ya probé mil cosas pero bueno a ver si de esta vez con ese rebots.txt va
gracias