Desarrollo web canonical

Published on junio 2nd, 2012 | by Miguel Angel Berlanga Alvarez

9

Cómo eliminar el contenido duplicado de tu web

Eliminar Contenido duplicado indexado

Para que los motores de búsquedas como Google no indexen contenido duplicado de tu web, debemos realizar algunos cambios para indicar a los buscadores que pueden indexar y que no pueden indexar de nuestra web. De esta manera Google indexará el contenido que tu quieras que indexe y no almacenará contenido duplicado.

Por ejemplo, cuando utilizamos un gestor de contenidos como WordPress o Druppal para crear nuestra web, muchas entradas o páginas se pueden mostrar desde diferentes url.

Cuando esto ocurre los buscadores encuentran varias url con el mismo contenido o parecido, y deciden cuales indexan y cuáles no o indexan ambas duplicando el contenido.

En estos casos puede ocurrir que los buscadores no indexen la url correcta y muestren una url incorrecta, esto puede suponer algunos cambios en la página, por ejemplo el titulo de la pagina no sería igual si entras por una url o por otro, tampoco sería igual el enlace de la url, también pueden variar las cabezeras (h1,h2) dependiendo de como las tengas definidas en tu gestor de contenidos y en algunos casos incluso puede variar parte del contenido porque lo recorte o algo similar.

Conocer el número de páginas indexadas por Google

La forma más sencilla de ver cuántas paginas tiene indexadas Google sería escribir en el buscador site:nombreDeLaPagina.com por ejemplo.

Si el número que obtienes es superior a las páginas que has desarrollado en tu web, es obvio que Google está indexando más contenido del que realmente tienes. Por consiguiente tienes contenido duplicado indexable en tu web. Puedes echar un vistazo a cada uno de los link que te salen y ver todas las url que Goglee tiene en su índice.

indexar contenido duplicado canonical

Eliminar contenido duplicado con robots.txt

Para eliminar el contenido que no quieres indexar, puedes utilizar el fichero robot.txt e indicar que páginas no quieres que te indexe.
Por ejemplo, puedes eliminar la indexación de todas las páginas que partan del directorio /category/ o las paginas que cuelguen del directorio /tag/

Disallow: /category/
Disallow: /tag/

Eliminar contenido duplicado utilizando el link canonical

Ahora, tambien puedes hacer esto utilizando las url canónicas, con ellas vas a sugerir que google indexe la página que le has indicado en lugar de la que estás.

Supongamos que estás en la página www.viajerossinrumbo.com y quieres que esta página no se indexe y que en cambio se indexe otra que tiene más o menos el mismo contenido, en esta caso www.viajerossinrumbo.com /page2 . Para realizar esto tienes que incluir en la primera página “www.viajerossinrumbo.com” el link relativo canonical dentro de las etiquetas…, que en este ejemplo quedaría así:

Es muy importante saber que canonical no actua como una directiva sino como sugerencia, por lo google o cualquier otro motor de búsqueda será finalmente el que decida si aplica o no este cambio, dependiendo de lo que google cree que es mejor indexar.

En este video de Matt Cutts (ingeniero de Google) lo explica http://www.youtube.com/watch?v=Cm9onOGTgeM

[youtube]http://www.youtube.com/watch?v=Cm9onOGTgeM[/youtube]

Eliminar contenido duplicado a traves del fichero .htaccess

Por último, podemos redireccionar las páginas, a traves del fichero .htaccess, para ello basta con realizar una redirección 301 e indicar cuál es la página que quieres que muestre.

Para solucionar la duplicación del contenido desde el fichero .htaccess tendrías que modificar este fichero indicando a dónde se redireccionan las url que no quieres indexar, quedaría así:

Redirect 301 http://www.noindexable.com http://www.indexable.com

Redirect 301 http://www.noindexable.com/paginax http://www.indexable.com/paginay

Después de realizar los cambios anteriores tendrán que pasar algunas semanas o incluso meses para que los buscadores des-indexen las páginas duplicadas que no quieres que muestre el navegador.
Lo mejor es que después de los cambios solicites la eliminación del índice de Google a través del WebMasterTools de Google.

Tags: , , , , , ,


About the Author



9 Responses to Cómo eliminar el contenido duplicado de tu web

  1. Albert says:

    Buenas, muy buen blog y muy bien explicado! pero tenia una pequeña pregunta ya que ando un poco perdido.
    Tenia un blog a media construcción con wordpress en un dominio antiguo mio, ahora lo pase y lo finalice al nuevo dominio, por error deje un mes el otro blog con el mismo contenido pero la mitad de paginas( sin finalizar) activo, hace poco borre todo y ahora el nuevo blog en herramientas de webmaster de google no me indexa las paginas, si desde donde miras las paginas del sitemap pero donde esta el estado de indexacion me pone que 0.
    Espero que me puedas ayudar, esque con esto me pierdo! jeje
    Un saludo y gracias

  2. admin says:

    Hola,

    Si tienes dos dominios diferentes y el contenido ha variado no deberías tener problemas para indexarlo, asegurate de que tienes un sitemap de la web y que pueden llegar a él.

    O si lo prefieres enlaza el sitemap de tu sitio desde las herramientes de webmaster.

    Desde ahí puedes borrar, añadir o probar el fichero sitemap que quieras enlazar.

    Saludos

  3. Albert says:

    Buanas, Gracias por contestar primero de todo.
    Haber el contenido ha variado pero 4 o 5 paginas eran iguales, la principal y 4 mas por ejemplo son las mismas porque exporte wordpres a otro dominio y tarde un mes en borrar el otro…
    No se si por aqui podria venir el pobrema.
    Gracias por echarme una mano.
    Un saludo

  4. MMane says:

    El problema puede venir por ahí, prueba a reescribir los artículos! suerte!

  5. Albert says:

    Gracias por contestar, la verdad es que ya lo suponía que seria ese el problema, supongo que si el otro contenido lo borre, tardara un tiempo google en desindexar los otros contenidos e indexarlos estos como nuevos… Quiza espere un poco y luego cambie el contenido no? porque la verdad es que no lo se…
    Muchas gracias!!
    un saludoo

  6. Multinivel says:

    Sabes como le puedo hacer para que el título de mi post no sea h1

    Trabajo con seo pressor y este me pide que mi post contenga una h1 (no reconoce que el titulo de wordpress es h1) y por ende todos mis posts tienen dos h1 y se que no es lo ideal

    Veo que tu no tienes este problema… Saludos

    • Ber says:

      Hola,
      Entiendo lo que te sucede, pero eso es cosa del theme de tu WordPress, si programas un poquito edítalo y cambia ahí la cabecera de cada post para que no sea un h1.

      Por lo general es muy fácil de hacer.
      Saludos

  7. Roberto says:

    Buenos días, si esto es factible ya que tuve un problema hace tiempo con esto pero lo solucioné con un codigo èrp ahora parece que ya no funciona. Ahora según sus conocimientos se puede hacer esto: Redirect 301 http://www.noindexable.com http://www.indexable.com

    Redirect 301 http://www.noindexable.com/paginax http://www.indexable.com/paginay pero en mi caso lo veo medio confuso porque recién llevo 2 pero llegué a tener más de 3000 url duplicadas que daban a un adjunto como es la imagen, ejemplo: rsanahuano.com/la-moda-de-ser-inculto-y-vulgar/la-moda-de-ser-inculto-y-vulgar1-2/ que es la que sale como duplicada, señalando que hay otra con 1. Lo correcto es rsanahuano.com/la-moda-de-ser-inculto-y-vulgar/ En el ejemplo que pones ¿Cómo sería lo que debo cambiar en el .htaccess? Desde luego tomando en cuenta que saben salir extensiones 1, 1-2, y hasta 1-2-3-4/

    Gracias por la respuesta.

    • Ber says:

      Hola, no se si te he entendido bien, pero en el caso de que tengas muchas urls duplicadas para un mismo contenido, lo mejor es que lleven el atributo canonical con la url que quieres que Google tenga en cuenta.

      Si todas tienes el contenido similar y una es la que quieres que indexe Google, yo utilizaría el rel canonical que te da Google para ello.

      paginaA tiene rel=canonical paginaA (es la buena)
      paginaB tiene rel canonical paginaA (tiene menos contenido)
      paginaC tiene rel canonical paginaA (tiene menos contenido)

      Le puedes echar un ojo a este link.
      https://support.google.com/webmasters/answer/139066?hl=es

      Saludos

Deja un comentario

Tu dirección de correo electrónico no será publicada.


− uno = 7

Puedes usar las siguientes etiquetas y atributos HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Back to Top ↑