También podemos implementar robot.txt en Baidu, por si nos interesa limitar las páginas indexadas en Baidu, a pesar de qeu el gobierno ya se encargará de hacer lo propio si te excedes ;-)

En definitiva, es una buena noticia que se puedan implementar parametros SEO en Baidu qeu proporcionan más objectividad a los resultados y que se pueda competir por posiciones en base a las diferented técnicas, y no solo al tamaño de tu cartera.

¿Para qué el uso Robots.txt para el buscador Baidu?

Enviar tu sitio a Baidu a través del formulario de presentación de página web informando al buscador Baidu qué debe rastrear e indexar de tu sitio web. Para excluir contenido específico (o páginas web) del rastreo del Baiduspider, es recommendado el uso de robot.txt para Baidu..

Usando Robots.txt es opcional.

  • Incluir un archivo robots.txt sólo si su sitio tiene contenido que no deseas que Baidu indexe.
  • Si deseas Baidu para acceder al contenido de su sitio web entero, no incluiremos el archivo robots.txt.
  • Colocar el archivo robots.txt en el directorio raíz de tu sitio web. Antes de rastrear páginas de su sitio web, Baiduspider primero comprueba el directorio raíz del dominio del sitio, “preguntando” si hay un archivo de texto llamado “robots.txt”.
  • Robots.txt puede mejorar su sitio Baidu tráfico de SEO y la clasificación cuando se hace bien.
  • Robots.txt bloquea el contenido de tu página web que se rastreen o que se hayan indexado por Baidu, pero todavía Baiduspider puede indexar la URL, si se puede encontrar en otras páginas de la web. Así ciertas URLs “bloqueadas” puede aparecer en resultados organicos de Baidu.

Usando Robots.txt para Baiduspider

Baiduspider sigue dos reglas básicas en los archivos robots.txt:

User-agent: el robot la siguiente regla se aplica a
Disallow: la URL que desea bloquear
Para bloquear todo el sitio de Baidu:

User-agent: Baiduspider
Disallow: /
Para bloquear todo el sitio de todos los buscadores, exepto Baiduspider:

User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
Para bloquear un directorio de su sitio y todos los archivos en ella, desde Baiduspider:

User-agent: Baiduspider
Disallow: / cgi-bin /

Para bloquear un directorio de su sitio, excepto algunas de las URL del mismo en Baidu:

User-agent: Baiduspider
Allow: / cgi-bin/tmp-1
Allow: / cgi-bin/tmp-2
Disallow: / cgi-bin /

Para bloquear una página web de Baidu:

User-agent: Baiduspider
Disallow: / mi-pagina.html

Baiduspider admite el uso de comodines como “*” y “$” para que coincida con las direcciones URL:

“*” Coincide con cero o más caracteres arbitrarios.
“$” Coincide con la línea de terminación de personaje (s).

Para bloquear el acceso a todas las URLs dinámicas (es decir, todas las URL que contienen “?”) Por Baiduspider:

User-agent: Baiduspider
Disallow: / * *

Para bloquear el acceso a ciertos tipos de archivos, pero permitiendo otros tipos de achivos a Baiduspider:

User-agent: Baiduspider
Allow:. Gif $
Allow:. $ Jpg
Disallow:. Jpeg $
Disallow:. Png $
Disallow:. Bmp $

Otras cargas para Baiduspider

Mientras Baiduspider es responsable de rastrear/buscar contenido web, Baidu también utiliza los spiders de otros buscadores para rastrear y reconocer otros tipos de archivos, como:

  • Baiduspider imagen rastrea imágenes
  • Baiduspider-móvil rastrea el contenido de búsqueda móvil
  • Baiduspider-video rastrea videos
  • Baiduspider-news rastrea el contenido de noticias
  • Baiduspider-favo rastrea los marcadores (bookmarks)
  • Baiduspider-sfkr rastrea campañas de Baidu PPC
  • Baiduspider-Cpro rastrea la red de publicidad contextual de Baidu

Ejemplos robots.txt en grandes sitios web chinos

  1. Baidu.com está bloqueando Baiduspider para acceder a algunos de los directorios del sitio: http://www.baidu.com/robots.txt
  2. Taobao.com en el momento de bloqueo Baiduspider a través de robots.txt en el directorio raíz: http://www.taobao.com/robots.txt
  3. Alibaba de China en el momento de bloquear todo el sitio contra los robots de ciertos/spider: http://china.alibaba.com/robots.txt

Directrices para Robots.txt

Baidu ofrece una guía en chino sobre cómo se debe utilizar robots.txt para bloquear Baiduspider.
Robotstxt.org y Searchtools.com ambos proporcionan directrices generales para crear Robots.txt.

También recientemente se ha agregado a la lista de parametros que Baidu está teniendo en consideración el Baidu sitemap, podéis seguirlo en el articulo relacionado a este tema.

Incoming search terms:

Did you like this? Share it:
Translate this post