Displaying items by tag: mejores practicas

 El SEO va mucho más allá de la investigación de palabras clave y la creación de vínculos de retroceso. También hay un aspecto técnico del SEO que afectará en gran medida su clasificación de búsqueda.

Esta es un área donde su archivo robots.txt se convertirá en un factor.

En mi experiencia, la mayoría de las personas no están muy familiarizadas con los archivos robots.txt y no saben por dónde empezar. Eso es lo que me inspiró a crear esta guía.

Empecemos con lo básico.

 

 

¿Qué es exactamente un archivo robots.txt?

Cuando un robot de motor de búsqueda rastrea un sitio web, utiliza el archivo robots.txt para determinar qué partes del sitio deben indexarse.

Los sitemaps se alojan en su carpeta raíz y en el archivo robots.txt. Usted crea un mapa del sitio para facilitar que los motores de búsqueda indexen su contenido.

Piense en su archivo robots.txt como una guía o manual de instrucciones para bots. Es una guía que tiene reglas que deben seguir. Estas reglas les indicarán a los rastreadores qué pueden ver (como las páginas de su sitemap) y qué partes de su sitio están restringidas.

 

Si su archivo robots.txt no está optimizado correctamente, puede causar importantes problemas de SEO en su sitio web.

Por eso es importante que comprenda exactamente cómo funciona esto y qué debe hacer para asegurarse de que este componente técnico de su sitio web lo esté ayudando, en lugar de perjudicarlo.

 

Encuentra tu archivo robots.txt

Antes de hacer nada, el primer paso es verificar que tiene un archivo robots.txt para empezar. Algunos de ustedes probablemente nunca abrieron ese archivo antes.

La forma más fácil de ver si su sitio ya tiene uno es colocando la URL de su sitio web en un navegador web, seguida de /robots.txt.

Así es como se ve para Andromeda:

andromedarobotstxt 

Cuando haga esto, sucederá una de tres cosas.

- Encontrará un archivo robots.txt que se parece al de arriba. (En este caso es la configuración basica para un sistema CMS).
- Encontrarás un archivo robots.txt que está completamente en blanco, pero al menos configurado.
- Obtendrá un error 404 porque esa página no existe.

La mayoría de ustedes probablemente caerán en los dos escenarios principales. No debería recibir un error 404 porque la mayoría de los sitios web tendrán un archivo robots.txt configurado de forma predeterminada cuando se creó el sitio. Esos ajustes predeterminados deberían seguir estando ahí si nunca ha realizado ningún cambio.

Para crear o editar este archivo, simplemente navegue hasta la carpeta raíz de su sitio web.

 

Modifica tu contenido de robots.txt

En su mayor parte, normalmente no querrás jugar demasiado con esto. No es algo que vaya a modificar con frecuencia.

La única razón por la que querría agregar algo a su archivo robots.txt es si hay ciertas páginas en su sitio web que no desea que los bots rastreen e indexen.

Debe familiarizarse con la sintaxis utilizada para los comandos. Así que abre un editor de texto plano para practiques.

 

Cubriré la sintaxis que se usa con más frecuencia.

Primero, debe identificar los rastreadores. Esto se conoce como el agente de usuario.

User-agent: *

Esta sintaxis anterior se refiere a todos los rastreadores de motores de búsqueda (Google, Yahoo, Bing, etc.)

User-agent: Googlebot

Como su nombre lo indica, este valor se dirige directamente a los rastreadores de Google.

 

Después de identificar el rastreador, puede permitir o no permitir contenido en su sitio. A continuación, se muestra un ejemplo que vimos anteriormente en el archivo robots.txt de Andromeda.

User-agent: *

Disallow: / administrator /

Esta página se utiliza para nuestro backend administrativo para WordPress. Entonces, este comando les dice a todos los rastreadores (User-agent: *) que no rastreen esa página. No hay ninguna razón para que los bots pierdan el tiempo rastreando eso.

Supongamos que quiere decirles a todos los bots que no rastreen esta página específica en su sitio web. http://www.yourwebsite.com/samplepage1/

La sintaxis se vería así:

User-agent: *

Disallow: / samplepage1 /

Aquí hay otro ejemplo:

Disallow: /*.gif$

Esto bloquearía un tipo de archivo específico (en este caso .gif). Puede consultar este cuadro de Google para obtener más reglas y ejemplos comunes.

 Common Robot Txt Rules Examples


 

El concepto es muy sencillo.

Si desea no permitir páginas, archivos o contenido en su sitio de todos los rastreadores (o rastreadores específicos), entonces solo necesita encontrar el comando de sintaxis adecuado y agregarlo a su editor de texto sin formato.

Una vez que haya terminado de escribir los comandos, simplemente cópielos y péguelos en su archivo robots.txt.


Por qué es necesario optimizar el archivo robots.txt

Sé lo que algunos de ustedes están pensando. ¿Por qué carajos querría perder el tiempo con esto?

Esto es lo que necesita comprender. El propósito de su archivo robots.txt no es bloquear completamente las páginas o el contenido del sitio de un motor de búsqueda.

En cambio, solo está tratando de maximizar la eficiencia de sus presupuestos de rastreo. Todo lo que estás haciendo es decirles a los bots que no necesitan rastrear páginas que no están hechas para el público.

A continuación, se muestra un resumen de cómo funciona el presupuesto de rastreo de Google. No tiene versión en español por eso no la comparti. 

 

Se divide en dos partes:

1.- Límite de frecuencia de rastreo
2.- Demanda de rastreo

El límite de la frecuencia de rastreo representa la cantidad de conexiones que un rastreador puede realizar en un sitio determinado. Esto también incluye la cantidad de tiempo entre extracciones.

 

Los sitios web que responden rápidamente tienen un límite de frecuencia de rastreo más alto, lo que significa que pueden tener más conexiones con el bot. Por otro lado, los sitios que se ralentizan como resultado del rastreo no se rastrearán con tanta frecuencia.

Los sitios también se rastrean según la demanda. Esto significa que los sitios web populares se rastrean con mayor frecuencia. Por otro lado, los sitios que no son populares o no se actualizan con frecuencia no se rastrearán con tanta frecuencia, incluso si no se ha alcanzado el límite de frecuencia de rastreo.

Al optimizar su archivo robots.txt, facilita mucho el trabajo de los rastreadores. Según Google, estos son algunos ejemplos de elementos que afectan los presupuestos de rastreo:

 

- Identificadores de sesión
- Navegación facetada
- Páginas de error
- Páginas que han sido pirateadas
- Contenido duplicado
- Espacios infinitos y proxies
- Contenido de baja calidad
- Correo no deseado 

 

 

Al utilizar el archivo robots.txt para no permitir este tipo de contenido a los rastreadores, se asegura de que dediquen más tiempo a descubrir e indexar el contenido principal de su sitio web.

A continuación, se muestra una comparación visual de sitios con y sin un archivo robots.txt optimizado.

 Sitio Sin robots.txt

 

Un rastreador de motor de búsqueda dedicará más tiempo y, por lo tanto, más presupuesto de rastreo al sitio web de la izquierda. Pero el sitio de la derecha garantiza que solo se rastree el contenido superior.

A continuación, se muestra una situación en la que querría aprovechar el archivo robots.txt.

Como estoy seguro de que sabe, el contenido duplicado es perjudicial para el SEO. Pero hay ciertos momentos en los que es necesario tener en su sitio web. Por ejemplo, algunos de ustedes pueden tener versiones para imprimir de páginas específicas. Eso es contenido duplicado. Por lo tanto, puede decirle a los robots que no rastreen esa página para imprimir optimizando la sintaxis de robots.txt.

 

 

Mejores prácticas de Robots.txt

Su archivo robots.txt debe llamarse "robots.txt" para poder encontrarlo. Se distingue entre mayúsculas y minúsculas, lo que significa que Robots.txt o robots.TXT no serían aceptables.

El archivo robots.txt siempre debe estar en la carpeta raíz de su sitio web en un directorio de nivel superior del host.

Cualquiera puede ver su archivo robots.txt. Todo lo que necesitan hacer es escribir el nombre de la URL de su sitio web con /robots.txt después del dominio raíz para verlo. Así que no use esto para ser engañoso, ya que es esencialmente información pública.

En su mayor parte, no recomendaría establecer reglas específicas para diferentes rastreadores de motores de búsqueda. No veo el beneficio de tener un cierto conjunto de reglas para Google y otro conjunto de reglas para Bing. Es mucho menos confuso si sus reglas se aplican a todos los agentes de usuario.

Agregar una sintaxis de no permitir a su archivo robots.txt no evitará que esa página se indexe. En su lugar, tendría que usar una etiqueta noindex.

Los rastreadores de motores de búsqueda son extremadamente avanzados. Básicamente, ven el contenido de su sitio web de la misma manera que lo haría una persona real. Por lo tanto, si su sitio web utiliza CSS y JS para funcionar, no debe bloquear esas carpetas en su archivo robots.txt. Será un gran error de SEO si los rastreadores no pueden ver una versión funcional de su sitio web.

Si desea que su archivo robots.txt sea reconocido inmediatamente después de que se haya actualizado, envíelo directamente a Google, en lugar de esperar a que se rastree su sitio web.

La equidad de los enlaces no se puede transferir de las páginas bloqueadas a los destinos de los enlaces. Esto significa que los enlaces en páginas no permitidas se considerarán nofollow. Por lo tanto, algunos enlaces no se indexarán a menos que estén en otras páginas a las que puedan acceder los motores de búsqueda.

El archivo robots.txt no sustituye al bloqueo de los datos privados del usuario y otra información sensible para que no aparezcan en sus SERP. Como dije antes, las páginas no permitidas aún se pueden indexar. Por lo tanto, deberá asegurarse de que estas páginas estén protegidas con contraseña y de que utilicen una meta directiva sin índice.

Los mapas del sitio deben colocarse en la parte inferior de su archivo robots.txt.

 

Conclusión

Ese fue su curso intensivo sobre todo lo que necesita saber sobre los archivos robots.txt.

Sé que mucha de esta información es un poco técnica, pero no dejes que eso te intimide. Los conceptos básicos y las aplicaciones de su archivo robots.txt son bastante fáciles de entender.

Recuerde, esto no es algo que desee modificar con demasiada frecuencia. También es extremadamente importante que pruebe todo antes de guardar los cambios. Asegúrese de verificar todo dos y tres veces.

Un error podría hacer que un motor de búsqueda dejara de rastrear su sitio por completo. Esto sería devastador para su posición de SEO. Así que solo haga los cambios que sean absolutamente necesarios.

Cuando se optimiza correctamente, su sitio web será rastreado de manera eficiente por el presupuesto de rastreo de Google. Esto aumenta las posibilidades de que su contenido principal sea notado, indexado y clasificado en consecuencia.

 

Si esta interesado en esta u otras maquinarias tecnologias y no tiene el tiempo o los conocimientos para aplicarlas adecuadamente y de esa forma beneficiar a su negocio puede CONTACTARNOS , lo haremos por usted y si requiere servicios adicionales dele un vistazo a nuestros planes a continuación: 

 

Planes de Marketing digital

Planes de Desarrollo web

 

 

PUEDE BUSCAR MAS INFORMACIÓN RELEVANTE SOBRE EL TEMA JUSTO AQUI
Published in ACTUALIDAD MKT