Solución de problemas de auditoría del sitio

¿No funciona correctamente Auditoría del sitio?

Hay varias razones por las que las páginas pueden quedar bloqueadas para el rastreador de Auditoría del sitio en función de la configuración y estructura de tu sitio web, entre ellas:

Robots.txt bloquea el rastreo
El alcance del rastreo excluye ciertas partes del sitio
El sitio web no está directamente en línea debido al alojamiento compartido
Las páginas están detrás de una pasarela / área base de usuarios del sitio
Rastreador bloqueado por etiqueta noindex
No se ha podido resolver el dominio mediante DNS - el dominio introducido en la configuración está desconectado
Contenido del sitio web basado en JavaScript: aunque la Auditoría del Sitio puede procesar código JS, éste puede ser la causa de algunos de los problemas

Pasos para solucionar problemas

Sigue estos pasos de solución de problemas para ver si puedes hacer algún ajuste por tu cuenta antes de ponerte en contacto con nuestro equipo de asistencia para que te ayude.

Comprueba si en tu Robots.txt hay comandos Disallow

Un archivo Robots.txt da instrucciones a los robots sobre cómo rastrear (o no rastrear) las páginas de un sitio web. Puedes permitir y prohibir que robots como Googlebot o Semrushbot rastreen todo tu sitio o áreas específicas del mismo utilizando comandos como Permitir, No permitir y Retraso del rastreo.

Si tu archivo robots.txt impide que nuestro robot rastree tu sitio, nuestra herramienta de auditoría de sitios no podrá revisarlo.

Puedes inspeccionar tu Robots.txt en busca de comandos disallow que impidan a rastreadores como el nuestro acceder a tu sitio web.

Para permitir que el bot de Auditoría del sitio de Semrush (SiteAuditBot) rastree tu sitio, añade lo siguiente a tu archivo robots.txt:

User-agent: SiteAuditBot

Disallow:

(deja un espacio en blanco después de "Disallow:")

Aquí tienes un ejemplo de cómo puede ser un archivo robots.txt:

Lista de directivas allow y disallow en un archivo robots.txt de ejemplo. Las directivas disallow se resaltan en rojo, y las allow, en verde claro. También hay instrucciones adicionales a la derecha de la captura de pantalla: No permitir = instrucción para que los robots NO rastreen esta zona del sitio (en rojo), Permitir = instrucción para que los robots rastreen esta zona del sitio (en verde).

Observa los distintos comandos en función del agente de usuario (rastreador) al que se dirige el archivo.

Estos archivos son públicos y para que puedan encontrarse deben estar alojados en el nivel superior de un sitio. Para encontrar el archivo robots.txt de un sitio web, introduce en tu navegador el dominio raíz de un sitio seguido de /robots.txt. Por ejemplo, el archivo robots.txt de Semrush.com se encuentra en https://semrush.com/robots.txt.

Algunos términos que puedes ver en un archivo robots.txt incluyen:

User-Agent = el rastreador web al que estás dando instrucciones.
- Ej: SiteAuditBot, Googlebot
Permitir = un comando (sólo para Googlebot) que indica al robot que puede rastrear una página o área específica de un sitio, incluso si la página o carpeta principal se excluye del rastreo.
Disallow = un comando que indica al bot que no rastree una URL o subcarpeta específica de un sitio.
- Ej: Disallow: /admin/
Retraso de rastreo = un comando que indica a los robots cuántos segundos deben esperar antes de cargar y rastrear otra página.
Mapa del sitio = indica dónde está el archivo sitemap.xml de una URL determinada.
/ = utiliza el símbolo "/" después de un comando disallow para indicar al bot que no rastree la totalidad de tu sitio web
* = un símbolo comodín que representa cualquier cadena de caracteres posibles en una URL, utilizado para indicar un área de un sitio o todos los agentes de usuario.
- Ej: Disallow: /blog/* indicaría todas las URL de la subcarpeta blog de un sitio
- Ej: Agente de usuario: * indicaría instrucciones para todos los bots

Más información sobre las especificaciones de Robots.txt en Google o en el blog de Semrush.

Elimina las etiquetas restrictivas de tu sitio

Si ves el siguiente código en la página principal de un sitio web, nos indica que no se nos permite indexar/seguir enlaces en él, y nuestro acceso está bloqueado.

<meta name="robots" content="noindex, nofollow" >

O bien, una página que contenga al menos uno de los siguientes elementos "noindex", "nofollow", "none", provocará el error de rastreo.

Para permitir que nuestro bot rastree dicha página, elimina estas etiquetas "noindex" del código de tu página. Para más información sobre la etiqueta noindex, consulta este artículo de soporte de Google.

Añadir SemrushBot a la lista blanca

Para incluir al bot en la lista blanca, ponte en contacto con tu webmaster o proveedor de alojamiento y pídele que incluya a SiteAuditBot en la lista blanca.

Las direcciones IP del bot son 85.208.98.128/25(una subred utilizada sólo por Site Audit)

El bot utiliza los puertos estándar 80 HTTP y 443 HTTPS para conectarse.

Si utilizas plugins (Wordpress, por ejemplo) o CDN (redes de distribución de contenidos) para gestionar tu sitio, también tendrás que incluir la IP del bot en ellos.

Para crear listas blancas en Wordpress, ponte en contacto con soporte de Wordpress.

Entre las CDN habituales que bloquean nuestro rastreador se incluyen:

Cloudflare - descubre cómo añadirlo a la lista blanca aquí
Imperva - descubre cómo añadirlo a la lista blanca aquí
ModSecurity - descubre cómo añadirlo a la lista blanca aquí
Sucuri - descubre cómo añadirlo a la lista blanca aquí

Nota: Si tienes un alojamiento compartido, es posible que tu proveedor de alojamiento no te permita incluir robots en la lista blanca ni editar el archivo Robots.txt.

Proveedores de alojamiento

A continuación encontrarás una lista de algunos de los proveedores de alojamiento más populares de la red y cómo poner un bot en la lista blanca de cada uno de ellos o contactar con su equipo de soporte para obtener ayuda:

Siteground - instrucciones para listas blancas
1&1 IONOS - instrucciones para listas blancas
Bluehost* - instrucciones para listas blancas
Hostgator* - instrucciones para listas blancas
Hostinger - instrucciones para listas blancas
GoDaddy - instrucciones para listas blancas
GreenGeeks - instrucciones para listas blancas
Big Commerce - Debes ponerte en contacto con soporte
Liquid Web - Debes ponerte en contacto con soporte
iPage - Debes ponerte en contacto con soporte
InMotion - Debes ponerte en contacto con soporte
Glowhost - Debes ponerte en contacto con soporte
A2 Hosting - Debes ponerte en contacto con soporte
DreamHost - Debes ponerte en contacto con soporte

* Nota: estas instrucciones funcionan para HostGator y Bluehost si tienes un sitio web en el VPS o hosting correspondiente.

Comprobar los límites de la cuenta

Para ver cuánto se ha utilizado de tu presupuesto de rastreo actual, ve a Perfil - Información de suscripción y busca "Páginas por rastrear" en "Mi plan".

Dependiendo de tu nivel de suscripción, tienes un número determinado de páginas que puedes rastrear al mes (presupuesto mensual de rastreo). Si superas el número de páginas permitidas en tu suscripción, tendrás que comprar límites adicionales o esperar hasta el mes siguiente, cuando se refresquen tus límites.

Si ves el error "Has alcanzado el límite de campañas ejecutadas simultáneamente" durante la configuración, ten en cuenta que los distintos niveles de suscripción tienen límites diferentes para las auditorías simultáneas:

Gratuito: 1
Pro: 2
Guru: 2
Business: 5

Redirecciones adecuadas (para problemas de DNS)

Si el dominio no pudo resolverse mediante DNS, probablemente significa que el dominio que introdujiste durante la configuración está desconectado. Normalmente los usuarios tienen este problema cuando introducen un dominio raíz (ejemplo.com) sin darse cuenta de que la versión del dominio raíz de su sitio no existe y que en su lugar habría que introducir la versión WWW de su sitio (www.example.com).

Para evitar este problema, el propietario del sitio web podría añadir una redirección desde el "ejemplo.com" no seguro al "www.ejemplo.com" seguro que existe en el servidor. Este problema también podría ocurrir al revés si el dominio raíz de alguien está protegido, pero su versión WWW no lo está. En tal caso, sólo tendrías que redirigir la versión WWW al dominio raíz.

Problemas relacionados con JavaScript

Si tu página de inicio tiene enlaces al resto de tu sitio ocultos en elementos JavaScript, tienes que activar el renderizado JS, para que podamos leerlos y rastrear esas páginas. Esta función está disponible en los planes de suscripción Guru y Business.

Una demostración sobre dónde activar el renderizado de JavaScript en los ajustes de Auditoría del Sitio. Los elementos resaltados muestran la pestaña y la sección de ajustes correctas.

Para no pasar por alto las páginas más importantes de tu sitio web con nuestro rastreo, puedes cambiar la fuente del rastreo de sitio web a mapa del sitio: de esta forma, los rastreadores no pasarán por alto ninguna página difícil de encontrar en el sitio web de forma natural durante la auditoría.

Demostración sobre dónde encontrar la configuración de la Fuente de rastreo en la Auditoría del Sitio. El menú desplegable aparece resaltado y presenta todas las opciones de fuente de rastreo disponibles.

También podemos rastrear el HTML de una página con algunos elementos JS y revisar los parámetros de tus archivos JS y CSS con nuestras comprobaciones de rendimiento.

Cambiar el Agente de Usuario

Puede que tu sitio web esté bloqueando el SemrushBot en tu archivo robots.txt. Puedes cambiar el Agente de Usuario de SemrushBot a GoogleBot, y es probable que tu sitio web permita el rastreo del Agente de Usuario de Google. Para hacer este cambio, busca la rueda de ajustes en tu Proyecto y selecciona Agente de Usuario.

Evitar Disallow en Robots.txt

Si se utiliza esta opción, no se activarán los recursos internos bloqueados ni las páginas bloqueadas en las comprobaciones de rastreo. Ten en cuenta que, para utilizarlo, habrá que verificar la propiedad del sitio.

Esto es útil para los sitios que están actualmente en mantenimiento. También es útil cuando el propietario del sitio no quiere modificar el archivo robots.txt.

Rastrear con tus credenciales

Para auditar áreas privadas de tu sitio web que estén protegidas por contraseña, introduce tus credenciales en la opción "Rastreo con tus credenciales", en el engranaje de configuración.

Esto es muy recomendable para sitios aún en desarrollo o que sean privados y estén totalmente protegidos por contraseña.

Cambiar la configuración del rastreador

"La configuración del rastreador ha cambiado desde tu anterior auditoría. Esto podría afectar a los resultados de tu auditoría actual y al número de problemas detectados."

Esta notificación aparece en Auditoría del sitio después de actualizar cualquier opción de configuración y volver a ejecutar la auditoría. Esto no es un indicador de un problema, sino más bien un aviso de que si los resultados del rastreo han cambiado inesperadamente, esta es una razón probable para ello.

Consulta nuestro post sobre los Mayores errores SEO que afectan a los sitios web.

Semrush

Conocimiento

Solución de problemas de auditoría del sitio

Pasos para solucionar problemas

Proveedores de alojamiento

Preguntas frecuentes

Manual

Flujos de trabajo