Descubierta actualmente sin indexar

viernes, 7 de octubre de 2022

Introducción

Me interesé por este tema a raíz de que me está pasando con este blog. Actualmente tengola mayoría de mis páginas en el estado «Descubierta actualmente sin indexar»

Descubierta actualmente sin indexar en google Webmaster tools

Después de una semana, Google ya conoce algunas de las URL, pero no las ha indexado.

¿Problemas de calidad?

Después de leer mucha información por Internet, lo que entiendo es que, si tienes un sitio web pequeño (por debajo de las 10.000 páginas) con contenido de buena calidad, el estado «Descubierta actualmente sin indexar» se resolverá automáticamente después de que Google rastree las URL.

Si a pesar de esperar un tiempo, cada nueva página que se genere en el sitio web aparece en este estado, hay que evaluar la calidad del contenido, ya que podría ser que Google crea que no valga la pena indexarlo. Lo más confuso de este estado es que podemos creer que los problemas de calidad son de las páginas listadas como no indexadas y puede deberse al contenido total del sitio web.

1. Causas de este estado «Descubierta actualmente sin indexar»

– Servidor sobrecargado: Google ha encontrado dificultades para rastrear el blog porque estar sobrecargado de tráfico. No es mi caso, ya que tengo un servidor muy rápido y sin apenas tráfico. Tengo mi blog en un VPS con Docker y se sirve de forma estática. Puedes ver como tengo montado Docker a través de la siguiente guía para Instalar Docker en Ubuntu 20.04 e instalar Docker Compose en Ubuntu 20.04.

– Sobrecarga de contenido: El blog contiene mucho más contenido del que Google está dispuesto a rastrear en un determinado momento. Esto a veces tiene que ver con sitios web de páginas de categorías de productos, contenido generado automáticamente o contenido generado por el usuario que es muy grande. Se puede solucionar esto eliminando el contenido, haciendo de esta forma que el contenido sea más exclusivo. Si deseamos conservar ese contenido y que Google no lo indexe podemos modificar el archivo robots.txt, de esta forma se ignoraran esas páginas.

– Estructura de enlaces internos deficiente: Google no está encontrando la forma correcta de acceder al contenido que debe rastrear. Esto se puede solucionar mejorando la estructura de enlaces internos y añadiendo un «sitemap«.

– Mala calidad del contenido: Si después de evaluarlo con mucha crítica, consideramos que la calidad del contenido puede ser el motivo, podemos agregar más contenido que sea único y que agregue el valor que Google está buscando.

2. Diferencia entre rastreado, no indexado y descubierto

«Rastreado: actualmente no indexado» y «Descubierto: actualmente no indexado» son dos estados diferentes que pueden llegar a confundir.

La principal diferencia entre los dos es que en el estado «Rastreado: actualmente noindexado», Google rastreo el sitio web y decidió no indexarlo. Este no es mi caso.

Para «Descubierto: actualmente no indexado», Google encontró la página rastreando la estructura interna de los enlaces en páginas, pero decidió no rastrearla y, por lo tanto, no indexarla.

Esto significa que los sitios marcados como «Descubierto-Actualmente no indexado» son menos importantes para Google que los marcados como «Rastreado-Actualmente noindexado», que es mi caso. 🙁

Además, si los artículos estaban en la sección «Descubiertos» y se han realizado algunas actualizaciones en el contenido, es posible que vayan a la sección «Rastreados» antes de ser indexados.

3. ¿Cuánto tiempo se puede permanecer en estado «Descubierto – Actualmente no indexado» ?

Según Müeller, Senior Webmaster Trends Analyst de Google, puede ser para siempre 🙁

Müeller explica que esta situación es completamente normal en un sitio web en el que no se haya realizado todavía un rastreo completo. Especialmente es más frecuente con sitios web de nueva creación como el mío. Si el sitio web tiene mucho contenido, hay un proceso en el que debe descubrirse gran parte del contenido nuevo y que, por lo tanto, no se indexe durante cierto tiempo.

Y luego, con el tiempo, Google puede cambiar el ritmo de rastreo y empezar un proceso de indexación cuando considera que vale la pena centrarse más en el sitio web. Pero no está garantizado.

Lo que realmente sugiere es no esperar a que el contenido sea indexado, sino en continuar generando contenido. Es posible que un momento determinado Google considere que existe valor en el contenido actual y empiece a rastrearlo con más frecuencia.

4. ¿Cuánto tiempo puede durar el estado «descubierto – noindexado actualmente»?

Las URL que están en estado «Descubierto: actualmente no indexadas», es posible que no necesiten ninguna modificación.

Específicamente, no se debe tomar ninguna acción en los siguientes casos:

El número de URL afectadas es pequeño y constante a lo largo del tiempo.
El informe incluye las URL que no deben ser indexadas, como las que estén con etiquetas canónicas o «noindex».
Aquellas que tienen el rastreo bloqueado en el archivo robots.txt.

Sin embargo, sigue siendo importante controlar este estado.

Si el número de URL aumenta, o si dentro de esta lista hay URL que queremos indexar para obtener tráfico orgánico, debemos prestarles atención.

Un aspecto importante que podría ocurrir es que durante una actualización en el índice de Google, un sitio web que está completamente indexado, pase a tener la mayoría de sus URL desindexadas y en estado «Descubierto-Actualmente no indexado«. Esto puede deberse aque Google ha actualizado su algoritmo y empieza a considerar el sitio web como spam.

5. ¿Qué sugiere John Müeller para solucionar el problema?

Las recomendaciones de John se centran en tres pasos principales:

Primero se debería verificar si no se están generando direcciones URL por error con diferentes patrones, como por ejemplo URL con parámetros en mayúsculas y minúscula sque puedan conducir a Google a considerarlas como contenido duplicado. Si Google encuentra varias de estas URL duplicadas, el buscador llega a la conclusión que no necesita rastrearlas todas, ya que ya tiene en su índice alguna variación de esta página.

A continuación, hay que asegurarse de que todo está correcto en lo que se refiere a una política correcta de enlaces internos para que Google pueda encontrar todas las páginas del sitio web. Múeller recomienda herramientas de rastreo como Screaming Frog o Lumar.

Estas herramientas generan informes que notifican si se puede rastrear correctamente un sitio web mostrando los problemas encontrados durante el proceso.

En el caso de que el rastreo tenga éxito, Google priorizará la calidad de estas páginas. Si el sitio web tiene 20 millones de páginas y el 99 por ciento de ellas no están indexadas, Google indexará una parte muy pequeña.

Un contenido de más calidad en las páginas que tienen problemas puede acelerar el proceso de que Google empiece a indexarlas correctamente.

fuente: John Müller

6. Conclusión

La calidad del contenido de la página y la falta de rastreo por parte de Google conlleva al estado «Descubierta actualmente sin indexar«.

Para resolver este problema y ayudar a Google a rastrear un sitio web de forma más rápida y precisa, hay que mejorar las páginas y más específicamente su contenido.

Por lo general, no existe una solución rápida para indexar las páginas; sin embargo, mejorar el SEO de estas páginas puede ayudar a tener una mayor probabilidad de que la página sea indexada.

Es evidente que Google quiere asegurarse de que solo indexa contenido de calidad. Esto es especialmente complicado para sitios web que sean nuevos.

Actualización: Enero 2023

Google ya está indexando las páginas de mi blog de forma normal 🙂

Actualización: 11/05/2024

En el último update de Google (04/2024) muchos sitios Webs hemos empezado a experimentar como Google tarda en rastrear e indexar el nuevo contenido.

En algunos casos podría tardar meses en indexar todas las páginas, por ese motivo incluyo el siguiente enlace que explica el uso de la Index API de Google para indexar páginas más rápido.

En mi blog ha funcionado y en el plazo de 1 día ya tengo el nuevo contenido en el índice. 😌

El enlace donde se explica de forma detallada el uso de esta API es:

Get Your Website Crawled Immediately by Google Using Their NEW Indexing API