Un archivo robots.txt indica a los rastreadores de los buscadores a qué URLs de tu sitio pueden acceder. Principalmente, se utiliza para evitar que las solicitudes que recibe tu sitio lo sobrecarguen; no es un mecanismo para impedir que una página web aparezca en Google, pero si que lo indexe.
Si quieres que una página web no aparezca en Google, bloquea la indexación con noindex (ver más abajo) o mejor proteger la página con una contraseña.
Para poder ver que nos está indexando Google, buscaremos lo siguiente: site:www.changeofhabit.com
Los resultados que aparezcan son los que están indexados bajo el dominio indicado.
Veamos un ejemplo de una URL que no queremos que se indexe:
Para eliminar la URL, accederemos a Google Console (requiere activación, gratuita).
Una vez tengamos acceso al dominio, accedemos a Indexación > Retirada de URLs > NUEVA SOLICITUD.
En unas horas, el link quedará eliminado.
Ahora, vamos a actualizar/crear un fichero para que la página, anteriormente eliminada no lo indexe. Para ello, en la raíz de nuestro dominio, por defecto en /var/www/html, en adelante crearemos un fichero llamado robots.txt con el siguiente contenido:
User-agent: *
Allow: /wp-admin/admin-ajax.php
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/
Disallow: /wp-admin/
Disallow: /cgi-bin
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/
Disallow: /wp-json/
Disallow: /comments/
Disallow: /xmlrpc.php
Disallow: /author/
Disallow: /page/
La configuración anterior, está creada específicamente para entradas de WordPress. Perfectamente adaptable a cualquier otro entorno y/o situación.
También es posible añadir en el área de la cabecera <head> de la página el siguiente código:
<meta name="robots" content="noindex">
Links informativos: