Generación robots.txt para SEO

    Un archivo robots.txt indica a los rastreadores de los buscadores a qué URLs de tu sitio pueden acceder. Principalmente, se utiliza para evitar que las solicitudes que recibe tu sitio lo sobrecarguen; no es un mecanismo para impedir que una página web aparezca en Google, pero si que lo indexe.

    Si quieres que una página web no aparezca en Google, bloquea la indexación con noindex (ver más abajo) o mejor proteger la página con una contraseña.

    Para poder ver que nos está indexando Google, buscaremos lo siguiente: site:www.changeofhabit.com
    Los resultados que aparezcan son los que están indexados bajo el dominio indicado.

    Veamos un ejemplo de una URL que no queremos que se indexe:

    Para eliminar la URL, accederemos a Google Console (requiere activación, gratuita).
    Una vez tengamos acceso al dominio, accedemos a Indexación > Retirada de URLs > NUEVA SOLICITUD.

    En unas horas, el link quedará eliminado.

    Ahora, vamos a actualizar/crear un fichero para que la página, anteriormente eliminada no lo indexe. Para ello, en la raíz de nuestro dominio, por defecto en /var/www/html, en adelante crearemos un fichero llamado robots.txt con el siguiente contenido:


    User-agent: *
    Allow: /wp-admin/admin-ajax.php
    Disallow: /administrator/
    Disallow: /bin/
    Disallow: /cache/
    Disallow: /cli/
    Disallow: /components/
    Disallow: /includes/
    Disallow: /installation/
    Disallow: /language/
    Disallow: /layouts/
    Disallow: /libraries/
    Disallow: /logs/
    Disallow: /modules/
    Disallow: /plugins/
    Disallow: /tmp/
    Disallow: /wp-admin/
    Disallow: /cgi-bin
    Disallow: /wp-content/plugins/
    Disallow: /wp-content/themes/
    Disallow: /wp-includes/
    Disallow: /wp-json/
    Disallow: /comments/
    Disallow: /xmlrpc.php
    Disallow: /author/
    Disallow: /page/

    La configuración anterior, está creada específicamente para entradas de WordPress. Perfectamente adaptable a cualquier otro entorno y/o situación.

    También es posible añadir en el área de la cabecera <head> de la página el siguiente código:

    <meta name="robots" content="noindex">

    Links informativos:

    Leave a Reply

    Your email address will not be published. Required fields are marked *