Le fichier robots.txt pour donner des consignes à Google

Le secteur du marketing, Ranger France

Le fichier robots.txt est toujours positionné à la racine d’un site web et est donc accessible à l’adresse suivant : https://www.monsite.com/robots.txt. Chaque sous- domaine possède son propre fichier robots.txt.
L’immense majorité des sites web dispose d’un fichier  robots.txt. tapez le nom de domaine de votre choix suivi de /robots.txt et vous pourrez le vérifier par vous-même :
https://parlonsdigital.fr/page-sitemap.xml
Le fichier robots.txt peut s’adresser à tous les robots d’indexation ou à l’une d’entre eux en Particulier . Il peut par exemple simplement demander à Googlebot de ne pas indexer un Site , mais autoriser les autres robots à le faire .Il peut interdire l’indexation d’une seule URL , de toutes les URL associées à un répertoire ou comprenant une certaine séquence de caractères .  Un fichier robots.txt accueille une instruction par ligne et commence toujours par la désignation des robots d’indexations concernés :
    – User-agent :*(tous les robots d’indexation)
    – User-agent : Googlebot (uniquement Googlebot) ;
    – User-agent : Googlebot-image (uniquement Googlebot pour les images)
    – User-agent : bingbot ( uniquement le robot de bing).

La directive permet de bloquer l’indexation de certains contenus :
- Disallow:/ (toutes les URL du site sont bloquées,à utiliser avec préparation )
    – Disallow:/repertoire-a/ ( toutes les URL de ce répertoire sont bloquées ) ;
    – Disalloiw:/page-a.html (seul cette URL est bloquée ) ;
    – Disallow:/seo*  ( toute les URL des répertoires commençant par SEO sont bloquées ).

Vous pouvez aussi autoriser certaines URL grace à la directive allaw :
- Allow:/repertoire-a/fichier.html (URL autorisée ,meme si le répertoire A est bloqué)

 

Les fichiers Robots.txt : exemples et cas pratiques

Vous vous sentez perdu ? pas de panique, nous allons présenter quelque exemples de fichiers robots.txt que nous allons décrypter ensemble .
A chaque fois qu’un robot d’indexation arrive sur votre site , il commence par se rendre à l’URL ou il s’attend à trouver votre robots.txt vous devez donc toujours vous assurer de la présence du fichier robots.txt, même s’il ne contient aucune instruction particulière . Vous devrez donc ajouter un fichier robots.txt par défaut .
La ligne User-agent :* signifie que nous nous adressons à tous les robots d’indexation, tandis que la ligne Allow:/ autorise l’indextion de l’ensemble des URL.

User-agent :*
Allow:/

Vous désirez bloquer l’ensemble du répertoire /admin/ sauf la page /admin/login.
html , car vous souhaitez que les internautes puissent y accéder depuis Google ?
la ligne <<Allow:/admin/login.html>> autorise les robots à indexer la page , meme si le répertoire /admin/ est bloqué par la ligne <<Disallow:/admin/>>

User-agent :*
Allow:/admin/login.html
Disallow:/admin/

 

Imaginons maintenant que vous souhaitez bloquer Googlebot tout en autorisant les autres robots. Vous donnerez des instructions spécifiques à Googlebot avant de vous adresser à tous les autres robots.

User-agent :Googlebot
Disallow:/

 

User-agent :*
Allow

Le fichier robots.txt offre de nombreuses autre possibilités comme les widcards, qui permettent entre autre d’empecher l’indexation de certains types de fichiers en fonction de leur extension : doc,jpg,pdf,etc ….  Si le sujet vous intéresse , vous trouverez l’ensemble de nombreuses ;ressources sur le site http://robots-txt.com/

 

Le fichier sitemap.xml pour indiquer les URL à indexer

Les robots d’indexation peinent à indexer vos contenus ? Vous pouvez leur soumettre un ou plusieurs sitemaps. Ce fichiers au format XML28 listent les URL que vous souhaitez indexer .Ils leur associent toute à une série d’information relative de URL au sein ou encore les différentes versions d’une page pour un site multilingue et/ou multirégional . Il est possible de lister  d’autre types de contenus dans les fichiers sitemap.xml , par exemple des image ou des vidéos .

STRUCUTURE DE BASE D’UN FICHIER SITEMAP.XML

<urlset xmlns= www.sitemaps.org/schemas/0.9>
<url>
<loc>https://parlonsdigital.fr/<loc>
<lastmod>2018-12-25/lastmod>
<changefreq>daily</changefreq>
</url>
<url>
<loc>https://parlonsdigital.fr/nos-services/parlons-prix/<loc>
<lastmod>2018-10-14</latmod>
<changefreq>monthly</changefreq>
<prority>0.7></priory>
</url>
</urlset>

 

Sachez que des sites web, des applications et ,des extensions permettent de créer facilement un sitemap.xlm. Vous pouvez utiliser https://www.xml-sitemap.com/ ou l’extention WordPress SEO par YOAST si vous possédés un site WordPress.

Vous pouvez facilement communiquer l’URL de vos sitemaps à Google :