Les sitemaps sont des pages spéciales de votre site internet dont la mission est d’informer les moteurs de recherche de toutes les pages existantes sur votre site internet.
C’est une cartographie complète de toutes les URL indexables présentes sur votre site internet.
En général, un sitemap est au format XML, et non pas HTML (bien que ça soit aussi possible).
Pour vérifier que vous disposez d’un sitemap, vous pouvez essayer d’ajouter sitemap.xml
après votre site internet, par exemple : https://www.exemple.com/sitemap.xml
Les sitemaps sont une composante indispensable d’un site internet lorsque vous voulez optimiser votre stratégie SEO. C’est d’ailleurs pour cette raison qu’on y consacre un chapitre dans notre article sur les fondamentaux en SEO.
Sommaire
Qu’est-ce que c’est qu’un sitemap ?
Les sitemaps sont des plans de l’ensemble de votre site qui permettent aux moteurs de recherche de trouver plus facilement vos pages et en utilisant un minimum de ressource.
Il existe 4 catégories de sitemaps :
- Les sitemaps XML normaux. C’est ce qui va correspondre à la majorité des sites internet. Ils indiquent les pages ainsi que les images qu’elles contiennent et les traductions éventuelles.
- Les sitemaps Image. Ils sont réservés aux images hébergées sur votre site.
- Les sitemaps News. Il s’agit de sitemaps réservés aux contenus validés pour Google Actualités.
- Les Sitemaps Videos. C’est un format spécifique aux sites de vidéos qui permet à Google de trouver vos formats vidéos et les informations qui leur sont associés.
À moins d’avoir une banque d’image (comme Pexels, Pinterest, etc.), les sitemaps images sont assez peu utiles et on préférera plutôt inclure les images directement au moment d’inclure nos URL dans un sitemap traditionnel.
Les conventions pour le SEO
On vient de le dire, un sitemap permet d’indiquer facilement les pages à indexer pour les moteurs de recherche.
Cette information est capitale parce qu’elle vous indique la mentalité à avoir avec cet élément fondamental de votre optimisation technique : vous devez faciliter la vie aux moteurs de recherche.
On considère plusieurs bonnes pratiques pour les sitemaps :
- Un sitemap ne doit pas dépasser 50000 URL. Si tel est le cas, décomposez-le plutôt en plusieurs sitemap.
- Placez votre sitemap à l’url suivante :
https://www.exemple.com/sitemap.xml
(vous pouvez également effectuer une redirection 301 de cette URL vers une différente). - Lorsque vous avez plusieurs plan de site, utilisez le sitemap à la racine (celui à /sitemap.xml) pour indiquer tous vos sitemaps. Googlebot se débrouillera tout seul pour tous les explorer.
- Il est intéressant de distinguer les types de publication dans des sitemaps différents : produits, articles de blog, catégories, etc.
- Indiquez l’URL de tous votre sitemap dans le fichier robots.txt
- N’incluez pas les éléments qui sont ignorés par les explorateurs :
<priority>
et<changefreq>
par exemple.
Ce ne sont que des recommandations, vous ne risquez pas de pénalités à ne pas les suivre.
Cela dit, ça ne coûte pas grand chose à mettre en place et ça peut vous bénéficier énormément sur un site avec des dizaines de milliers de pages.
Voici par exemple à quoi ressemble notre sitemap :
Si vous avez tout bien suivi, vous devriez avoir plusieurs interrogations :
Pourquoi vous utilisez une URL différente de celle recommandée ?
Puisqu’on ne liste pas toutes les pages dans notre fichier XML, mais plutôt la liste de tous nos fichiers XML, on utilise une URL différente.
Bien entendu, visiter /sitemap.xml vous redirige vers cette page, donc aucun problème pour les moteurs de recherche. L’important, c’est de mettre cette redirection en place avec un code 301 et d’indiquer l’URL définitive dans votre fichier robots.txt.
Du coup toutes ces URL dans le tableau, c’est des plan de site indépendant ?
Oui, chacun de ces liens pointe vers un sitemap indépendant qui se concentre sur un seul type de publication. Par exemple dans le post-sitemap.xml, vous retrouverez cet article, alors que dans services-sitemap.xml, vous ne retrouverez que nos landings pages sur nos services.
Cette organisation permet à Google de ne visiter que les sitemaps qui ont été récemment mis à jour (à droite, par exemple, vous pouvez voir les dates de mises à jour). On optimise notre Crawl Budget en procédant ainsi.
Ça ressemble à une page internet tout ce qu’il y a de plus normal, c’est quoi cette histoire de XML alors ?
l’XML est un langage de balisage tout comme le HTML et, il est également possible de le styliser, comme vous pouvez le voir ainsi.
La différence, c’est que Google bot va ignorer les fichiers de style et ne télécharger que le fichier XML. Ainsi, tout ce que vous voyez sur ma capture d’écran lui est parfaitement invisible, il ne lit que le fichier XML.
Également, les fichiers XML sont beaucoup plus légers que les fichiers HTML par défaut puisqu’il y a moins de noeuds de base.
Anatomie des sitemaps XML
Comme la plupart d’entre vous ne seront concernés que par le premier type de plan de site, voici à quoi ça ressemble :
<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="//www.olympe-studio.xyz/main-sitemap.xsl"?>
<urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:image="http://www.google.com/schemas/sitemap-image/1.1" xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd http://www.google.com/schemas/sitemap-image/1.1 http://www.google.com/schemas/sitemap-image/1.1/sitemap-image.xsd" xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://www.olympe-studio.xyz/fr/blog/seo/comment-creer-un-cocon-semantiques-ou-silo-virtuel/</loc>
<lastmod>2023-10-24T16:28:10+00:00</lastmod>
<image:image>
<image:loc>/content/uploads/cocon-semantique-silo-virtuel-seo.jpg</image:loc>
</image:image>
<image:image>
<image:loc>/content/uploads/serp-truffade-aligot.png</image:loc>
</image:image>
</url>
<!-- Plan du site ... -->
</urlset>
Les sitemaps ne sont pas écrits en HTML comme la plupart des pages internet mais en XML.
Le XML est un langage de balisage, tout comme l’HTML, mais il permet ici principalement de formater des données selon les conventions mises en place par Google.
Un sitemap se décompose en plusieurs balises :
<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="//www.olympe-studio.xyz/main-sitemap.xsl"?>
<urlset xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:image="http://www.google.com/schemas/sitemap-image/1.1" xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd http://www.google.com/schemas/sitemap-image/1.1 http://www.google.com/schemas/sitemap-image/1.1/sitemap-image.xsd" xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<!-- Plan du site ... -->
</urlset>
En premier lieu, on trouve les éléments constituant :
- L’entête XML (
<?xml ... />
), qui permet de configurer votre fichier. - L’entête du sitemap avec la balise
<urlset>
.
Ces éléments permettent d’indiquer aux robots des moteurs de recherche quelles conventions de sitemap vont être appliquées. Elles permettent aux robots d’anticiper les balises qu’ils peuvent y trouver ainsi que leurs attributs.
L’important, c’est ce que l’on va retrouver entre les balises <urlset>
:
<url>
<loc>https://www.olympe-studio.xyz/fr/blog/seo/comment-creer-un-cocon-semantiques-ou-silo-virtuel/</loc>
<lastmod>2023-10-24T16:28:10+00:00</lastmod>
<image:image>
<image:loc>https://www.olympe-studio.xyz/content/uploads/cocon-semantique-silo-virtuel-seo.jpg</image:loc>
</image:image>
<image:image>
<image:loc>https://www.olympe-studio.xyz/content/uploads/serp-truffade-aligot.png</image:loc>
</image:image>
</url>
Chaque URL de votre site doit se trouver entre les balises <url></url>
.
Vous indiquerez l’URL de votre page entre les balises <loc></loc>
.
Avec les balises <lastmod>
, vous indiquerez la date de la dernière mise à jour de votre page. (Google ignore cette balise dans certains cas, mais ce n’est pas le cas de tous les moteurs de recherche).
Les balises suivantes permettent de lister les images dans votre contenu afin que Google les indexes également dans Google Image.
petite précision ici, il est très important d’utiliser des URL absolues dans un sitemap, évitez les URL relatives. (les URL absolues incluent https://www.olympe-studio.xyz/
au début, une URL relative commence par un /
)
Pour les images, on fonctionne comme pour les URL mais on modifie le nom des balises :
<url></url>
devient =><image:image></image:image>
<loc></loc>
devient =><image:loc></image:loc>
<lastmod>
est ignorée.
Et …
C’est tout, rien de plus à ajouter.
Simple comme bonjour n’est-ce pas ?
Oui, enfin, pour un développeur !
Pas de panique. Les sitemaps XML sont tellement récurrent que vous n’avez pas besoin de toutes ces histoires de balises pour vous en sortir.
Mettre en place un Sitemap
On vient de le voir, le XML est un langage de balisage et ce n’est pas à la portée de tout le monde de mettre en place tout ça, surtout sur un site dynamique.
Heureusement, énormément de logiciels de gestion de contenu (CMS) incluent des générateurs de plan de site.
Si vous lisez cet article et que vous avez déjà votre propre site internet, il y a fort de fortes probabilités que vous utilisiez WordPress ou Shopify.
Je vais vous montrer comment procéder pour réaliser l’installation sur ces deux CMS, mais pas de panique si vous en utilisez un autre, il y a forcément un plugin qui vous permettra de faire la même chose.
Commençons avec WordPress.
Comment générer un plan avec WordPress ?
Sous WordPress, c’est vraiment très simple de réaliser cette installation. Pour ce faire vous devrez installer un des plugins SEO proposé par la communauté :
- YoastSEO
- Rankmath SEO,
- AIOSEO
- etc.
Le plugin que vous choisissez a peu d’importance, tous proposent à peu près les mêmes fonctionnalités, sitemap inclus.
Nous allons vous montrer comment faire de votre côté. Rendez-vous sur votre administration (https://www.exemple.com/wp-admin/).
Une fois sur l’administration, rendez-vous sur la page qui gère les extensions :
Si vous n’avez pas de site Olympe Studio (🙁), vous devriez plutôt avoir une interface qui ressemble à ça :
Cliquez sur « Plugins » ou « Extensions ». Vous devriez arriver sur une page qui liste vos extensions. En haut à gauche vous devriez voir un bouton « Add new » ou « Ajouter une extension ».
Cliquez dessus, puis, en haut à droite, dans la barre de recherche, tapez « yoast » :
Une fois installé, cliquez sur « Activer » pour lancer le plugin sur votre site.
Yoast vous proposera une page de configuration. suivez les instructions une à une et puis …
C’est bon. Vous avez un sitemap sur votre site internet.
Comment installer un sitemap avec Shopify ?
Sous Shopify, c’est encore plus simple, puisque les sitemaps sont par défaut générés par le CMS.
Sympas n’est-ce pas ?
Cependant, sachez tout de même que Yoast est également disponible sur Shopify, et que c’est un excellent outil pour gérer vos tâches SEO au quotidien, alors ne vous en privez pas !
Vous pouvez l’installer en vous rendant sur la page de l’application dans l’app store.
Soumettre son Sitemap à Google
Ok,
On a un sitemap, il est fonctionnel, mais maintenant quoi ?
En fait, vous pourriez tout à fait vous arrêter là. Google finira tout seul par explorer votre site internet et tombera sur votre sitemap.
Cependant, vous pouvez rendre l’accès à vos fichiers XML bien plus simples et accélérer le processus d’exploration de vos pages.
Indiquer son Sitemap dans le robots.txt
Le fichier robots.txt donne des instructions aux robots qui crawlent votre site.
Il se trouve systématiquement sur l’URL suivante : https://www.exemple.com/robots.txt
Il est probable que vous ne voyiez rien de votre côté, cela signifie que ce fichier est absent sur votre serveur web.
Si vous avez suivi notre guide pour installer votre sitemap avec Yoast SEO, vous avez normalement un fichier robots.txt et l’extension vous proposera un espace pour l’éditer depuis votre espace administratif.
Vous devrez ajouter la ligne suivante à ce fichier :
Sitemap: https://www.exemple.com/sitemap_index.xml
Cette information permet à tous les robots qui vont parcourir votre site de connaitre l’URL de votre plan.
Indiquer son Sitemap dans la Search Console
Google met à disposition un outil pour monitorer l’exploration de votre site internet : la Search Console.
Sur cet outil, vous disposez d’un espace dédié qui vous permettra d’inscrire les URL de tous vos sitemaps :
Placez ici vos URL une par une : la racine de vos sitemaps, mais aussi tous vos sous-sitemaps, c’est important de tous les mettre.
Une fois fait, vous devriez voir ceci après un court délai :
À noté que, je vous ai fait la démonstration pour Google, mais Bing et d’autres moteurs de recherche disposent également d’un outil similaire où vous pourrez également renseigner ces éléments.
Faites-le, même si ça peut paraître dérisoire au vu des parts de marché, c’est toujours ça de gagné, et ce n’est pas le temps que ça vous prendra !
Je vous ai fait la démonstration pour Google, mais Bing et d’autres moteurs de recherche disposent également d’un outil similaire (Bing Webmaster Tool) où vous pourrez également renseigner ces éléments.
Faites-le, même si ça peut paraître dérisoire au vu des parts de marché, c’est toujours ça de gagné, et ce n’est pas le temps que ça vous prendra !
Les utilisations pour le référenceur
Il n’y a pas que Googlebot qui peut se servir d’un plan de site.
Vous aussi, en tant que référenceur, vous avez de multiples usages à faire de ces pages.
Identifier les problèmes d’indexation
Un usage intéressant des sitemaps c’est qu’il vous donne une idée plus ou moins réaliste du :
- Nombre de pages qui SONT indexées sur votre site,
- Nombre de pages que vous VOULEZ indexer.
Par exemple, si vous naviguez sur votre page sitemap.xml et qu’elle vous renvoie 250 pages et que, la search console vous indique que seulement 100 de ces pages sont indexées, c’est signe que quelque chose se passe mal.
Bien sûr il pourrait ne s’agir que du délai réglementaire d’indexation, si par exemple vous avez publié 150 pages au court des dernières 24 heures.
Cela dit, vous pourriez tout aussi bien faire face à un problème de Crawl Budget ou de contenu dupliqué.
À vous d’investiguer !
robots.txt et sitemap, même combat !
Le fichier robots.txt permet d’exclure des pages de l’exploration. Il n’est pas rare de vouloir empêcher les moteurs de rechercher d’indexer certaines pages.
C’est pour ça qu’il est important que vos fichiers sitemap.xml et robots.txt gardent une cohérence entre vos deux fichiers.
Vous ne VOULEZ PAS inclure des pages dans votre sitemap que vous excluez dans votre robots.txt
Il en est d’ailleurs de même pour les pages qui comportent une balise <meta>
noindex ou une URL canonique différente de l’URL actuelle :
<!-- Cette balise indique de ne pas indexer cette page. -->
<meta name="robots" content="noindex, follow">
<!-- Cette balise indique d'indexer la valeur de href plutôt que cette page -->
<link rel="canonical" href="https://www.olympe-studio.xyz/fr/">
Si vous ne voulez pas indexer une page, ne l’incluez pas dans votre sitemap !
Étudier la concurrence
Ce qui est bien avec les conventions, c’est qu’elles sont prédictibles.
Ainsi, si vous devez créer une URL .../sitemap.xml
pour y placer un fichier XML qui répond à des normes, et bien …
Ce sera également le cas pour tous vos concurrents.
Explorer le sitemap de vos concurrents, c’est souvent l’occasion d’en apprendre plus sur leurs stratégies SEO, en particulier leur stratégie de mot clé.
Si vous êtes un peu feignant, ou que vous ne savez pas trop quoi faire, copiez ceux qui surperforment dans votre branche !
Les pages à exclure
On vient de le dire, mais vous ne voulez pas inclure toutes les pages de votre site dans votre sitemap.
Ça peut être pour une multitude de raisons, en voici quelques-unes :
- Votre page est une duplication d’une autre page de votre site (une page de résultat de recherche par exemple),
- Vos pages non canoniques (celles qui présentent une balise canonique d’une URL différente),
- Vos pages avec une balise
noindex
, - Vos pages qui effectuent des redirections (status HTTP 3XX),
- Vos pages manquantes (status HTTP 4XX),
- Vos pages avec des erreurs (status HTTP 5XX),
- Vos pages de pagination,
- Vos pages d’archives / brouillons / privées,
- Vos pages de connexions / inscription, etc.
- Les pages qui incluent du contenu spécifique à l’utilisateur connecté (panier e-commerce, etc.)
Bien-sûr, il existe d’autres raisons qui peuvent être propres à un site en particulier.
Conclusion
Les sitemaps sont des composants essentiels de votre mise en place technique en SEO. Ils doivent répondre aux conventions des moteurs de recherche et lister les pages que vous souhaitez indexer.
Utilisez les extensions SEO qui vous permettent de générer des sitemaps dynamiquement à partir de votre base de donnée.
Ce sont des outils fiables et éprouvés, il n’y a aucun risque à les utiliser.
Utilisez également ces outils pour générer un fichier robots.txt
et y inclure l’URL de votre plan de site.
En complément, vous pouvez utiliser la Search Console (ou Bing Webmaster Tool) pour indiquer l’URL de votre sitemap.
Et enfin, parce que c’est aussi important, utilisez les sitemaps dans votre quotidien pour travailler plus efficacement en SEO !
Aller plus loin
Google a mis en place son propre guide, bien plus détaillé et technique que celui-ci, pour Créer et envoyer un sitemap. N’hésitez pas à le consulter pour aller plus loin.