728 x 90

L’indexation de la recherche Magento

L’indexation de la recherche Magento
Agir sur le nombre d'urls à indexer par les moteurs de recherche est une première étape importante de l'optimisation de votre positionnement.Johnny Fraisse, AlternWeb.

Une erreur fréquente lors du lancement d’une boutique en ligne consiste à ne pas vérifier les urls qui sont envoyées et indexées par Google.

L

a recherche Magento peut devenir un frein à l’optimisation de votre boutique. Des milliers d’urls peuvent être générées et indexées à tort par les moteurs de recherche. Nous avons tendance à croire que plus le nombre d’urls envoyé sera important et plus notre référencement et positionnement auront de change d’être en première page. En fait, c’est totalement faux et c’est même le contraire. Un site avec 10 urls – comprendre « pages » – de qualité aura plus de chance d’être correctement positionné qu’un autre site avec 12000 urls de mauvaise ou moyenne qualité.

Pourquoi la recherche Magento génère t’elle autant de résultats ?

En fait, chaque page de résultat va créer une url unique associée à une recherche. Il est très facile de vérifier si vous êtes concernés.

  • Parcourez votre site Magento, lancez une recherche avec un terme existant

  • Copiez l’url – par exemple https://www.palaisdesthes.com/fr/catalogsearch/result/?q=sasasa 

  • Ouvrez un nouvel onglet 

  • Saisissez : site:https://www.palaisdesthes.com/fr/catalogsearch/result/?q=sasasa dans la recherche Google

Si vous trouvez plus d’une dizaine de résultat, il est temps d’agir !


PRÉCAUTIONS

Attention, cet article date de 2012, il sera actualisé prochainement. Modifier le fichier robots.txt peut entrainer une chute du positionnement, du référencement et avoir un impact considérable sur votre commerce en ligne. Si vous n’êtes pas certain de ce que vous faites, n’hésitez pas faire appel à un consultant en web-marketing.


Optimiser l’indexation de la recherche Magento /Catalogsearch/

Exemple de l'URL de recherche sous Magento

Exemple de l’URL de recherche sous Magento

On remarque que Magento utilise la navigation par « dossier » pour sa structure d’url. À moins que celles-ci soient travaillées – termes populaires, pages personnalisée en fonction de la requête, landing pages – je vous conseille fortement, dans un premier temps, de bloquer l’indexation des pages de résultats de recherche dans votre fichier robots.txt :

Procédure d’optimisation de la recherche Magento

La ligne User-Agent permet de spécifier sur quels robots on souhaite interdire l’indexation, dans cet exemple : tous, et la ligne Disallow de sélectionner le dossier. Ça fonctionne aussi avec une page.

Ouvrir le fichier robots.txt via votre explorateur FTP – S’il n’est pas présent à la racine de l’installation, c’est probablement qu’il n’y en a pas, il faut le créer.

  • Rajouter la ligne suivante :
  • User-Agent: * 
    Disallow: /catalogsearch/

    [/item]

  • Renvoyer le fichier 

  • Surveiller l’indexation de votre site dans les outils GWT

  • Analyser votre site et rajouter d’autres règles en fonction des pages indexées

Exemple de fichier robots.txt

Voici un exemple de fichier robots.txt modifié par mes soins :

Version simplifiée :

User-agent: *
Allow: /
User-agent: *
Crawl-delay: 10

Disallow: /index.php/
Disallow: /checkout/
Disallow: /tag/
Disallow: /catalogsearch/
Disallow: /app/
Disallow: /review/
Disallow: /downloader/
Disallow: /js/
Disallow: /lib/
Disallow: /media/
Disallow: /pkginfo/
Disallow: /report/
Disallow: /skin/
Disallow: /wishlist/
Disallow: /var/
Disallow: /customer/
Disallow: *?SID=

Sitemap: http://www.ma-boutique.fr/sitemap.xml

Version complète :

# $Id: robots.txt,v magento-specific 2010/28/01 18:24:19 goba Exp $
# Edited: 2012/06/11 by Byte
#
# robots.txt
#
# This file is to prevent the crawling and indexing of certain parts
# of your site by web crawlers and spiders run by sites like Yahoo!
# and Google. By telling these “robots” where not to go on your site,
# you save bandwidth and server resources.
#
# This file will be ignored unless it is at the root of your host:
# Used: http://example.com/robots.txt
# Ignored: http://example.com/site/robots.txt
#
# For more information about the robots.txt standard, see:
# http://www.robotstxt.org/wc/robots.html
#
# For syntax checking, see:
# http://www.sxw.org.uk/computing/robots/check.html

# Website Sitemap
Sitemap: http://www.example.com/sitemap.xml

# Crawlers Setup
User-agent: *
Crawl-delay: 10

# Allowable Index
# Mind that Allow is not an official standard
Allow: /*?p=
Allow: /index.php/blog/
Allow: /catalog/seo_sitemap/category/
# Allow: /catalogsearch/result/
Allow: /media/catalog/

# Directories
Disallow: /404/
Disallow: /app/
Disallow: /cgi-bin/
Disallow: /downloader/
Disallow: /errors/
Disallow: /includes/
Disallow: /js/
Disallow: /lib/
Disallow: /magento/

# Disallow: /media/
Disallow: /media/captcha/
# Disallow: /media/catalog/
Disallow: /media/css/
Disallow: /media/css_secure/
Disallow: /media/customer/
Disallow: /media/dhl/
Disallow: /media/downloadable/
Disallow: /media/import/
Disallow: /media/js/
Disallow: /media/pdf/
Disallow: /media/sales/
Disallow: /media/tmp/
Disallow: /media/wysiwyg/
Disallow: /media/xmlconnect/
Disallow: /pkginfo/
Disallow: /report/
Disallow: /scripts/
Disallow: /shell/
Disallow: /skin/
Disallow: /stats/
Disallow: /var/

# Paths (clean URLs)
Disallow: /index.php/
Disallow: /catalog/product_compare/
Disallow: /catalog/category/view/
Disallow: /catalog/product/view/
Disallow: /catalog/product/gallery/
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /control/
Disallow: /contacts/
Disallow: /customer/
Disallow: /customize/
Disallow: /newsletter/
Disallow: /poll/
Disallow: /review/
Disallow: /sendfriend/
Disallow: /tag/
Disallow: /wishlist/

# Files
Disallow: /cron.php
Disallow: /cron.sh
Disallow: /error_log
Disallow: /install.php
Disallow: /LICENSE.html
Disallow: /LICENSE.txt
Disallow: /LICENSE_AFL.txt
Disallow: /STATUS.txt
Disallow: /get.php # Magento 1.5+

# Paths (no clean URLs)
Disallow: /*.js$
Disallow: /*.css$
Disallow: /*.php$
Disallow: /*?SID=
Disallow: /rss*
Disallow: /*PHPSESSID

 

Nouveautés 2013 du robots.txt pour Magento

Après analyse, il y a quelques lignes à rajouter au précédent fichier robots.txt, en effet, j’ai parcouru le menu des GWT : Configuration => Paramètres d’URL et j’ai isolé les paramètres « inutiles » à l’indexation et probablement cause de duplicate content, pour les rajouter à mon fichier de gestion des robots, les voici :

Disallow: /?q=
Disallow: /?dir=
Disallow: /?order=
Disallow: /?limit=
Disallow: /?mode=

N’hésitez pas à créer des règles dans les outils de GWT par la même occasion, le fichier robots.txt seul n’est pas infaillible !

  • q = Terme de recherche (déjà désindexé normalement)
  • dir = tri des produits ascendant ou descendant
  • order = Type de tri des produits
  • limit = Nombre de produits à afficher au maximum
  • mode = Affichage en grille ou en liste
4 comments
Johnny
ADMINISTRATOR
PROFILE

Posts Carousel

Leave a Comment

Your email address will not be published. Required fields are marked with *

Cancel reply

4 Comments

  • Référencement ecommerce
    13 décembre 2012, 13 h 44 min

    Je suis pas tout à fait d’accord sur certains points. Les reviews sont gérées par la balise canonique pour éviter le duplicate avec la fiche produit principale. Empecher sont crawl va faire perdre du contenu, quand il y a des avis.

    REPLY
    • Johnny@Référencement ecommerce
      13 décembre 2012, 16 h 45 min

      Merci de ta réaction, je viens de constater que sur de nombreux sites, il n’y a pas de balises canonical sur ces pages « review »… Maintenant je comprends la problématique : Ne pas indexer ou ne pas crawler la page, c’est vrai qu’il y a une différence, j’ai vu sur certain site une méthode alternative qui me parait plus pertinente : http://www.floraquatic.com/caridina-cf-cantonensis-red-crystal-grade-a-a-s.html

      J’ai un problème avec la canonical, je trouve qu’elle est pas toujours efficace, qu’en penses-tu ?

      À mon avis, il vaut mieux ne pas l’indexer mais autoriser les robots à suivre les liens de cette dernière.

      REPLY
  • Pierre
    30 août 2013, 18 h 17 min

    La balise canonical n’est pas toujours respecter par google, il n’est pas rare de voir des url’s indexées malgré une canonical bien mise en place (surtout sur magento, navigation facettes …)

    REPLY
    • Johnny@Pierre
      2 septembre 2013, 9 h 37 min

      Oui, je n’ai jamais fais confiance à la balise Canonical seule, et pour la navigation multi-facettes du module Amasty par exemple, c’est une calamité en terme de page générées si l’on ne les contrôle pas !

      REPLY

Latest Posts

Top Authors

Most Commented

Featured Videos

L’indexation de la recherche Magento

par Johnny Temps de lecture : 5 min
4