Améliorer la qualité des données

Quels problèmes rencontre-t-on dans des catalogues de produits ?

DATE : 05/05/2022
17/2/2022

Des problèmes de qualité de données, on peut en trouver autant que l’imagination le permet. Les données de produits sont particulièrement sujettes à des problèmes de qualité. Ceci est principalement causé par le fait que les catalogues de produits sont en général des agrégats de plusieurs catalogues de marques, et donc sont la résultante d’un savoureux mélange de processus de gestion de données bien distincts. En effet, il n’y a pas de raison qu’un fournisseur A emploie les mêmes règles de remplissage de son catalogue qu’un fournisseur B. 

Plus généralement, ce genre de problème de qualité de données intervient lorsque les entreprises travaillent avec des données qui proviennent de sources multiples et hétérogènes. Par exemple, une marketplace doit gérer les données de plusieurs marques (fournisseurs) distinctes, au même titre qu’un CRM est alimenté par plusieurs canaux de communication (un formulaire de contact, une entrée en contact via LinkedIn, parmi tant d’autres).

Les données de produit sont particulièrement sujettes à des problèmes de qualité, et à cela s’ajoute une particularité propre aux données de produits : le caractère hétérogène, à la fois au niveau du contenu (une grande variété de produits différents, et les articles de mode ne se traitent pas de la même façon que les articles de bricolage), mais aussi au niveau du type de donnée (des images, du texte libre et beaucoup de catégories). 

Cet article passe en revue les trois problèmes de qualité de données les plus rencontrés lorsque l’on doit gérer des catalogues de données de produits.

Les champs manquants

Ce n’est pas prendre un grand risque que de dire qu’aucun gestionnaire de catalogue produit n’a reçu du premier coup un fichier de produits où tout était à sa place, sans aucun élément manquant. Les données manquantes sont probablement le problème le plus rencontré dans la gestion des catalogues de produits

Les raisons qui conduisent à ce phénomène s’expliquent en partie par le fait que le nombre de champs à remplir (catégories, sous-catégories, les descriptions en plusieurs langues, les caractéristiques techniques, etc.) est souvent élevé et très exhaustif. Par ailleurs, ce travail de remplissage de données de produits doit souvent répondre à une norme bien précise (qui dépend en général de la marketplace ou du retailer), et les fournisseurs (les marques) doivent compléter ce genre de fichier pour toutes les normes, ce qui est potentiellement rébarbatif.

L’intelligence artificielle permet de compléter efficacement les champs manquants à partir des éléments à disposition (les images, les descriptions et les caractéristiques renseignées). 

Attention toutefois à l’excès d’enthousiasme, il faut que l’information figure dans les données renseignées pour que ce genre d’approche fonctionne, il n’existe pas de modèle magique qui crée de l’information.

Les champs incorrects

Ahhhh les champs incorrects quelle douleur ! Oui, vous en avez déjà vu, c’est certain. Des tailles de vêtement rangées dans la colonne du prix, des matériaux rangés dans la colonne des codes-barres, on pense qu’on a tout vu jusqu’à ce qu’on découvre une nouvelle anomalie dans les champs.

Techniquement parlant, on parle ici de détection d'anomalies. Les manières de détecter ce genre d’anomalies sont assez standards, c’est-à-dire qu’on va regarder chaque champ un par un, et on va regarder les produits pour lesquels la valeur du champ en question n’est pas cohérente avec le reste des produits. 

Par exemple, on va analyser pour chaque ligne les valeurs renseignées dans le champ “taille” (pour des données de mode), et lever une alerte s’il y a une incohérence, comme un prix en euro dans le champ “taille”, là où tous les autres champs valent soit une taille lettrée (S, M, L, XL, etc.), soit une taille chiffrée normée (38, 40, 42, etc.). 

Détecter ce genre d’anomalies équivaut à entraîner un modèle de machine learning à :

  • comprendre la nature de chaque champ dans le fichier de produit,
  • détecter les anomalies au sein des valeurs d’un même champ, conditionnellement à la nature du champ et à la nature du produit.

Ce dernier point est crucial car une anomalie dépend également de la nature du produit. Par exemple, la taille d’une cravate est souvent exprimée en centimètres, là où la taille d’une chemise est exprimée en lettres (S, M, L, ...) ou en chiffre. 

Les produits en doublons

Parmi les problèmes fréquemment rencontrés dans la gestion des catalogues de produits, on pourra citer le problème des fiches produits en doublons. Deux fiches produits sont considérées comme étant des doublons si elles réfèrent au même modèle de produit et à la même marque. 

Ce genre de phénomène est gênant car cela réduit drastiquement l’expérience utilisateur des visiteurs du site de vente en ligne. En effet, lorsqu’un utilisateur cherche un produit en particulier sur un site, il ne s’attend pas à avoir sous les yeux des copies d’un même produit. Ce n’est pas clair pour l’acheteur si les produits sont les mêmes ou non, et donc le taux de conversion est naturellement plus bas, car dans le doute l’utilisateur va acheter le produit ailleurs.

Corriger les doublons dans un catalogue de produit peut paraître simple, mais cela soulève quelques difficultés que l’on n’a pas tendance à identifier avant de se lancer. En effet, il peut arriver que certains fournisseurs disposent de plusieurs déclinaisons d’un même produit (par exemple avec des finitions légèrement différentes, quelques accessoires en plus, etc.). Ces déclinaisons présentent souvent des attributs communs (comme les photographies, les descriptions et la plupart des caractéristiques), ce qui a tendance à rendre le dédoublonnage difficile (les différences étant subtiles, l’information est difficile à identifier). A contrario, certaines fiches produits doublonnées (même modèle, même marque) peuvent présenter quelques différences, notamment dans la description ou encore dans le titre, et pour autant référer au même produit.


Il faut donc construire un modèle capable de faire la part des choses entre les petites différences que peuvent comporter les fiches produits, et leurs similarités. Ce juste milieu est compliqué à construire sans un a priori métier fort, c’est pourquoi il est souvent nécessaire de prévoir une boucle de rétroaction avec des gestionnaires de catalogues, pour ré-entraîner régulièrement le modèle à bien détecter les produits présents en doublons.

En conclusion

La qualité des données de produits a une influence forte sur la vitesse d’intégration et de mise en ligne des catalogues de produits. Cela représente un coût, en général un coût humain car les choses sont souvent faites à la main. Certains acteurs sont spécialisés pour travailler sur un type particulier de données, et très peu de solutions existent pour traiter l’ensemble de la chaîne de qualité de la donnée. 

Unifai est spécialisé dans la fiabilisation et l'enrichissement des données produits. Si vous voulez en savoir plus sur l’automatisation de vos données de produits, n’hésitez pas à nous contacter ou demander une démo.

Faustine Caradeux
Growth Marketing Manager

Derniers articles

23/6/2022
-
Actualités
Loi AGEC - Les conséquences sur les e-commerçants et marketplaces
La loi anti-gaspillage ou encore la loi AGEC sont devenues des sujets de discussion récurrents chez les e-commerçant et marketplaces. Développant d’ambitieux objectifs d’ici 2050...
> Lire la suite
20/6/2022
-
Actualités
La stratégie Data | L’alliée du retail pour traverser la crise
Les entreprises du retail sont confrontées à des temps difficiles. 74% des dirigeants d’entreprise ont accéléré leur transformation digitale afin de s’adapter aux nouveaux comportements consommateurs post crise (Pegasystem). La croissance de ...
> Lire la suite