Création de taxonomies

#taxonomies #balises #catégories #métaDonnées

Publié le 13 octobre 2022 par Andrew Owen (4 minutes)

Le hashtag est devenu omniprésent. Chris Messina s’est inspiré de la manière dont les salons de discussion étaient identifiés sur les serveurs IRC (Internet Relay Chat) lorsqu’il a proposé pour la première fois son utilisation dans un tweet en 2007. Depuis, il s’est répandu dans tous les médias sociaux et au-delà. Pour les lecteurs américains qui ne sont pas encore au courant, le signe dièse ( # ) est appelé “hash” en anglais britannique.

Outre les hashtags, vous avez probablement rencontré des tags sur des blogs (comme celui-ci). Les tags fournissent des métadonnées sur le contenu auquel ils sont associés. Ils permettent de décrire le contenu et de le localiser plus facilement par le biais d’une recherche. Par convention, le nombre préféré de hashtags dans un message sur les médias sociaux est de quatre. De plus (à l’heure où nous écrivons ces lignes), il n’est pas possible de modifier les messages sur Twitter, d’où l’importance de choisir les bonnes balises pour la découverte du contenu.

Lorsque j’étais rédacteur technique, j’essayais souvent de trouver un équivalent documentaire à l’acronyme de sécurité CIA (confidentialité, intégrité et disponibilité). Et pourquoi pas DRAUG (découvrabilité, pertinence, atomicité, utilisabilité, généralité)? J’y reviendrai peut-être, mais je m’égare (cela devient une habitude).

Lorsque je publie un nouvel article, je le promeus sur Instagram, LinkedIn, Mastodon et Twitter. Si je n’oublie pas d’inclure des tags, je pense à quelque chose sur le moment. Si l’article est lié à un sujet en vogue, alors je peux sauter dessus. Mais sur mon blog, j’aimerais que les gens puissent trouver du contenu connexe. Pour cela, il faut y réfléchir un peu plus longuement.

C’est là qu’intervient l’architecture de l’information. Ce qui est une autre façon de dire: définir une taxonomie. Ce qui revient souvent à définir un ensemble de balises standardisées. L’une des raisons pour lesquelles je n’ai pas inclus de tags dans mes articles au début de l’année est que je n’avais pas écrit beaucoup d’articles DevRel à ce moment-là. Maintenant que j’ai publié 40 articles, j’ai suffisamment de données pour créer une taxonomie.

La dernière fois que j’ai créé une taxonomie, c’était lorsque je travaillais sur un projet de documentation dans un CCMS basé sur XML. Là, j’ai pu étiqueter le contenu par type, par sujet, par utilisateur et par toute autre catégorie que j’ai pu imaginer. J’ai trouvé cela très utile pour la conservation des documents. Si une nouvelle fonctionnalité entraînait une modification du comportement du logiciel, il était très facile de retrouver toute la documentation concernée.

Sur ce blog, j’utilise Markdown et les balises sont listées dans les métadonnées. Hugo, le générateur de site statique sur lequel ce site est construit, supporte de multiples taxonomies. Mais pour l’instant, je me limite à de simples balises. Il y a une page d’index où je peux voir une liste complète de tous les tags. À partir de là, je peux voir si j’ai des variantes qui sont essentiellement la même balise.

Je n’ai pas encore défini une taxonomie complète, mais j’ai pris quelques décisions concernant les conventions de balisage:

Utiliser la casse pour les noms propres, comme Apple.
Mettre une majuscule aux acronymes, comme API.
Mettre un trait d’union dans les balises à plusieurs mots, comme vidéo-production.
Lorsqu’il y a un choix, préférer les pluriels, comme data-lakes.
Utiliser quatre balises pour chaque article.

Un rapide coup d’œil à mes articles montre que les balises les plus courantes que j’ai utilisées sont les suivantes:

Ce n’est pas surprenant, étant donné que je suis un ancien rédacteur technique, un utilisateur de Mac depuis 1993 et un amateur de matériel rétro FPGA. Après tout, la première règle de l’écriture est: écrivez ce que vous connaissez. Une autre règle est de connaître son public. Combinées à l’analyse, les étiquettes devraient m’aider à déterminer les sujets qui intéressent le plus mon public.

Au fur et à mesure que des données émergent, je peux affiner mes tags en catégories (telles que devops, docs, etc.) et sous-catégories (Git, CI/CD, etc.). Si je continue ainsi suffisamment longtemps, je finirai par obtenir une taxonomie dans laquelle mes quatre tags couvrent la catégorie, la sous-catégorie, le type d’article et le sujet. Par exemple, #santé #bien-être #instruction #yoga (bien que cette combinaison soit peu probable dans un blog DevRel).

Il convient également de noter que lorsque les majuscules sont prises en charge, vous devez utiliser CamelCase pour que les lecteurs d’écran puissent travailler avec les balises. Il ne me reste plus qu’à corriger la page des balises.