Introduction au web sémantique

#webdev #métadonnées #web3 #websémantique

Publié le 9 novembre 2023 par Andrew Owen (5 minutes)

L’une de mes prédictions pour 2023 était que l’on parlerait beaucoup plus du Web 3.0. Je n’aurais pas pu me tromper davantage. Les événements mondiaux et l’essor de l’IA ont complètement éclipsé les développements du web. Mais le sujet mérite tout de même qu’on s’y attarde.

Le terme “Web 2.0” a été inventé par Darcy DiNucci en 1999. Le terme Web 1.0 a été inventé par la suite pour décrire la période précédente. Il n’y a pas de délimitation fixe entre les deux époques. On considère généralement que la première a duré de 1989 à 2004 et qu’elle se caractérisait par un contenu essentiellement statique. On pense que la seconde a commencé lorsque les profils des médias sociaux ont remplacé les pages web personnelles.

ais je ferais une autre distinction. Pour moi, le Web 1.0 est tout ce qui précède HTML5 (ou l’ère Flash). Lorsque l’iPhone a été annoncé en janvier 2007, il n’était initialement pas censé exécuter des applications natives, à l’exception de l’ensemble de base inclus dans l’appareil. Il était censé exécuter des applications web (écrites avec Ajax. Le HTML5 a été lancé l’année suivante.

Le Web 3.0 a des significations différentes selon les personnes. Il est parfois utilisé comme un terme alternatif pour Web3, qui est une idée pour une version du web comprenant la décentralisation, la blockchain et l’économie basée sur les jetons. C’est de là que viennent les jetons non fongibles (NFTs). Mais ce concept n’est ni bien défini ni largement adopté.

Dans son livre de 2000 “Weaving the Web”, Tim Berners-Lee décrit une vision dans laquelle les ordinateurs:

“…devenir capable d’analyser toutes les données du Web - le contenu, les liens et les transactions entre les personnes et les ordinateurs. Le ‘Web sémantique’, qui rend cela possible, n’a pas encore vu le jour, mais lorsqu’il apparaîtra, les mécanismes quotidiens du commerce, de la bureaucratie et de notre vie quotidienne seront gérés par des machines qui parleront à d’autres machines. Les ‘agents intelligents’ dont on parle depuis des lustres se matérialiseront enfin.”

Le web sémantique est aussi parfois connu sous le nom de web 3.0. Mais Berners-Lee n’était pas le premier à avoir cette vision. On peut dire qu’elle a commencé avec Ted Nelson et Project Xanadu en 1960. Les idées qui l’influencent remontent même à l’article de Vanneavar Bush intitulé “As We May Think”, publié en 1945. Pour aller plus loin, je recommande de regarder le documentaire de 1990 de Douglas Adams “Hyperland”, qui date d’avant le World Wide Web et le premier navigateur web.

Hyperland prédit de manière remarquable l’internet moderne, les développements de la réalité virtuelle et les agents logiciels comme Siri (bien que l’agent de Tom Baker soit plus configurable). Mais je fais partie de la minorité qui pense que Xanadu aurait été meilleur que ce que nous avons aujourd’hui. Ses règles initiales stipulaient que chaque document pouvait:

Constituer un nombre quelconque de parties, chacune d’entre elles pouvant être de n’importe quel type de données.
contenir des liens de tout type, y compris des copies virtuelles vers tout autre document du système accessible à son propriétaire
contenir un mécanisme de redevance, quel que soit le degré de granularité souhaité, afin de garantir le paiement de toute partie à laquelle on accède, y compris les copies virtuelles de tout ou partie du document
Disposer de contrôles d’accès sécurisés.
être rapidement recherché, stocké et récupéré sans que l’utilisateur ne sache où il est physiquement stocké.

Chaque serveur, utilisateur, document et transaction vérifiable serait identifié de manière unique et sécurisée. Les documents seraient automatiquement déplacés vers un lieu de stockage physique adapté à la fréquence d’accès à partir d’un endroit donné. Les documents seraient automatiquement stockés de manière redondante afin de maintenir leur disponibilité, même en cas de catastrophe. La blockchain aura un rôle à jouer si nous y parvenons un jour.

Il ne nous reste plus que le web sémantique, qui existe déjà. Mais qu’est-ce que la sémantique? Le terme est dérivé de l’ancienne sémiotique (l’interprétation des signes et des symboles). Il peut désigner l’étude et la classification des changements de signification des mots, ou une branche de la sémiotique qui traite des relations entre les signes et ce à quoi ils se réfèrent. Mais en termes de web, nous l’appellerions probablement simplement métadonnées.

L’un des moyens d’ajouter des métadonnées aux pages web consiste à utiliser le Open Graph Protocol. Il a été développé à l’origine par Facebook (Meta) pour être utilisé avec son outil de cartographie et de suivi Social Graph. Meta l’utilise pour permettre à n’importe quelle page web d’avoir la même fonctionnalité que n’importe quel autre objet sur Facebook. Mais d’autres réseaux sociaux l’utilisent également. Les métadonnées de base comprennent:

og:title Titre de l’objet tel qu’il doit apparaître dans le graphe. Exemple: “The Rock”.
og:type Type d’objet. Exemple: “video.movie”.
og:image URL de l’image qui doit représenter votre objet dans le graphe.
og:url URL canonique de votre objet qui sera utilisé comme son identifiant permanent dans le graphe. Exemple: “https://www.imdb.com/title/tt0117500/”.

Sur ce site avec Hugo, j’inclus ces balises dans le head.html partiel:

<meta property="og:title" content="{{.Title}}" />
<meta property="og:type" content="article" />
<meta property="og:image" content="{{.Params.Image | absURL}}" />

Cela signifie que lorsque vous cliquez sur l’un des boutons de partage social, l’image correcte doit être sélectionnée. Avant cela, l’arrière-plan qui se trouve derrière l’en-tête était utilisé par défaut.

Les balises sont depuis longtemps utilisées pour l’optimisation des moteurs de recherche (SEO). Voici quelques balises couramment recommandées à inclure dans la balise <head> d’une page HTML:

<title>Un titre clickbait</title>
<link rel="canonical" href="https://example.com/">
<meta name="description" content="Une description du contenu." />
<meta name="author" content="Votre nom" />
<meta name="viewport" content="width=device-width, initial-scale=1" />

La balise viewport permet de s’assurer que la fenêtre du navigateur a une taille adaptée à l’écran de l’appareil. Vous devez également inclure <meta name="robots" content="noindex"> sur les pages que vous ne souhaitez pas voir indexées, telles que les pages d’erreur. Enfin, vous devez toujours inclure l’attribut alt sur les images. Mais vous pouvez aller beaucoup plus loin et ajouter des microdonnées à votre contenu avec schema.org.

En conclusion, en attendant l’arrivée du Web 3.0, c’est une bonne idée de commencer à utiliser les métadonnées. Elles seront à tout le moins utiles à nos futurs robots.