2 utilitaires pour la cohérence des fichiers HTML

Les innombrables pages qu'il est possible de consulter en naviguant sur Internet sont au format HTML. Ce dernier correspond en fait a du texte ayant une syntaxe bien précise et pouvant être visualisée par exemple avec l'option Affichage / Source d'Internet Explorer. Outre les pointeurs hypertextes qui permettent de sauter d'un document à un autre par un clic de souris, le moyen le plus utilisé pour se positionner à un endroit d'Internet qui nous intéresse est d'employer un des moteurs de recherche disponibles. Ce sont des sites spécialisés dans la recherche d'informations à l'aide de mots clés (voir http://www.abondance.com/outils/moteurs.html pour connaître les caractéristiques de plusieurs d'entre eux).

Les fichiers HTML comportent normalement une partie destinée aux robots (la fonction d'analyse des documents) des moteurs de recherche, délimitée par les balises <head> et </head>. Elle contient un titre et des meta-tags. Ceux-ci servent à fournir des informations diverses, comme une liste de mots clés ou une adresse e-mail pour poster un éventuel rapport d'analyse à celui qui maintient la page en question. Ces éléments doivent être correctement formatés. Notamment, chacun doit tenir sur une seule ligne et il ne doit y en avoir qu'un par ligne (voir http://www.actiref.com/reussir_moteurs.php3?chap=1 ). En fait, comme les différents moteurs de recherche ont leurs propres algorithmes pour décortiquer les documents HTML, on ne sait pas comment ils réagiront si la partie <head> ou une autre est mal écrite. Il est judicieux de s'attendre à ce qu'ils réagissent très mal au moindre problème dans les meta-tags de l'une des pages du site qui leur a été désigné (en clair, celui-ci risque de ne pas être visible dans une recherche par mots clés).

Malheureusement, un outil comme la version de FrontPage Express fournie en standard avec Windows 95 ne génère pas une partie <head> répondant strictement aux critères nécessaires. En fait, il crée un minimum de meta-tags alors que ce n'est pas indiqué pour la page d'origine (la racine) et ils peuvent se trouver sur plusieurs lignes. J'ai donc voulu écrire 2 utilitaires qui permettraient de travailler sur ses fichiers HTML personnels avant de les copier sur un serveur par FTP. Ils fonctionnent sous Windows 95 et ultérieurs.

NORMETA : normalisation des meta-tags

Ce programme a une utilisation très simple. Il s'agit de fournir les noms des fichiers HTML à modifier et un répertoire destination, qui doit être différent du répertoire courant. Dans une fenêtre MS-DOS faire par exemple :

normeta /?
mkdir tempo
normeta index.htm soft*.htm tempo

On trouve ensuite dans tempo les fichiers qui viennent d'être traités. Pour que tout soit à jour on peut faire :

cd tempo
dir
move *.htm ..
cd ..

normeta

TSTMETA : test des meta-tags

Cet utilitaire teste les meta-tags et a plus de possibilités que le précédent. Il ne modifie pas les fichiers et n'en crée pas lui-même, se contentant d'afficher des messages en cas d'erreurs trouvées dans les sources HTML. Pour une liste d'options, taper dans une fenêtre MS-DOS :

tstmeta /?

Il explore le répertoire courant et, par défaut, ses sous-répertoires. Ces derniers seront laissés de coté si l'option /1 est utilisée. Les vérifications effectuées sont les suivantes :

- Présence d'une et une seule section <head>.

- Même test pour la section <body>, celle-ci devant se trouver après <head>.

- Les meta-tags doivent être placées dans la section <head>.

- Le titre (<title> … </title>) doit aussi y être.

- Chacun de ces éléments doit tenir sur une seule ligne de texte et être le seul sur sa ligne.

- On vérifie que les meta-tags considérés comme les plus importants et le titre sont présents et uniques.

- La syntaxe des meta-tags est contrôlée.

- On vérifie que les autres tags sont bien connus en HTML 3.2.

Si vous vouliez vérifier plusieurs fichiers HTML mais que les messages soient trop nombreux pour tenir sur un écran, vous pouvez procéder de la façon suivante :

tstmeta *.htm | more

ou

tstmeta *.htm >erreurs.txt

La deuxième possibilité crée un fichier en redirigeant l'affichage et risque donc d'écraser un fichier existant.

Les meta-tags peuvent avoir la forme <meta http-equiv= ou <meta name=. Les messages d'erreurs concernant les tags "name=" indiquent les noms spécifiques en majuscules pour les différencier de "http-equiv=". Le meta-tag "http-equiv=Content-Language" a été préféré à "name=LANGUAGE" suivant les conseils de http://www.actiref.com. Après avoir obtenu une liste d'erreurs, il vous reste à utiliser par exemple la commande EDIT (qui affiche les numéros de ligne et colonne en bas d'écran) sous MS-DOS pour faire les corrections qui s'imposent, par exemple :

edit index.htm

ou

edit index.htm erreurs.txt

Si c'est la première fois que vous y mettez le nez, il vaut mieux commencer par examiner le contenu des menus déroulant qui apparaissent en partant du haut de l'écran. Il faut être attentif à ne faire que les modifications nécessaires pour éviter d'éventuels effets imprévisibles au moment d'un nouvel affichage du document dans un navigateur.

L'option /s simplifie les tests pour se concentrer sur la syntaxe des meta-tags. Au contraire, l'option /d analyse le texte qui sera visible sur Internet pour s'assurer que tous les mots clés cités dans la balise "KEYWORDS" y sont présents (en se basant sur les mots entiers). /s sera ignorée si elle est activée en même temps que /d.

TSTMETA demande de placer des guillemets autour des données des meta-tags pour le cas où un robot particulièrement tatillon viendrait analyser la page. Les commentaires sont supprimés des lignes dès le début du traitement et n'apparaissent pas dans les messages d'erreurs.

Remarque : cet utilitaire ne garantie pas que toutes les erreurs seront signalées, d'autant que le HTML continue d'évoluer. Il est donc conseillé d'examiner précisément le code en plus de son utilisation et de consulter les documentations de référence le cas échéant.

tstmeta

 

Christian Trévarin