counter to blogspot
 

 Blog » Normes XML

 1 Comment- Add comment | Back to Actualités Written on 22-Apr-2009 by mediacampus
Voici un glossaire des principaux termes et spécifications liées à l'XML :

- DTD (Document Type Definition) : L’intérêt de tout vocabulaire XML (NITF, NewsML…) dépend de sa capacité à décrire les centres d’intérêts d’un groupe particulier, par exemple les éditeurs de presse en ce qui nous concerne.
Cela implique de définir quels éléments de SGML seront utiles et de créer un ensemble de descriptions qui pourront être utilisées pour baliser des éléments intéressants.

La DTD est la definition des éléments utiles de n’importe quel vocabulaire XML. Pour les développeurs, la DTD est un élément clef dans la création d’outils capables de baliser un article. Pour les documentalistes et les utilisateurs, elle contient les outils qui leur permettent d’extraire ce qu’ils veulent.
En plus de définir ce qui est important, une DTD est une liste exclusive qui évite toute confusion en ignorant tous les éléments qui ne sont pas standard. A cet égard, la DTD est un peu comme la « guest list » d’un videur de boîte de nuit select : seuls certains éléments seront acceptés.

- ICE (Information and Content Exchange) : Créé en 1998, ICE est un protocole Web basé sur le XML conçu pour automatiser l’achat et la vente en ligne.
Outre les services de vente au détail, ce protocole peut être utile pour fournir des services d’abonnement car il définit les éléments nécessaires pour automatiser l’assemblage et le transport de contenu, accélérant le processus et abaissant les coûts par abonné.

Grâce à l’ICE, il est plus facile pour le client de s’abonner à différentes sources d’actualité.
Quant aux éditeurs, cela leur ouvre des opportunités sous la forme de partenariats, de syndication de contenu ou de nouveaux modes de distribution de l’information.

- Java : Si vous n’êtes pas un programmeur, alors tout ce que vous avez vraiment besoin de savoir sur Java est qu’il s’agit d’un langage de programmation inventé par Sun, dans le but originel de faire fonctionner des outils (y compris des applications domestiques comme les frigidaires) avec très peu de ressources informatiques.
Ce concept a permis de concevoir un langage de programmation très dépouillé et très souple qui peut être adapté à toutes les plates-formes (Web, PDAs, téléphones mobiles, terminaux sans fil…). Ce langage est souvent utilisé en conjonction avec XML quand un serveur doit classer, structurer puis fournir du contenu à toute une série de terminaux, ce qui est aujourd’hui la réalité quotidienne d’un éditeur.

- NAA Classified Standard : Vocabulaire XML utilisé pour baliser les petites annonces afin de pouvoir les mettre en page correctement, les faire passer indifféremment du format Print au format Web (et vice versa), les archiver par date et par contenu.

- NewsML (News Markup Language) : Si l’acceptation du standard PDF est largement due aux efforts de promotion d’AP (qui a commencé à envoyer ses publicités dans ce type de format), NewsML doit largement son succès au patronage de Reuters.
Il s’agit d’une « bibliothèque » en open-source (donnant entre autre accès au code source) de commandes écrites en Java. Alors que NITF se limite au texte, la vocation de NewsML est de packager et de baliser des éléments d’information multimédias incluant des images et des vidéos (Jpegs, Mpegs…).
Un des atouts de NewsML est que l’information diffusée sur différents médias n’est pas perdue pour la recherche texte – au contraire, les détails des éléments audio et vidéo sont enregistrés et peuvent être questionnés et archivés comme du texte.

- NITF (News Industry Text Format) : Vocabulaire XML lancé au début des années 1990 par l’IPTC pour remplacer l’ANPA 1312 et l’IPTC 7901. C’est devenu depuis le vocabulaire XML le plus utilisé par les fournisseurs d’information : de nombreux outils d’editing et de mise en page peuvent supporter ou du moins conserver des balises NITF, certains outils pouvant même baliser les informations dès leur production.

Le vocabulaire NITF permet de structurer du texte avec les identifiants suivants : 1. propriété de copyright et droits de republication 2. sujets concernés et organisations/sociétés/événements couverts 3. date d’écriture, d’impression et de correction 4. raison pour laquelle le rédacteur pense qu’un élément est particulièrement intéressant.

- Parseur ( "parser" en anglais) : Décodage d'un document XML - Un parseur (en anglais : parser) est un fragment de programme qui permet la reconnaissance des langages informatiques. XML permet de définir un format d'échange selon les besoins de l'utilisateur et offre des mécanismes pour vérifier la validité du document produit.

Le receveur d'un document XML peut extraire les données du document à l'aide d'un parseur. Il permet d'une part d'extraire les données d'un document XML (on parle d'analyse du document ou de parsing) ainsi que de vérifier éventuellement la validité du document.
Il existe plusieurs types de parseurs. Un parseur événementiel lit en entrée le document XML, reconnaît et interprète les balises qui lui sont affectées et transmet le document à l'application requise.
Il permet la lecture et la transmission rapide des documents et fournit à l'application les données XML. Les « parseurs XML » vont permettre de scruter le document et récupérer chaque information de type élément de début, élément de fin et contenu de balise. Les parseurs XML se divisent en parseurs SAX (Simple Application Programming Interface for XML) et parseurs DOM (Document Object Model).

- RSS : Personne ne s’est vraiment encore mis d’accord sur la signification précise de cet acronyme : Really Simple Syndication, Rich Site Summary, Rich Site Syndication, Rich Syndication Standard (vous pouvez ajouter votre propre suggestion)… ?
Il s’agit en tout cas d’un format de syndication de contenu Web, assez proche dans son champs d’application du protocole ICE. Les développeurs de RSS et d’ICE devraient donc être amenés à collaborer activeme.

- SGML (Standard Generalised markup Language) : C’est le métalangage d’où sont issus tous les autres vocabulaires (XML et HTML compris). Si l’on a affaire à un langage utilisant des balises sous forme de parenthèses angulaires (<>) et finissant par un slash (>/), alors il s’agit d’un dérivé de SGML.

- SOAP : Acronyme de Simple Object Access Protocol (Protocole simplifié d'accès aux objets), SOAP est un nouveau protocole proposé par Microsoft à l' IETF dans le cadre de son nouveau modèle d'utilisation de l'informatique, .Net.
Sa syntaxe d'utilisation est fondée sur XML et ses commandes sont envoyées sur Internet par l'intermédiaire du protocole HTTP. Il joue un rôle analogue à Corba, puisqu'il permet aux systèmes objets distribués de solliciter et d'obtenir des services rendus par d'autres objets, mais il est moins lourd à mettre en oeuvre et devrait de ce fait être largement adopté.

- SVG (Scalable Vector Graphics) : SVG est un langage qui permet de décrire ces vecteurs graphiques en XML. Associé aux Mobile SVG Profiles (deux profils existent : "Tiny" pour les téléphones mobiles et "Basic" pour les PDA), ce langage permet d'afficher des illustrations XML sur des écrans de terminaux portables (téléphones vidéo 3G, PDA en réseau sans fil ou la dernière génération des téléphones WAP).

- Taxinomie ou indexation ? Terme originellement employé en biologie, la taxinomie peut être globalement définie comme une méthode cohérente et complète de classification dans un système déterminé. En informatique, le terme désigne un arbre hiérarchique de catégorisation thématique (« directory »).

Dans un site Web, la taxinomie, c’est l’organisation arborescente sur laquelle on peut naviguer. La taxinomie ne doit donc pas être confondue avec l’indexation par thésaurus et mots-clés : elle s’en distingue à la fois par l’approche (la taxinomie s’attache aux documents et à leur organisation, l’indexation aux termes utilisés dans l’entreprise), par l’usage (la taxinomie classe les documents par catégories, l’indexation liste les termes attachés aux documents), par les modes de recherche (navigation et moteur de recherche pour la taxinomie, moteur de recherche uniquement dans le cas de l’indexation) et la taille (croissance de l’arborescence contrôlée pour la taxinomie, indexation de termes illimitée).

La classification dans une taxinomie peut être manuelle ou partiellement automatisée (sous contrôle éditorial humain) : des logiciels existent aujourd’hui qui, après apprentissage, peuvent construire eux-mêmes des catégories correspondant à des concepts (ou « modèles ») à partir d’un certain nombre de documents (textes, images, autres) de référence – qu’on appelle aussi « semences » dans le langage des documentalistes – choisis par l’utilisateur.

Exemple simple : confronté à un certain nombre de photos de chats choisies par l’utilisateur, le logiciel créera de lui-même la catégorie associée au concept « chat ». Le logiciel sera alors capable de classer automatiquement (de lui-même) une nouvelle photo de chat dans la catégorie adéquate. Il décidera également tout seul du degré de pertinence de l’appartenance d’un document à une catégorie. La précision avec laquelle le logiciel classera un document dans la bonne catégorie dépend bien sûr du choix préalable des « semences » fait par l’utilisateur. Pour des termes ambigüs qui possèdent de multiples sens (comme « avocat »), l’utilisateur pourra à bon escient insérer dans les « semences » d’origine une semence « négative »qui exclut d’emblée une des significations (le fruit « avocat » pour garder cet exemple).

- Web Services : Selon la définition du W3C (World Wide Web Consortium ) ou du groupe OASIS, un web service est un programme appelable via Internet – en général par un autre programme (souvent sur un autre site Internet) – suivant une interface d'échange de données (sans interface graphique donc) afin que le programme appelant puisse intégrer le résultat à ses propres traitements pour les compléter par un apport spécifique. Question et réponse sont structurées en XML et transportées par un protocole d'échange normalisé SOAP.

La philosophie des Web services (appeler un service à distance plutôt que d'installer une copie du logiciel traitant le service sur son ordinateur) est à l’origine de l’offre .Net de Microsoft. Pour Didier Durand, « c'est cette philosophie qui nous intéresse dans Extract où les bases de connaissance (marques et modèles de voiture…) doivent être tenues à jour en permanence pour rendre le bon service : un service centralisé est en effet le meilleur moyen d'être toujours à jour ».
Les Web services ouvrent aussi la voie à de nouveaux business models (paiement à l'acte, i.e. par annonce traitée pour Extract) qui permettent une commercialisation plus aisée car le risque est moindre pour l'acheteur.

- XML (eXtensible Markup Language) : HTML est connu depuis longtemps comme le langage de balisage des pages Web, mais il décrit seulement l’apparence du contenu : il peut certes comprendre que certains mots doivent apparaître avec une police plus grosse et une couleur différente mais il ne sait pas que ces mots désignent en fait un titre ou le nom de l’auteur, contrairement justement à XML, dont les balises se rapportent à la signification et à la structure.

Un document balisé en XML peut être interrogé sur des éléments spécifiques et XML est rapidement devenu incontournable sur Internet : grâce à lui, on sait par exemple que tel ou tel numéro sur une page Web désigne un prix ou un numéro de commande. L’industrie de la presse s’efforce de créer ses propres vocabulaires XML pour définir non seulement les éléments d’une page mais aussi des informations comme des corrections, le copyright et les droits de propriété intellectuelle.

En s’accordant sur un langage standard, il devient très facile de rechercher et d’archiver de l’information mais aussi d’extraire (de façon automatique) les sections souhaitées pour les réutiliser ailleurs. Ceci est une des clés du rêve des éditeurs de demain : publier plusieurs fois et sans efforts un contenu créé une fois puis reconditionné pour le Web/Print/Audiovisuel sans intervention humaine longue et coûteuse.

- XSL (Extensible Stylesheet Language) : Un fichier XSL est une feuille de styles, dédiée au XML, et elle est elle-même un fichier XML. Donc les règles d'un document XML s'applique à un document XSL. Le XML permet de séparer l'information de son traitement, c'est pourquoi l'existence d'une feuille de styles dédiée au XML est légitime. Elle permet de formater un document XML en un document HTML ou PDF par exemple.

Send to a friend

Comments

Leave a Comment









 

Advertisements

Loading …