WIPOSTAD (v3.0)

Liens associés

Rechercher WIPOSTAD

Raccourcis

Actions

Langue: English | Español | Français

Norme ST.22

Version 1.0

RECOMMANDATION RELATIVE AUX MODALITÉS D’ÉTABLISSEMENT DES DEMANDES DE BREVET EN VUE DE FACILITER LA RECONNAISSANCE OPTIQUE DES CARACTÈRES (ROC)
Texte révisé adopté par le Groupe de travail sur les normes et la documentation à sa dixième session le 21 novembre 2008

TABLE DES MATIÈRES


Introduction

1.

La présente recommandation s’applique aux demandes de brevet soumises sur papier ou par la voie électronique (dépôt électronique) mais dont le corps de la demande est soumis dans un format image (p. ex., images PDF ou TIFF).

2.

La présente recommandation a été élaborée en vue de faciliter l’établissement de demandes de brevet dactylographiées sous une forme qui permette par la suite de constituer un enregistrement numérisé électronique des informations figurant dans la demande de brevet au moyen d’un matériel de reconnaissance optique des caractères (ROC).

3.

La présente recommandation tient compte de l’expérience acquise par différents offices qui utilisent du matériel de ROC. Elle a été rédigée en vue de limiter au maximum les erreurs lors de la lecture automatique du texte des demandes de brevet tout en permettant à la personne qui le souhaite de lire commodément le document. Il convient de noter que le présent document ne contient pas de recommandations détaillées pour le japonais et le coréen; le pourcentage du nombre des dépôts électronique en texte intégral par rapport au nombre total de dépôts par année dépasse effectivement 90% dans ces pays, ce qui signifie que cette norme n’est pas applicable concrètement pour le japonais et le coréen.

4.

L’établissement d’un enregistrement numérisé d’une demande de brevet a pour principal objectif de permettre une publication facile de cette demande, selon un format établi, au moyen des techniques de photocomposition informatisée, et d’améliorer ainsi la présentation et la qualité des documents de brevet dans l’intérêt de tous les utilisateurs. L’objectif est aussi de créer une base de données déchiffrable par machine correspondant au texte complet des documents publiés afin de pouvoir ultérieurement tirer parti des possibilités qu’offre une recherche sur ordinateur fondée sur le texte complet.

Définition

5.

Aux fins de la présente recommandation, l’expression “demande de brevet” désigne les demandes de brevet d’invention, de certificat d’auteur d’invention, de certificat d’utilité, de modèle d’utilité, de brevet ou de certificat d’addition, de certificat d’auteur d’invention additionnel et de certificat d’utilité additionnel.

6.

Une formule mathématique ou chimique est réputée “complexe” lorsqu’elle ne peut pas être affichée comme une séquence linéaire de caractères, chaque caractère ayant un attribut facultatif en indice ou en exposant. Une formule est réputée particulièrement complexe lorsqu’elle contient des indices ou des exposants imbriqués ou les symboles mathématiques de la somme, de l’intégrale ou du produit.

7.

Une matrice de caractère ou jeu de caractères est le plus petit rectangle aligné par rapport à l’axe qui comprend toutes les parties du caractère ou du jeu de caractères.

8.

On entend par “cursive” une forme stylisée d’écriture dans lequel les lettres des mots sont liées les unes aux autres, un mot correspondant à une seule barre complexe. Les polices de caractères sont dites cursives si elles sont conçues pour ressembler à l’écriture manuscrite.

Création de l’original

9.

Les demandes de brevet seront souvent établies à l’aide de machines de traitement de texte. L’expérience montre que c’est avec les caractères définis dans la norme 1073/II de l’Organisation internationale de normalisation (ISO), dits ROC‑B, que le matériel de ROC est le plus fiable.

Support papier pour autant que la demande soit déposée sur papier

10.

Afin de faciliter la numérisation, le support papier de la demande dactylographiée doit présenter les caractéristiques suivantes :

a) papier fort, blanc et propre;

b) le poids du papier doit être compris entre 70 et 120 g/m2, et être de préférence de 80 g/m2;

c) le papier doit être de préférence de format A4, c’est‑à‑dire de 210 mm x 297 mm ou de 8 ½ x 11 pouces (ce qui est la norme nord‑américaine de facto);

d) les feuilles ne doivent pas comporter de pliure, ni de trou, ni être roulées;

e) le papier ne doit pas être absorbant afin d’éviter toute tâche d’encre (par exemple, avec une imprimante à jet d’encre).

Recommandations relatives à la présentation des pages

11.

Il convient d’éviter l’impression recto‑verso. Si cela n’est pas possible, un papier suffisamment opaque devrait être utilisé en vue de permettre une numérisation propre recto‑verso.

12.

Les caractères doivent être noir intense, sur fond blanc.

13.

Une marge minimale de 2 centimètres doit être ménagée en haut et en bas ainsi que sur le côté droit de chaque feuille, la marge de gauche devant être de 2,5 centimètres au minimum. Toutes les mentions concernant le déposant ou son mandataire doivent figurer dans la marge supérieure. On se reportera à l’appendice 1.

14.

Il convient d’éviter toute numérotation de ligne. Si ce n’est pas possible, il convient d’utiliser pour ce faire des chiffres arabes, dans la marge de gauche, à 1 cm au moins de l’encadré, comme indiqué dans l’appendice 1. La taille de la police de caractères utilisée pour les chiffres doit être de 12 points au moins.

15.

Les pages doivent être numérotées à l’aide de chiffres arabes, à l’exclusion de tous autres caractères de séparation. Les numéros de page doivent de préférence être centrés en haut ou en bas de la feuille, dans la marge, comme indiqué dans l’appendice 1.

16.

Les textes de la description, de la ou des revendications et de l’abrégé doivent commencer chacun sur une nouvelle page. En outre, le premier mot imprimé sur la première page de chacune des trois parties précitées de la demande doit indiquer la partie dont il s’agit (dans la langue de la demande); le paragraphe des revendications doit être numéroté en continu. La présentation de la numérotation des revendications doit permettre de distinguer clairement entre le numéro de la revendication et le texte de la revendication pour chaque revendication. Il est recommandé d’utiliser ou bien des chiffres arabes suivis d’un point ou de mentionner le terme “revendication” ‑ ou le mot équivalent dans la langue de la demande de brevet – suivi d’un espace et du chiffre arabe correspondant à la revendication, le texte suivant de la revendication étant renfoncé à droite s’agissant du numéro de la revendication à raison d’au moins 1 centimètre dans les deux cas.

17.

Les pages doivent comporter des paragraphes en colonne unique (paragraphes de texte ou paragraphes contenant une image intégrée).

18.

Les pages contenant des paragraphes doivent être disposées verticalement (format à la française).

19.

Il convient d’éviter toute disposition horizontale (format à l’italienne). Ce type de disposition ne peut être accepté que pour les pages contenant des dessins ou des tableaux intégrés, qui ne peuvent pas être disposés verticalement.

20.

Sur chaque page, le texte doit être disposé d’une seule façon.

21.

Les pages disposées horizontalement doivent faire l’objet d’une rotation à 90 degrés dans le sens inverse des aiguilles d’une montre afin d’être incorporées dans l’ensemble des pages disposées verticalement.

22.

Il est recommandé d’éviter le recours à des notes de bas de page, à du texte dans la marge et à des en‑têtes, sauf dans les cas indiqués au paragraphe 14 (numérotation de ligne), au paragraphe 15 (numérotation de page) et lors de l’indication de la référence du dossier du déposant dans le coin supérieur gauche de la marge.

Recommandations relatives à la présentation des paragraphes

23.

Il est recommandé que les tableaux, les formules chimiques ou mathématiques complexes, les images et les dessins soient séparés des paragraphes de texte. Il est conseillé de laisser de part et d’autre de ces éléments une marge supérieure et une marge inférieure vierge d’au moins 1 centimètre couvrant toute la largeur de la page.

24.

Les images et les dessins devraient, au maximum, figurer dans la partie “dessins” et faire l’objet d’un renvoi dans les parties “description” et “revendications” de la demande de brevet.

25.

Les images et les dessins devraient être en noir et blanc (les images en échelle de gris devraient être évitées, l’information contenue étant perdue lors de leur numérisation ou de leur conversion en noir et blanc). Les figures devraient contenir des lignes nettes suffisamment larges pour être bien représentées avec une résolution de 300 ppp.

26.

Les paragraphes de texte manuscrits et les annotations doivent être évités. Si cela n’est pas possible, ces paragraphes manuscrits et annotations seront traités comme des dessins intégrées et devront respecter la recommandation visée au paragraphe 23.

27.

Le texte dactylographié doit présenter un intervalle d’une ligne et demie.

28.

Les paragraphes doivent être séparés les uns des autres par un espace correspondant à deux fois au moins l’intervalle entre chaque ligne.

29.

Tous les caractères d’une ligne de paragraphe doivent être soigneusement alignés sur la ligne de base, sauf en ce qui concerne les caractères en indice et en exposant comme cela est indiqué au paragraphe 35.

30.

Les paragraphes ne doivent pas être justifiés. Si cela n’est pas possible, l’espace entre deux mots doit être au moins aussi important que celui pour du texte non justifié. La justification de texte peut empêcher les systèmes de ROC d’identifier correctement les frontières de mot dans un paragraphe.

31.

Lorsque cela est possible, il convient d’éviter les divisions de mot au moyen d’un trait d’union (par exemple, en fin de ligne ou de cellule). Cela ne s’applique pas aux langues comportant des noms composés (telles que l’allemand).

Recommandations relatives aux tableaux

32.

Seul un fond blanc doit être utilisé.

33.

Les tableaux doivent être délimités par un cadre. L’épaisseur du trait de ce cadre doit être supérieur à 1,5 point et le trait doit être continu.

Recommandations relatives aux polices de caractères

34.

La taille de la police de caractères recommandée est de 12 points au moins, 14 points étant préférable. D’une manière générale, la taille de la police doit être la même pour tous les caractères d’un même paragraphe.

35.

La taille de la police des paragraphes de texte contenant des indices ou des exposants doit être de 12 points au moins (la police recommandée étant de 14 points ‑ plus les caractères sont gros, mieux c’est). Veiller à ce que la matrice de caractère de l’indice ou de l’exposant présente une intersection suffisante avec celle des caractères ordinaires de la même ligne (cela empêche les techniques de ROC de mettre les indices ou les exposants sur des lignes différentes).

36.

Les polices de caractères recommandées sont, dans l’ordre, les suivantes :

a) police de caractères à espacement fixe : OCR‑B, Courrier New, Free Mono;

b) police de caractères avec empattement : ITC Officina Serif, Times New Roman, Free Times;

c) police de caractères sans empattement : Verdana, ITC Officina Sans, Arial, Helvetica, DéjaVu Sans.

Toutefois, les polices Arial, Helvetica, DejaVu Sans, Free Times et Times New Roman ne sont pas recommandées pour les demandes contenant des formules chimiques ou mathématiques ou des acronymes composés de lettres et de chiffres. Pour les caractères chinois, c’est la police Song qui est recommandée.

37.

Les caractères de la police doivent être bien formés, sans ombre. L’espace entre deux caractères doit être suffisamment large (il convient d’éviter tout espacement restreint).

38.

Les polices de caractères étroites et cursives ne doivent pas être utilisées.

39.

Il convient d’éviter autant que faire se peut de recourir à des caractères gras et à des caractères italiques.

40.

Il convient d’éviter autant que faire se peut les caractères inhabituels (non normalisés/atypiques/irréguliers). Si cela n’est pas possible, on utilisera l’alphabet grec normalisé et la police des symboles (dans cet ordre de préférence). Les caractères introuvables dans la palette UNICODE ne doivent pas être utilisés : ces caractères sont identifiés comme des images intégrées par les appareils de ROC et rendent donc le texte reconnu difficile à lire. Chaque office doit définir et publier ces exigences en ce qui concerne le jeu de caractères qui peut être utilisé aux fins de l’établissement des demandes de brevet.

41.

Il convient d’éviter de souligner le texte. Si cela n’est pas possible, il convient de s’assurer que le soulignement ne touche pas la matrice des caractères soulignés.

Recommandations relatives aux combinaisons de langues

42.

La combinaison de langues asiatiques (c’est‑à‑dire reposant sur des idéogrammes) et européennes (c’est‑à‑dire utilisant les alphabets latin et cyrillique) posant un problème aux fins de la reconnaissance optique, il convient d’éviter d’y avoir recours dans les sections et dans les pages des demandes de brevet, à moins que cela ne soit nécessaire.

Recommandations relatives à la numérisation

43.

Les demandes de brevet doivent être numérisées en noir et blanc ou en échelle de gris.

44.

La résolution recommandée pour la numérisation est 300ppp. La numérisation a des résolutions inférieures à 300ppp même en échelle de gris, peut nuire à la qualité des documents publiés par les offices car l’échange des documents entre les offices et le processus de publication impliquent souvent des conversions dans des pages en noir et blanc de 300ppp en format TIFF groupe 4.

45.

Les documents numérisés doivent être convertis soit en format PDF soit en format TIFF.

Corrections

46.

Pour les corrections apportées au texte d’une demande, chaque page corrigée devrait être réimprimée en entier. Les signes de preuve de correction, tels que ceux qui sont définis dans la norme internationale ISO 5776, ne sont pas acceptés. Les moyens de correction tels que le liquide blanc correcteur ou le ruban adhésif, tout comme les ratures et les biffures, ne sont pas acceptés. Il convient d’éviter d’envoyer à l’office les pages de remplacement par télécopie en utilisant la résolution courante : si les pages ne peuvent pas être envoyées physiquement, elles doivent être transmises par télécopie en utilisant une résolution supérieure ou égale à 300ppp ou par tout autre moyen de transfert par réseau accepté par l’office, à condition que chaque page numérisée ait une résolution supérieure ou égale à 300ppp.

Recommandations relatives aux offices

47.

Les offices de brevets doivent éviter de modifier les pages reçues avant toute opération de numérisation ou de reconnaissance optique. Ainsi, il arrive que des tampons soient apposés sur les documents, ce qui peut entraîner une superposition de caractères sur les pages et rendre le texte soumis par le déposant illisible par les techniques de ROC. Si l’office doit tamponner ou modifier les pages originales, il doit le faire dans la marge des documents, comme indiqué dans l’appendice 1.

48.

À l’avenir, les offices de brevets doivent éviter de concevoir des formulaires papier aux fins de la communication entre les déposants et l’office. Compte tenu de l’expérience passée, il est préférable de concevoir et de mettre en place des systèmes de formulaires en ligne sécurisés à la création de systèmes de reconnaissance de formulaires papier. Toutefois, les recommandations ci‑après sont formulées en vue de la conception de formulaires papier en vue de faciliter leur reconnaissance :

  • Il conviendrait de ne pas utiliser de lignes de points de suspension dans les formulaires pour indiquer à l’utilisateur l’endroit où le texte doit figurer.

  • Des couleurs de moindre intensité devraient être utilisées pour les matrices de caractère (gris clair).

  • Il conviendrait de ne pas utiliser des couleurs de moindre intensité pour les champs destinés à recevoir un contenu en niveaux de gris ou coloré tel qu’une signature numérisée ou un dessin.

Application

49.

Il est recommandé que les offices ayant l’intention de commencer à accepter ou à demander le dépôt des demandes de brevet dactylographiées en format ROC publient des directives complètes dans leur bulletin officiel à intervalles réguliers ainsi que sur leur site Internet, en indiquant exactement le type ou les types de caractères admis ainsi que les dimensions exactes du papier.

Exemples

50.

On trouvera dans l’appendice 2 de la présente recommandation des exemples de pratiques recommandées et de pratiques à éviter aux fins de la reconnaissance optique des caractères. Ces exemples illustrent ce qui doit être fait et ce qui doit être évité, et sont accompagnés d’une brève explication.

APPENDICE 1  

APPENDICE 2 :  Exemples de pratiques recommandées et de pratiques à éviter

Le présent appendice contient des exemples de ce qu’il faut faire ou ne pas faire dans les pages de documents de brevet afin que les opérations de ROC donnent un résultat aussi précis que possible.

Exemples de pratiques recommandées

Exemple n° 1. Page de description correcte

Exemple n° 2. Page de revendications correcte

Toutes les recommandations ont été respectées : marges, police de caractères normalisée (Times New Roman), taille de la police correcte, pas de numéros de ligne, utilisation restreinte des caractères gras, pas de caractères italiques, pas de texte souligné, numérotation des revendications adéquate et bien séparée du texte des revendications.

Exemple n° 3. Page d’une description complexe correcte

Les paragraphes de texte ne contiennent pas de caractères mathématiques inhabituels. Les formules mathématiques sont correctement intégrées, permettant aux appareils de ROC de segmenter facilement les images intégrées. On peut voir en bleu un résultat possible de la segmentation.

Exemples de ce qu’il ne faut pas faire

Exemple n° 1. Page de qualité médiocre, comportant de nombreuses lacunes

Cet exemple n’est pas conforme au paragraphe 10 (la page a probablement été envoyée à l’office par télécopie, avec une résolution de 200 ppp – vous pouvez voir le “bruit informatique” – et des portions du texte apparaissent sur fond gris foncé). L’exemple n’est pas non plus conforme aux paragraphes 13 et 47 : un numéro de référence (604115530.100802) a été tamponné sur la page (le tampon devrait être dans la marge). La numérotation de la page est incorrecte (on devrait voir apparaître “9” et non “page 9” (voir le paragraphe 34)). Dernier point, la taille de la police est trop petite (voir le paragraphe 15). Dans l’idéal, l’office devrait refuser ces pages et exiger des pages de remplacement (cette page ne peut pas être lue correctement par les techniques de ROC).

Exemple n° 2. Page sans fond blanc

Cet exemple n’est pas conforme au paragraphe 12. Avant toute opération de ROC, la page doit être “filtrée” en vue d’essayer de supprimer le fond bruité. Si cette page est soumise telle quelle à un appareil de ROC, le texte obtenu sera illisible.

Exemple n° 3. Page comportant des caractères flous

Une petite partie de la page a été agrandie pour montrer les caractères; la couleur du texte original est probablement le gris, ce qui s’est traduit, après numérisation en blanc et noir à 300 ppp, par des caractères qui ne sont pas suffisamment intenses. Par conséquent, le texte résultant de la reconnaissance optique n’est pas précis (cet exemple n’est pas conforme au paragraphe 12).

Exemple n° 4. Page avec texte manuscrit

Comme on pouvait s’y attendre, le texte obtenu après ROC est illisible. Les offices doivent exiger que le texte soit dactylographié en vue d’obtenir une qualité minimale aux fins de la publication.

Exemple n° 5. Page dont la présentation n’est pas recommandée et comportant d’autres lacunes

Cette page n’est pas conforme aux recommandations suivantes : paragraphe 17 (formatage de colonne unique), paragraphe 39 (comporte des caractères italiques et des caractères gras), paragraphe 46 (corrections manuelles effectuées après l’impression). La justification à gauche et à droite du paragraphe n’est pas non plus recommandée (voir le paragraphe 30), même si, aux fins du présent exemple, il n’y aura aucune répercussion négative sur la ROC puisque les espaces entre les mots sont suffisants. Enfin l’exemple n’est pas non plus conforme au paragraphe 27 (intervalle d’une ligne et demie).

Exemple n° 6. Page dont les numéros de ligne sont trop petits

Les numéros de ligne posent un problème aux appareils de ROC pour plusieurs raisons (voir le paragraphe 14) :
  • ils peuvent ne pas se trouver dans l’alignement des lignes auxquelles ils correspondent, ce qui conduit à des erreurs de détection de la ligne de base;
  • ils peuvent être trop petits, ce qui conduit à des erreurs de reconnaissance empêchant les procédures d’extraction XML de les séparer correctement du corps du texte dans la page;
  • ils peuvent être mal placés dans la zone de texte ou se trouver dans la marge mais être trop près de la zone de texte et, par conséquent, ils figureront dans le flux de texte exporté à l’issue des opérations de ROC.
Dans le présent exemple, ils sont trop petits. Les caractères en indice sont aussi trop petits (voir le paragraphe 35).

Exemple n° 7. Page comportant du texte disposé de plusieurs façons

Le présent exemple n’est pas conforme au paragraphe 20 Les meilleurs appareils de ROC disponibles aujourd’hui ne peuvent néanmoins lire qu’une seule disposition de texte par page (une préprocédure consiste à détecter la disposition du texte principal de la page). Par conséquent, tous les mots qui ne sont pas disposés de la même manière que le texte principal sont ignorés. Bien entendu, il est possible d’avoir, sur une page, un tableau horizontal, ou même un texte principal horizontal avec des annotations verticales dans la marge (numéro de la page, numéro de la demande, etc.).

Exemple n° 8. Page avec des formules mathématiques intégrées et du texte

Le présent exemple n’est pas conforme au paragraphe 23. L’appareil de ROC n’est pas en mesure de séparer correctement le texte des formules (voir le résultat de la segmentation manuelle de la formule qui s’affiche en rouge; les formules intégrées vont même jusqu’à s’interpénétrer). D’une manière générale, on peut dire que, dans cet exemple, le texte et les formules sont trop denses pour pouvoir être bien reconnus; l’exemple n’est pas non plus conforme aux paragraphes 27 et 28. Il est aussi fait usage de caractères inhabituels; les symboles grecs peuvent être utilisés même s’ils augmentent la difficulté de reconnaissance de la page (voir le paragraphe 40). Toutefois, il est vivement préférable d’éviter d’associer caractères italiques, caractères gras ou caractères soulignés à des caractères inhabituels (voir le paragraphe 39).

Exemple n° 9. Page avec des formules chimiques intégrées et du texte

Le présent exemple n’est pas conforme au paragraphe 23. On peut voir en rouge l’un des résultats attendus de la segmentation des dessins (effectuée manuellement). Cette segmentation ne peut pas être exécutée correctement par un appareil de ROC puisque les formules sont trop près du texte.

Exemple n° 10. Page comportant des caractères en indice trop petits

Il s’agit là d’un exemple typique de caractères en indice trop petits pour permettre une reconnaissance précise. Cela se produit fréquemment dans les demandes de brevets relevant du domaine de la chimie.

Exemple n° 11. Page comportant des tableaux mal formatés

Dans le présent exemple, le cadre du tableau manque (contrairement à ce que prévoit le paragraphe 33). Par conséquent, l’appareil de ROC essaiera de reconnaître le contenu des tableaux comme le texte d’un paragraphe. Dès lors, plusieurs autres problèmes se poseront :
  • la taille de la police utilisée pour les caractères dans les tableaux sera trop petite (voir les paragraphes 34 et 35);
  • la ligne de base du titre des colonnes ne sera pas la même partout (voir le paragraphe 29). Par conséquent, l’appareil va, à tort, détecter des indices ou des exposants;
  • le flux de texte obtenu ne tiendra pas compte des colonnes suivantes :
Left-hand Left-Hand Aryl or Nitogen
Substituent ring heteroaryl
Ring substituent feature Right-hand substituent
CH3

Exemple n° 12. Page avec justifications

Dans le présent exemple, les paragraphes ont fait l’objet d’une justification à gauche et à droite. Si cela rend le texte plus agréable à regarder, les opérations de ROC peuvent parfois être plus difficiles parce que l’espace entre les mots est trop petit (voir le paragraphe 30). L’exemple n’est pas conforme au paragraphe 31 qui prévoit qu’il faut éviter, dans la mesure du possible, de couper un mot à la fin d’une ligne (l’appareil de ROC a parfois du mal à distinguer un trait d’union impératif d’un trait d’union facultatif, ce qui, en définitive, donne des mots contenant des traits d’union intempestifs).

Exemple n° 13. Tableau dont le cadre est imparfait

Dans le présent exemple, le cadre du tableau de l’original reçu, avant numérisation, est de mauvaise qualité. Après numérisation, la procédure de ROC ne détecte pas correctement le tableau et une opération manuelle est nécessaire pour segmenter la page. Si une telle page n’est pas vérifiée par un opérateur, du point de vue de la qualité, le texte final contiendra des caractères intempestifs qui rendront moins efficace l’indexation du document par les moteurs de recherche.

Exemple n° 14. Caractères en indice et caractères en exposant incorrects

Le présent exemple contient les problèmes suivants (voir le paragraphe 35) :
  • les caractères en indice ou en exposant sont trop petits;
  • les caractères en indice sont situés trop au‑dessous de la ligne de base;
  • les caractères en exposant sont situés trop au‑dessus de la ligne de base.
Par conséquent, les lignes 34 et 35 du texte sont reconnues par la procédure ROC comme suit : “Substituted with one or more halogens, (C -C )alkoxy substituted
1 2
8 8 9 8 9
with one or more halogens, SR , and NR R , in which R and R are”

Exemple n° 15. Exemple de demande comportant des caractères inhabituels

Le présent exemple contient les problèmes suivants :

  • caractères inhabituels : caractères grecs en italique et caractères avec un tilde;

  • là encore, la taille des indices est trop petite.

La plupart des appareils de ROC ne reconnaîtront pas correctement les caractères inhabituels.

Exemple n° 16. Exemple de caractères étroits, avec un espacement restreint

Le présent exemple n’est pas conforme aux paragraphes 37 et 38. Par conséquent, l’appareil de ROC ne distingue pas correctement les limites de mot et le résultat est un texte totalement inutilisable.

Exemple n° 17. Exemple de tampon apposé au mauvais endroit par l’office récepteur, avant la numérisation

Le présent exemple n’est pas conforme au paragraphe 47. Par conséquent, les six premiers mots du texte de la page ne peuvent pas être lus par une technique de ROC. En outre, le tampon introduit des caractères supplémentaires caducs qui encombrent les moteurs d’indexation lorsque la qualité de la page n’a pas été vérifiée par un opérateur.

Exemple n° 18. Autre page comportant des formules mathématiques mal présentées

La présente page n’étant pas conforme à beaucoup de recommandations, le résultat de la ROC n’est pas utilisable :

  • les formules mathématiques intégrées ne sont pas séparées des paragraphes de texte (voir le paragraphe 23);

  • des caractères inhabituels sont présents dans les paragraphes de texte (voir le paragraphe 40);

  • des caractères italiques sont associés à des caractères grecs (voir le paragraphe 39)

Aux fins de la présentation de cette page, il aurait fallu utiliser des espaces supplémentaires pour séparer les formules intégrées des paragraphes. Les lettres grecques n’auraient pas dû être mises en italique dans les formules, ni dans les paragraphes. Il convient d’éviter, dans la mesure du possible, d’utiliser des accents circonflexes (^) pour représenter des variables dans des paragraphes de texte, qui auraient pu être remplacés par des exposants; ainsi, “epsilon circonflexe” aurait pu être représenté comme suit : ε^ or εhat.

Exemple n° 19. Page comportant des caractères italiques soulignés non recommandés

Il s’agit là d’un exemple fréquent de page posant un problème de ROC aux fins de la publication PCT. Cette page n’est pas conforme aux recommandations suivantes :

  • Paragraphe 41 : le texte ne devrait pas être souligné. Le soulignement est déconseillé précisément pour les formules chimiques (les dictionnaires ne sont d’aucune aide en l’occurrence). Cela est problématique notamment pour tous les caractères touchant le soulignement : ] ) y p … ne sont pas reconnus correctement.

  • Paragraphe 39 : les caractères italiques ne sont pas recommandés. Ils sont notamment déconseillés aux fins du changement du type de police au sein d’un même mot (les appareils de ROC considèrent souvent que tous les caractères d’un même mot ont le même type de police). Par conséquent, tous les “1H” et “-N-” sont reconnus de manière erronée.

Exemple n° 20. Page complètement illisible

La présente page devrait être refusée par les offices; elle a été envoyée par télécopie avec une résolution de 100 ppp et ne peut même pas être lue par un être humain. Face à une telle situation, les opérateurs considèrent que l’ensemble du contenu de la page est une image puisque le texte ne peut pas en être extrait.

[Fin de la norme]