Revue d'atelier, scanner et reconnaissance de caractères

Le vrac total !!!
Tout est permis....
Meme le Hors sujet !
Mais pas les problemes...

Modérateurs : Modo-Mecano's, The staff

Répondre
Avatar du membre
Volatyl
Volatyl - Admin
Volatyl - Admin
Messages : 9031
Enregistré le : jeu. 24 janv. 2008 07:17
Localisation : CUVERGNON (60)
Contact :

Revue d'atelier, scanner et reconnaissance de caractères

Message par Volatyl »

Bonjour à tous.

Petite expérience à partager et plus pour les intéressés

Ayant acquis une nouvelle machine il me fallait bien la documentation pour l'entretenir. Aussi merci à mon fournisseur de la revue d'atelier (que je ne nommerai pas pour des raisons évidentes).
Concernant la CBRXX la revue se compose de la revue principale initiale, le complément 1997 et l'addendum pour les modèles à partir de 99 (passages des carbus à l'injections et autres changements).
Le tout fait environ 550 pages format A4.

Donc j'ai scanné le tout (ce qui demande avec un scanner à plat 6 à 8 heures).

Reste que sous format "image" ou PDF brut cela ne sert pas à grand chose. Si on doit parcourir les 500 pages à chaque fois pour trouver une référence c'est très vite lassant.

Pour cela il y a une solution pratique. Elle prend beaucoup de temps mais se révèle efficace. Il existe des logiciels de reconnaissances de caractères.

Pour le principe, le logiciel passe en revue les pages scannées et cherche (après paramétrage de la langue du document scanné) s'il reconnait des mots tout en identifiant les zones de texte.

Donc d'un document "image" nous passons à un document structuré sur lequel il est possible de faire des recherches de mots et donc de trouver son information beaucoup plus rapidement.

Vous pouvez voir un exemple ci-dessous de ce que cela donne. Cliquez sur l'image pour l'agrandir.

Image

Là, nous avons fait le plus rapide.

Pour la partie restante, le plus long, il s'agit de corriger le texte sur les parties qu'il a du mal à reconnaître, les parties mal scannées, les caractères reconnus là où il n'y en a pas (dans les formes d'images par exemple) ou encore les caractères spéciaux ou les termes absent du dictionnaire de la langue utilisé (que l'on peut enrichir).
C'est une vérification manuelle obligatoire à l'aide d'un outils indicateur de non-reconnaissance ou de doute quant à un caractère ou un mot, car rien ne remplacera l’œil humain à ce niveau.
Pour indication, j'en suis à la page 94 du manuel principal, ayant déjà terminé les deux autres suppléments. C'est long. Très long.

Voilà c'était juste pour vous faire partager cette expérience si certains sont intéressés pour en faire autant de leur côté pour d'autres raisons ou revues.

N'étant pas professionnel de l'édition ni riche, je ne traiterai ici que de la méthode exacte mais pas du logiciel utilisé. Ceci se fera en MP et/ou mail ceci pour ne pas engager la responsabilité du site.
E pur si muove!
JC34A - NC06 - PC01 - PC01 - GPZ 500 S 89 - GPZ500 94 - K1200RS - NC06 - SC35 - ZGULPH -L3EVCYM
Image
Répondre