SCAN, PDF et OCR en cours

Pour les spécialistes: je viens de récup le pdf ocrisé fait par NURTHOR. Logiquement, quand on passe à l'OCR, on n'a plus que les illus en image et tout le reste est devenu du texte. Ce qui doit réduire un fichier de 140Mo à 10-15Mo. Mais là, le fichier est encore à 140Mo. Je vois sur le fichier que ça a gardé tous les fonds. Ca n'a OCRiser que le texte, mais sans supprimer l'image de fond. Je suppose que le poids vient de là du coup.
Est-ce que c'est le logiciel utiliser qui fait ça? Car en l'état, ce n'est du coup pas très intéressant d'OCRiser.

Autre chose: il faut tout de même faire notre propre scan de Masques, du moins pour certaines pages car l'OCR fait n'importe quoi sur les écritures pas hyper nettes (la première page quand on copie colle le texte, on s'aperçoit que ça a écrit un peu n'importe quoi sur les bords de page).

Message par **NURTHOR** » sam. 28 mars 2015 23:36

Salut Myv
Je peux paramétrer pour un fichier plus léger si tu veux

Là j'ai laissé les 2 pdf l'un sur l'autre (l'ancien non ocr et le nouveau ocrisé)!
Je peux effacer l'ancien

Message par **Glorfindel** » sam. 28 mars 2015 23:44

Alors, c'est bien ce que j'ai dit dans l'autre topic ...

IL y a deux manières de faire :

La première, c'est de sortir le texte du document, et de le mettre dans un fichier texte, ce qui fait que tu n'as plus QUE le texte, sans les images ni la présentation. A ce moment là, du a un fichier de quelques Ko.

Le seconde, c'est d'intégrer le texte DANS le pdf, ce qui fait que quand tu sélectionnes le texte dans le pdf, tu peux en extraire les mots.
Et c'est là que tu te rends compte que les polices bizarres, l'OCR a du mal, idem avec les images un peu floue, les polices anciennes, tapées à la machine, avec des caractères plus ou moins contrastées, etc... Et donc, à ce moment là, le fichier est un peu plus gros que l'initial, puisque tu as en fait le document de base sur une couche, et en dessous, le document texte !

Tout dépend de ce que vous voulez en faire. Si c'est pour refaire une mise en page, la première solution est la meilleure, si c'est pour poster le pdf et que chacun se débrouille avec le texte, mieux vaut la seconde !

Et n'espère pas avoir un texte parfait, avec des caractères aussi petits et des textes piqués sur des CB ou équivalent, tu n'auras jamais tout !

Alors ?

Oui mais là c'est sur du supplément Athanor surtout. Donc l'idée est d'avoir quelque chose de propre, mieux que ce qu'on trouve en dll illégal. Le problème vient de la qualité du scan. Ce n'est pas un scan qu'on a fait nous et il est quand même assez pourri (c'est pour ça que je voulais qu'on scanne nous mêmes).

Je sais que je ne réponds pas à la question vraiment mais je me demande s'il n'y a pas une façon de faire pour:
- extraire le texte seul,
- virer toute les images de fond,
- remettre le texte tel quel sur une feuille blanche vierge,
- réinsérer les images qui ont été copiées également

Si tu me dis que c'est impossible, du coup je ne sais pas alors... Pelon, la moitié?

Mais j'ai vu plusieurs fois des vieux PDF tout nettoyés et sur lesquels on avait gardé que le texte et les images.
Serait-il possible d'essayer de voir ce qui est faisable à partir des images que j'ai scanné en 300 ou 600dpi du livret de référence d'Athanor? C'est dans le fichier zip.

Message par **pelon** » dim. 29 mars 2015 12:24

joker...

là c'est au dessus de mes maigres compétences, ou alors il faut en gros refaire intégralement le doc....

Message par **WolfRider** » dim. 29 mars 2015 12:41

C'est possible Myrv, mais je ne suis pas sur qu'il existe des outils freeware pour ça sous windows ou mac. Par contre sous Linux ça doit se trouver.
Un logiciel de traitement de texte ou mieux de mise en page qui peut ouvrir un fichier pdf ocr-isé, fera très bien le boulot de nettoyage. En plus il pourra aussi créer un sommaire avec liens hypertextes qui vont avec. Toutefois ça représente quand même du travail supplémentaire par rapport à la simple ocr-isation.

Message par **La Moitié** » dim. 29 mars 2015 12:59

Pareil que Pelon... je pense qu'il doit exister des logiciels pro qui doivent faire ce que tu souhaites mais ils doivent coûter bonbon.

Quel logiciel par exemple pourrait le faire? En shareware même.

Message par **La Moitié** » dim. 29 mars 2015 18:47

J'ai fourfouillé un peu sur Internet. Je suis tombée sur une page sur le sujet : http://www.generation-nt.com/comparatif ... 981-1.html

En résumé :

Il existe des logiciels gratuits et des libres pour l'OCR mais nous n'avons pas retenu ces derniers. Il faut bien l'avouer, l'OCR est un domaine de compétences qui réclame beaucoup de maturité que ne possèdent pas encore GOCR, Moredata ou FreeOCR. Le très puissant logiciels open-source Tesseract est très bien sous Debian/Ubuntu couplé à gscan2pdf mais peu convivial en ligne de commande sous Windows (exemple de ligne de commande : C:\tesseract>tesseract document.tif c:\dossier_de_sortie\document -l fra). De plus, il requiert exclusivement des TIFF compressés pour l'OCR.

Visiblement, le plus apprécié est ABBYY FineReader 10 Professional Edition (prix moyen TTC 139 € en téléchargement, 149 € pour le kit.)

+ Les plus

Interface conviviale et facile à prendre en main
OCR rapide, précis et respectant la mise en page
Bon détourage des blocs images et texte
Modifications sur le document possibles en amont sur l'image ou en aval sur le texte
Nombreux formats à l'importation et à l'exportation

- Les moins

Pas de formats OpenOffice.org en exportation

Message par **Glorfindel** » dim. 29 mars 2015 19:56

Autant acheter les deux packs de PDF Architect, cela coûte un peu moins cher, et j'ai déjà acheté architect de base ...

Et pour ABBYY, c'est le concurrent direct de l'OCR que l'on utilisait dans nos produits de gestion documentaire, donc en effet, très bon.

SCAN, PDF et OCR en cours

SCAN, PDF et OCR en cours

Re: OCR en cours

Re: OCR en cours

Re: OCR en cours

Re: OCR en cours

Re: OCR en cours

Re: OCR en cours

Re: OCR en cours

Re: OCR en cours

Re: OCR en cours