SCAN, PDF et OCR en cours

Les admins vous annoncent...
Avatar de l’utilisateur
myvyrrian
Administrateur du site
Messages : 4718
Inscription : dim. 24 août 2014 15:45
Localisation : Cité des Papes

SCAN, PDF et OCR en cours

Message par myvyrrian » sam. 28 mars 2015 22:22

Pour les spécialistes: je viens de récup le pdf ocrisé fait par NURTHOR. Logiquement, quand on passe à l'OCR, on n'a plus que les illus en image et tout le reste est devenu du texte. Ce qui doit réduire un fichier de 140Mo à 10-15Mo. Mais là, le fichier est encore à 140Mo. Je vois sur le fichier que ça a gardé tous les fonds. Ca n'a OCRiser que le texte, mais sans supprimer l'image de fond. Je suppose que le poids vient de là du coup.
Est-ce que c'est le logiciel utiliser qui fait ça? Car en l'état, ce n'est du coup pas très intéressant d'OCRiser.

Autre chose: il faut tout de même faire notre propre scan de Masques, du moins pour certaines pages car l'OCR fait n'importe quoi sur les écritures pas hyper nettes (la première page quand on copie colle le texte, on s'aperçoit que ça a écrit un peu n'importe quoi sur les bords de page).
Le passé, c'était mieux avant
Avatar de l’utilisateur
NURTHOR
Chasseur de Chimères
Messages : 438
Inscription : dim. 14 sept. 2014 15:53

Re: OCR en cours

Message par NURTHOR » sam. 28 mars 2015 23:36

Salut Myv
Je peux paramétrer pour un fichier plus léger si tu veux ;)
Là j'ai laissé les 2 pdf l'un sur l'autre (l'ancien non ocr et le nouveau ocrisé)!
Je peux effacer l'ancien ;)
"Il vient une heure où protester ne suffit plus, après la philosophie, il faut l'action, la vive force achève ce que l'idée a ébauché." V. HUGO
Avatar de l’utilisateur
Glorfindel
Traqueur d'auteurs
Messages : 2432
Inscription : lun. 25 août 2014 18:16
Localisation : Isarien

Re: OCR en cours

Message par Glorfindel » sam. 28 mars 2015 23:44

Alors, c'est bien ce que j'ai dit dans l'autre topic ...

IL y a deux manières de faire :

La première, c'est de sortir le texte du document, et de le mettre dans un fichier texte, ce qui fait que tu n'as plus QUE le texte, sans les images ni la présentation. A ce moment là, du a un fichier de quelques Ko.

Le seconde, c'est d'intégrer le texte DANS le pdf, ce qui fait que quand tu sélectionnes le texte dans le pdf, tu peux en extraire les mots.
Et c'est là que tu te rends compte que les polices bizarres, l'OCR a du mal, idem avec les images un peu floue, les polices anciennes, tapées à la machine, avec des caractères plus ou moins contrastées, etc... Et donc, à ce moment là, le fichier est un peu plus gros que l'initial, puisque tu as en fait le document de base sur une couche, et en dessous, le document texte !


Tout dépend de ce que vous voulez en faire. Si c'est pour refaire une mise en page, la première solution est la meilleure, si c'est pour poster le pdf et que chacun se débrouille avec le texte, mieux vaut la seconde !

Et n'espère pas avoir un texte parfait, avec des caractères aussi petits et des textes piqués sur des CB ou équivalent, tu n'auras jamais tout !

Alors ?
Le seul bon terrien est un terrien mort, et encore, généralement, il pue
Vieux proverbe Xeno
Avatar de l’utilisateur
myvyrrian
Administrateur du site
Messages : 4718
Inscription : dim. 24 août 2014 15:45
Localisation : Cité des Papes

Re: OCR en cours

Message par myvyrrian » dim. 29 mars 2015 00:04

Oui mais là c'est sur du supplément Athanor surtout. Donc l'idée est d'avoir quelque chose de propre, mieux que ce qu'on trouve en dll illégal. Le problème vient de la qualité du scan. Ce n'est pas un scan qu'on a fait nous et il est quand même assez pourri (c'est pour ça que je voulais qu'on scanne nous mêmes).

Je sais que je ne réponds pas à la question vraiment mais je me demande s'il n'y a pas une façon de faire pour:
- extraire le texte seul,
- virer toute les images de fond,
- remettre le texte tel quel sur une feuille blanche vierge,
- réinsérer les images qui ont été copiées également

Si tu me dis que c'est impossible, du coup je ne sais pas alors... Pelon, la moitié?

Mais j'ai vu plusieurs fois des vieux PDF tout nettoyés et sur lesquels on avait gardé que le texte et les images.
Serait-il possible d'essayer de voir ce qui est faisable à partir des images que j'ai scanné en 300 ou 600dpi du livret de référence d'Athanor? C'est dans le fichier zip.
Le passé, c'était mieux avant
Avatar de l’utilisateur
pelon
Administrateur du site
Messages : 4593
Inscription : dim. 24 août 2014 15:04
Localisation : Palaiseau 91

Re: OCR en cours

Message par pelon » dim. 29 mars 2015 12:24

joker...

là c'est au dessus de mes maigres compétences, ou alors il faut en gros refaire intégralement le doc.... :blink:
"lovecraft au d20 ça me parle autant que du coca dans le vin"
myvyrrian a écrit : T'as tort. Tu n'imagines pas à quel point ça met dans l'ambiance...
La Moitié a écrit :cette histoire de taille, moi ça me tarabuste vraiment
Avatar de l’utilisateur
WolfRider
Chasseur de Chimères
Messages : 123
Inscription : ven. 5 sept. 2014 21:09

Re: OCR en cours

Message par WolfRider » dim. 29 mars 2015 12:41

C'est possible Myrv, mais je ne suis pas sur qu'il existe des outils freeware pour ça sous windows ou mac. Par contre sous Linux ça doit se trouver.
Un logiciel de traitement de texte ou mieux de mise en page qui peut ouvrir un fichier pdf ocr-isé, fera très bien le boulot de nettoyage. En plus il pourra aussi créer un sommaire avec liens hypertextes qui vont avec. Toutefois ça représente quand même du travail supplémentaire par rapport à la simple ocr-isation.
Avatar de l’utilisateur
La Moitié
Admin bonnet D ('Ane)
Messages : 3737
Inscription : dim. 24 août 2014 12:37

Re: OCR en cours

Message par La Moitié » dim. 29 mars 2015 12:59

Pareil que Pelon... je pense qu'il doit exister des logiciels pro qui doivent faire ce que tu souhaites mais ils doivent coûter bonbon.
Avatar de l’utilisateur
myvyrrian
Administrateur du site
Messages : 4718
Inscription : dim. 24 août 2014 15:45
Localisation : Cité des Papes

Re: OCR en cours

Message par myvyrrian » dim. 29 mars 2015 14:45

Quel logiciel par exemple pourrait le faire? En shareware même.
Le passé, c'était mieux avant
Avatar de l’utilisateur
La Moitié
Admin bonnet D ('Ane)
Messages : 3737
Inscription : dim. 24 août 2014 12:37

Re: OCR en cours

Message par La Moitié » dim. 29 mars 2015 18:47

J'ai fourfouillé un peu sur Internet. Je suis tombée sur une page sur le sujet : http://www.generation-nt.com/comparatif ... 981-1.html


En résumé :
Il existe des logiciels gratuits et des libres pour l'OCR mais nous n'avons pas retenu ces derniers. Il faut bien l'avouer, l'OCR est un domaine de compétences qui réclame beaucoup de maturité que ne possèdent pas encore GOCR, Moredata ou FreeOCR. Le très puissant logiciels open-source Tesseract est très bien sous Debian/Ubuntu couplé à gscan2pdf mais peu convivial en ligne de commande sous Windows (exemple de ligne de commande : C:\tesseract>tesseract document.tif c:\dossier_de_sortie\document -l fra). De plus, il requiert exclusivement des TIFF compressés pour l'OCR.


Visiblement, le plus apprécié est ABBYY FineReader 10 Professional Edition (prix moyen TTC 139 € en téléchargement, 149 € pour le kit.)
+ Les plus

Interface conviviale et facile à prendre en main
OCR rapide, précis et respectant la mise en page
Bon détourage des blocs images et texte
Modifications sur le document possibles en amont sur l'image ou en aval sur le texte
Nombreux formats à l'importation et à l'exportation

- Les moins

Pas de formats OpenOffice.org en exportation
Avatar de l’utilisateur
Glorfindel
Traqueur d'auteurs
Messages : 2432
Inscription : lun. 25 août 2014 18:16
Localisation : Isarien

Re: OCR en cours

Message par Glorfindel » dim. 29 mars 2015 19:56

Autant acheter les deux packs de PDF Architect, cela coûte un peu moins cher, et j'ai déjà acheté architect de base ...

Et pour ABBYY, c'est le concurrent direct de l'OCR que l'on utilisait dans nos produits de gestion documentaire, donc en effet, très bon.
Le seul bon terrien est un terrien mort, et encore, généralement, il pue
Vieux proverbe Xeno
Répondre

Revenir à « Nouvelles du forum »