SCAN, PDF et OCR en cours
- Géraud Myvyrrian G
- Administrateur du site
- Messages : 5588
- Inscription : dim. 24 août 2014 15:45
- Localisation : Cité des Papes
SCAN, PDF et OCR en cours
Pour les spécialistes: je viens de récup le pdf ocrisé fait par NURTHOR. Logiquement, quand on passe à l'OCR, on n'a plus que les illus en image et tout le reste est devenu du texte. Ce qui doit réduire un fichier de 140Mo à 10-15Mo. Mais là, le fichier est encore à 140Mo. Je vois sur le fichier que ça a gardé tous les fonds. Ca n'a OCRiser que le texte, mais sans supprimer l'image de fond. Je suppose que le poids vient de là du coup.
Est-ce que c'est le logiciel utiliser qui fait ça? Car en l'état, ce n'est du coup pas très intéressant d'OCRiser.
Autre chose: il faut tout de même faire notre propre scan de Masques, du moins pour certaines pages car l'OCR fait n'importe quoi sur les écritures pas hyper nettes (la première page quand on copie colle le texte, on s'aperçoit que ça a écrit un peu n'importe quoi sur les bords de page).
Est-ce que c'est le logiciel utiliser qui fait ça? Car en l'état, ce n'est du coup pas très intéressant d'OCRiser.
Autre chose: il faut tout de même faire notre propre scan de Masques, du moins pour certaines pages car l'OCR fait n'importe quoi sur les écritures pas hyper nettes (la première page quand on copie colle le texte, on s'aperçoit que ça a écrit un peu n'importe quoi sur les bords de page).
Le passé, c'était mieux avant
Re: OCR en cours
Salut Myv
Je peux paramétrer pour un fichier plus léger si tu veux
Là j'ai laissé les 2 pdf l'un sur l'autre (l'ancien non ocr et le nouveau ocrisé)!
Je peux effacer l'ancien
Je peux paramétrer pour un fichier plus léger si tu veux
Là j'ai laissé les 2 pdf l'un sur l'autre (l'ancien non ocr et le nouveau ocrisé)!
Je peux effacer l'ancien
"Il vient une heure où protester ne suffit plus, après la philosophie, il faut l'action, la vive force achève ce que l'idée a ébauché." V. HUGO
- Glorfindel
- Traqueur d'auteurs
- Messages : 3972
- Inscription : lun. 25 août 2014 18:16
- Localisation : Isarien
Re: OCR en cours
Alors, c'est bien ce que j'ai dit dans l'autre topic ...
IL y a deux manières de faire :
La première, c'est de sortir le texte du document, et de le mettre dans un fichier texte, ce qui fait que tu n'as plus QUE le texte, sans les images ni la présentation. A ce moment là, du a un fichier de quelques Ko.
Le seconde, c'est d'intégrer le texte DANS le pdf, ce qui fait que quand tu sélectionnes le texte dans le pdf, tu peux en extraire les mots.
Et c'est là que tu te rends compte que les polices bizarres, l'OCR a du mal, idem avec les images un peu floue, les polices anciennes, tapées à la machine, avec des caractères plus ou moins contrastées, etc... Et donc, à ce moment là, le fichier est un peu plus gros que l'initial, puisque tu as en fait le document de base sur une couche, et en dessous, le document texte !
Tout dépend de ce que vous voulez en faire. Si c'est pour refaire une mise en page, la première solution est la meilleure, si c'est pour poster le pdf et que chacun se débrouille avec le texte, mieux vaut la seconde !
Et n'espère pas avoir un texte parfait, avec des caractères aussi petits et des textes piqués sur des CB ou équivalent, tu n'auras jamais tout !
Alors ?
IL y a deux manières de faire :
La première, c'est de sortir le texte du document, et de le mettre dans un fichier texte, ce qui fait que tu n'as plus QUE le texte, sans les images ni la présentation. A ce moment là, du a un fichier de quelques Ko.
Le seconde, c'est d'intégrer le texte DANS le pdf, ce qui fait que quand tu sélectionnes le texte dans le pdf, tu peux en extraire les mots.
Et c'est là que tu te rends compte que les polices bizarres, l'OCR a du mal, idem avec les images un peu floue, les polices anciennes, tapées à la machine, avec des caractères plus ou moins contrastées, etc... Et donc, à ce moment là, le fichier est un peu plus gros que l'initial, puisque tu as en fait le document de base sur une couche, et en dessous, le document texte !
Tout dépend de ce que vous voulez en faire. Si c'est pour refaire une mise en page, la première solution est la meilleure, si c'est pour poster le pdf et que chacun se débrouille avec le texte, mieux vaut la seconde !
Et n'espère pas avoir un texte parfait, avec des caractères aussi petits et des textes piqués sur des CB ou équivalent, tu n'auras jamais tout !
Alors ?
Le seul bon terrien est un terrien mort, et encore, généralement, il pue
Vieux proverbe Xeno
Vieux proverbe Xeno
- Géraud Myvyrrian G
- Administrateur du site
- Messages : 5588
- Inscription : dim. 24 août 2014 15:45
- Localisation : Cité des Papes
Re: OCR en cours
Oui mais là c'est sur du supplément Athanor surtout. Donc l'idée est d'avoir quelque chose de propre, mieux que ce qu'on trouve en dll illégal. Le problème vient de la qualité du scan. Ce n'est pas un scan qu'on a fait nous et il est quand même assez pourri (c'est pour ça que je voulais qu'on scanne nous mêmes).
Je sais que je ne réponds pas à la question vraiment mais je me demande s'il n'y a pas une façon de faire pour:
- extraire le texte seul,
- virer toute les images de fond,
- remettre le texte tel quel sur une feuille blanche vierge,
- réinsérer les images qui ont été copiées également
Si tu me dis que c'est impossible, du coup je ne sais pas alors... Pelon, la moitié?
Mais j'ai vu plusieurs fois des vieux PDF tout nettoyés et sur lesquels on avait gardé que le texte et les images.
Serait-il possible d'essayer de voir ce qui est faisable à partir des images que j'ai scanné en 300 ou 600dpi du livret de référence d'Athanor? C'est dans le fichier zip.
Je sais que je ne réponds pas à la question vraiment mais je me demande s'il n'y a pas une façon de faire pour:
- extraire le texte seul,
- virer toute les images de fond,
- remettre le texte tel quel sur une feuille blanche vierge,
- réinsérer les images qui ont été copiées également
Si tu me dis que c'est impossible, du coup je ne sais pas alors... Pelon, la moitié?
Mais j'ai vu plusieurs fois des vieux PDF tout nettoyés et sur lesquels on avait gardé que le texte et les images.
Serait-il possible d'essayer de voir ce qui est faisable à partir des images que j'ai scanné en 300 ou 600dpi du livret de référence d'Athanor? C'est dans le fichier zip.
Le passé, c'était mieux avant
- pelon
- Administrateur du site
- Messages : 5565
- Inscription : dim. 24 août 2014 15:04
- Localisation : Palaiseau 91
Re: OCR en cours
joker...
là c'est au dessus de mes maigres compétences, ou alors il faut en gros refaire intégralement le doc....
là c'est au dessus de mes maigres compétences, ou alors il faut en gros refaire intégralement le doc....
"lovecraft au d20 ça me parle autant que du coca dans le vin"
http://www.lulu.com/shop/luc-pointal/we ... 73511.html
pdf gratuit :
http://www.lulu.com/shop/luc-pointal/we ... 73541.html
myvyrrian a écrit : T'as tort. Tu n'imagines pas à quel point ça met dans l'ambiance...
ma création JDR, Western (96 page N&B, prix coutant : 4.42€)La Moitié a écrit :cette histoire de taille, moi ça me tarabuste vraiment
http://www.lulu.com/shop/luc-pointal/we ... 73511.html
pdf gratuit :
http://www.lulu.com/shop/luc-pointal/we ... 73541.html
Re: OCR en cours
C'est possible Myrv, mais je ne suis pas sur qu'il existe des outils freeware pour ça sous windows ou mac. Par contre sous Linux ça doit se trouver.
Un logiciel de traitement de texte ou mieux de mise en page qui peut ouvrir un fichier pdf ocr-isé, fera très bien le boulot de nettoyage. En plus il pourra aussi créer un sommaire avec liens hypertextes qui vont avec. Toutefois ça représente quand même du travail supplémentaire par rapport à la simple ocr-isation.
Un logiciel de traitement de texte ou mieux de mise en page qui peut ouvrir un fichier pdf ocr-isé, fera très bien le boulot de nettoyage. En plus il pourra aussi créer un sommaire avec liens hypertextes qui vont avec. Toutefois ça représente quand même du travail supplémentaire par rapport à la simple ocr-isation.
Re: OCR en cours
Pareil que Pelon... je pense qu'il doit exister des logiciels pro qui doivent faire ce que tu souhaites mais ils doivent coûter bonbon.
Notre site : https://www.ginungagap.fr/
- Géraud Myvyrrian G
- Administrateur du site
- Messages : 5588
- Inscription : dim. 24 août 2014 15:45
- Localisation : Cité des Papes
Re: OCR en cours
Quel logiciel par exemple pourrait le faire? En shareware même.
Le passé, c'était mieux avant
Re: OCR en cours
J'ai fourfouillé un peu sur Internet. Je suis tombée sur une page sur le sujet : http://www.generation-nt.com/comparatif ... 981-1.html
En résumé :
Visiblement, le plus apprécié est ABBYY FineReader 10 Professional Edition (prix moyen TTC 139 € en téléchargement, 149 € pour le kit.)
En résumé :
Il existe des logiciels gratuits et des libres pour l'OCR mais nous n'avons pas retenu ces derniers. Il faut bien l'avouer, l'OCR est un domaine de compétences qui réclame beaucoup de maturité que ne possèdent pas encore GOCR, Moredata ou FreeOCR. Le très puissant logiciels open-source Tesseract est très bien sous Debian/Ubuntu couplé à gscan2pdf mais peu convivial en ligne de commande sous Windows (exemple de ligne de commande : C:\tesseract>tesseract document.tif c:\dossier_de_sortie\document -l fra). De plus, il requiert exclusivement des TIFF compressés pour l'OCR.
Visiblement, le plus apprécié est ABBYY FineReader 10 Professional Edition (prix moyen TTC 139 € en téléchargement, 149 € pour le kit.)
+ Les plus
Interface conviviale et facile à prendre en main
OCR rapide, précis et respectant la mise en page
Bon détourage des blocs images et texte
Modifications sur le document possibles en amont sur l'image ou en aval sur le texte
Nombreux formats à l'importation et à l'exportation
- Les moins
Pas de formats OpenOffice.org en exportation
Notre site : https://www.ginungagap.fr/
- Glorfindel
- Traqueur d'auteurs
- Messages : 3972
- Inscription : lun. 25 août 2014 18:16
- Localisation : Isarien
Re: OCR en cours
Autant acheter les deux packs de PDF Architect, cela coûte un peu moins cher, et j'ai déjà acheté architect de base ...
Et pour ABBYY, c'est le concurrent direct de l'OCR que l'on utilisait dans nos produits de gestion documentaire, donc en effet, très bon.
Et pour ABBYY, c'est le concurrent direct de l'OCR que l'on utilisait dans nos produits de gestion documentaire, donc en effet, très bon.
Le seul bon terrien est un terrien mort, et encore, généralement, il pue
Vieux proverbe Xeno
Vieux proverbe Xeno