Aggiunta di informazioni OCR a un PDF

23

Ho una scansione di buona qualità di un documento; tale scansione è in formato pdf.

Come posso aggiungere informazioni ocr al pdf, in modo che diventi ricercabile? Con ricercabile intendo che l'obiettivo è che quando si visualizza il pdf con evince, CTRL-F in realtà mi permette di cercare nel contenuto pdf.

    
posta fdierre 07.06.2012 - 10:56

5 risposte

14

pdfsandwich

Fa quello che vuoi e fornisce i pacchetti deb di Ubuntu. Usa tesseract come motore OCR. La seguente chiamata aggiunge il livello di testo al PDF scansionato:

pdfsandwich scanned.pdf

Di seguito fa lo stesso, ma con un'altra lingua (codice ISO 639-2, download% pacchetto co_de%) e impostazione del layout:

pdfsandwich  -verbose -lang spa -layout single scanned.pdf

Se ricevi qualche errore per favore scarica l'ultima versione deb da Sourceforge .

Dichiarazione di non responsabilità: sono lo sviluppatore di pdfsandwich e quindi ovviamente di parte.

    
risposta data Tobias Elze 25.07.2014 - 15:27
7

Ci sono due progetti che fanno il trucco: GScan2PDF e OCRFeeder

    
risposta data Aldi 07.06.2012 - 23:24
3

Ho trovato una soluzione non ideale, ma molto efficace.

Uso PDF X-Change Viewer tramite Wine. Ha una funzione OCR che aggiunge un livello di testo al pdf esistente basato sull'immagine.

Così puoi cercare e copiare il testo da questo livello invisibile.

    
risposta data To Do 19.02.2013 - 11:31
2

Per una soluzione da riga di comando, puoi usare pdfocr .

In breve, installa il software:

$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr

Quindi esegui pdfocr:

$ pdfocr -i scanned.pdf -o scanned.with.search.pdf

Questo ha funzionato per me su Ubuntu 12.04 LTS.

    
risposta data Robert Citek 23.03.2014 - 21:23
1

Una soluzione facilmente implementabile e che fornisce un PDF di output con la stessa qualità del file di input più una dimensione ragionevole è OCRmyPDF:

link

    
risposta data user127022 08.11.2017 - 17:47

Leggi altre domande sui tag