Raccomandazioni sul software Optical Character Recognition?

15

Ho visto alcuni ebook / documenti apparentemente scansionati dalle loro versioni cartacee, ma il testo negli ebook / documenti può essere copiato in modo sorprendente. Suppongo che le versioni scannerizzate direttamente debbano essere state elaborate da un software di riconoscimento ottico dei caratteri.

Quindi mi piacerebbe sapere quali sono i software di riconoscimento ottico dei caratteri raccomandati? Soprattutto quelli che sono o per Ubuntu o gratis? Se quelli per Windows sono di gran lunga superiori, ti prego di farmelo sapere.

Sono particolarmente interessato a quegli OCR che possono accettare un file PDF scansionato come input e produrre ancora come output un altro file pdf che sembra uguale a quello di input ma con il suo testo copiabile.

Grazie e saluti!

Si prega di limitare un software per risposta

    
posta Tim 12.01.2011 - 23:47

10 risposte

10

Tesseract OCR

Il motore originale è stato sviluppato alla fine degli anni '80 da HP e IBM, ma si è dimostrato uno dei migliori software di riconoscimento oculare che ho usato. Recentemente ha subito numerosi aggiornamenti al motore ed è diventato uno degli strumenti OCR più completi sul mercato. Outscoring contro la maggior parte degli altri strumenti OCR (con qualcosa nel 90 percento più alto di corrispondenze testuali) può facilmente trasformare il tipo di documento standard, da faccia a testo.

Quello che segue è un esempio:

tesseract ScannedDocument.png out

Produrrà un file chiamato out.txt

    
risposta data Dennis 11.03.2017 - 19:59
8

Un altro progetto che dovrebbe essere in grado di farlo è gscan2pdf

sudo apt-get install gscan2pdf

Questo progetto può anche usare Tesseract, così come altri strumenti OCR open source.

    
risposta data Mark Kirby 12.02.2017 - 22:44
3

Non conosco alcun OCR per Ubuntu, ma per Windows ce n'è uno che ha le caratteristiche che ti servono. Questo è ABBYY FineReader questa è la pagina ma non è gratuita     

risposta data vicmp3 22.10.2010 - 04:49
3

Esiste una soluzione gratuita nei repository, CunieForm (e YAGF come frontend Gnome per esso)

    
risposta data Extender 22.10.2010 - 04:54
3

Sembra che il progetto Decapod sia esportato o esportato in PDF, quindi Tesseract deve in qualche modo esportare le informazioni necessarie per sapere dove è stato trovato il testo.

    
risposta data JanC 22.10.2010 - 06:12
1

Adobe Acrobat (non lettore, non un'applicazione gratuita) è in grado di eseguire l'OCR di un documento PDF scansionato e di aggiungere un livello di testo invisibile sopra l'immagine, in modo che il testo possa essere selezionato e copiato. Sfortunatamente non ho la possibilità di controllare dove esattamente quella caratteristica si trova nell'interfaccia utente di Acrobat, ma l'ho usata con successo un paio di volte per lo stesso scopo che hai menzionato.

E sì, questo è un software Windows, non uno Linux, ma secondo il database dell'applicazione Wine HQ, funziona in Wine .

    
risposta data Serge Broslavsky 22.10.2010 - 07:20
1

Il miglior software OCR è solitamente incorporato in stampanti / scanner / fotocopiatrici. Il Canon IRC 3880 nel mio ufficio può produrre ottimi PDF OCR'd facilmente e più velocemente di qualsiasi programma desktop che conosca. Metti il ​​libro nel vassoio (non associato), seleziona il tuo indirizzo e-mail, premi il pulsante verde.

La maggior parte dei pdf dell'OCR che puoi trovare su Internet provengono per macchine simili. Il problema è che il prezzo è troppo alto per l'uso domestico (circa 12.000 euro IRC).

    
risposta data Javier Rivera 22.10.2010 - 08:55
1

Il mio software OCR online gratuito preferito è offerto da Ricoh Innovations. Questo è un programma beta, ma trovo che funzioni abbastanza bene. Dai un'occhiata a: link

    
risposta data Natalie 12.01.2011 - 23:44
1

OCRFeeder

È un'applicazione GUI.

Utilizza tesseract-ocr o ocrad come motore OCR.

Può essere installato con Centro software o con,

sudo apt-get install ocrfeeder
    
risposta data user224082 07.11.2013 - 17:54
0

FineReader ha anche una versione online. Sostiene di essere in grado di elaborare i PDF come formato di input --- link

    
risposta data texnic 10.06.2011 - 09:56

Leggi altre domande sui tag