Come posso estrarre il testo dalle immagini?

21

Come posso estrarre il testo dalle immagini?

Non sto parlando di file scansionati, ma di immagini di varietà da giardino, ad esempio quando prendi in mano un'immagine ad alta definizione di una lavagna, ed è ben scritta a mano; o quando si fotografa una pagina da un ricettario e si desidera la ricetta in formato testo.

Qualsiasi software gratuito e aperto per questo?

Ho provato a tesseract, e i risultati sono stati terribili.

    
posta Strapakowsky 31.08.2011 - 10:33

2 risposte

23

L'atto di estrarre il testo dalle immagini si chiama OCR e Ubuntu ha una pagina wiki dedicata a OCR . Da quella pagina:

Strumenti OCR disponibili

Gli archivi dell'Universo di Ubuntu contengono i seguenti strumenti OCR:

  1. gocr - Una riga di comando OCR
  2. fuzzyocr - plug-in spamassassin per controllare gli allegati delle immagini
  3. libhocr0 - OCR ebraico
  4. ocrad - Programma di riconoscimento ottico dei caratteri
  5. ocrfeeder - Analisi del layout del documento e sistema di riconoscimento ottico dei caratteri
  6. ocropus - analisi dei documenti e sistema OCR
  7. tesseract-ocr

I repository multiverse di Ubuntu contengono anche:

  1. cuneiform - sistema OCR multi-lingua

Alcuni pacchetti sono obsoleti, ma quelli nuovi non ufficiali possono essere trovati in PPA di Alex_P (codice di aggiunta PPA : ppa: alex-p / notesalexp). Se non hai mai utilizzato un controllo PPA come aggiungere software da un PPA .

modifica: Come mostrato nel commento Clara OCR esiste anche ma è stato pubblicato da Hardy e il loro sito web ha il 2009 come ultimo aggiornamento.

    
risposta data Rinzwind 31.08.2011 - 10:55
13

tesseract-ocr sarebbe il grande rispetto a tutti gli altri. Per l'installazione, esegui il comando sudo apt-get install tesseract-ocr .

L'utilizzo è tesseract filename.jpg output.txt .

Il comando sopra genererà output.txt .

Potresti prendere in considerazione la scelta della lingua appropriata. In tal caso dovrai installare il pacchetto tesseract-ocr-LANG , dove LANG è il codice lingua ISO 639-2 a tre lettere. In questo momento hai 108 lingue sul repository 16.04. Quindi usa tesseract filename.jpg output -l LANG .

    
risposta data Sudhir Belagali 18.04.2016 - 05:44

Leggi altre domande sui tag