giovedì 25 luglio 2013

Installiamo un OCR su Ubuntu TESSERACT

Dopo lungo tempo torno a scrivere su questo blog.
L'argomento è una esigenza che in passato spesso mi è venuta e stavolta ho dovuto risolvere: installare un OCR.

Linux è dotato di un "decente" motore OCR che si chiama tesseract.
Questo strumento è ovviamente con interfaccia a caratteri ma oggi ho trovato una GUI decente per pilotarlo.

Per installare tesseract è necessario cercare i pacchetti (non le applicazioni) nel software center, per comodità suggerisco di installare la verisone italiana (tesseract-ocr-ita) che poi si porta dietro tutto quello che serve.

Adesso si deve installare la GUI che si può trovaer qui.

Lanciare gimagereader (nel menu Grafica) e passargli le immagini da dove estrarre il testo.
Se il testo è su più immagini, lui collega in cascata (anche se però non elabora le immagini in cascata).