Da Google l’Ocr è open source

Workspace

Il motore utilizza e apre il codice del software Tesseract per convertire i
documenti in testi utilizzabili in fase di indexing

Un software Ocr (optical character recognition), originariamente prodotto da Hp, è stato rilasciato di nuovo da Google, ma in versione open source: si tratta del codice di Tesseract, che è stato sviluppato tra il 1985 e il 1995 da HP, quindi fu rilasciato all’Information Science Research Institute presso UNLV (Università di Las Vegas). Il rilascio open source di Tesseract fa parte del progetto Google Code : Google vuole rendere l’informazione reperibile, ma se l’informazione risiede in documenti cartacei, è necessario un software Ocr per convertire le pagine in testi utilizzabili nell’indexing.

Autore: ITespresso
Clicca per leggere la biografia dell'autore  Clicca per nascondere la biografia dell'autore