gImageReader : une interface légère pour Tesseract.

Il est parfois utile d’avoir un outil d’OCR. Il existe le très bon et très puissant moteur tesseract.

Cependant, toute sa puissance est exploitable uniquement en ligne de commande :(. Il y a bien un outil comme gscan2pdf, mais il demande un nombre assez important de dépendances lié à Perl.

Même si à une époque lointaine, je l’avais encensé 🙂

En faisant quelques recherches, je suis tombé sur gImageReader, un outil en python, n’ayant que peu de dépendances, en dehors de python et de tesseract :

imagemagick pycairo pygtk python-gtkspell

En m’inspirant de PKGBUILDs déjà existants pour contourner un problème de compilation, j’ai créé un paquet disponible sur AUR : gimagereader.

Le seul hic, c’est qu’il faut définir le chemin pour accéder aux dictionnaires de tesseract. Sur mon archlinux, ces derniers sont à l’endroit suivant :

/usr/share/tessdata

Configuration de gImageReader 0.6

Bien que ce ne soit qu’une version 0.6, l’interaction avec le moteur de tesseract est simple et le résultat (pour peu qu’on ait une image numérisée de qualité – minimum 300 ppp) donne de très bons résultats.

gImageReader 0.6 en action

Un bug cosmétique, c’est que le logiciel ne semble pas apprécier un système en UTF-8 🙂

En tout cas, c’est un logiciel sympa, le genre d’outil dont on a besoin de temps à autres et dont on est content d’avoir sous la souris 😉

Petit message pour Devil505 : libre à toi de t’inspirer de mon PKGBUILD pour faire un Frugalbuild 😉

En vrac’ rapide et libre avant le week-end.

Comme le week-end approche, un petit en vrac’ se justifie.

C’est tout pour aujourd’hui. Bon week-end

Une nouveauté visuelle de Mozilla Firefox 4.0beta6 : un bouton « arrêt, rechargement, chargement » tout-en-un

Alors que la 5ième béta de Mozilla Firefox est prévue pour le 7 septembre, la 6ième béta est en cours, comme l’on peut voir avec l’identifiant d’une compilation effectuée ce matin vers 10 h 30 : Mozilla/5.0 (X11; Linux x86_64; rv:2.0b6pre) Gecko/20100903 Firefox/4.0b6pre

Dans cette avant-dernière béta (7 bétas sont prévues), une nouveau graphique va simplifier la barre de tache : un bouton tout en un au niveau de la barre d’adresse, qui permet de lancer le chargement ou le rechargement, voire d’arrêter le chargement d’une page en cours.

Une image valant mieux que mille mots, voici où se trouve ce bouton :

Un aperçu du bouton en fin de barre d'adresse dans Mozilla Minefield 4.0b6pre

Pour info, cet ajout d’icone, c’est le bug 544816. En ce qui concerne le « Bouton » Firefox en haut à gauche de la fenêtre, c’est le bug 585370

Dommage que Pino sente le sapin…

Mis à part le jeu de mots raté, et bien que je n’aime pas trop gwibber, il est désormais obligatoire de passer à sa version 2.31.91 pour accéder à Twitter. En effet, le service demande désormais une authentification.

Voila ce que cela donne :

autorisation pour utiliser gwibber avec Twitter

Quand à Pino, difficile de rester optimiste, lorsque l’on sait que la dernière modification du code source date du 3 juillet, et que celui-ci ne compile pas avec des versions récentes de vala…

Installer Tracker 0.9.18 sur ArchLinux

Tracker, c’est le moteur d’indexation et de recherches de fichiers de l’environnement de bureau Gnome.

Bien qu’une version 0.8.xx soit disponible, la version de développement 0.9.18 (au moment où j’écris cet article) est très facilement récupérable. Attention, comme toute version de développement, elle peut vous exploser à la figure 😉

A noter que depuis la version 0.9.16 – et uniquement en cas d’installation du logiciel en utilisant le code source (ce qui est somme toute assez courante sous des systèmes unix) – il faut installer Vala. Dans mon cas, j’ai utilisé le paquet AUR vala-devel, qui propose la version 0.9.7 du langage. Cf http://git.gnome.org/browse/tracker/tree/NEWS

Le code étant encore en développement, l’indexation semble assez longue, à moins que la lenteur constatée ne soit liée à la compilation d’une version de Minefield en même temps 😉

Un bug assez ennuyeux, pour ne pas dire qu’il facilite franchement le transit intestinal, semble que dans la version stable, tracker semble oublié le contenu qu’il a indexé, dès qu’on ferme la session 🙁

Bref, j’ai récupéré le précédent PKGBUILD, laissé à l’abandon par son créateur, et je l’ai modifié pour qu’il soit à jour, et surtout compilable.

Pour l’installer, il suffit de taper dans une console un petit : yaourt -S tracker-git

Et d’attendre en croisant les doigts 😉

Ce que l’on constate, c’est désormais que bien que l’interface n’ait que peu changé, elle est unifié quand on utilise le clic-droit sur l’icone en forme de loupe. L’entrée « courrier » est grisée. Cela doit être lié à la non-utilisation de ma part du logiciel de courrier Evolution, client officiel de Gnome.

tracker-menu

Sinon, l’interface de recherche est toujours aussi claire. Et aussi complète 😉

une recherche dans tracker

Et comme disait la publicité pour un fabricant de compatible PC dans les années 1980-1990 : « A suivre ! »