gImageReader : une interface légère pour Tesseract.

Il est parfois utile d’avoir un outil d’OCR. Il existe le très bon et très puissant moteur tesseract.

Cependant, toute sa puissance est exploitable uniquement en ligne de commande :(. Il y a bien un outil comme gscan2pdf, mais il demande un nombre assez important de dépendances lié à Perl.

Même si à une époque lointaine, je l’avais encensé 🙂

En faisant quelques recherches, je suis tombé sur gImageReader, un outil en python, n’ayant que peu de dépendances, en dehors de python et de tesseract :

imagemagick pycairo pygtk python-gtkspell

En m’inspirant de PKGBUILDs déjà existants pour contourner un problème de compilation, j’ai créé un paquet disponible sur AUR : gimagereader.

Le seul hic, c’est qu’il faut définir le chemin pour accéder aux dictionnaires de tesseract. Sur mon archlinux, ces derniers sont à l’endroit suivant :

/usr/share/tessdata

Configuration de gImageReader 0.6

Bien que ce ne soit qu’une version 0.6, l’interaction avec le moteur de tesseract est simple et le résultat (pour peu qu’on ait une image numérisée de qualité – minimum 300 ppp) donne de très bons résultats.

gImageReader 0.6 en action

Un bug cosmétique, c’est que le logiciel ne semble pas apprécier un système en UTF-8 🙂

En tout cas, c’est un logiciel sympa, le genre d’outil dont on a besoin de temps à autres et dont on est content d’avoir sous la souris 😉

Petit message pour Devil505 : libre à toi de t’inspirer de mon PKGBUILD pour faire un Frugalbuild 😉

En vrac’ rapide et libre avant le week-end.

Comme le week-end approche, un petit en vrac’ se justifie.

C’est tout pour aujourd’hui. Bon week-end

Mozilla Firefox 4.0b5pre : encore du progrès ?

Il y a une quinzaine de jours, je parlais d’une préversion de la 4ième béta de Mozilla Firefox 4.0. Désormais, on peut penser que la 4ième béta ne saurait tarder, étant donné que l’identifiant est le suivant :

Build identifier: Mozilla/5.0 (X11; Linux x86_64; rv:2.0b5pre) Gecko/20100819 Minefield/4.0b5pre

Coté test, n’ayant pas encore eu l’occasion de tester sunspider, je ne ferais que citer les chiffres brut, en faisant une différence entre les deux versions, séparées de 15 jours. La version de Minefield a été compilée environ 15 minutes avant la publication de l’article :

html5test.com : on arrive à un score de… 214 points… 14 points de mieux, ce qui est franchement pas si mal que cela 🙂

214 points au test html5 - Minefield 4.0b5pre

v8, test de vitesse de javascript : on passe de 1035 à 1114… Une progression de… 8%… Pour info, ma machine est propulsée par un AMD Athlon(tm) II X2 215 Processor (qui tourne de 800 à 2700 Mhz).

1118 points à V8 - Minefield 4.0b5pre

Bon, on est loin des scores d’un Chromium, mais le progrès est présent 😉

Victime de la malédiction de « frugal-amon » ?!

Hier soir, ayant réussi à réparer mon portable – à vrai dire une sorte de feeling m’a dit : tente ta chance et rallumes-le – j’ai voulu remplacer la distribution ArchLinux qui s’y trouvait dessus par une frugalware linux. Pourquoi ? Pour avoir les deux distributions rolling release sur mon matériel informatique.

J’ai donc appliqué la méthode qui – normalement – fonctionne. Installation du strict minimum, et ensuite on rajoute Xorg, le serveur graphique correspondant, etc… Bref, la mise en route en suivant les conseils du wiki de post-installation.

Sauf – et ce doit être encore ma malchance habituelle – je suis tombé sur un bug qui doit être très difficilement reproductible : certains des principaux paquets de Gnome, à savoir libgnome et gnome-vfs mettait jusqu’à 18 minutes pour s’installer…

Selon Bouleetbil sur le canal irc #frugalware.fr, c’était lié à un problème de gconftool-2… Mais pourquoi a-t-il fallu que je tombe dessus lors d’une installation sur une vraie machine alors que le bug n’avait pas pointé le bout de son nez lors de mes tests dans une machine virtuelle qemu, la veille ?

Résultat des courses… Excédés par ce bug – il restait encore quelque chose comme 140 paquets à installer après libgnome – j’ai installé une archlinux dessus…

A croire que je dois avoir un don pour tomber sur ce genre de bug…

Utiliser une version de développement de Gnash avec Archlinux.

Même si la technologie Adobe Flash est une horreur, il faut bien avoir un logiciel pour lire les fichiers flash sur la toile. Du moins, le temps que le html5 prenne son envol.

Comme je l’ai annoncé récemment, gnash qui semble bien mal en point semble continuer à viser l’avenir, et pour se faire, ils viennent de quitter l’outil de suivi de code source Bazaar pour git.

Dans le dépot tiers qu’est le Arch User Repository, on trouve un sacret paquet de versions pour gnash (plus ou moins périmées et / ou obsolètes).

AUR et gnash... Bon courage !

Voulant avoir une version qui utilise git, j’ai donc pris la version gnash-trunk-bzr-1.3, puis ayant recopié une partie du code source du PKGBUILD de vlc-git, je suis arrivé à obtenir un PKGBUILD fonctionnel, que voici ci-dessous :

# Contributor: Carlos Sanchez
# Maintainer for Parabola GNU/Linux: Omar Botta
# Contributor: Frederic Bezies
#
# Based on work made by Carlos Sanchez
#
pkgname=gnash-trunk-git
pkgver=20100813
pkgrel=1
pkgdesc= »Gnash is the GNU SWF Player based on GameSWF. Development version based on git »
arch=(‘i686’ ‘x86_64’)
url= »http://www.gnu.org/software/gnash/ »
license=(‘GPLv3+’)
makedepends=(‘git’ ‘automake’ ‘autoconf’ ‘gettext’ ‘libtool’)
depends=(‘agg’ ‘atk’ ‘libxml2’ ‘curl’ ‘ffmpeg’ ‘boost’ ‘pango’ ‘libxi’ ‘gstreamer0.10’ ‘gstreamer0.10-base’ ‘gstreamer0.10-ffmpeg’ ‘gstreamer0.10-base-plugins’ ‘gstreamer0.10-good-plugins’ ‘gstreamer0.10-bad-plugins’ ‘gstreamer0.10-ugly-plugins’)
provides=(gnash-common gnash-gtk)
conflicts=(gnash-common gnash-gtk gnash-trunk-bzr)
replaces=(gnash-common gnash-gtk)
md5sums=(‘8fdf50aaf01d00ccd9d5aed84abe25ca’)

_gitroot=’git://git.sv.gnu.org/gnash.git’
_gitname=’gnash’
_buildir=${_gitname}-build

build() {
cd ${srcdir}

msg ‘Connecting to GIT server…’

if [ -d ${_gitname} ]; then
cd ${_gitname} && git pull origin
cd ..
else
git clone ${_gitroot}
fi

msg ‘GIT checkout done or server timeout.’

if [ -d ${_buildir} ]; then
msg ‘Cleaning previous build…’
rm -rf ${_buildir}
fi

git clone ${_gitname} ${_buildir}
cd ${_buildir}

msg ‘Generating necessary files…’

chmod +x autogen.sh
./autogen.sh
./configure –prefix=/usr \
–enable-renderer=agg \
–enable-gui=gtk \
–enable-sound=sdl \
–enable-media=gst \
–with-plugindir=/usr/lib/mozilla/plugins \
–disable-kparts3 \
–disable-kparts4 \
–disable-cygnal || return 1

make || return 1

make DESTDIR= »$pkgdir » install || return 1
make DESTDIR= »$pkgdir » install-plugins || return 1
}

J’ai proposé le paquet sous le nom de gnash-trunk-git.

Et voila le résultat, j’ai pris la publicité pour la Renault 21 qui faisait d’énorme clin d’oeil à la série de Patrick McGoohan, « Le Prisonnier ».

Gnash-trunk-git en action :)

Un simple yaourt -S gnash-trunk-git permettra d’installer le logiciel sous Archlinux.

Je pense que c’est assez facilement adaptable pour Frugalware. Faudra juste que j’essaye 🙂