Comment avoir toutes les langues dans l’OCR Tesseract.

Dans un précédent article, j’avais parlé de l’excellentissime Tesseract et d’une interface qui est bien pratique, gscan2pdf.

Cependant, la reconnaissance ne se faisait que pour l’anglais.

Voici donc les commandes à appliquer (en root ou avec sudo) pour avoir le choix des langues dans gscan2pdf :

mkdir /usr/share/tesseract-ocr
ln -s /usr/share/tessdata/ /usr/share/tesseract-ocr/

Et maintenant, c’est magique 😉

Adieu Gnomad2… Merci Rhythmbox 0.11.4 :)

Ce soir, lançant yaourt, j’ai eu cet affichage :

fred@fredo-arch:~$ yaourt -Suy
Mot de passe :
:: Synchronisation des bases de données de paquets…
core est à jour;
extra 305,3K 104,4K/s 00:00:03 [#####################] 100%
community est à jour;
archlinuxfr est à jour;
La base de données locale est à jour.
:: Début de la mise à jour complète du système…
Résolution des dépendances…
Recherche des conflits possibles entre paquets…

Cibles: gnome-python-desktop-2.20.0-3 libgpod-0.6.0-1 libmtp-0.2.4-1
qt-4.3.3-3 qscintilla-2.1-3 pyqt-4.3.3-1 totem-plparser-2.21.90-1
gstreamer0.10-python-0.10.9-1 rhythmbox-0.11.4-2 totem-2.20.1-3
totem-plugin-2.20.1-3

Taille totale des paquets (téléchargement): 31,20 Mo

Et j’ai lancé, en croisant les doigts, la mise à jour.

Et ouf, mon lecteur MTP Samsung est reconnu sans passer par Gnomad2. Il est vrai que c’était une amélioration de la version 0.11.4 de Rhythmbox

Autant dire que j’ai été heureux d’entrer un petit :

yaourt -R gnomad2

Et l’obligatoire capture d’écran :

Rhythmbox 0.11.4 sous Arch Linux 64 bits

J’adore les mises à jour mineures de noyaux sous Archlinux ;)

Alors que la version 2.6.24 du noyau linux commence à se faire attendre, le 2.6.23 vient d’arriver à sa 14ième révision. Après une 13ième révision qui n’avait pas fait long feu, la version 2.6.23.14 du noyau linux est disponible sur les dépots de la distribution.

Un peu angoissé, j’ai quand même lancé l’opération de mise à jour, craignant surtout un problème lié au pilote nvidia… Et bien ? Rien, si ce n’est une mise à jour sans problème.


fred@fredo-arch:~$ uname -a
Linux fredo-arch 2.6.23-ARCH #1 SMP PREEMPT Tue Jan 15 07:17:51 CET 2008 x86_64 AMD Sempron(tm) Processor 3100+ AuthenticAMD GNU/Linux
fred@fredo-arch:~$ yaourt -Si kernel26
Dépôt : core
Nom : kernel26
Version : 2.6.23.14-1
URL : --
Licences : --
Groupes : base
Fournit : --
Dépend de : coreutils module-init-tools mkinitcpio>=0.5.15
Dépendances opt. : --
Incompatible avec : --
Remplace : kernel24 kernel24-scsi kernel26-scsi alsa-driver
ieee80211 hostap-driver26 pwc nforce squashfs
unionfs ivtv zd1211 kvm-modules
A télécharger : 23522,79 K
Taille (installé) : 23522,79 K
Paqueteur : --
Architecture : --
Compilé le : --
somme MD5 : b850d8c6ce3762aac0c90254a55c7db4
Description : The Linux Kernel and modules

Plus cela va, plus j’aime cette distribution qui m’a fait quitté mon ubuntu… 😉

Gnome 2.20.3 : ultime version 2.20.x et déjà disponible pour ArchLinux !

Ce matin, je faisais un habituel et quotidien yaourt -Suy quand j’ai vu apparaître quelques 120 Mo de mises à jour disponible !!

Annonce de l'arrivée de Gnome 2.20.3 !

J’ai d’abord pensé à la sortie du noyau 2.6.24, mais non, c’est la version 2.20.3 de Gnome qui pointe le bout de son nez.

Je n’ai pas encore la liste des correctifs au moment où j’écris cet article, mais il est certains qu’un petit paquet de bogues ont du être envoyés ad patres… Et je rajouterais un article sur les nouveautés du Gnome 2.20.3 🙂

En tout cas, après avoir fermé la session, Gnome 2.20.3 m’a accueilli sans aucun problème. Ce qui est agréable, bien que j’attende avec un peu plus de stress la sortie du noyau 2.6.24 et de Gnome 2.22.0 pour la mi-mars… 🙂

Gnome 2.20.3 sous ArchLinux

D’ici quelques heures, KDE 4.0 pointera officiellement le bout de son nez… Autant dire, une période faste pour les environnements de bureau du logiciel libre 😉

Installer VMWare Workstation 6 sur ArchLinux 64bits.

J’ai réussi – tant bien que mal – à installer et faire fonctionner VMWare Workstation 6.0 avec mon ArchLinux 64 bits.

Pour l’installation, j’ai commencé par suivre cette page de wiki.

Cependant, j’ai eu un problème lié à un message : « Unable to change virtual machine power state: Failed to connect to peer process. »

Le fil suivant m’a donné la solution :

Il m’a fallu installer le paquet emul32-xlibs avec yaourt en rajoutant x86_64 à la ligne « arch » du PKGBUILD.

Enfin, j’ai rajouté les lignes à mon /etc/ld.so.conf


/emul/linux/x86/lib
/emul/linux/x86/usr/lib
/emul/linux/x86/usr/qt/3/lib

Enfin, un petit ldconfig m’a permis de pouvoir lancer sans problème ce logiciel de virtualisation qui – contrairement à Virtualbox – permet d’utiliser des OS 64 bits. Raison principale pour laquelle j’utilise – en version d’essai – VMWare Workstation.

Tesseract + gscan2pdf : l’ocr 5 étoiles.

Je me suis basé sur un article publié par « Linux on the root« , en l’adaptant pour mon archlinux.

L’installation des logiciels est assez simple :

yaourt -S tesseract gscan2pdf

Ensuite, en lançant gscan2pdf, on peut numériser – 300 dpi étant pratique pour avoir une bonne reconnaissance – ou récupérer une image numérisée.

Et j’avoue que le résultat est franchement… étonnant. Bref, mon précédent billet semble être un peu trop « éjaculation précoce » 😉

Mais que va-t-il rester aux logiciels propriétaires, mis à part les bonnes grosses daubes ludiques ? 😉

Ajout du 10 janvier, 20h08 :

Voici le résultat de tesseract :

1
IT WAS a bright cold day in April, and the clocks were
striking thirteen. Winston Smith, his chin nuzzled into his
breast in an effort to escape the vile wind, slipped quickly
through the glass doors of Victory Mansions, though not
quickly enough to prevent a swirl of gritty dust from
entering along with him.
The hallway smelt of boiled cabbage and old rag mats.
At one end of it a coloured poster, too large for indoor
display, had been tacked to the wall. It depicted simply an
enormous face, more than a metre wide: the face of a man
of about forty—five, with a heavy black moustache and
ruggcdly handsome features. Winston made for the stairs.
It was no use trying the lift. Even at the best of times it was
seldom working, and at present the electric current was cut
ull`during daylight hours. It was part ofthe economy drive
un preparation for Hate Week. The Hat was seven flights
up, mul Winston, who was thirty-nine and had a varicose
ulcer nhovc his right ankle, went slowly, resting several
Ilmes on thc way. On each landing, opposite the lift shaft,
the poster with the enormous face gazed from the wall. It
WAH an ie ufthose pictures which are so contrived that the eyes
hollow you about when you move. BIG BROTHER
li W /\’l`( II IING YOU, the caption beneath it ran.
Iusule the Flat a fruity voice was reading out a list of
flguteu which had something to do with the production of
pig in in. ‘l`l1e voice came from an oblong metal plaque like
S tlulleil mirror which formed part of the surface of the
Eiglitelmnal wall. Winston turned a switch and the voice
QQHL nmm·w|ml, though the words were still distinguish-

« Bien » numériser un document avec XSane et gocr

Même si tesseract est surement le meilleur des moteurs d’ocr libre, gocr se défend aussi, bien qu’étant moins puissant par moment. tesseract est aussi puissant qu’ennuyeux à mettre en oeuvre 🙁

J’utilise gocr 0.45 en liaison avec XSane pour récupérer les données.

Pour cet essai, j’ai pris mon exemplaire de « 1984 » en anglais. Pour installer Xsane et gocr, sous mon archlinux, il m’a suffit d’entrer un petit :

yaourt -S xsane gocr

Quand aux réglages utilisés, le plus simple est encore la capture d’écran ci-dessous :

reglage xsane pour l'OCR

Après avoir sélectionné la zone à numériser, j’ai lancé la récupération, puis le visionneur m’a donné l’image png à analyser.

Essai de xsane pour de l'ocr

Il m’a suffit de cliquer sur le bouton concernant l’OCR, et voici le résultat :

IT wAs a bright cold day Ap, and the clocks were
striking thirteen. Winston Smth, his chin nuzzle to his
breast an efort to escape the vile wind, slipped qckly
through the glass doors of Victo Msions, tho4gh not
qckly enough to prevent a swirl of gtty d4st from
Lnteng along with hîm.
The hlway smelt of boiled cabbage d old rag mats.
At one end of it a colo4red poster, too large for indoor
Iî’play, had been tacked to the wa. It depicted simply an
’11cro4s face, more th a metre wide: the face ofa man
n bo4t forty-five, with a heavy black mo4stache and
1’1d1y hdsome features. Winston made for the stairs.
l t w no 4se trying the lift. Even at the best ofmes it was
rIc{cn worke, and at present the electc c4rrent was c4t
l l’l Lre daylight ho4rs. It was part ofthe economy drive
1 rt;ration for Hate Week. The Aat was seven ghts-
11l ;1l Wston, who was thjrty-nine and had a varicose
ll’c’ lvc his right kle, went slowly, resig several
l c’ 1 m way. On each lding, opposite the lift shaft,
l33 ‘l’r with the enormo4s face gazed fiom the wall. It
I ‘ c l’s’ pires which are so contved at the eyes
Ilw yl ;34t when you move. BIG BhOTHE
l W n ‘ l'(; l l I NG YOU, the caption beneath it r.
ll’ LI t a fity voice was reang o4t a list of
glr3 wlic’I I,d sumetg to do with the production of
g a; l1. ‘ I 1 L vicc came from oblong metal plaq4e like
u t3lll’l li- -rr which formed part of the surface of the
_ ght-tu1l w;ll. Winston tumed a switch d the voice
tl3wll tlceh e words were s di gsh-

Le résultat est loin d’être parfait, mais au moins, il reste lisible 😉

Pour l’image PNG, cliquez ici. Pour le texte obtenu, cliquez ici. Il reste encore du chemin à faire, mais tant que l’on est pas obligé de tout retaper à la main, c’est le principal 😉

Swfdec 0.5.5 : enfin un flash libre potable ?

Au moins, pour visionner les sites de vidéos en ligne comme Dailymotion ou encore youtube. Contrairement à l’usine à gaz qu’est devenu Gnash, Swfdec fonctionne avec Dailymotion. Enfin, ne plus avoir besoin de NsPluginWrapper sur les linux 64 bits 😉

Pour installer le greffon dans Firefox ou Epiphany sous Archlinux :

sudo pacman -S swfdec-mozilla

Ensuite, il suffit de lancer Firefox ou Epiphany, et de voir le résultat :

Swfdec en action avec Epiphany sous ArchLinux 64 bits.

Le seul gros problème est qu’il faut lancer manuellement les vidéos via un clic droit puis « play ».

Si NsPluginWrapper – donc distribution en 64 bits – avait été installé auparavant, il suffit d’enlever les dépendances, en utilisant yaourt :


$ yaourt -R nspluginwrapper-flash
$ yaourt -R lib32

La deuxième ligne virant les paquets lib32 (32 bits) s’ils ne sont pas utilisé par d’autres logiciels ayant des dépendances comme Wine par exemple.

Aider une communauté d’utilisateurs via un wiki ?

Fraichement converti – et avec grand plaisir – à la distribution ArchLinux, j’ai décidé d’aider la communauté.

Ne sachant pas coder – ni même faire un simple « hello world ! » en langage C – je cherchais à apporter ma pierre à l’édifice. Une remarque d’Afby sur une précédente note m’a donné l’idée magique.

Participer au Wiki d’Archlinux.fr pour améliorer la documentation qui fait peine à voir en comparaison de celle d’un site comme ubuntu-fr.org.

J’ai donc rédiger des pages concernant l’installation de Gnome et une autre sur l’installation de fluxbox. Même si c’est l’adaptation des pages anglophones, c’est déjà un bon point de départ.

Et c’est un moyen d’aider au développement du logiciel libre, après tout 😉

Retrouver sudo sous ArchLinux.

A vrai dire, une chose me manquait : le sudo qui me permettait d’avoir un accès à root.

Je n’aime pas outre mesure avoir accès à root de manière complète pour les opérations touchant aux tripes du système. L’approche d’ubuntu dans ce domaine me plait particulièrement.

En jetant un oeil sur le wiki anglophone d’Archlinux, j’ai pu trouver cette page qui explique la méthode à appliquer.

Voici une traduction rapide.

D’abord, en utilisant pacman (ou encore l’excellent yaourt) en mode root, dans une console.

pacman -S sudo

Et ensuite, il suffit d’ajouter l’utilisateur courant au fichier /etc/sudoers. Il suffit d’utiliser la commande visudo.

Et d’ajouter la ligne :

USER_NAME ALL=(ALL) ALL

En remplaçant USER_NAME par son nom d’utilisateur.

Une autre option est d’ajouter le groupe wheel à l’utilisateur courant :

gpasswd -a USER_NAME wheel

Et de décommenter la ligne suivante via visudo :

%wheel ALL=(ALL) SETENV: ALL

Fermez le terminal en cours, et ouvrez-en un nouveau 😉