Tesseract + gscan2pdf : l’ocr 5 étoiles.

Je me suis basé sur un article publié par « Linux on the root« , en l’adaptant pour mon archlinux.

L’installation des logiciels est assez simple :

yaourt -S tesseract gscan2pdf

Ensuite, en lançant gscan2pdf, on peut numériser – 300 dpi étant pratique pour avoir une bonne reconnaissance – ou récupérer une image numérisée.

Et j’avoue que le résultat est franchement… étonnant. Bref, mon précédent billet semble être un peu trop « éjaculation précoce » 😉

Mais que va-t-il rester aux logiciels propriétaires, mis à part les bonnes grosses daubes ludiques ? 😉

Ajout du 10 janvier, 20h08 :

Voici le résultat de tesseract :

1
IT WAS a bright cold day in April, and the clocks were
striking thirteen. Winston Smith, his chin nuzzled into his
breast in an effort to escape the vile wind, slipped quickly
through the glass doors of Victory Mansions, though not
quickly enough to prevent a swirl of gritty dust from
entering along with him.
The hallway smelt of boiled cabbage and old rag mats.
At one end of it a coloured poster, too large for indoor
display, had been tacked to the wall. It depicted simply an
enormous face, more than a metre wide: the face of a man
of about forty—five, with a heavy black moustache and
ruggcdly handsome features. Winston made for the stairs.
It was no use trying the lift. Even at the best of times it was
seldom working, and at present the electric current was cut
ull`during daylight hours. It was part ofthe economy drive
un preparation for Hate Week. The Hat was seven flights
up, mul Winston, who was thirty-nine and had a varicose
ulcer nhovc his right ankle, went slowly, resting several
Ilmes on thc way. On each landing, opposite the lift shaft,
the poster with the enormous face gazed from the wall. It
WAH an ie ufthose pictures which are so contrived that the eyes
hollow you about when you move. BIG BROTHER
li W /\’l`( II IING YOU, the caption beneath it ran.
Iusule the Flat a fruity voice was reading out a list of
flguteu which had something to do with the production of
pig in in. ‘l`l1e voice came from an oblong metal plaque like
S tlulleil mirror which formed part of the surface of the
Eiglitelmnal wall. Winston turned a switch and the voice
QQHL nmm·w|ml, though the words were still distinguish-

« Bien » numériser un document avec XSane et gocr

Même si tesseract est surement le meilleur des moteurs d’ocr libre, gocr se défend aussi, bien qu’étant moins puissant par moment. tesseract est aussi puissant qu’ennuyeux à mettre en oeuvre 🙁

J’utilise gocr 0.45 en liaison avec XSane pour récupérer les données.

Pour cet essai, j’ai pris mon exemplaire de « 1984 » en anglais. Pour installer Xsane et gocr, sous mon archlinux, il m’a suffit d’entrer un petit :

yaourt -S xsane gocr

Quand aux réglages utilisés, le plus simple est encore la capture d’écran ci-dessous :

reglage xsane pour l'OCR

Après avoir sélectionné la zone à numériser, j’ai lancé la récupération, puis le visionneur m’a donné l’image png à analyser.

Essai de xsane pour de l'ocr

Il m’a suffit de cliquer sur le bouton concernant l’OCR, et voici le résultat :

IT wAs a bright cold day Ap, and the clocks were
striking thirteen. Winston Smth, his chin nuzzle to his
breast an efort to escape the vile wind, slipped qckly
through the glass doors of Victo Msions, tho4gh not
qckly enough to prevent a swirl of gtty d4st from
Lnteng along with hîm.
The hlway smelt of boiled cabbage d old rag mats.
At one end of it a colo4red poster, too large for indoor
Iî’play, had been tacked to the wa. It depicted simply an
’11cro4s face, more th a metre wide: the face ofa man
n bo4t forty-five, with a heavy black mo4stache and
1’1d1y hdsome features. Winston made for the stairs.
l t w no 4se trying the lift. Even at the best ofmes it was
rIc{cn worke, and at present the electc c4rrent was c4t
l l’l Lre daylight ho4rs. It was part ofthe economy drive
1 rt;ration for Hate Week. The Aat was seven ghts-
11l ;1l Wston, who was thjrty-nine and had a varicose
ll’c’ lvc his right kle, went slowly, resig several
l c’ 1 m way. On each lding, opposite the lift shaft,
l33 ‘l’r with the enormo4s face gazed fiom the wall. It
I ‘ c l’s’ pires which are so contved at the eyes
Ilw yl ;34t when you move. BIG BhOTHE
l W n ‘ l'(; l l I NG YOU, the caption beneath it r.
ll’ LI t a fity voice was reang o4t a list of
glr3 wlic’I I,d sumetg to do with the production of
g a; l1. ‘ I 1 L vicc came from oblong metal plaq4e like
u t3lll’l li- -rr which formed part of the surface of the
_ ght-tu1l w;ll. Winston tumed a switch d the voice
tl3wll tlceh e words were s di gsh-

Le résultat est loin d’être parfait, mais au moins, il reste lisible 😉

Pour l’image PNG, cliquez ici. Pour le texte obtenu, cliquez ici. Il reste encore du chemin à faire, mais tant que l’on est pas obligé de tout retaper à la main, c’est le principal 😉

Swfdec 0.5.5 : enfin un flash libre potable ?

Au moins, pour visionner les sites de vidéos en ligne comme Dailymotion ou encore youtube. Contrairement à l’usine à gaz qu’est devenu Gnash, Swfdec fonctionne avec Dailymotion. Enfin, ne plus avoir besoin de NsPluginWrapper sur les linux 64 bits 😉

Pour installer le greffon dans Firefox ou Epiphany sous Archlinux :

sudo pacman -S swfdec-mozilla

Ensuite, il suffit de lancer Firefox ou Epiphany, et de voir le résultat :

Swfdec en action avec Epiphany sous ArchLinux 64 bits.

Le seul gros problème est qu’il faut lancer manuellement les vidéos via un clic droit puis « play ».

Si NsPluginWrapper – donc distribution en 64 bits – avait été installé auparavant, il suffit d’enlever les dépendances, en utilisant yaourt :


$ yaourt -R nspluginwrapper-flash
$ yaourt -R lib32

La deuxième ligne virant les paquets lib32 (32 bits) s’ils ne sont pas utilisé par d’autres logiciels ayant des dépendances comme Wine par exemple.

Quoi de neuf dans SeaMonkey ? – Première partie

SeaMonkey est le successeur de la suite Mozilla. Si actuellement, le projet est en version 1.1.7 et utilise le même coeur que Firefox 2.0.0.11 (à savoir une version de gecko 1.8.1), la version de développement, la 2.0alpha1 (enfin, plutôt une pré-alpha) emploit une version de développement de Gecko 1.9, coeur du futur Firefox 3.0.

J’ai donc lancé la compilation sur mon ArchLinux, avec le .mozconfig suivant :


#
# See http://www.mozilla.org/build/ for build instructions.
#

mk_add_options MOZ_CO_PROJECT=suite
mk_add_options MOZ_OBJDIR=@TOPSRCDIR@/obj-@CONFIG_GUESS@

ac_add_options --enable-application=suite
ac_add_options --enable-default-toolkit=cairo-gtk2
ac_add_options --disable-mochitest
ac_add_options --disable-updater
ac_add_options --disable-tests
ac_add_options --disable-debug
ac_add_options --enable-optimize="-Os -march=athlon64 -w -pipe"
ac_add_options --enable-strip

Dans cette première partie, je vais me consacrer à la partie navigateur du logiciel. Coté moteur d’affichage, rien à dire, c’est la même chose que pour les préversions de Firefox 3. Bref, un moteur de qualité 😉

En ce moment, l’équipe de SeaMonkey s’attache à recoder l’ancien panneau de préférences pour profiter de technologies plus récentes. Cette page du wiki de Mozilla explique le pourquoi du processus. Le but étant d’avoir quelque chose de plus puissant en arrière plan.

Panneau de préférences en recodage

Contrairement à Firefox, SeaMonkey conserve les deux thèmes qui ne s’intègre pas franchement dans les interfaces des OS : Classic (qui fait penser à la période Netscape 4) et Modern.

infos technique de SeaMonkey avec le thème classique

Seamonkey avec le thème modern

A noter qu’au premier démarrage, un outil propose d’importer les données de Thunderbird si celui-ci est présent.

L'outil d'import de données au premier lancement de Seamonkey

La suite ? Le client courrier et le client IRC. Dès que possible 😉

Adieu Ubuntu, mon vrai premier amour linuxien…

Depuis hier soir, je suis un utilisateur comblé et heureux d’ArchLinux 64 bits. Même s’il m’a fallu près de 4 heures entre le début de l’installation et le lancement d’un firefox 3.0 pré-béta3 compilé maison.

Hier, vers 17 h 50, j’ai inséré le CD « core » (150 Mo environ) contenant l’image de démarrage et d’installation de la Arch Linux.

18 h 05 : l’installation – assez simple – se termine. 12 minutes, et la mise à jour préliminaire est terminée. Mais il reste encore pas mal de chose à installer : Xorg, le pilote propriétaire Nvidia, Gnome, OpenOffice.org, Gimp pour ne citer que les premiers qui me viennent à l’esprit.

18 h 50 : j’ai pu installé Xorg, le pilote Nvidia et Gnome, sans oublier les outils pour gérer mon imprimante HP Photosmart C3180.

Pour cela, il faut installer Hplip. Et pour le scanner ?

Deux étapes. Après avoir entrer :

# pacman -S hplip pyqt

  1. Entrer echo « hpaio » >> /etc/sane.d/dll.conf
  2. Ajouter le groupe lp à l’utilisateur : # gpassword -a nom utilisateur lp

Pour l’installation de Gnome : http://wiki.archlinux.org/index.php/GNOME

19 h 45 : après avoir installé les derniers outils manquant, j’ai galéré environ 45 minutes pour me configurer Compiz-Fusion…

En effet, il faut entrer les lignes :

Option "AddARGBVisuals" "True"
Option "TripleBuffer" "true"
Option "AddARGBGLXVisuals" "True"

Dans la section « device » du fichier /etc/X11/xorg.conf

Et surtout, ne pas oublier de rajouter :

Section "Extensions"
Option "Composite" "Enable"
EndSection

à la fin du même fichier. En quittant la session de travail, on tue Xorg avec la combinaison ctrl + alt + retour arrière.

Cependant, il manquait les outils de gestion de l’heure, des droits utilisateurs – entre autre – de Gnome. Bien qu’un paquet tout prêt fut disponible sur le dépot « community », ce n’était que pour la version i686 de la Arch Linux et non pour ma version 64 bits 🙁

J’ai alors été récupérer les fichiers nécessaires, à savoir System-tools-backends et Gnome-system-tools

J’ai lancé ensuite la compilation / installation en root des deux avec la commande makepkg -i.

Un redemarrage plus tard, les outils étaient fonctionnels.

Coté taille ? A vrai dire, comme la arch est assez « mécano », on installe ce qu’on veut. A partir des 125 Mo de l’installation de base, sur les 7500 Mo de la partition root, il me reste :

[fred@fredo-arch ~]$ df -h
Sys. de fich. Tail. Occ. Disp. %Occ. Monté sur
/dev/sda3 7,3G 2,9G 4,0G 42% /
none 754M 0 754M 0% /dev/shm
/dev/sda1 251M 12M 227M 5% /boot
/dev/sda4 136G 13G 117G 10% /home

Il ne faut pas oublier que j’ai installé sur la base en question :

Ce qui est quand même pas si mal que cela. Coté vélocité ? Du bip à l’écran de connexion : 30 secondes environ. De l’écran de connexion au bureau gnome utilisable : 25 secondes, car il faut lancer Compiz-Fusion…

Et dire qu’il faut compter pas loin de 45 secondes pour la première étape sous Ubuntu 7.10… Et près de 70 secondes avec une Fedora 8… Maintenant, je ne cracherais pas sur la Ubuntu qui m’a permis – et aussi à de nombreuses autres personnes – d’avoir un linux à visage humain… Et fonctionnant directement.

Arch Linux me permet de combler deux besoins : une distribution stable et assez à jour coté versions de logiciels… Sans avoir à passer 8 jours à tout recompiler.

Ajout à 14 h 30 : l’indispensable capture d’écran 😉

Gnome avec Archlinux

Firefox 3.0 béta 2 est sorti.

Tout est résumé dans le titre. Et selon le blog « MozillaDeveloper« , voici les principales nouveautés :

  • De nombreuses améliorations sur le plan de la sécurité (meilleure identification visuelle des sites « sécurisés », intégration de l’antivirus dans le gestionnaire de téléchargement et plein d’autres choses.
  • Gestionnaire de mots de passe amélioré, installation des extensions simplifiée, nouveau gestionnaire de téléchargement
  • Meilleure intégration visuelle pour Windows, MacOS-X et Linux
  • Barre d’adresse visuellement améliorée, signets intelligents
  • Correction d’environ 330 sources de fuites mémoire.

Attention, cette version étant encore un béta, mieux vaut l’installer UNIQUEMENT que si l’on sait où l’on s’aventure.

Pour la télécharger, il suffit d’aller sur cette page : http://www.mozilla.com/en-US/firefox/all-beta.html

Vers la migration ? Suite.

Bon, l’installation est faite, et j’ai réussi à faire fonctionner le son, mais impossible de débloquer la « sourdine » de Gnome au démarrage.

Parmis les premiers points positifs :

  • Légèreté de l’ensemble
  • La quasi-totalité de l’environnement de compilation d’un logiciel comme mozilla est disponible presque « out-of-the-box »
  • Le noyau 2.6.23.9 après avoir effectué la mise à jour
  • Flash installé sans trop de prise de tête avec nsPluginWrapper

Points négatifs :

  • Pas d’outils de gestions des groupes de l’utilisateur 🙁
  • L’outil de gestion d’imprimante semble absent (?)
  • La « nouvelle hiérarchie » des dossiers (Documents, Musique, etc…) semble être absente de la version Gnome d’Arch Linux.
  • La corbeille directement sur le bureau !
  • Pas d’interface graphique pour l’outil « Pacman »

Je suis en train de faire recompiler un firefox 3.0 pré-béta3 dans la machine virtuelle sous Arch Linux. Si la compilation passe, un grand pas sera fait vers une potentielle migration…

Vers l’installation d’une Arch Linux ?

Bien qu’aimant la distribution Ubuntu Linux, je suis en train d’envisager une potentielle migration vers la distribution Arch Linux.

Il est vrai que l’installation est assez rapide, et que la base technique (en comptant les fichiers de développement) ne prennent que 150 Mo environ, bien qu’on se retrouve avec un système assez basique en ligne de commande.

L’approche « mécano » de la distribution Arch Linux m’intéresse aussi beaucoup.

Je vais voir avec une machine virtuelle VMWare Server pour savoir si les logiciels que j’utilise quotidiennement sont disponible et / ou compilable facilement.

Des conseils pour une potentielle migration ? Merci !

Les offres « musique illimitée », une sacrée arnaque ?

Il a été impossible d’échapper aux pubs de certains fournisseurs d’accès internet pour leur offre de « musique illimitée »… C’est en réalité une arnaque… Car la musique ne sera écoutable que le temps que vous utiliserez les services dudit fournisseur d’accès. En clair, de la location, et non de la possession « réelle » au final…

En effet, il suffit de voir les pré-requis technique, qui sont très clairs…

Pour « 9 » :

# Les titres enregistrés sur votre ordinateur peuvent :

* être lus sous Windows Media Player version 10 ou supérieure
* être transférés vers un baladeur numérique compatible

# Les titres peuvent être transférés sur 3 ordinateurs et 3 baladeurs numériques

En effet, un peu plus loin, on peut lire :

Configuration des ordinateurs compatibles

* Un ordinateur PC sous Windows XP ou Vista
Attention : Mac et PC sous Linux ne sont pas compatibles
* Windows Media Player 10 (ou supérieur)
* Internet Explorer 6 (ou supérieur) ou Firefox 1.5 (ou supérieur)

En clair, le merdissime duo WMA + DRM Microsoft… Alors que les DRMs ont déjà fait la preuve de leur inefficacité technique complète…

Sans oublier que cela rejette au moins 5% des utilisateurs (Macistes et linuxiens réunis), sans oublier les personnes utilisant encore Windows 2000 voire Windows 98 car leur machine n’est pas assez puissante pour des versions de Windows plus récentes…

En effet, selon cette étude de novembre 2007 de Net Applications, les versions d’OS se présenteraient ainsi :

  • Windows XP : 78,37%
  • Windows Vista : 9,19%
  • MacIntel : 3,59%
  • MacOS : 3,22%
  • Windows 2000 : 2,97%
  • Windows 98 : 0,76%
  • Autre : 1,91%

Donc, si on ne prend que les OS compatibles, cela fait : 87,56% d’utilisateurs potentiels… Donc, sur 100 utilisateurs, 12 à 13 ne pourraient pas accéder à ces services…

Pour Alice ? Euh, comment dire ? Même chose ? 😉

Alice Music est un service inclus dans l’offre Alice Box avec Alice Music. Pendant la durée de votre abonnement, vous pouvez télécharger les Titres musicaux du Catalogue Alice Music sur 1 PC équipé de Windows Media Player 10 (ou supérieur) et les écouter avec 3 supports compatibles avec le format DRM 10 sous réserve d’accepter préalablement les conditions générales d’utilisation et de renouveler chaque mois votre licence.

Plus de clarté ? Suffit de demander…

Ecoutez les titres que vous avez téléchargés sur le site Alice Music sur différents supports: PC, baladeurs numériques et téléphones mobiles compatibles.

Configuration requise :

PC équipé de Windows XP ou Vista
A noter : le service ne fonctionne pas sous Mac os et Linux

* Internet Explorer 6 (ou supérieur) ou Firefox 1.5 (ou supérieur)
* Windows Media Player 10 (ou supérieur) Télécharger gratuitement Windows Media Player 11

Sympathique, non ? 😉

Et les pauvres majors (hum !) se plaindront que le « piratage » continue de faire des ravages… A croire que les majors n’ont rien compris à la musique numérique et l’inutilité des verrous numériques…

Ah, les pubs pour Mac ;)

Même si je n’apprécie pas tout de la politique d’Apple, les pubs sont franchement poilantes…

Comme celle ci, trouvée via le blog du « Firefox Extension Guru Blog »

Pour les personnes ne parlant pas anglais. Le PC est représenté par le « vieux », qui se plaint qu’un certain nombre d’utilisateurs de Windows Vista vire Windows Vista pour réinstaller XP. Et il veut faire comprendre de ne pas laisser tomber Vista : Don’t give up on Vista.

Hors, les seules parties qui s’allument sont « Give up » (abandonner) et « On Vista »…