Skip to content

Retour sur le hackathon kiwix

Du 17 au 23 juin, j'ai participé au hackathon kiwix qui était adossé aux rencontres wikimania.

J'ai pu participer au hackathon grâce à Bibliothèque sans frontière (BSF) qui m'a entièrement défrayé (transport, logement, nourriture) Mon travail principal consistait à intégrer l'index full text dans les zims.

En effet, jusqu'à maintenant, les zims ne contiennenaient pas d'index. Un index full text était fait et distribué en parrallele. Cela entraine deux problèmes :

  • La nécessité de faire une deuxième passe pour indexé le contenu des zims. Ça veut dire qu'il faut parcourir tout le zim, décompresser les articles les uns après les autres pour les indexer.
  • Il faut distribuer un index avec les zims. La solution actuelle est de tout mettre dans un zip et de rajouter un petit fichier xml pour que kiwix sache quel index est associé à quel zim (et inversement)

En mettant l'index dans le zim, on résout ces deux problèmes :

  • L'index est fait en même temps que le zim est créé. Les articles ne sont lus et analysés qu'une seule fois.
  • La distribution des zims est grandement simplifiée : Juste le zim, pas d'index à coté pas le library.xml, pas de zip.

En petit bonus, il semblerait que la création des zims (sans le full index) soit plus rapide. Je ne suis pas le seul responsable (Scott Ananian a pas mal travaillé sur cette partie aussi) mais ça reste un très bonne nouvelle pour le projet.

Pour avoir plus d'information sur ce qui a été fait durant ce hackathon, vous pouvez aller voir Hackathon_Wikimania_2016.