Le big data open source est un pilier de l'innovation et de la démocratie


             

 

Jul 11 2016

Le big data open-source est un pilier de l'innovation et de la démocratie

Pourquoi un tel succès du logiciel libre dans le domaine des big data ? Quels en sont les enjeux pour la démocratie et l'innovation ? En quoi se former au logiciel libre et aux big data devient-il un acte civique ?

Une couverture du roman 1984
Crédits: Letterology, John Vallance

Dans un télescopage des dates et des symboles dont l'histoire a le secret, c'est l'année même de son avènement annoncé que Big Brother a vu naître un petit frère porteur de principes d'émancipation qui allaient contribuer à solidement armer la société contre la dystopie du contrôle : le logiciel libre. 30 ans plus tard néanmoins, le monstre d'Orwell reste menaçant sous les traits réels ou imaginaires de PRISM, Matrix ou Cerclon. Et les big data, si elles donnent l'espoir d'avancées majeures, font aussi courir le risque de big dégâts. À ce titre, le logiciel libre, dans tous les domaines du numérique et en particulier celui des big data, reste un enjeu de société majeur.

Quelques (big) data du logiciel libre

En trente ans, le logiciel libre est passé du statut de curiosité à celui de pilier de l'économie du numérique. Loin d'être le « cancer » dénoncé par Steve Ballmer, directeur général de Microsoft de 2000 à 2014, « le libre », à l'instar d'un de ses succès les plus fameux, le système d'exploitation Linux, s'est avéré porteur de principes redoutablement efficaces sur le terrain de l'innovation, conduisant certaines des entreprises les plus florissantes du monde à en devenir aujourd'hui les faire-valoir pour accélérer leur croissance. « Les entreprises rivalisent de plus en plus sur le front de l'ouverture maximale de leurs technologies. » fait ainsi remarquer un journaliste de Wired au sujet de l'initiative Open Artificial Intelligence lancée par Elon Musk (Tesla Motors, SpaceX), et Sam Altman (Y Combinator) en 2015. Ainsi voit-on aujourd'hui par exemple Microsoft sponsoriser la conférence Debian, et Google publier sous licence libre son noyau de machine learning TensorFlow parmi de nombreux autres projets dont Android, qui équipe chaque jour plus d'un million de nouveaux appareils connectés. Le secteur public n'est pas en reste en France, comme le souligne Henri Verdier, à la tête de la DINSIC, ni aux États-Unis. Les principes du logiciel libre ont par ailleurs été précurseurs de l'open data, des licences Creative Commons dans le monde culturel, et de la dynamique de l'open hardware.

La prévalence du logiciel libre dans l'économie se traduit en 2016 par les faits suivants :

Quelques logiciels libres des big data

Quelques logiciels libres des big data

Parmi les nombreuses branches de l'informatique, les big data, en plus de soulever d'épineuses questions éthiques, ont la particularité de nécessiter des innovations dans toutes les strates du numérique, depuis les infrastructures matérielle et système jusqu'aux interfaces graphiques en passant par les langages et les outils de stockage et d'analyse, comme l'illustre le schéma ci-contre.

La complexité des logiciels du domaine nécessite, pour chacun d'eux, la mobilisation de communautés importantes de développeurs, de chercheurs, de fournisseurs de services, capables de continuellement faire évoluer ces systèmes dans un environnement de compétition darwinienne, ce qui suppose en premier lieu de leur assurer une viabilité économique. Un logiciel est aujourd'hui moins un produit qu'un processus continu de production, de maintenance et de mise à jour, processus social (du point de vue de l'organisation des communautés et de leur gouvernance), scientifique, technique et économique. Il se trouve que le « modèle du libre » s'est progressivement affirmé comme bien adapté aux besoins d'amélioration continue exigés par le marché. Ainsi des écosystèmes mêlant laboratoires de recherche, grands groupes, sociétés de services, administrations, programmeurs indépendants se sont-ils structurés autour des outils phares des big data.

Pour faciliter la mise en place de tels écosystèmes et la coopération entre leurs acteurs, des regroupements de projets logiciels se sont opérés ces 20 dernières années au sein d'organismes à but non lucratif dont les plus célèbres sont les fondations Apache, Linux, Eclipse, toutes trois de droit américain, et en Europe, l'association OW2, créée en 2007 à l'initiative de l'Inria, Bull et Orange. Chacun de ces organismes anime et promeut des projets dans la plupart des domaines clefs de l'IT moderne, et en particulier celui des big data. La Fondation Apache héberge de nombreux projets big data dont Hadoop, devenu en quelques années une plateforme de référence du domaine, au-dessus de laquelle se sont développés de très nombreuses solutions métiers et des services, dont récemment Warp10 dans le domaine des objets connectés, sous licence libre, à l'initiative de la société française Cityzen Data. La fondation OW2 regroupe elle aussi des logiciels big data d'envergure internationale tels que Talend, ProActive et SpagoBI (NB: l'auteur de cet article est le directeur technique d'OW2).

Plus récemment créée, l'organisation américaine à but non lucratif Bayes Impact se propose quant à elle de concevoir des logiciels libres dans le secteur des big data pour contribuer à la résolution de problèmes de société, à commencer par celui du chômage. Son fondateur franco-chinois Paul Duan déclare dans une intervention en 2015  : « pour mes parents le levier c'était de défiler sur la place Tiananmen, pour moi ce sont les algorithmes des big data », soulignant l'importance qu'ont les big data et le logiciel libre dans le nouveau squelette en silicium de nos sociétés.

Les raisons d'un succès relatif

Le succès du logiciel libre dans le secteur des big data s'explique d'abord par le succès du libre dans l'ensemble des infrastructures d'Internet, succès qui découle en premier lieu de la génèse et de l'identité d'Internet lui-même. Comme le rappelle Fred Turner, professeur en sciences de la communication à l'université de Stanford, dans son livre Aux sources de l'utopie numérique, Internet est né de la rencontre de la contre-culture américaine et de la culture militaire. La majeure partie des infrastructures clefs d'Internet – protocoles réseaux, serveurs de noms (DNS), serveurs web, bases de données – repose sur du logiciel libre, et l'influence de la contre-culture sur les grandes universités américaines qui forment les entrepreneurs de la Silicon Valley a perduré, comme l'indique Stefane Fermigier, président du Groupe thématique Logiciels libres du pôle de compétitivité System@tic, auteur du rapport Big Data et Open Source : une convergence inévitable ? (2012).

En second lieu, le modèle d'innovation du libre a prouvé sa pertinence économique. Comme le fait remarquer Simon Phipps, ex-directeur de l'Open Source Initiative, le libre permet en particulier « d'innover sans avoir à demander la permission préalable », ce qui donne lieu, sur le modèle du fork et de la composition, à des mécanismes de coopétition que de nombreux économistes jugent plus efficaces pour le progrès collectif que ceux reposant sur les brevets. De multiples manières de tirer des profits du logiciel libre se sont développées. Elles font l'objet d'études de synthèse comme celle du Groupe thématique logiciels libres du pôle Systematic Paris Region.

Enfin, les big data étant un enjeu technique et économique majeur pour les géants du Web que sont les GAFAM (Google, Amazon, Facebook, Apple, Microsoft), ceux-ci ont investi massivement dans la R&D des big data, ce qui a donné lieu à de nouveaux algorithmes et nouvelles méthodes de traitement, pour une partie sous licence libre.

L'ouverture ne suffit pas

Pourquoi promouvoir, et promouvoir davantage le logiciel libre dans le domaine des big data ? Parce qu'il est un moyen puissant de garantir les libertés individuelles. Dans un monde qui est contrôlé et régulé de plus en plus par du code informatique, le logiciel libre donne au citoyen la garantie de pouvoir comprendre comment les infrastructures de la cité fonctionnent, de pouvoir en analyser les règles, et de participer à leur évolution. Imagine-t-on une société démocratique dont le code civil ne serait accessible qu'à un cercle de privilégiés ?

Néanmoins, comme le font remarquer les chercheurs Daniel Le Métayer et Antoinette Rouvroy, l'ouverture ne suffit pas. Les algorithmes et les programmes des big data posent à la démocratie l'exigence d'une éducation à l'informatique, et celle du débat. Comme le faisait remarquer récemment Pierre Rosanvallon appelant à « un nouvel âge de l'émancipation », « Internet donne à l'opinion publique une forme matérielle ». Le code est ce par quoi cette matière s'érigera soit en nouveaux biens communs, soit en armes de contrôle et de manipulation s'appuyant sur les tendances générales détectables dans les big data de l'opinion à l'insu des individus. L'exigence de l'analyse critique de la finalité des algorithmes et celle de l'ouverture du code sont à cet égard une manière de peut-être protéger les hommes de devenir, « aussi bien oppresseurs qu'opprimés, le simple jouet des instruments de domination qu'ils ont fabriqués eux-mêmes », selon la formule de Simone Weil.

Références

Stéphane Laurière, directeur technique d'OW2

Texte rédigé à l'occasion de la nocturne BIGOPENDATA de l'association Pénombre en mars 2016