Voix, données

Commerce et Compagnies / Document numérique / Voix, données

Lecture de Weapons of Math Destruction (Cathy O’Neil, Crown Publishers, 2016)

Olivier Charbonneau 8 décembre 2016

Et si les algorithmes étaient en train de détruire notre société ? Cette surprenante prémisse est le point de départ de Cathy O’Neil dans son récent livre sur ce qu’elle nomme les weapons of math destruction ou WMD : les armes de destruction mathématiques. J’ai entendu parlé de l’ouvrage de O’Neil via la baladodiffision Sparc de Nora Young, diffusée à la mi-octobre, une émission web de la Canadian Broadcasting Corporation (CBC) sur les technologies.

Dans ce livre, l’auteure relate une série d’anecdotes soit personnelles, soit plus générales, groupées par thématiques. Ayant travaillé dans le domaine de la haute finance et de l’analyse des données massives en marketing numérique, O’Neil possède une expérience de terrain sur le recours au modèles statistiques et probabilistes appliqués à divers domaines économiques ou sociaux: les admissions à l’enseignement supérieur, le marketing web, la justice, la dotation et la gestion d’horaire en entreprise, l’attribution de cotes de crédit et le profilage pour le vote. Tous ces exemples illustrent comment les données massives, combinées à des processus algorithmiques, mènent à la codification de préjudices où les iniquités systémiques pénètrent dans la chambre de résonance du numérique (p. 3-4).

La première étape pour concevoir un algorithme consiste à bâtir un modèle : une représentation abstraite du monde réel, de laquelle nous pouvons obtenir or extraire des données. Il devient ainsi possible de prévoir ou prédire notre fiabilité, notre potentiel ou notre valeur relative par rapport à ces mesures (p. 4) afin d’optimiser ledit système social ou économique. Beaucoup des problèmes selon O’Neil découlent d’une césure entre le monde et son modèle, il manque un élément de rétroaction (feedback, p. 6) afin de raffiner les calculs et indices numériques issus du modèle. Les exceptions génèrent des cas erratiques et troublent l’harmonie du système:  « [WMD] define their own reality and use it to justify their results. This model is self-perpetuating, highly destructive – and very common. […] Instead of searching for the truth, the score comes to embody it » (p. 7).

Un des problème majeur selon O’Neil découle du secret qui entoure les modèles, les données et les algorithmes qui y sont appliqués. En plus d’être camouflée par les mathématiques souvent complexes et inaccessibles (p. 7), les assises sur lesquelles elles reposent ne sont ni testées, ni questionnées. Les pauvres y sont des proies faciles : puisqu’un algorithme se déploie rapidement et à faible coût, il est plus simple de traiter des masses de dossiers, tandis que les personnes plus fortunées reçoivent un traitement plus personnalisé. Par ailleurs, les algorithmes sont des secrets corporatifs jalousement gardés, ce qui complexifie d’avantage une critique sociale constructive (p.8).

Par ailleurs, une fois que l’algorithme est établi et que son score fait autorité, les humains tombant dans ses griffes sont tenus à un fardeau de preuve beaucoup plus élevé pour faire modifier leur score. Si l’algorithme est secret et obscur, son score est accepté et il est difficile de le renverser (p. 10). Il s’agit de dommages collatéraux (p, 13).

Ayant mis la table dans son chapitre introductif (que la mathématicienne n’a pas numéroté et serait le chapitre « 0 »), O’Neil présente les éléments constituant les « bombes » mathématiques, spécifiquement ce q’est un modèle. Elle emploie l’exemple des statistiques sportives, notamment pour le Baseball, puisqu’un livre récent a traité des analyses mathématiques desdites statistiques et fut porté à l’écran mettant en vedette Brad Pitt. Voici en vrac les morceaux présentés par O’Neil:

  • Un modèle est un univers parallèle qui puise dans les probabilités, recensant tous les liens mesurables possibles entre les divers éléments d’un modèle (p. 16)
  • « Baseball has statistical rigor. Its gurus have an immense data set at hand, almost all of it directly related to the performance of players in the game. Moreover, their data is highly relevant to the outcomes they are trying to predict. This may sound obvious, but as we’ll see throughout this book, the folks using WMDs routinely lack data for the behaviors they’re most interested in. So they substitute stand-in data, or proxies. They draw statistical correlations between a person’s zip code or language pattern and her potential to pay back a loan or handle a job. These correlations are discriminatory, and some of them are illigal. » (p. 17-18)

  • En ce qui concerne le baseball, « data is constantly pouring in. […] Statisticians can compare the results of these games to the predictions of their models, and they can see where they were wrong […] and tweak their model and […] whatever they learn, they can feed back into the model, refining it. That’s how trustworthy models operate » (p. 18)
  • « A model, after all, is nothing more than an abstract representation of some process, be it a baseball game, an oil company’s supply chain, a foreign government’s actions, or a movie theater’s attendance. Whether it’s running in a computer program or in our head, the model takes what we know and uses it to predict responses in various situations. » (p. 18)

  • Mais, rien n’est parfait dans un monde de statistiques: « There would always be mistakes, however, because models are by their very nature, simplifications. » (p. 20) Ils ont des points morts (blind spots), certains éléments de la réalité qui ne modélisent pas ou des données qui ne sont pas incorporées dans le modèle. « After all, a key component of every model, whether formal or informal, is its definition of success. » (p. 21)
  • « The question, however, is whether we’ve eliminated human bias or simply camouflaged it with technology. The new recidivism models are complicated and mathematical. But embedded within these models are a host of assumptions, some of them prejudicial. And while [a convicted felon’s] words were transcribed for the record, which could later be read and challenged in court, the workings of the recidivism model are tucked away in algorithms, intelligible only to a tiny elite. (p. 25)

  • Exemple du LSI-R: level of service inventory – revised, un long formulaire à être rempli par un prisonnier. (p. 25-26)
  • Afin de cerner le concept d’armes de destruction mathématiques, O’Neil propose trois facteurs, présentés sous forme de questions, afin d’identifiers quels algorithmes se qualifient. La première question s’articule ainsi: « Even if the participant is aware of being modelled, or what the model is used for, is the model opaque, or even invisible? […] Opaque and invisible models are the rule, and clear ones very much the exception.  » (p. 28) O’Neil cite la propriété intellectuelle, et son corollaire malsain, le secret industriel, à défaut d’une obligation de divulgation (comme les brevets – cette observation est mienne) comme étant la cause de cette opacité et de cette invisibilité. Ce qui introduit la seconde question: « Does the model work against the subject’s interest? In short, is it unfair? Does it damage or destroy lives? » (p. 29) Cette iniquité découle d’un système de rétroaction déficient (feedback loop). Finalement, la troisième question est « whether a model has the capacity to grow exponentially. As a statistician would put it, can it scale? […] the developing WMDs in human resources, health, and banking just to name a few, are quickly establishing broad norms that exert upon us something very close to the power of law. » (p. 29-30)
  • « So to sum it up, these are the three elements of a WMD: Opacity, Scale, and Damage. […] And here’s one more thing about algorithms: they can leap from one field to the next, and they often do. » (p.31)

Pas besoin d’avoir un doctorat en droit pour comprendre que les choses aux États-Unis sont bien différentes qu’ailleurs : leurs droits à la vie privée ne sont pas enchâssés dans des constitutions ou édictés par des lois. Le recours aux méthodes statistiques (Monte Carlo) appliquées à des modèles ou à des jeux de données incomplètes perpétuent des préjugés et les érigent en systèmes étanches, inhumains, injustes.

Dans le reste de son livre, O’Neil nous peint un portrait glauque mais lucide de la dystopie algorithmique qui s’installe tranquillement aux USA. Les pauvres, les marginalisés ou les illettrés sont proie aux analyses des machines tandis que les fortunés sont analysés par des humains.

De tous les chapitres, celui sur la justice m’interpelle le plus.

Dans un premier temps, O’Neil présente l’algorithme prédictif employés par les services de polices afin de déterminer où se produiront les crimes, tels l’outil PredPol ou le projet CompStat de la ville de New York. O’Neil relate comment d’autres approches des forces de l’ordre, dont la méthode stop-and-frisk (qui consiste à interpeller quiconque semble le moindrement suspect), ne fait que renforcer le modèle d’oppression envers certaines communautés qui se concentrent dans des quartiers précis…

D’un point de vue plus large, les réflexions de O’Neil concernant les WMDs me fait penser aux théories de Shannon sur la communication  ainsi que de Wiener sur la cybernétique, (liens vers des billets synthétiques sur ces théories). En particulier, le cadre d’analyse de O’Neil (ses trois questions ci-haut, pour déterminer si un algorithme est un WMD) évoquent les trois éléments de Shannon et Wiener pour l’information: communication, rétroaction, entropie.

J’ai aussi découvert un autre livre potentiellement intéressant: Unfair : the new science of criminal injustice par Adam Benforado chez Crown Publishers en 2016. Je me suis empressé de l’emprunter pour creuser cette fâcheuse intersection entre le droit et les mathématiques…

Je viens de jeter un coup d’oeil au livre de Benforado. Quoi que bien écrit et à première vue une critique constructive du système judiciaire, je ne vais pas effectuer une lecture plus approfondie. En fait, il traite spécifiquement des développements en psychologie cognitive, comportementale et en neuropsychologie (comment nous percevons le monde, comment nous nous expliquons nos biais personnels, comment notre cerveau réagit à des stimulus perçus consciemment ou non). De plus, il traite uniquement du système criminel et pénal américain, ce qui me semble bien loin de mes algorithmes et de mes mathématiques et le droit. Une bonne lecture donc, pour une autre fois.


Accès libre / Canada / Financement / Gouvernements / Musées / Voix, données

Budget fédéral : quelques filons à explorer

Olivier Charbonneau 12 février 2014

Le Devoir de ce matin révèle certains détails du budget fédéral et certains d’entre eux méritent notre attention. Par exemple, en page A3, le quotidien montréalais indique que 2 millions seront consacrés à la création d’un Institut des données ouvertes… Il se peut qu’il s’agisse du site http://opendatainstitute.ca… à confirmer.

Également, Le Devoir nous informe que, en plus des investissements permanents en culture, le gouvernement fédéral attribue 5,6 millions pour le Musée virtuel du Canada ainsi que des « ouvrages de référence en ligne » qui, selon le Réseau art actuel,

 

Ouvrages de référence en ligne donne du contenu en ligne sur la culture et l’histoire du Canada et donne accès à L’Encyclopédie canadienne et à l’Encyclopédie de la musique au Canada, et au Dictionnaire biographique du Canada, un dictionnaire historique exhaustif dont les articles racontent la vie et décrivent l’époque des personnes qui ont façonné le Canada. Le Plan d’action économique de 2014 propose d’accorder un financement permanent de 1,2 million de dollars par année à Ouvrages de référence en ligne à compter de 2015-2016. Ces fonds s’ajoutent au financement existant de 0,9 million par année et portent l’investissement annuel à 2,1 millions. Le Musée canadien de l’histoire deviendra responsable d’Ouvrages de référence en ligne et de son financement.

 


Accès libre / Montréal / Voix, données

Données libres – combattez les "embouteillages surprises" à Montréal

Olivier Charbonneau 25 août 2011

Le quotidien montréalais Cyberpresse (édition numérique de La Presse) présente le site zonecone.ca, une initiative de Stéphane Guidoin. Le site présente tous les chantiers que l’on risque de croiser sur les routes de la métropole québécoise et fonctionne grâce aux données publiques. Stéphane fait partie de Montréal Ouvert, fut l’un des instigateurs du réseau de bornes ouvertes Île sans fil, et bien sûr, un chic type.


Accès libre / Document numérique / Données géospatiales / Voix, données

Nouvelle licence Open Data Commons

Olivier Charbonneau 1 juillet 2010

Le mouvement Open Data Commons annonce le lancement de leur nouvelle licence pour les données scientifiques:

We can now announce a new license to the Open Data Commons family, the ODC Attribution License (ODC-BY) license. This is a database specific license requiring attribution for databases. This makes ODC-BY similar to the Creative Commons Attribution license, but is built specifically for databases. As a legal tool that only requires attribution, it complies with the Open Knowledge Definition, the Open Knowledge Foundation’s standard around defining the rights behind what something means to be “open”.

La licence «ODC-BY» est disponible ici: http://www.opendatacommons.org/licenses/by/
Et en langage «humain», ici:
http://www.opendatacommons.org/licenses/by/summary/


Propriété intellectuelle / Science et Technologies / Voix, données

Des données en masse

Olivier Charbonneau 4 septembre 2008

Ne manquez pas deux numéros thématiques spéciaux, l’un de Wired en juillet et l’autre de Nature en septembre.

Wired Magazine, publié mensuellement aux USA et disponible en accès libre dans Internet, est la bible pour les blogodépendants-amateurs-de-tech et autres geeks. En juillet 2008, la revue se questionnait sur l’impact des masses d’information scientifique maintenant générées : The Petabyte Age: Because More Isn’t Just More — More Is Different.

Spécifiquement, Chris Anderson, monsieur Long Tail lui-même, propose un essai sur l’évolution potentielle de la méthode scientifique (hypothèse, modèle, test) si assez de données pour représenter la réalité sont capturées.

Sur un autre ordre d’idée, la revue scientifique Nature propose une collection d’articles sur le même sujet, les collections de données énormes (Big Data). Mais faites vire, les articles sont diffusés librement pour deux semaines uniquement selon notre source, Clifford Lynch.


Accès à l'information / Bibliothèques / Canada / Commerce et Compagnies / Document numérique / Numérisation / Préservation / Questions Lecteurs / Voix, données

Vivement la disquette

Olivier Charbonneau 29 septembre 2006

Une collègue m’a fait parvenir la question suivante par courriel :
Nous avons à la bibliothèque quelques livres accompagnés de disquette. La majorité de ces livres seront probablement élagués car désuets.. Si toutefois parmi ces livres certains sont encore pertinents, pourrions-nous, selon vous, transférer la disquette sur cédérom, étant donné que la majorité de nos ordinateurs à la bibliothèque n’ont plus de lecteur pour les disquettes ?

Avant de répondre, je suis tenu par la loi de vous informer que je ne suis pas avocat et que je vous offre uniquement mon opinion personnelle. Par ailleurs, cet échange ne constitue pas une relation de conseil. Enfin bref, voici mes réflexions…

La Loi sur le droit d’auteur offre quelques exceptions aux bibliothèques « à but non lucratif » (comme les universités), dont une qui facilite la gestion de collections. Il s’agit de l’article 30.1 de la LDA et se lit comme suit (je souligne) :

Droit d’auteur, Loi sur le
Exceptions – Bibliothèques, musées ou services d’archives
Gestion et conservation de collections
30.1 (1) Ne constituent pas des violations du droit d’auteur les cas ci-après de reproduction, par une bibliothèque, un musée ou un service d’archives ou une personne agissant sous l’autorité de ceux-ci, d’une oeuvre ou de tout autre objet du droit d’auteur, publiés ou non, en vue de la gestion ou de la conservation de leurs collections permanentes ou des collections permanentes d’autres bibliothèques, musées ou services d’archives :
a) reproduction dans les cas où l’original, qui est rare ou non publié, se détériore, s’est abîmé ou a été perdu ou risque de se détériorer, de s’abîmer ou d’être perdu;
b) reproduction, pour consultation sur place, dans les cas où l’original ne peut être regardé, écouté ou manipulé en raison de son état, ou doit être conservé dans des conditions atmosphériques particulières;
c) reproduction sur un autre support, le support original étant désuet ou faisant appel à une technique non disponible;
d) reproduction à des fins internes liées à la tenue de dossier ou au catalogage;
e) reproduction aux fins d’assurance ou d’enquêtes policières;
f) reproduction nécessaire à la restauration.
Existence d’exemplaires sur le marché
(2) Les alinéas (1)a) à c) ne s’appliquent pas si des exemplaires de l’oeuvre ou de l’autre objet du droit d’auteur sont accessibles sur le marché et sont sur un support et d’une qualité appropriés aux fins visées au paragraphe (1).
Copies intermédiaires
(3) Si, dans les cas visés au paragraphe (1), il est nécessaire de faire des copies intermédiaires, celles-ci doivent être détruites dès qu’elles ne sont plus nécessaires.
[…]

Ainsi donc, la LDA rend licite le transfert de support technologique (dans votre cas, transférer une disquette vers un CD-ROM) à l’art. 30.1, section (1)c), SI ET SEULEMENT SI le document en question n’est PAS accessible sur le marché et sur un support et d’une qualité appropriés.

Par exemple, si vous disposez d’un répertoire d’entreprises accompagné d’une disquette qui date de 2000 et que vous n’avez pas les fonds pour acheter la nouvelle édition, accompagnée d’un CD-ROM, vous ne pouvez pas effectuer le transfert.

Mais la question du support et de la qualité approprié devient rapidement problématique. Il est encore facile de se procurer des lecteurs de disquettes externes voire même un nouvel ordinateur avec un tel lecteur interne. Le fait que votre bibliothèque n’en possède pas permet-il d’employer cet argument pour effectuer le transfert ? Par ailleurs, peut-on prétendre que le coût d’achat du nouveau lecteur est raisonnable en lien avec cet usage ?

Par contre, si l’éditeur en question a cessé de publier ce volume et qu’il n’est plus disponible, vous pouvez procéder à la migration de support. Bien sûr, si vous procédez, prennez soin de conserver des traces de vos recherches, manifestement infructueuses (saisies d’écran des pages d’information de l’éditeur indiquant la pénurie, etc.)


Bibliographie / Domaine public / Droits des citoyens / États-Unis / Fair use / Numérisation / Voix, données / Web 2.0

Intérêt public et Internet

Olivier Charbonneau 23 septembre 2006

Le Berkman Center for Internet & Society du Harvard Law School nous proposent un bulletin intéressant sur l’ntérêt public et Internet. En bref,

La suite ici…