lundi 17 mai 2010

L'article 1271

"Les chiffres, c'est pas une science exacte, figurez-vous" Karadoc, Kaamelott L.V-3
L'article 1271 fait référence au PhD Comic #1271 qui critique la manière dont les sondages sont utilisés dans la presse. De là s'en suit une série de critiques que l'on peut faire sur la "rigueur dans le traitement de l’information" comme dirait certains (chut chut pas de noms).
Je vais ici reformuler l'article 1271 et ses quatre alinéas.
Article 1271: A pour but d'identifier les erreurs de raisonnement de la presse sur les chiffres et autres sondages.
  1. Aucune conclusion ne peut être tirée de deux chiffres si leur différence est moindre que la marge d'erreur induite par la loi de probabilité sous-jacente
  2. Les faits scientifiques ne sont pas établis par le résultat d'un sondage d'opinion publique
  3. Un sondage effectué sur une cible subjective n'est pas un sondage scientifique.
  4. L'ajout de l'option "Sans opinion" peut impliquer de lourdes conséquences sur un sondage
Voilà l'entière étendue de cet article. Par la suite, les références à celui-ci seront représentées par "1271-3" par exemple pour citer une violation du 3e alinéa de l'article 1271. Bon, détaillons un petit peu alors.
Alinéa 1
C'est un des plus utilisés sur les news d'intérêt général. En clair pour donner un exemple, supposez que l'on annonce que la popularité du président a chuté de 40.257% à 39.578% sur un échantillon de 1502 personnes. Ça ne sert à rien d'aller plus loin.
Pourquoi ça ? Les probas peuvent répondre à ça (pour plus de détails, consultez Marge d'erreur qui cite notamment un cas sur un échec d'un article de Newsweek). Globalement, pour être sûr à 95% du résultat (ce qui reste faible), il faut un écart entre les chiffres supérieurs à 100/√N pour cent (N étant l'échantillon). Dans notre cas, 100/√1502 ≈ 2.6.
Conclusion : en premier point, ça ne sert à rien de mettre les virgules, car même l'unité n'est pas pertinente. Et bien sûr, en deuxième point : on ne peut pas conclure sur cette chute. Cet alinéa peut être utilisé pour ceux qui utilisent des écarts de quelques micro-% sur des chiffres de ventes. C'est assez magistral d'ailleurs la plupart du temps, si vous faites attention. Si vous le couplez au 3e point, les effets sont dévastateurs, car la marge d'erreur due à la subjectivité peut exploser exponentiellement.

Alinéa 2
Ce point affecte certains articles des médias qui pensent résoudre les problèmes en faisant un sondage. Le strip original met en scène Galilée qui doit défendre que la Terre soit ronde face à un journaliste et son sondage. ##Notez que Jorge Cham (l'auteur du strip), s'est bien planté pour un scientifique, car on sait que la Terre est "ronde" depuis l'Antiquité ; Eratostène a même estimé son diamètre. Galilée a eu des soucis, car il défendait la thèse copernicienne (la Terre tourne autour du Soleil et pas l'inverse).##
Bref, laissez aux domaines scientifiques le travail d'établir la vérité sur les faits. Notez que sans sortir d'un contexte tout à fait habituel, on peut trouver des articles qui s'y réfèrent. Par exemple, prenons un article exposant un sondage sur l'impact des décisions d'un de nos personnages politiques. Ce n'est pas à l'opinion publique de décider si untel est efficace ou non, car premièrement ils ne sont pas analystes, et deuxièmement ils ne savent pas tout.

Alinéa 3
Ce point a été élargi un peu par rapport à la version originale. Dans la version originale, la règle vise les médias qui font un sondage sur leurs propres sites web. La version actuelle ne fait que part de la subjectivité flagrante des sondés.
Par exemple, mettez sur le site internet du canard enchaîné un sondage "Pensez-vous qu'il faille reculer la retraite à 65 ans ?". Et par la suite, titrez en toutes lettres "80% des français pensent que l'âge de la retraite ne doit pas être reculé". Là, vous êtes en plein dans le 1271-3. Notez que ça peut très vite arriver, car même si vous faites un sondage internet simple, vous tablez sur votre lectorat, et même si ce site est très grand public et qui essaie d'être objectif, vous n'aurez pas de représentation fidèle de la population. De plus, la plupart du temps, ces sondages sont de piètre qualité et sont là pour "Remplir l'espace". 
Enfin, on peut rentrer dans cette catégorie, avec précaution, l'ensemble des analyses de parts de marchés basées sur des statistiques récoltées par des organismes qui ont accès à certaines données. Par exemple, les parts de marchés des navigateurs sont calculées par des sociétés qui offrent leurs services d'analyse de visites pour les webmestres. L'agrégation de ces sites donne une grande banque de données pour analyser les tendances des parts de marchés. Le problème c'est qu'aucun n'arrive à avoir un échantillon représentatif. Selon l'un, les parts de Firefox sont de 60% alors que pour l'autre, elles seront de 53%. Les différences sont majeures, c'est pour cela qu'une analyse se basant sur une seule et unique source n'est pas crédible.

Alinéa 4
L'option sans opinion est majeure dans certains cas et peut changer très clairement la donne. Je n'aurai pas de détails à apporter de supplémentaires, car il suffit de regarder les suffrages français pour s'en convaincre. Que ce soit le vote présidentiel ou le référendum de la Constitution Européenne. Je suis persuadé que si l'on avait laissé l'opportunité de voter "Je m'en fous" à ce référendum, les politiques n'auraient pas eu un "Non" ou un "Oui" comme réponse.
Dernièrement, un sondage BuisnessMobile demandait si la politique de validation des applications par Apple était a) Exagérée b) Inacceptable c) Légitime. Déjà, la différence entre a) et b) est difficile, de plus, il n'y a pas la quatrième option : sans opinion. En plus, ce sondage devrait être posé seulement à ceux que ça concerne : les développeurs. Bref, il y a de quoi bien se marrer.
Voilà qui conclut la présentation de l'article 1271. On aura l'occasion d'en reparler, croyez-moi.

3 commentaires: