L’évaluation de l’évaluation
 
La réflexion autour de cet article fait suite à la sortie d’un dossier provenant de France Stratégie en Septembre 2016, concernant l’évaluation des impacts des Politiques Publiques. Sans rentrer dans les détails techniques de ce « guide à l’usage des décideurs et praticiens », un résumé et une analyse « partielle » sont ici présentés.
A l’heure où les comptes publics des Etats peinent à sortir du rouge, depuis quelques décennies la culture de l’évaluation tente de se généraliser au sein des pays « développés ». C’est parce que maintenant chaque denier compte, parce que les méfiances montent à l’égard des pouvoirs publics que s’est accélérée cette pratique durant ces dernières années. La rationalité de la chose publique s’est invitée à la table de la fabrique des politiques publiques.
Certains pays, notamment anglo-saxons, ont enclenché cette démarche dès le début des années 60. Pour ce qui est de la France, il faut attendre plus de 20 ans (1980), pour voir l’Etat se doter de l’évaluation comme d’un instrument de modernisation.
Mais alors, comment savoir si une politique publique a été bonne, juste, équitable et enfin, si les principaux objectifs ont été atteints ? Divers méthodes ont été élaborées, des indicateurs permettent également de porter un jugement autour d’une politique publique.
Le schéma ci-dessous dresse le portrait des indicateurs utiles pour estimer une action publique


 

Si nous ne rentrons pas dans les détails, indicateur par indicateur, cette distinction permet de mener différentes formes d’évaluation : une évaluation d’impact, à savoir si la politique publique mise en place à eu un effet sur la population souhaitée, si cette politique a changé la donne, ce qu’aurait connu la société en l’absence de cette politique. C’est ce que les « spécialistes » appellent le contrefactuel permettant de déduire la relation de causalité entre interventions publiques et un indicateur jugé pertinent (la santé, l’emploi, l’éducation, etc.).
Ainsi comment mesurer cet impact ? Divers acteurs utilisent des méthodes distinctes. D’une part les académiciens utilisent des techniques permettant de juger du quantitatif avec des techniques proches de l’économétrie, tentant de modéliser les comportements des individus suite à une modification de leur environnement ; face à cela d’autres experts (consultants, Société Française de l’Evaluation…) utilisent des techniques plus qualitatives, basées sur le ressenti des intéressés à l’aide d’entretiens, de monographie, de dialogue (approche relevant des sciences sociales), mettant sous tension deux approches différentes de l’évaluation : le rapport à la norme ou au contraire l’émergence du sujet pour lequel la politique est conduite avec son ressenti et ses besoins.
Chacune de ses méthodes comporte des intérêts et des limites, certaines évaluations ont pu bénéficier de ses deux approches qui peuvent être complémentaires, permettant une réelle prise en compte de l’ensemble des variables.



Plusieurs méthodes pour mesurer les effets causaux :  

Pour cela, il est important de connaitre les différences entre les groupes d’individus traités et non traités, et si ces dernières peuvent influencer la variable résultat (emploi, salaire, santé). La plupart du temps ces différences sont « facilement » observables par l’évaluateur, (différence d’âge, diplôme…). Mais bien souvent, ces données sont trop peu explicatives et limitées, difficile de juger de la motivation, ou le savoir dont disposent les individus. Il est compliqué de corriger le biais, certains méthodes permettent de neutraliser ce qui est de l’ordre de l’observable mais également du non observable, tandis que d’autres méthodes ne contrôlent que la sélection de caractéristiques observables. Il est préférable de choisir une méthode s’il est possible de faire l’arbitrage entre la réduction des biais qu’elle permet et les contraintes opérationnelles qu’elle engendre.
 
L’expérimentation contrôlée, ou aléatoire
 
Ce type d’expérimentation permet d’identifier l’effet causal du traitement sur les bénéficiaires. L’expérience « 10 000 permis pour réussir» avait pour ambition de constater l’impact de l’obtention de l’insertion professionnelle et sociale sur les jeunes de 18 à 25 ans. Deux groupes ont été étudiés, l’un tiré au sort bénéficiant d’un dispositif de 1000 € pour l’inscription au permis, et l’autre groupe sans dispositif d’aide.
Si le dispositif a permis deux ans plus tard de constater que le groupe test avait eu plus de réussite à l’examen du permis (45% contre 30%), en revanche les résultats sur l’insertion professionnelles sont bien moins visibles…
L’expérimentation aléatoire s’est dotée également d’une enquête qualitative qui permet une meilleure analyse de cette expérience. Finalement il apparait, que le groupe « traité », est devenu plus exigeant sur les types d‘emplois proposés et ont refusé davantage d’emplois que le groupe « non traité ».
Parfois, ce type d’expérimentation contrôlé n’est pas envisageable, dans ce cadre d’autres techniques sont plus « subtiles » afin d’établir la causalité en contrôlant le biais non observable.
C’est notamment le cas, quand une action publique agit essentiellement sur un type de population ou de territoire pour des raisons sans lien avec la variable de résultat, telle que l’histoire (expérience naturelle et non aléatoire). Face à cela il est possible d’utiliser le reste de la population comme contrefactuel avec la technique « des différences de différence ».
 
L’expérience des différences de différence
 
Une étude a été menée sur le type d’indemnisation maladie face à l’absentéisme des salariés. Suite à un contexte historique, l’Alsace Moselle a un régime de sécurité sociale plus avantageux que le reste de la France (le droit germanique a été conservé après la 1ere guerre mondiale). En Alsace Moselle, les employeurs doivent prendre en charge l’intégralité du salaire en cas d’absence contre seulement 50 % au bout de 4 jours d’absence dans le reste de la France. Suite à une réforme dans le reste du territoire français après 1978, qui a eu pour incidence une meilleure prise en charge des salariés, l’étude a voulu savoir si entre les deux territoires, il y avait une différence observable du niveau d’absentéisme (Alsace Moselle sert pour l’expérience de contrefactuel). L’étude s’est focalisée à mesurer la variation du niveau d’absence avant et après réforme sur l’ensemble du territoire, et faire la différence entre les deux « groupes cibles ».
Suite à cela, les résultats constatés sont que l’absentéisme a baissé, ceci s’explique par un contexte du marché du travail qui a fortement évolué entre la période d’après-guerre et les années 80. Il s’agit alors, de ne pas exclure la conjoncture et les faits sociétaux.

La méthode de régression par discontinuité
 
Dans le cadre de cette méthode, il s’agit de comparer des individus très «proches», l’un bénéficiaire du dispositif et l’autre ne répondant pas au seuil demandé.
Une étude a essayé de comparer des enfants boursiers, si les parents ont moins de 15 000 € de revenus par an, ils peuvent prétendre à cette bourse. Ainsi, l’intérêt de cette étude est de comparer les boursiers avec des revenus à 14 999€ et les non boursiers à seulement 15 001 €, afin de savoir si la bourse à un impact sur les taux de réussite auprès des bénéficiaires ayant des caractéristiques socio-économiques semblables. Les conclusions de cette étude montrent des écarts de performance entre étudiants sont faibles.
Face à cette nouvelle méthode d’autres existent également et sont utilisées par les « experts » de manière fréquente, c’est le cas des méthodes de variables instrumentales, des méthodes d’appariement…
Face à cette pluralité de techniques, de nombreuses réflexions sont à mener sur le choix de l’une d’entre elle. Le but est de recueillir le plus de résultats pouvant expliquer l’effet causal de la mesure évaluée.
Le choix d’expérience aléatoire semble être le plus répandu et répondant davantage aux attentes des évaluateurs, elle est encore plus pertinente s’il est possible de la mettre en œuvre en amont de la mise en place de la politique.

 
De nombreuses méthodes… mais un rôle prépondérant de l’évaluateur

Il résulte que la qualité d’une évaluation réside dans la capacité (technique, intellectuelle) de l’évaluateur à prendre en compte le plus de variables, mais aussi sa connaissance du cadre institutionnel, sa capacité à mêler différentes approches (de façon pluridisciplinaire). Si la qualité d’une évaluation réside également dans l’accès aux données socio-économique, à son impartialité et son indépendante, il doit surtout faire preuve d’ingéniosité pour mener une évaluation des plus fine et pertinente.
Il convient de noter également que l’évaluation relève d’un enjeu citoyen et d’encouragement au débat autour d’une politique publique. A cet effet, la méthode qui consiste à la formalisation de questions évaluatives – méthodologie pourtant non appréhendée dans le rapport prétexte à cet article – permet d’organiser une réelle confrontation des différents points de vue, tous légitimes, et construire ainsi, par l’expérience acquise, des modes opératoires plus aiguisées, facilitant des politiques plus pertinentes, que la focalisation actuelle autour de la seule question d’efficacité ne permet pas d’appréhender suffisamment.