El acierto en las decisiones de
los sistemas automatizados
Cada vez se automatizan más procesos de decisión o se usan más sistemas automatizados en decisiones. Algunos incluso se utilizan para decisiones de calado social.
El caso RisCanvi
Según se ha publicado1, los funcionarios que utilizan el sistema de riesgo de reincidencia RisCanvi están conformes con la decisión que toma el algoritmo en el 96,8% de las ocasiones. Es decir, que en más de 9 casos de cada 10 los funcionarios confirman el nivel de riesgo que el sistema asigna a los presos de las cárceles de Cataluña.
¿Este porcentaje de cumplimiento por parte de los funcionarios es un indicador de éxito o es motivo de preocupación? Bueno, si el sistema acierta mucho, que los funcionarios estén de acuerdo con él supone que tomarán buenas decisiones. Eso sí, si el acierto del sistema no es muy alto, este porcentaje de cumplimiento por encima del 95% claramente no es un indicador de éxito.
Por ello, parece necesario comprender hasta qué punto los sistemas automatizados de ayuda a la decisión aciertan o no. Pero esto no es tan sencillo como parece.
Medidas de acierto
¿Cómo saber si un sistema automatizado es acertado?
Son varias las medidas que habitualmente se usan para evaluar el acierto de este tipo de sistemas. Algunas de las
más habituales son las medidas de sensibilidad, especificidad, exactitud o accuracy, y valor predictivo.
Pero, ¿qué nos dicen cada una de ellas? Para comprenderlas, usaremos los datos del mencionado sistema RisCanvi como
ejemplo2.
Sensibilidad y Especificidad
Empecemos con la sensibilidad y la especificidad, que son medidas que nos hablan de la capacidad del sistema. Imaginemos que partimos de una muestra de 648 presos a los que en su día se les pasó el sistema RisCanvi y a los que se les ha hecho seguimiento tiempo después. Entre ellos, hay presos violentos que sabemos que reincidieron cuando salieron de la cárcel, y presos que no lo hicieron. Así que los separamos en esos dos grupos: reincidentes (70 presos en el ejemplo RisCanvi); y no reincidentes (los 578 presos restantes).
Empecemos analizando la capacidad del sistema para detectar a los presos que reincidieron y etiquetarlos como de riesgo alto. Esta medida es conocida como Sensibilidad y se calcula dividiendo el número de presos etiquetados por el sistema como de alto riesgo (54) entre el total de presos que reincidieron (70).
Reincidentes | |
---|---|
Etiquetados como Alto Riesgo | 54 |
Etiquetados como Bajo Riesgo | 16 |
Total | 70 |
En el caso de RisCanvi, la sensibilidad es de un 77%, es decir, que el sistema es capaz de detectar a casi 8 presos de cada 10 que reinciden. Los otros 2 presos de cada 10 no detectados son falsos negativos, es decir, presos reincidentes que el sistema no llega a detectar.
¿Y qué pasa con los presos que no reinciden? ¿Es capaz el sistema de identificarlos adecuadamente? Para responder a esto, se utiliza la medida de Especificidad, que se calcula dividiendo el número de presos etiquetados como de bajo riesgo (331) entre el total de los que no reincidieron (578).
No Reincidentes | |
---|---|
Etiquetados como Alto Riesgo | 247 |
Etiquetados como Bajo Riesgo | 331 |
Total | 578 |
En RisCanvi, la especificidad es de un 57%, es decir, que el sistema es capaz de detectar a casi 6 presos no reincidentes de cada 10 que no reinciden. El resto, 4 de cada 10 presos, son falsos positivos, es decir, reclusos no reincidentes que el sistema etiqueta incorrectamente como de alto riesgo.
Si bien las medidas de sensibilidad y especificidad nos hablan de la capacidad del sistema, no lo hacen sobre su poder predictivo.
Valor Predictivo Positivo y Negativo
El Valor predictivo positivo de un sistema nos permite responder a la siguiente pregunta: si un nuevo preso es etiquetado como de alto riesgo, ¿cuál es la probabilidad de que reincida en el futuro?
Podríamos pensar que con las medidas vistas de sensibilidad y especificidad se puede responder a esta pregunta, pero no es así. Porque el punto de partida es diferente. Si antes serparábamos la muestra en reclusos reincidentes y no reincidentes, ahora el punto de partida es el etiquetado, es decir, nos fijamos en cuántos presos de la muestra fueron etiquetados de alto riesgo (301) y cuántos de bajo riesgo (347).
Como decíamos, para predecir si un preso etiquetado de alto riesgo reincidirá, utilizamos la medida de Valor predictivo positivo, que se calcula dividiendo el número de reclusos reincidentes etiquetados de alto riesgo (54), entre el total de presos de alto riesgo (301).
Reincidentes | No Reincidentes | total | |
---|---|---|---|
Etiquetados como Alto Riesgo | 54 | 247 | 301 |
En RisCanvi, el valor predictivo positivo es de un 18%, es decir, que solo 2 presos de cada 10 etiquetados de alto riesgo terminarán confirmando el pronóstico del algoritmo reincidiendo.
Y si el nuevo preso es etiquetado como de bajo riesgo, ¿cuál es la probabilidad de que no reincida en el futuro? En este caso utilizamos la medida de Valor predictivo negativo, que se calcula dividiendo el número de presos no reincidentes etiquetados como de bajo riesgo (331), entre el total de presos de bajo riesgo (347).
Reincidentes | No Reincidentes | total | |
---|---|---|---|
Etiquetados como Bajo Riesgo | 16 | 331 | 347 |
El valor predictivo negativo en RisCanvi es del 95%, por lo que el sistema es capaz de predecir correctamente que más de 9 de cada 10 presos etiquetados como de bajo riesgo no reincidirán.
Exactitud o Accuracy
Hay otra medida muy utilizada en el sector tecnológico para hablar de la eficacia de los sistemas automatizados que es la Exactitud o Accuracy del sistema, también conocida como la proporción de clasificaciones correctas3.
Esta medida nos dice cuántos presos, del total, han sido etiquetados correctamente (como reincidentes o como no reincidentes). Se calcula dividiendo los aciertos del sistema (presos etiquetados correctamente como de alto y de bajo riesgo; 385), entre el total de presos de la muestra (678). En RisCanvi la exactitud es del 57%. Esto significa que el algoritmo acierta de forma general en 6 de cada 10 reclusos (2 de cada 10 positivos, y casi 10 de cada 10 negativos).
Reincidentes | No Reincidentes | total | |
---|---|---|---|
Etiquetados como Alto Riesgo | 54 | 247 | |
Etiquetados como Bajo Riesgo | 16 | 331 | |
648 |
Rebobinando
Revisadas las medidas de acierto de los sistemas automatizados, parece un buen momento para mencionar por última vez el caso de RisCanvi y recordar que el cumplimiento de los funcionarios con el sistema RisCanvi es del 96,8%. Es decir, que en casi todos los casos, se da por bueno el nivel de riesgo que el sistema asigna a cada preso.”
Más allá del ejemplo concreto de RisCanvi, parece claro que evaluar el acierto de un sistema automatizado no resulta sencillo. Para ello, es importante conocer y distinguir las medidas de sensibilidad, especificidad, accuracy y valor predictivo positivo y negativo.
Si solo nos fijamos en alguna de ellas, nuestra lectura sobre la capacidad y poder predictivo del sistema puede ser errónea. Y sí, lo sabemos. Todos preferiríamos que estos temas resultaran más sencillos. Pero, ¡c'est la vie y los sistemas automatizados!
Es importante señalar que este trabajo se ha inspirado en el gran artículo de Garay (2016)4. Nuestro total agradecimiento a la investigadora tanto por su increíble trabajo, como por su generosa ayuda respondiendo a todas nuestras preguntas.
Muchas gracias también a la estadística y matemática Anabel Forte (@AnaBayes), por su afinada revisión de los textos y las medidas de esta story.1 Saura, G., & Aragó, L. (2021, December 6). Un algoritmo impreciso condiciona la libertad de los presos. La Vanguardia. https://www.lavanguardia.com/vida/20211206/7888727/algoritmo-sirve-denegar-permisos-presos-pese-fallos.html
2 Capdevila, M., Ferrer, M., Blanch, M., Andrés, A., Framis, B., Comas, N., Garrigós, A. y Mora, J.(2015). Tasa de reincidencia Penitenciaria 2014. Investigaciones CEJFE. http://cejfe.gencat.cat
3 Briz-Redón, A. & Montes, F. (2022). Análisis de los resultados del protocolo RisCanvi. Departament d'Estadística i Investigació Operativa. Universitat de València. https://www.uv.es/montes/informe riscanvi/informe.pdf
4 Garay, L. M. (2016). Errores conceptuales en la estimación de riesgo de reincidencia. Revista Española de Investigación Criminológica, 14, 1-31.
Agradecimiento y referencias: