Experimentos adaptativos para la investigación de políticas

30 noviembre 2020

6 min

Maximilian Kasy and Anja Sautmann

El objetivo de la investigación de políticas es a menudo identificar qué política, de una serie de posibles opciones de diseño o implementación, tendrá el mayor impacto en el resultado en cuestión. Tales esfuerzos pueden requerir tamaños de muestra grandes con períodos potencialmente largos de observación, así como una recopilación de datos minuciosa y costosa. Esta columna propone un nuevo diseño de investigación experimental que cumple con el objetivo de identificar la mejor política más rápido y con menos observaciones que un “experimento estándar”. Los diseños experimentales “adaptativos” como este, que se centran en las políticas que muestran la mayor promesa a medida que se acumula la evidencia, tienen la ventaja de que incluso cuando un experimento está en curso, una parte creciente de los participantes se benefician de las políticas que emergen como las más exitosas.

Uno de los mayores cambios metodológicos en la investigación de políticas públicas ha sido el auge de experimentos – «ensayos controlados aleatorios» [en inglés, randomized controlled trials, RCT] – para medir los efectos de los programas o políticas sociales. Los RCT han sido particularmente influyentes en la economía del desarrollo.

Cuando un investigador académico lleva a cabo un experimento para probar una política, el objetivo suele ser una medición precisa. Esto se hace mejor mediante la creación de dos grupos de personas que son lo más similares posible, uno de los cuales (el grupo de “tratamiento”) recibe el programa y el otro (el grupo de “control”) no. Un RCT puede responder a la pregunta: ¿tiene este programa un efecto significativo y cuál es exactamente el efecto?

Pero si un gobierno o una ONG lleva a cabo un experimento, la medición no siempre es su primer objetivo. En su lugar, a menudo están más interesados en encontrar rápidamente la mejor variante del programa posible entre varias opciones disponibles.

Tal vez quieran aprender, por ejemplo, qué tipo de apoyo es más eficaz para ayudar a los refugiados a encontrar trabajo en su país de acogida; o qué forma de divulgación es más exitosa en involucrar a los padres en las tareas escolares de sus hijos. En otras palabras, les gustaría responder a la pregunta: ¿qué versión del programa tendrá el mayor efecto y, por lo tanto, debería aplicarse?

Tomemos la Organización para el Desarrollo de la Agricultura de Precisión [en inglés, Precision Agriculture for Development, PAD], que ofrece un servicio gratuito de extensión agrícola para pequeños agricultores. Para una campaña de inscripción en la India con un millón de agricultores, la organización PAD quería aprender lo más rápido posible cómo llevar a cabo las llamadas de inscripción de manera efectiva, para que los agricultores no examinaran las llamadas sin aprender sobre el servicio. Por otro lado, PAD no necesitaba estimar las tasas de inscripción de sus llamadas con precisión.

Nuestra investigación proporcionó una solución al problema de PAD mediante la realización de un experimento “adaptativo”. La idea es llevar a cabo el experimento en varias ondas y adaptar el experimento después de cada onda, para que el objetivo de aprendizaje se alcance lo más rápido posible.

En la primera onda, el experimento para PAD parecía un RCT no adaptable. Pero a partir de la segunda onda, el algoritmo que utilizamos, el “muestreo de exploración”, comenzó a centrarse en los métodos de llamada con tasas de respuesta más altas, con el fin de aprender tanto como sea posible sobre las secciones del tratamiento que representan los candidatos más probables para la implementación.

La idea del muestreo adaptativo es casi tan antigua como la idea de experimentos aleatorios. Los diseños adaptativos se han utilizado en ensayos clínicos, así como en la focalización de anuncios en línea.

El objetivo de PAD era identificar el método de inscripción con la mayor tasa de éxito para la implementación escalada del experimento. Pero los algoritmos para la experimentación adaptativa pueden adaptarse a muchos objetivos diferentes.

Por ejemplo, en el caso de un programa de apoyo a la búsqueda de empleo para refugiados en Jordania por parte del Comité Internacional de Rescate [en inglés, International Rescue Committee, IRC], el objetivo era aprender en la medida de lo posible sobre diferentes intervenciones -proporcionando aquí sesiones de información, asesoramiento o apoyo financiero-, pero al mismo tiempo, el IRC también quería que la mejor sección del programa beneficiara al mayor número posible de refugiados. Por lo tanto, los investigadores implementaron un algoritmo adaptativo híbrido que logra mejores resultados del tratamiento que un RCT puro (asignando más sujetos a secciones de reajuste que funcionan bien) pero también aprende sobre cada sección con alta precisión.

En el caso de PAD, mostramos que el algoritmo de muestreo de exploración conduce a recomendaciones consistentemente mejores sobre qué política implementar que un RCT estándar. PAD llevó a cabo muestreos de exploración con los números de teléfono de 10,000 agricultores en junio de 2019. Probaron seis diferentes métodos de llamada: realizar llamadas por la mañana o por la noche, y alertar al agricultor con un mensaje de texto en diferentes plazos de entrega.

La Figura 2 muestra el porcentaje de llamadas exitosas en las seis secciones del tratamiento al final del experimento. La Figura 3 ilustra qué porcentaje de llamadas de cada onda fueron asignadas a las diferentes secciones de tratamiento a lo largo del tiempo.

1. Porcentaje de llamadas exitosas en cada sección del tratamiento (de 1).

2. Asignación de números de teléfono (observaciones) a las secciones del tratamiento a lo largo del tiempo. Las acciones se suman a 1 en cada fecha.

A pesar de la considerable variación, llamar a las 10 de la mañana con un mensaje de texto una hora antes resultó ser el tratamiento más exitoso desde el principio. Como resultado, se asignó una mayor parte de cada onda a esa opción de llamada. Al final, casi 4,000 de los 10,000 números de teléfono fueron asignados a esta sección, como se ve en el porcentaje total de asignaciones en la Figura 4.

3. Número total de observaciones (números de teléfono) asignadas a cada sección del tratamiento al final del experimento. Casi 4,000 números de teléfono fueron asignados a la sección que tenía las tasas de respuesta de llamadas más altas: llamando a las 10am con un mensaje de texto enviado con una hora de anticipación.

La visión clave de la experimentación adaptativa es que dividir la muestra en grupos de tratamiento y control de igual tamaño, como lo hace un RCT estándar, puede no ser siempre lo mejor que se puede hacer, una vez que hemos aprendido un poco más sobre las diferentes secciones del tratamiento. Esto tiene un gran potencial para mejorar la forma en que se realizan los experimentos en la práctica.

Una característica bienvenida de muchos procedimientos adaptativos es que más participantes se benefician de las mejores opciones de tratamiento, facilitando la realización ética de experimentos en desarrollo e investigación de políticas. Además, el proceso de aprendizaje se completa más rápido y con tamaños de muestra más pequeños. Al mismo tiempo, utilizar un algoritmo adaptativo para el aprendizaje garantiza que la decisión de la política resultante siga siendo replicable, así como completa y empíricamente justificada.