La big data se instaló en nuestra vida y, aunque todavía se debate si es una ventaja o una amenaza, en el imaginario se acepta sin discusión que rige nuestras decisiones, nuestros intereses, nuestros deseos: desde lo más banal como definir el recorrido que haremos en auto hasta los más profundos como qué carrera estudiar o en qué zona vivir. Los datos a gran escala parecerían, entonces, una suerte de fantasma en la máquina que se mueve con voluntad propia y que no comprendemos del todo.
En su libro anterior, Big data (Ed. Siglo XXI), Walter Sosa Escudero se metía —se entrometía— con esta idea y, con un tono afable, didáctico pero no profesoril, sencillo pero sin perder rigor, señalaba la dinámica, el alcance y los límites de los “macrodatos”. Estas ideas vuelven a aparecer en Borges, big data y yo (también publicado por Siglo XXI), pero con una interesantísima vuelta de tuerca: a partir de cuentos como “El jardín de senderos que se bifurcan”, “La biblioteca de Babel”, “Funes, el memorioso”, “Pierre Menard autor del Quijote” y un largo etcétera, Sosa Escudero se interroga por la función de la estadística, la utilidad de la big data en tiempos de coronavirus, la ubicuidad de los números en las tomas de decisión.
Borges, Big data y yo entra en una tradición de libros que aborda la relación entre Borges y las diferentes ramas de las ciencias formales: la antología Borges y la ciencia, compilada por Eudeba y con prólogo de María Kodama, Borges y las matemáticas, de Guillermo Martínez, Borges y la física cuántica, de Alberto Rojo. La lista, como cabe a una serie borgiana, podría extenderse hacia el infinito. Pero no deja de ser una característica muy llamativa, dado que el propio Borges había admitido que tenía rudimentarios conocimientos de matemática.
“La ciencia es la construcción de un universo”, dice Walter Sosa Escudero en diálogo con Infobae Cultura. “Es como si nosotros primero hubiésemos determinado las reglas del mundo y después la gente opera con respecto a esas reglas. Es un poquito lo que hace Borges: es el argumento de ‘Tlön Uqbar Orbis Tertius’ puesto cabeza abajo. Borges inventa esos universos que se parece muchísimo al tipo de universo que, a los gritos pelados y con urgencia, quiere crear un científico. En ‘La biblioteca de Babel’, Borges plantea una tremenda cantidad de preguntas acerca de la tensión entre lo finito y lo infinito, de la posibilidad de buscar y encontrar, de qué significa que una cosa sea más grande que la otra. Es el tipo de cosas que un científico pretende hacer; la tarea del científico no es dar respuestas sino generar preguntas”.
Esa mirada “científica” de Borges se acentúa también en cómo sus cuentos toman ideas que se estaban formando mientras él escribía. Alberto Rojo, por ejemplo, refiere en Borges y la física cuántica que una lectura de “El jardín de senderos que se bifurcan” podría dar cuenta de la teoría del multiverso.
“Borges”, sigue Sosa Escudero, “parece sentirse comodísimo con los conceptos contemporáneos de la física y la matemática que eran prácticamente contemporáneos, y eso habla, no del Borges erudito ni del Borges intelectual, sino del Borges creador. Tendemos a pensar en Borges como intelectual, como si fuese Bertrand Russell, y no lo vemos como si fuese un Picasso, como un Stravinsky. Como científico, lo que más me impacta es el Borges creativo”.
Del rigor de la ciencia
—Alguna vez Borges dijo que había dos clases de mentiras: la psicología y la estadística. ¿Cómo se puede leer esa frase a la luz de tu libro?
—Qué tiene que ver la estadística con Borges: bueno, uno de los temas más recurrentes de Borges es la tensión entre la realidad y su representación. En “Funes el memorioso”, Borges dice: “Intentaré resumir con veracidad las muchas cosas que me dijo Ireneo”. Y resumir con veracidad es casi una descripción de la tarea de la estadística. Es algo aparentemente contradictorio resumir y ser veraz, porque toda vez que uno quiere resumir parece estar faltando a la verdad. Pero, justamente, el objetivo de la ciencia es quedarse con la verdad a través del resumen. Pensemos en el juego que hace Borges con “Del rigor en la ciencia”, donde un grupo de cartógrafos hace un mapa escala uno a uno. La ciencia ocurre con un propósito y, si uno se lo saca, termina representando al mundo en su forma más trivial.
—Yo creo que una de las cosas por las que te gusta tanto Borges es su pasión por el infinito.
—En el libro digo que, si vos decís tres veces infinito, el espíritu de Borges empieza a flotar por donde estás. La estadística vive del infinito. Si pudiésemos lanzar una moneda infinitas veces, aprenderíamos que las chances de que salga cara o ceca son 0.5. Ese razonamiento, que se llama “Ley de grandes números”, pide a gritos la presencia del infinito. Y el resultado a partir del cual puedo aprender algo por replicarse infinitas veces tiene un nombre muy simpático: se lo llama “Teorema fundamental de la estadística”. Si veo cómo algo se replica entiendo su esencia. La estadística vive en esa esperanza de ver replicar las cosas infinitas veces. En la práctica no se da infinitas veces sino en un número lo suficientemente grande, pero es la esperanza del infinito lo que permite que la estadística viva.
Netflix de senderos que se bifurcan
“La big data”, dice Sosa Escudero, “es un montón de información que la gente decide mostrar. Pero el problema de big data es pensar que el tamaño importa. La masividad es interesante, pero muchísimos problemas de la big data tienen que ver con sobreconfiar en los datos sin saber que son tremendamente sesgados: yo puedo tener un montón de datos de una encuesta que hizo una celebrity en Twitter, pero esos datos están filtrados por la decisión de seguir a esa persona. Si los analizo inocentemente, estoy metiendo la pata más fuerte. Big data te ofrece un montón de información que es interesante, pero que no es completa”.
—¿Qué tiene que aprender Netflix de Borges?
—Es un poco contradictorio lo que puede aprender Netflix del infinito y de Borges. Porque Netflix nos ve en los senderos del jardín que hemos visitado, pero no en los otros que no visitamos. Qué quiero decir: Netflix ve un enorme derrotero de lo que estoy haciendo, pero quizá mañana camino por otro sendero, y Netflix querría mantenerme eternamente cerca de donde yo ya estaba. Lo interesante es cómo señalarle a Netflix que existimos también en otros senderos, porque parte de la esencia del ser humano es saltar rápido a otros senderos del jardín. Ese es el problema de Netflix y los algoritmos: por un lado, tienden a pensar que somos las personas más conservadoras del mundo, pero por otro lado sabe que estamos dispuestos a pegar esos saltos. Esos saltos… borgianos, si se quiere.
—Pero: si el censo es la foto del día y al día siguiente pueden variar, si big data es incompleta, si, como decís en el libro, es imposible tomar el PBI varias veces al año, si hay ochenta maneras de medir la pobreza y cada una es sesgada, si tenemos todas esas limitaciones, ¿para qué sirve la estadística?
—Ahí está el asunto. La estadística se mueve por “piedras de Rosetta”. Suponete que tomás una medición del desempleo en base a tres mil hogares que son representativos de los tres millones que hay en CABA: en algún momento necesito ver si lo que medí con tres mil hogares es muy distinto de lo que podría haber medido con tres millones. Cada tanto la realidad te ofrece esas piedras de Rosetta en donde la estadística permite ver si las cosas realmente funcionan. Lo importante de la estadística no es que sea buena o mala, sino con que sea útil o inútil. La pregunta es útil para qué: útil para la toma de decisiones. No hay peor estadística que la que no se usa. Si te digo qué va a pasar con el dólar y no logro cambiar tu marco decisorio —independientemente de que acierte o no—, es como que no te hubiera dicho nada. Las estadísticas son útiles en la medida en que nos permitan tomar decisiones más informadas. O, si se quiere, mejores decisiones.
La pandemia y el milagro secreto
—¿Qué tendrían que aprender Ginés, Quirós y los ministros de Salud de Borges?
—Siguiendo con “El jardín de senderos que se bifurcan”, uno tiene que prestar atención a los datos y a los escenarios contrafácticos, que son los peores de todos porque son los que tenemos que imaginar. Si ahora la tasa de contagios baja, no puedo tomarlo como una medida de éxito de la política que se tomó, porque es una mezcla del éxito de la política con la evolución natural de la pandemia. Así como están las cosas, por lo menos en esta circunstancia, la tasa de contagios tiene que bajar. La gran pregunta es si va a subir. Y la otra gran pregunta es cómo hubiese sido la curva de casos de haber adoptado otra política. Entonces, si tuviese que dar un consejo borgiano: hay que meterte en todos los posibles senderos del jardín para ver cómo hubiera sido el escenario de haber hecho otra cosa.
—¿Se puede considerar como “otro sendero” las medidas de otros países?
—Pero los datos te muestran nada más que una cosa y te muestran, insisto, una mezcla de causas. Antes decíamos que Uruguay era un país ejemplo y ahora resulta que están preocupados. Se decía que Europa ya se habían sacado el problema de encima y ahora les pegó de vuelta. En definitiva, la enseñanza borgiana es que hay que dejar hablar a los datos, pero no demasiado. En algún momento uno tiene que pensar los escenarios alternativos porque es la única forma de evaluar políticas.
—Cuando la cantidad de infectados era baja, el coeficiente de multiplicación era muy alto. Ahora, ese número es bajo, pero la tasa de infectados es muy superior. Entonces, ¿era válido que el gobierno tome ese coeficiente para pasar de una fase a otra de la cuarentena?
—Todos estos coeficientes son distintas formas de mirar lo mismo, lo que pasa es que con algunas es más fácil de ver la cantidad de contagios, de casos, la tasa de duplicación, etc. Tu pregunta pone arriba de la mesa que una realidad compleja no se puede resumir en un coeficiente solo. La complejidad de la dinámica del coronavirus tiene que ser representada de una forma relativamente compleja para que no se distorsione la realidad. Me parece que es tan peligroso reportar nada más que casos a la Funes —el personaje de Borges—: estos son los datos y yo no digo nada, como intentar resumirlos en un número y ver si ese número sube o baja. Una enfermedad como esta es un fenómeno más relativo que absoluto. La discusión que se está manteniendo ahora es si no estamos viendo el comienzo de la tasa de rebote. Si uno mira la curva ve una caída pronunciada, pero si sacás la lupa vas a ver que esa caída se detuvo. En términos técnicos estás mirando otra característica de una función.
—Una derivada.
—Exactamente, estamos mirando la segunda deriva. Siempre les digo a mis alumnos que las situaciones simples demandan estadísticas simples y que las situaciones complejas demandan estadísticas complejas. Eso es inevitable. Lo que ha pasado con la pandemia es que algunas circunstancias las agarrás con un numerito, pero cuando tenés que ver dinámicas complejas como ver si se pega un rebote o analizar si se va a ocupar la capacidad hospitalaria, necesitás estadísticas más sofisticadas. La gente tiene una preferencia innata por las cosas simples y está bien que así sea, pero entonces se pone nerviosa cuando decís que necesitás estadísticas más complejas. “Antes te alcanzaba con estadísticas simples, por qué ahora necesitás estadísticas complejas”. Bueno, no todo puede simplificarse: ¡bienvenido a la ciencia!
LEER MÁS