Big Data: cómo está ocurriendo la revolución de los datos ocultos y los secretos más íntimos

Nuestras fantasías sexuales, las probabilidades en las carreras de caballos y los pronósticos más fiables de las elecciones presidenciales, todo eso y más comienza a ser accesible como nunca antes. Cómo se transforma un mundo inundado de cifras en información útil y valiosa

Guardar

Si nos detenemos a imaginar a dónde se dirige el mundo en los próximos veinte -o incluso diez- años, podemos decir que nos encontramos en la segunda etapa de una revolución que abarca desde mediados del siglo XX, pero que recién hoy comienza a vislumbrar sus consecuencias más intrínsecas.

Así como la máquina de vapor y el ferrocarril marcaron el detonante de la primera revolución industrial, en nuestros tiempos la computadora se ha convertido en símbolo de una etapa histórica tan abarcativa y transformadora que una sola palabra no ha sido suficiente para describirla. Hablamos de la revolución tecnológica, digital y de la era de la información para referirnos a distintos movimientos y transiciones, pero los tres términos remiten a una época actual cuyo exponente puede identificarse con la invención de la computadora y el desarrollo del Internet.

La revolución tecnológica está recién
La revolución tecnológica está recién comenzando.

Nos encontramos en la segunda etapa de la revolución porque esta tecnología, que ha sido marcada por hitos históricos como el desarrollo de ARPANET en 1969 y el del World Wide Web en 1989, ha iniciado un proceso de nuevos descubrimientos que prometen cambiar todos los aspectos de nuestra vida diaria.

Así como la máquina de vapor fue la tecnología detrás del ferrocarril, cada vez más expertos concuerdan que la tecnología detrás de la moneda virtual Bitcoin –blockchain– con el tiempo modificará el funcionamiento del Internet así como el automóvil revolucionó el transporte y sustituyó al ferrocarril en el siglo XX. Una dinámica similar también se desenvuelve con la robótica, que hasta ahora ha sido fundamental para el progreso de varias industrias pero que en los próximos años, con el continuo avance de la inteligencia artificial, probablemente seamos testigos de la emigración de los robots desde las fábricas y los laboratorios científicos a nuestro mundo cotidiano.

Big Data es el análisis de
Big Data es el análisis de mundo continuamente inundado de datos

Otro componente esencial de esta revolución es el progresivo avance en el campo de la información en forma de Big Data. En una columna de opinión para este portal, Mario Bolo, director adjunto del Departamento de Ingeniería Informática del ITBA (Instituto Tecnológico de Buenos Aires), define Big Data como el conjunto de datos e información "que existen en el mundo o los que se crean diariamente".

"Big Data significa todos los datos, en todas sus formas, que incluyen no sólo los datos tradicionales sino también correos electrónicos, comentarios en redes sociales, fotos, audio y video, datos de instrumentos y sensores, y hasta el tono emocional de una comunicación verbal o escrita. Pero Big Data es más: también incluye el variado conjunto de tecnologías que permiten analizar esos datos", precisa Bolo.

Seth Stephens-Davidowitz y su nuevo
Seth Stephens-Davidowitz y su nuevo libro, “Everybody Lies”

En su libro "Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are" (Todos mienten: Big Data, nueva data y lo que Internet puede decirnos sobre quiénes realmente somos), Seth Stephens-Davidowitz argumenta que Big Data está convirtiendo a las ciencias sociales en una verdadera ciencia, "y esta nueva y verdadera ciencia está preparada para mejorar nuestras vidas".

"Estoy ahora convencido de que las búsquedas en Google son el conjunto de datos más importante jamás recopilado sobre la psiquis humana", dice Stephens-Davidowitz, un científico de datos que trabajó como analista cuantitativo en Google y actualmente es columnista para el periódico estadounidense The New York Times.

Así como Bitcoin es la primera aplicación práctica de la revolucionaria tecnología blockchain, la herramienta de búsqueda Google Trends introdujo al mundo por primera vez un método eficiente de analizar parte del gran universo que es Big Data. "Google Trends, una herramienta lanzada con poca fanfarria en 2009, informa a los usuarios con que frecuencia una palabra o frase ha sido buscada en diferentes lugares y en diferentes momentos", explica el científico.

Google Trends permite analizar las
Google Trends permite analizar las búsquedas de las personas en Internet (Google)

"En aquel momento, los datos de búsqueda de Google no parecían ser una fuente de información adecuada para una investigación académica 'seria'. A diferencia de las encuestas, los datos de búsqueda de Google no fueron creados para ayudarnos a entender la psiquis humana. Google se inventó para que la gente pudiera aprender sobre el mundo, no para que los investigadores pudieran aprender sobre las personas", escribe en la introducción de su libro.

"Pero resulta que los rastros que dejamos mientras buscamos conocimiento en Internet son tremendamente reveladores. En otras palabras, la búsqueda de información es, en sí misma, información", agrega.

Veamos algunos ejemplos.

¿Qué fantasías y disfunciones sexuales busca la gente en Internet?

Las búsquedas de pornografía revelan
Las búsquedas de pornografía revelan sorprendentes proclividades sexuales de las personas

Una de las grandes ventajas de algunas fuentes de Big Data como el buscador de Google es que, al ser herramientas impersonales que se pueden utilizar en anonimato, suelen funcionar como un confesionario al que muchas personas recurren para expresar lo que no quieren o pueden admitir en público. "El poder de los datos de Google es que la gente le dice a los grandes buscadores cosas que no le dirían a nadie más", advierte Stephens-Davidowitz.

No es el caso de las redes sociales como Facebook, Twitter e Instagram, -otra gran fuente de Big Data-, ya que, al ser plataformas que uno utiliza para relacionarse con la sociedad, existe un incentivo para mostrarse de una manera que uno realmente no es. "No hay manera de que todos sean tan exitosos, ricos, atractivos, relajados, intelectuales y alegres como aparentan ser en Facebook", afirmó Stephens-Davidowitz en una de sus columnas para el periódico neoyorquino.

Si utilizamos los datos presuntamente honestos de buscadores como Google y aprovechamos la transparencia con la cual podemos acceder a ellos, podemos descubrir comportamientos, deseos o preocupaciones que quizá nunca consideramos como características generales de los seres humanos. Por ejemplo, si buscamos la expresión "mi esposo quiere…" en Google Trends, descubrimos que en India, la búsqueda más común con esta fórmula es "mi esposo quiere que lo amamante".

Amamantar, el secreto deseo sexual
Amamantar, el secreto deseo sexual característico de Asia del Sur

De hecho, las búsquedas pornográficas de imágenes de mujeres que amamantan a los hombres son cuatro veces más altas en la India y en Bangladesh que en cualquier otro país del mundo, una observación que quizá nunca hubiésemos registrado sin que los datos de Google la saquen a la luz.

Otra observación: mientras que los hombres inundan a Google con consultas sobre el tamaño de sus penes, la mayor inseguridad corporal de las mujeres, según el buscador, es el olor de su vagina. De hecho, las mujeres tienen casi tantas preguntas sobre sus vaginas como los hombres sobre sus penes. Quieren saber cómo afeitarla, apretarla y hacer que su sabor sea mejor. El olor de su vagina es realmente una inquietud seria: algunas de las búsquedas de Google más frecuentes se preocupan que sus vaginas huelen a pescado, seguido por vinagre, cebolla, amoníaco, ajo, queso, olor corporal, orina, pan, blanqueador, heces fecales, sudor, metal, pies, basura y carne podrida.

¿Tenía razón Sigmund Freud?

Sigmund Freud, el padre del
Sigmund Freud, el padre del psicoanálisis

Como advertimos al principio de esta nota, Stephens-Davidowitz sostiene que una de las grandes ventajas de Big Data es que puede convertir a las ciencias sociales en una verdadera ciencia. Es decir, puede producir conocimiento susceptible a la experimentación y a la prueba con datos concretos.

Cuando las teorías de Freud atrajeron por primera vez a la atención pública, muchos intelectuales se preguntaron si sus hipótesis podían ser demostradas. Frente a esta incógnita, el gran filósofo Karl Popper se inclinaba a decir que no: las teorías de Freud simplemente no eran falsificables; no había forma de probar si eran verdaderas o falsas.

El Complejo de Edipo se
El Complejo de Edipo se refiere al deseo inconsciente de mantener una relación sexual incestuosa con el progenitor del sexo opuesto

"Hasta ahora", afirma Stephens-Davidowitz.

Aunque en sus investigaciones el analista cuantitativo refuta algunas de las teorías freudianas, uno de sus descubrimientos más alarmantes fue que un impactante número de personas que visitan los principales sitios pornográficos buscan satisfacer sus fantasías incestuosas.

De las cien búsquedas más populares por hombres en PornHub, uno de los sitios pornográficos más populares, dieciséis de ellas buscan videos de incesto, como "hermano y hermana", "madre e hijo" y "hermana y hermano verdadero". Por su parte, nueve de las principales cien búsquedas por mujeres en el mismo sitio buscan la misma temática, como "padre e hija".

En Google Trends, de todas las búsquedas que comienzan con el formato "quiero tener sexo con mi…" o "estoy atraído a mi…", la forma más común de completar la frase incluye la palabra "mamá".

Podemos concluir, -quizá definitivamente-, entonces, que al menos un tenue eco del Complejo de Edipo de Freud forma parte de la psicología humana.

¿Podemos apostar al ganador en una carrera de caballos gracias a Big Data?

En 2013, un empresario cervecero egipcio llamado Ahmed Zayat viajó a Nueva York para participar en un remate de 151 caballos en el cual pretendía vender un animal propio y comprar algunos más. Para ello contrató a una pequeña firma de expertos, EQB, cuyo director, Jeff Seder, no era un hombre de campo con años de experiencia sino un graduado de Harvard nacido en Filadelfia.

Durante dos días, los expertos analizaron a todos los caballos del remate con la intención de seleccionar a cuatro o cinco para reemplazar al de Zayat, el número 85.

Sin embargo, los expertos regresaron con una recomendación inesperada: "No podemos cumplir con su petición", dijeron. "Simplemente no puedes vender el caballo número 85. Venda su casa, pero no venda este caballo".

American Pharoah, con el jinete Victor Espinoza, gana
American Pharoah, con el jinete Victor Espinoza, gana la carrera de caballos Breeders’ Cup Classic el sábado 31 de octubre de 2015, en Lexington, Kentucky. (AP Photo/Garry Jones)

Con poco entusiasmo, el caballo número 85 fue comprado por USD 300.000 por un tal "Incardo Bloodstock". Bloodstock, se reveló después, era un pseudónimo utilizado por Zayat, quién por reglas que no permitían retirar a "número 85" del remate, compró su propio caballo en un acto casi sin precedentes. 

Lo bautizó con el nombre "American Pharoah". Dieciocho meses después, en 2015, se convirtió en el primer caballo en más de tres décadas en ganar la Triple Corona.

¿Qué sabía Jeff Seder sobre el caballo número 85 que nadie más sabía?

Luego de años de investigar cómo predecir el éxito de un caballo con datos que exceden el pedigrí del animal, Seder decidió medir el tamaño de los órganos internos de los caballos.

American Pharoah
American Pharoah

Entonces, descubrió una correlación asombrosa: encontró que el tamaño del corazón, y en particular el tamaño del ventrículo izquierdo, era un predictor sumamente efectivo para medir el éxito de un caballo. También notó que otra variable importante era el tamaño del bazo: los caballos con bazo pequeño no ganaban prácticamente nada.

Cuando Seder analizó a American Pharoah, parecía ser un caballo normal. En su primer año de vida, registraba una altura dentro del percentil 56, un peso de percentil 61 y un pedigrí de percentil 70.

¿Pero su ventrículo izquierdo? Percentil 99,61. ¿Qué más? El resto de sus órganos, incluyendo su corazón y el bazo, también eran extraordinariamente grandes. American Pharoah era un caballo único.

American Pharoah
American Pharoah

Como demuestra está experiencia, cuando analizamos Big Data no es tan importante identificar la explicación detrás de nuestras observaciones (Seder no podía explicar exactamente por qué el ventrículo izquierdo es tan importante para predecir el éxito del caballo), sino percibir que cierta correlación efectivamente existe y funciona en el mundo real.

Lo demás es objeto de estudio del cardiólogo o el hematólogo.

¿Era posible predecir que Donald Trump ganaría las elecciones presidenciales de Estados Unidos en 2016?

Donald Trump y Hillary Clinton
Donald Trump y Hillary Clinton (AFP)

Cuando Barack Obama ganó, con cierta facilidad, las elecciones presidenciales estadounidenses de 2008 y luego un segundo mandato en 2012, varias encuestadoras profesionales sugerían que la raza ya no era un factor determinante en cómo votaban los estadounidenses. La Encuesta Gallup, por ejemplo, concluyó de sus investigaciones que a los votantes estadounidenses no les importaba que su presidente sea negro.

Durante la presidencia de Obama, la creencia popular parecía indicar que Estados Unidos, un país cuya historia traza una larga época de esclavitud y leyes de Jim Crow que culminaron en la Guerra de Secesión y el Movimiento por los derechos civiles, finalmente se había librado de su larga tradición de discriminación y disfrutaba de una época post-racial en la cual los prejuicios remanentes se limitaban a un pequeño porcentaje de los estadounidenses – la mayoría de ellos Republicanos conservadores viviendo en el Sur del país.

Cuatro años después, las mismas encuestadoras pronosticaban una y otra vez que Donald Trump, un magnate inmobiliario y presentador de televisión, no tenía chances de ganar las Primarias Republicanas ni las elecciones presidenciales de 2016 contra Hillary Clinton.

Donald Trump y Barack Obama
Donald Trump y Barack Obama (Reuters)

Pero Google Trends tenía otra historia que contar.

"Las búsquedas en Google presentaban una imagen de Estados Unidos que era sorprendentemente diferente a la utopía post-racial esbozada por las encuestas", afirma Stephens-Davidowitz en su libro. "En Estados Unidos, la palabra 'nigger' [una palabra para referirse a las personas negras que ha adquirido una connotación profundamente peyorativa] -o su plural, 'niggers'- se incluyó en aproximadamente el mismo número de búsquedas que las palabras 'migraña(s)', 'economista' y 'Lakers'".

"En la noche de las elecciones", continúa el autor, "las búsquedas y las inscripciones a Stormfront, un sitio supremacista blanco con una popularidad sorprendentemente alta en los Estados Unidos, fueron más de diez veces superiores a lo normal. En algunos estados, hubo más búsquedas de 'presidente nigger' que 'primer presidente negro'".

La mayor concentración de búsquedas
La mayor concentración de búsquedas racistas no se confinaban al Sur de Estados Unidos sino a toda la Costa Este de EEUU

Aún más alarmante, estas búsquedas no se confinaban a los estados mayormente republicanos y conservadores del Sur. "Los lugares con las tasas más altas de búsquedas racistas incluían al norte del estado de Nueva York, el oeste de Pensilvania, el este de Ohio, Michigan industrial e Illinois rural, junto con Virginia Occidental, el sur de Luisiana y Misisipi".

"La verdadera división, sugerían los datos de búsqueda de Google, no era Sur contra Norte, sino Este contra Oeste. No se ve este fenómeno mucho más al oeste del río Misisipi y el racismo no se limitaba a los Republicanos. De hecho, las búsquedas racistas no fueron más altas en lugares con un alto porcentaje de Republicanos que en lugares con un alto porcentaje de Demócratas", escribe Stephens-Davidowitz.

El apoyo a Donald Trump
El apoyo a Donald Trump en las Primarias Republicanas refleja una clara correlación con el mapa del índice de búsquedas racistas

En total, "Obama perdió aproximadamente 4 puntos porcentuales en todo el país debido únicamente al racismo explícito", calculó el analista cuantitativo.

"Había una oscuridad y un odio que estaba oculto a las fuentes tradicionales de información, pero que era bastante evidente en las búsquedas que la gente hacía" en Google. "Pero esas horribles búsquedas no son difíciles de reconciliar con el éxito de un candidato que -en sus ataques contra los inmigrantes, en sus cóleras y resentimientos- a menudo apelaba a las peores inclinaciones de la gente", opina el columnista de The New York Times.

Más allá de revelaciones sobre los prejuicios raciales de la sociedad, Big Data también puede ayudar a pronosticar los resultados de una elección utilizando métodos de análisis poco convencionales y no accesibles a las encuestas tradicionales, como descifrar el número de electores que ejercerán su derecho a votar el día de las elecciones. "Más de la mitad de los ciudadanos que no votan le dicen a las encuestas inmediatamente antes de una elección que piensan hacerlo, distorsionando nuestra estimación de la participación electoral, mientras que búsquedas en Google sobre 'cómo votar' o 'dónde votar' semanas antes de una elección pueden predecir con precisión qué partes del país van a tener una gran presencia en las urnas", señala el graduado en filosofía de la Universidad de Stanford y en economía de Universidad Harvard.

Donald Trump (AFP)
Donald Trump (AFP)

No solo eso: las búsquedas en Google también pueden revelar información sobre el candidato a quien probablemente votará un votante indeciso. Analizando los datos de las elecciones, el profesor de finanzas en la Universidad de California, Stuart Gabriel, y Stephens-Davidowitz descubrieron que "un gran porcentaje de las búsquedas relacionadas con las elecciones contienen consultas con los nombres de ambos candidatos. Durante las elecciones de 2016 entre Trump y Hillary Clinton, algunas personas buscaron 'Encuestas Trump Clinton'. Otros buscaron lo más destacado del 'Debate de Clinton Trump'. De hecho, el 12 por ciento de las búsquedas con 'Trump' incluían también la palabra 'Clinton'. Más de una cuarta parte de las consultas de búsqueda con 'Clinton' también incluyeron la palabra 'Trump'".

Entonces, ¿Cómo pueden unas búsquedas aparentemente neutrales darnos algunas pistas sobre el candidato a quién votarán algunos electores indecisos?

Por "el orden en que aparecen los candidatos", concluyeron los analistas. "Nuestra investigación sugiere que en una búsqueda que incluye los nombres de ambos candidatos, una persona es significativamente más propensa a poner al candidato que apoya primero".

Este último ejemplo nos ayuda a apreciar los primeros tres de los cuatro poderes de Big Data y de su análisis que destaca Stephens-Davidowitz en su libro, aunque a continuación enumeramos su lista completa:

1. Big Data ofrece nuevos tipos de datos
2. Big Data ofrece datos más honestos
3. Big Data nos permite focalizarnos en grupos más precisos de individuos
4. Big Data permite realizar muchos experimentos causales en poco tiempo

Si pretendemos integrarnos a la economía del futuro, es importante entender que, indudablemente, Big Data conformará una parte central de ella. Cada vez más y más datos inundan el mundo (un promedio de 2,5 trillones de bytes por día, para ser exactos), y el abanico de posibilidades que se abre con nuestra capacidad de analizarlos es realmente inagotable.

La revolución de las ciencias sociales ha comenzado.

LEA MÁS:

 
Guardar