La fórmula detrás del buscador de Google, el secreto mejor guardado de la compañía

Guardar

Así se veía el logo original del buscador

(Mountain View, enviada especial) ¿Qué determina la importancia de una página para Google? ¿Por qué algunos sitios llegan al primer puesto y otros quedan más relegados? Son varias las cuestiones que entran en juego, y si bien se conoce algo sobre el funcionamiento de los algoritmos detrás del buscador, hay gran parte que permanece en secreto.

El sistema PageRank, que se publicó en 1998, comprende varios criterios que le permiten al buscador asignar importancia o relevancia de una página. Con el tiempo se implementaron algunos cambios que fueron modificando la forma en que funciona la fórmula mágica detrás del buscador.

Infobae entrevistó a Pandu Nayak, integrante del equipo de Calidad del Buscador de Google, en las oficinas centrales de la empresa en Mountain View, para hablar del gran tesoro escondido detrás de este sistema que organiza la información en la web.

Pandu Nayak es parte del equipo de Calidad del buscador de Google

—¿Cómo fue el recorrido del buscador y la empresa en estos 20 años?

—En estos 20 años muchas cosas cambiaron y otras se mantuvieron. Lo que no cambió, y que es la base de lo que es Google, es la misión esencial del buscador: organizar la información del mundo y hacerla accesible y útil . Esa misión es lo que nos guía cada día, el tipo de información y lo que significa organizarla cambió, pero la misión esencial no se modificó. El segundo punto que no cambió, que es central en todo lo que hacemos y que es algo que Sergey y Larry mencionaron desde el comienzo es el foco en el usuario.

—¿Pero se han hecho cambios?

—En el buscador hacemos miles de cambios cada año y lo mejoramos constantemente, pero el motivo detrás de cada cambio es lograr que el buscador sea mejor para el usuario. Eso significa que no hay otros factores que guían los cambios que hacemos en el buscador. No hay un monitoreo directo, el servicio de Ads (publicidad) no es parte de ese proceso, no se pueden comprar los resultados del buscador, nada de eso ocurre. Claro que somos una compañía y queremos hacer dinero y esa es la tarea del equipo de publicidad pero hay una pared entre el equipo del buscador y el de publicidad; y cuando hacemos cambios en el buscador no sabemos qué está haciendo el equipo de publicidad. Nuestro foco está en generar un buen impacto en el usuario.

Google cumplió 20 años

—¿Qué cambió entonces en el buscador?

—Cuando empezamos la web era pequeña, había millones de páginas pero era pequeña. Estaba el buscador Yahoo!, antes que Google y la web era tan pequeña que solo era un directorio. No se podía navegar ni ir a los sitios, era pequeña. En los inicios se construyó un índice que se mantenía fijo todo el mes o sea que si se creaban páginas en ese mes no aparecían en ese índice hasta el mes siguiente. La web se ha vuelto más grande, con trillones de páginas, y el índice se ha creado, pero no tenemos toda la web, tenemos una gran parte. El índice es miles de millones de páginas más. El tamaño ha crecido muchísimo, pero el índice se actualiza con más frecuencia. Entre que una página o sitio se crea y aparece en nuestro índice pasan apenas segundos. Podemos darles a nuestros usuarios el contenido más nuevo. Todo esto requiere grandes avances en la infraestructura.Otro gran cambio es de tecnología, la comprensión del texto. Al final del día, el buscador tiene que ver con entender el lenguaje. El lenguaje de las preguntas, de los documentos. La comprensión de texto está en el centro del asunto.

—¿Cómo es eso?

—Al comienzo, el entendimiento de la lengua era bastante directo, simple. La corrección de la escritura de palabras fue una de las grandes innovaciones. A lo largo de los años nos ocupamos en entender sinónimos, comprender palabras en contexto. Construimos la tecnología alrededor de sinónimos, para decenas de idiomas en todo el mundo. Durante los años hubo muchos otros avances, sobre todo de la mano de machine learning y deep learning, que son tecnologías que prometen más avances en la comprensión del lenguaje. El tercer tipo de cambio fue el tipo de contenido. Antes el buscador era sobre links en la web y sobre los años hemos agregado cada vez más contenido como las imágenes, videos, búsquedas locales, innovaciones para modelar no solo palabras sino personas, lugares. Todas estas innovaciones han derivado a una gran variedad de diferentes tipos de contenidos disponibles en el buscador. Y luego están todos los idiomas.

—¿Cómo cambió el Proyecto Búho (Owl Project) el algoritmo de búsqueda?

—Se viene realizando hace poco menos de un año y medio. Nos alertaron que para algunas preguntas estábamos mostrando algunos resultados desafortunados. Se nos indicó que para la pregunta: ¿existió el Holocausto? se mostraba, arriba de todo, una página que negaba el Holocausto. Y eso claramente no coincide con lo que queremos hacer. Lo que queremos hacer, y esto es un principio que el buscador ha tenido desde el comienzo, y una de las cosas que nunca cambió es dar resultados que relevantes para la consulta del usuario. Google luego hizo un cambio en ese sentido: no solo queremos darte resultados relevantes, sino darte resultados de una fuente fiable, siempre que sea posible. Y para hacer eso introdujeron el algoritmo de PageRank. No siempre es posible conseguir páginas relevantes de fuentes fiables y no siempre es deseable. Si uno tiene un iPhone y quiere repararlo, entonces se va a Google a buscar y alguien en un foro dice "hay que hacer esto y aquello" y uno lo prueba, funciona y puede no preocuparse por saber si la información viene de una fuente autorizada. Pero hay otros casos donde los resultados de fuentes fiables o autorizados es importante: imagina que vas al doctor y dice que tienes diabetes o un problema cardíaco, entonces uno va a Google y hace la búsqueda y ahí no se busca la información de un foro sino de fuentes autorizadas. Hay mucha áreas, como las consultas médicas o dudas financieras, donde la autoridad es muy importante.

Cuando se escribe una consulta en Google, debajo de los primeros resultados destacados aparece la palabra “comentarios” si se presiona allí aparece un formulario para dar feedback sobre el resultado obtenido. Esto es parte de los cambios que llegaron con el Proyecto Búho

—¿La idea es que hay una mezcla de los dos conceptos a la hora de filtrar la información?

—Sí, hay una mezcla entre fuente autorizadas y relevancia. En algunos casos hay que fortalecer el hecho de que se trate una fuente autorizada. Así que volviendo al proyecto Búho descubrimos que no estábamos tratando las consultas sobre noticia como cuestiones de salud o fianzas donde el hecho de que una fuente sea autorizada o fiable es súper importante, y lo que descubrimos es que teníamos que hacer un cambio así que cambiamos para enfatizar la autoridad de la fuente mucho más.

—En el marco del Proyecto Búho los usuarios pueden seguir expresando su opinión sobre los resultados de las búsquedas. ¿Eso funciona?

—Sí, se puede mandar feedback. Hay mecanismos para mencionar si hay hechos que se consideran incorrectos o inadecuado. También se puede dar feedback cuando hay algo bueno, pero nadie lo hace, a la gente le sale mejor quejarse.

—¿Y cuánto mejoró los resultados de búsqueda este sistema de feedback?

—Muchísimo. Igual hay que mencionar que cuando este problema del buscador se nos mencionó, en términos de tráfico fue algo menor: afectó un 10% del tráfico. Pero igual entendimos que no fue un problema menor en lo que se refiere al problema en sí, por eso hubo tanta gente que se focalizó en solucionarlo. Y no creemos que hayamos solucionado todos nuestros problemas, porque la escala de preguntas aumentó muchísimo: recibimos miles de millones de consultas todos los días. Y lo increíble es que el 15% de ellas son consulta que no habíamos visto antes. Entonces hay tanta información nueva todo el tiempo que no se puede decir que se han resuelto todos los problemas, de hecho no lo hicimos, pero hicimos un gran progreso en mantenernos firmes a nuestros valores centrales.

—¿Cuales son los principios más importantes que se tienen en cuenta para el funcionamiento del buscador?

—Tenemos principios guía para evaluar los cambios que se van a hacer al algoritmo. Así que cada vez que queremos hacer un cambio tenemos que verificar que sea un buen cambio, y para eso hacemos un experimento con los calificadores donde se pone una pregunta, y en un lado ponemos el experimento y en el otro lo que esté en producción sin decirles cuál es cuál y les preguntamos cuál es el mejor resultado siguiendo estas guías de evaluación donde se tiene en cuenta si un resultado es relevante y de una fuente autorizada. Entonces siguiendo esa guía, de más de 160 páginas, los calificadores aprenden a ver qué criterios se tienen en cuenta para considerar si una fuente es autorizada, y cómo calificarlas. Las nociones para considerar si una fuente es autorizada es si la página trata de engañar al usuario o no, si es creíble, si tiene experiencia en tal o cual tema, etc. Hay varios criterios que deben ser interpretados por los calificadores para que decidan si un contenido es relevante y viene una fuente fiable. Son 10 mil calificadores y están en todo el mundo. Queremos que estén en todo el mundo porque queremos que también tengan en cuenta el aspecto cultural del lugar donde viven, porque en cada región o país se tienen diferentes visiones o consideraciones y queremos que eso se refleje, queremos que los calificadores reflejen a los usuarios. Los calificadores evalúan el algoritmo pero no manipulan directamente lo que aparece en el buscador.

—¿Cómo funciona el algoritmo en sí? ¿Quiénes conocen ese secreto?

—Hay gente de nuestro equipo, del buscador, que están más familiarizados con cómo funciona el algoritmo, pero fuera del equipo que trabaja en el buscador, ese dato no se comparte.

Larry Page y Sergey Brin, creadores de Google

—¿Y por qué no se comparte esa información?

—Hay varias razones. Una de ellas es que es un secreto comercial para la compañía, pero para mí es la razón menos importante. Desde mi punto de vista, quizás la compañía piense distinto, es que mucha gente tiene muchos motivos para querer figurar primero en el buscador. Desde que se sabe que el buscador es una herramienta muy útil para que la gente encuentre información, mucha gente ha querido alterar los resultados, el índice, para poder tener un lugar más destacado. Si les dejamos hacer eso, entonces vamos a hacer que el buscador no sea útil. Si no combatimos el spam entonces el buscado no tendría sentido. La gente que quiere llenarlo de spam no quiere crear páginas con contenido relevante y fiable, quieren atacar el algoritmo, quieren saber cómo funciona. Uno de los aspectos que usamos, y se sabe, es tener en cuenta el título de la página, y las palabras que aparecen en el cuerpo. El que sabe esto va a escribir la misma palabra del título como por ejemplo "hipoteca", en todo el cuerpo del texto, y tenemos que evitar eso. Google dijo que usaba los links que referencian páginas entre sí, entonces hay una industria de gente que quiere ganarle al sistema creando links artificiales, comprando o intercambiando links entre ellos, generan granjas de links y ponen links en los blogs. Son todos juegos, entonces la señal del link, que antes era muy confiable ahora ya no lo es. Porque originariamente la idea era que si el link de una página estaba en varios sitios eso era un indicio de que la página era confiable, pero ahora se pueden hacer estas técnicas para que una página parezca buena cuando no lo es. Entonce estos son los riesgos que se corren. Cuanto más abierto sea el algoritmo, mayores son los riesgos que se corren. El algoritmo puede ser atacado no solo por intereses comerciales sino por otros intereses para manipular elecciones, por ejemplo. Entonces tenemos que ser muy cuidadosos.

MÁS SOBRE ESTE TEMA:

Es especialista en aprendizaje de las máquinas en Google y cuenta cómo les enseña a las computadoras a pensar

Amazon empieza a ganarle terreno de publicidad a Google y Facebook

En el corazón de Google: cómo se trabaja en la sede de Silicon Valley

algoritmos buscador Google Internet

Últimas Noticias

Errejón se opone a entregar su móvil pero sí propone ir al juzgado a enseñar las conversaciones con Mouliaá

La defensa del exdiputado de Sumar y cofundador de Podemos recuerda que el auto por el que el juez aceptaba requerir su móvil y el de la actriz no es firme

Este es el precio de la criptomoneda bitcoin este 13 de marzo

El bitcoin fue la primera criptomoneda lanzada en el mundo y ha llegado a superar las 68 mil unidades de dólar

Mérida: la predicción del tiempo para este 13 de marzo

La temperatura más baja registrada en el país fue la del 27 de diciembre de 1997, cuando el termómetro disminuyó hasta los -25 grados

Cayó ‘La Tía’ señalada estafadora hija de un financiador de las AUC

Diana Marcela Delgadillo Murillo tenía circular roja de la Interpol por ‘lavar’ 45.000 millones de pesos y otros delitos

Un camionero es despedido por no respetar los descansos obligatorios: es improcedente porque las faltas están prescritas

La otra infracción fue por circular sin un elemento del tacógrafo

MÁS NOTICIAS

La fórmula detrás del buscador de Google, el secreto mejor guardado de la compañía

Infobae entrevistó a Pandu Nayak, integrante del equipo que trabaja en la calidad del algoritmo. ¿Cómo se filtra la información en la web?

Últimas Noticias

Errejón se opone a entregar su móvil pero sí propone ir al juzgado a enseñar las conversaciones con Mouliaá

La defensa del exdiputado de Sumar y cofundador de Podemos recuerda que el auto por el que el juez aceptaba requerir su móvil y el de la actriz no es firme

Este es el precio de la criptomoneda bitcoin este 13 de marzo

El bitcoin fue la primera criptomoneda lanzada en el mundo y ha llegado a superar las 68 mil unidades de dólar

Mérida: la predicción del tiempo para este 13 de marzo

La temperatura más baja registrada en el país fue la del 27 de diciembre de 1997, cuando el termómetro disminuyó hasta los -25 grados

Cayó ‘La Tía’ señalada estafadora hija de un financiador de las AUC

Diana Marcela Delgadillo Murillo tenía circular roja de la Interpol por ‘lavar’ 45.000 millones de pesos y otros delitos

Un camionero es despedido por no respetar los descansos obligatorios: es improcedente porque las faltas están prescritas

La otra infracción fue por circular sin un elemento del tacógrafo

Errejón se opone a entregar su móvil pero sí propone ir al juzgado a enseñar las conversaciones con Mouliaá

Mérida: la predicción del tiempo para este 13 de marzo

Cayó ‘La Tía’ señalada estafadora hija de un financiador de las AUC

Un camionero es despedido por no respetar los descansos obligatorios: es improcedente porque las faltas están prescritas

El creador de ‘Vikingos’ prepara una nueva serie inspirada en otra leyenda nórdica

Los empresarios de Colombia confían en un acuerdo con sindicatos y Gobierno para subir el salario mínimo

La cumbre del D-8 pone el foco en la cooperación económica pendiente del contexto regional

Egipto aplaude las palabras de Trump contra un desplazamiento forzoso de palestinos de Gaza

Israel dice que conocida librería de Jerusalén Este promueve "limpieza étnica de judíos"

Ya disponible el agente Operator de OpenAI en Europa

ENTRETENIMIENTO

Led Zeppelin hoy: Jimmy Page, Robert Plant y John Paul Jones recuerdan su obra maestra: “Ese disco fue nuestro máximo logro”

¿Vuelve How i met your mother? uno de los protagonistas plantea reescribir la historia

Will Smith y su lucha desconocida contra la ansiedad: “Perfeccioné un personaje para ocultarme del mundo y esconder al cobarde”

El enigma de la muerte de Jim Morrison y el documental que revive la teoría de la conspiración

Benson Boone rechazó la etiqueta de símbolo sexual: “No quiero que mi éxito dependa de quitarme la camiseta”

Temas Relacionados

Últimas Noticias

Errejón se opone a entregar su móvil pero sí propone ir al juzgado a enseñar las conversaciones con Mouliaá

La defensa del exdiputado de Sumar y cofundador de Podemos recuerda que el auto por el que el juez aceptaba requerir su móvil y el de la actriz no es firme

Este es el precio de la criptomoneda bitcoin este 13 de marzo

El bitcoin fue la primera criptomoneda lanzada en el mundo y ha llegado a superar las 68 mil unidades de dólar

Mérida: la predicción del tiempo para este 13 de marzo

La temperatura más baja registrada en el país fue la del 27 de diciembre de 1997, cuando el termómetro disminuyó hasta los -25 grados

Cayó ‘La Tía’ señalada estafadora hija de un financiador de las AUC

Diana Marcela Delgadillo Murillo tenía circular roja de la Interpol por ‘lavar’ 45.000 millones de pesos y otros delitos

Un camionero es despedido por no respetar los descansos obligatorios: es improcedente porque las faltas están prescritas

La otra infracción fue por circular sin un elemento del tacógrafo

Errejón se opone a entregar su móvil pero sí propone ir al juzgado a enseñar las conversaciones con Mouliaá

Mérida: la predicción del tiempo para este 13 de marzo

Cayó ‘La Tía’ señalada estafadora hija de un financiador de las AUC

Un camionero es despedido por no respetar los descansos obligatorios: es improcedente porque las faltas están prescritas

El creador de ‘Vikingos’ prepara una nueva serie inspirada en otra leyenda nórdica

Los empresarios de Colombia confían en un acuerdo con sindicatos y Gobierno para subir el salario mínimo

La cumbre del D-8 pone el foco en la cooperación económica pendiente del contexto regional

Egipto aplaude las palabras de Trump contra un desplazamiento forzoso de palestinos de Gaza

Israel dice que conocida librería de Jerusalén Este promueve "limpieza étnica de judíos"

Ya disponible el agente Operator de OpenAI en Europa

ENTRETENIMIENTO

Led Zeppelin hoy: Jimmy Page, Robert Plant y John Paul Jones recuerdan su obra maestra: “Ese disco fue nuestro máximo logro”

¿Vuelve How i met your mother? uno de los protagonistas plantea reescribir la historia

Will Smith y su lucha desconocida contra la ansiedad: “Perfeccioné un personaje para ocultarme del mundo y esconder al cobarde”

El enigma de la muerte de Jim Morrison y el documental que revive la teoría de la conspiración

Benson Boone rechazó la etiqueta de símbolo sexual: “No quiero que mi éxito dependa de quitarme la camiseta”