Google G LogoEn una entrada reciente en el Blog Oficial de Google, ingenieros del buscador explican con orgullo que Google alcanzó por primer vez un billón de URLs únicas indexadas (¿cuántos ceros son eso? Un billón = 1,000,000,000,000).

Lo sabíamos desde hace tiempo: la web es grande. El primer índice de Google en 1998 ya tenía 26 millones de páginas, y para el 2000 el índice habia alcanzado los mil millones de páginas. En los últimos 8 años fuimos viendo muchos números acerca de cuánto contenido hay ahí afuera. Recientemente, incluso nuestros ingenieros de búsquedas se sorprendieron al ver realmente cuán grande es la web en estos días. Nuestros sistemas que procesan links de la web para encontrar nuevo contenido alcanzaron un nuevo hito: 1 billón (como en 1,000,000,000,000) de URLs únicas en la web al mismo tiempo!.

¿Cómo encontramos todas estas páginas? Comenzamos con un set de páginas iniciales bien conectadas y seguimos cada uno de sus links a nuevas páginas. Luego seguimos los links en estas nuevas páginas hacia más páginas, y así, hasta que tenmos un enorme listado de links. De hecho, encontramos más de 1 trillón de links individuales, pero no todos ellos llevan a páginas web únicas. Muchas páginas tienen muchos URLs con exactamente el mismo contenido, o URLs que son copias auto-generadas entre si. Incluso luego de quitar estos duplicados exactos, vimos que teníamos un trillón de URLs únicas, y el número de páginas web individuales ahí afuera está creciendo al ritmo de varios billones de páginas por día.

Entonces, ¿cuántas páginas únicas realmente tiene la web? No lo sabemos; no tenemos tiempo para mirarlas a todos! :-) Estrictamente hablando, el número de páginas es infinito: por ejemplo, los calendarios web pueden tener un link al "día siguiente:, y podríamos seguir estos links indefinidamente, y cada vez encontraríamos una "nueva" página. Obviamente no estamos haciendo eso, ya que sería de muy poco beneficio. Pero este ejemplo ilustra que el tamaño de la web depende de tu definición de "página útil", y no hay una respuesta exacta.

No indexamos todas las páginas de este trilón; muchas de ellas son similares entre si, o representan contenido auto-generado similar al del ejemplo del calendario que no es de mucha ayuda para las búsquedas. Pero estamos orgullosos de tener el índice de motor de búsqueda más completo, y nuestro objetivo ha sido siempre el indexar todos los datos del mundo.

Para poder manejar todo este volumen de información, nuestros sistemas han avanzando mucho desde nuestro primer grupo de datos que Google procesó para responder consultas. En aquel entonces haciamos todo en tareas batch: una estación de trabajo se encargaba de procesar el grafo de PageRank de las 26 millones de páginas en un par de horas, y este grupo de páginas era utilizado como índice de Google por un tiempo fijo. Hoy en día, Google está bajando información de la web en forma continua, recolectando información de páginas actualizadas y re-procesando todo el grafo de links de la web varias veces por día. El grafo de un trillón de URLs es similar a un mapa con un trillón de intersecciones. Por lo tanto, muchas veces por día realizamos el equivalente computacional a explorar por completo cada intersección de un mapa de calles de los Estados Unidos. Excepto que sería un mapa 50.000 veces más grande que el Estados Unidos, con 50.000 veces más calles e intersecciones.

Como pueden ver, nuestra infraestructura distribuida le permite a las aplicaciones recorrer de manera eficiente este grafo de links con muchos trillones de conexiones, o ordenar rápidamente petabytes de información, sólo para preparse a responder la pregunta más importante: tu próxima consulta en Google.

 

Traducido de We knew the web was big..., del Official Google Blog.

Inspiración.

"Si tú tienes una manzana y yo tengo una manzana e intercambiamos las manzanas, entonces tanto tú como yo seguiremos teniendo una manzana cada uno. Pero si tú tienes una idea y yo tengo una idea, e intercambiamos las ideas, entonces ambos tendremos dos ideas"

Bernard Shaw