martes, 12 de agosto de 2008

A propósito de buscadores, 'crawlers', 'spiders' y sociedad postcapitalista.


En relación a la pregunta ¿cuál es el mejor motor de búsqueda? es posible establecer algunas conclusiones. Personalmente, nunca fue un interrogante de importancia. Sin embargo, y en las pequeñas diferencias de cada buscador frente al resto, fue posible encontrar particularidades en cuanto a velocidad y cantidad de resultados.
Vale la pena resaltar que la indexación y las políticas de uso y servicios de portales como alltheweb y Ask son provistos directamente de los servidores Yahoo! y Google respectivamente. Altavista es independiente en términos de servicio e indexación (además, fué el primer motor de búsqueda, laborando desde 1995), y ofrece también facilidades para búsqueda de archivos de audio y video.

En ese sentido, y a pesar de las pequeñas variaciones, la indexación en, por lo menos los 10 primeros registros de cada uno, obedece a patrones de similitud.

Composición de índices.

Sin delimitación alguna, o rango de búsqueda, existe prelación en arrojar resultados .com y .net, de carácter internacional, es decir, gran contenido comercial. Portales como alltheweb y Ask ofrecen entradas puramente comerciales al principio de cada selección, provistas por los buscadores matrices. Sin embargo, también se encuentran bastantes referencias, especialmente documentos, en dominios .org y .edu.co (portales de instituciones educativas en Colombia).

Yahoo!, Alltheweb y Altavista actualizan sus indexaciones cada 48 horas. Respecto a los restantes no se tiene información precisa, pero se sabe que los algoritmos crawlers que utilizan para rastrear nuevas páginas (Googlebot en el caso de Google), tienen cierta autonomía de tiempo y de lapsos de tiempo entre cada búsqueda.

Esfuerzo del usuario.

Ante todo, Google se raja por el número de registros consultados antes del primero realmente útil (ocho). Los demás portales tomaron tres entradas para dar con el primer documento (generalmente el mismo). La abundancia de PDF’s y archivos originales variaba fuertemente en cada uno, en especial porque el término sociedad postcapitalista casi siempre redirigía la búsqueda a gran cantidad de referencias al texto, del mismo nombre, del economista Austriaco Peter F. Drucker (1909 – 2005).

Tiempo de respuesta.

En cuanto a velocidad, la tendencia está entre el segundo y los tres segundos, siendo Google el más rápido con un segundo de respuesta, mientras que Yahoo! y Alltheweb tomaron aproximadamente 2.5 segundos en responder. Los restantes, dos.
Como van las cosas, Google resulta más veloz y, aunque sacrifica eficiencia y exactitud, es veloz su respuesta y ofrece otras opciones como búsqueda en Blogs, búsqueda de imágenes, correo electrónico, noticias, etc.
Pensándolo bien, Yahoo! tiene todo eso también…

Precisión de los resultados.

En términos de esfuerzo, y sin utilizar discriminación alguna (búsqueda avanzadas u opciones especiales de filtrado) Yahoo! presentaba más opciones (cuatro sobre veinte) y una variedad diferente de páginas frente a los otros buscadores, obviando algunos resultados rápidos de enciclopedias web y wikis de fácil acceso pero no muy fiables, que abundaban en la competencia (wikipedia.org, rincondelvago.com, monografías.com, entre otros).
Los restantes (a excepción de Altavista, con dos sobre veinte) presentaban tres resultados sobre veinte.

Conclusión.

De acuerdo a las categorías analizadas, el portal Yahoo.com resulta ser el más efectivo, sin contar con el tiempo de respuesta (presumiblemente afectado porque tenía el facebook abierto). De todas formas, el portal tejano presentó más documentos originales referentes al tema, y resulta siendo el buscador matriz de otros portales.
Me cambiaré entonces de buscador de cabecera, y desconfiaré un poco más de Google. Seguramente voy a tener suerte.

FUENTES.
http://cosassencillas.wordpress.com/2007/05/08/google-actualiza-su-pagerank/
http://www.google.com.co/intl/es/webmasters/
http://about.es.ask.com/es/docs/legal/index.shtml
http://info.yahoo.com/privacy/us/yahoo/alltheweb/details.html
http://info.yahoo.com/legal/us/yahoo/utos/utos-173.html
http://www.altavista.com/about/termsofuse
http://googleblog.blogspot.com/2007/01/controlling-how-search-engines-access.html