Apunte histórico

9.1 Buscar en Internet: apunte histórico

§1 ARCHIE

En 1989 un estudiante, Peter Deutsch de la McGill University de Montreal, creó un sistema buscador de ficheros en servidores FTP ( 8.2) denominado Archie [1] basado en una idea muy simple: construir un índice que contiene los nombres de los ficheros y la dirección del servidor donde se encuentran. Este índice se instala en un servidor que pueda ser consultado por todos (Servidor Archie). Se trata pues de una suerte de directorio (como la guía de teléfonos), pero no de personas sino de ficheros, con información muy escueta sobre cada fichero; junto con el nombre y dirección del servidor FTP que lo alberga, una sucinta descripción del mismo. El funcionamiento se basa en que el usuario pregunta al servidor Archie por el nombre del fichero que desea, y el sistema responde con una lista de sitios donde puede encontrarlo.

"Archie was first 'released' (to the general public) at the end of 1989 and existed at McGill for a few months before it was shared with Rutgers in 1990". Alan Emtage, uno de los creadores de Archie.

De la historia del ciberespacio. Dr. Giesbert Damaschke, Muenchen www.w3history.org/

En realidad, Archie es mas que un solo servidor, es un sistema de base de datos distribuida, en la que los índices se guardan en distintos servidores de FTP que cuentan con información sobre millones de ficheros. Para mantener actualizados los índices, los servidores de Archie se conectan mensualmente a los sitios FTP que tienen registrados y recogen los cambios observados [2]. Una vez efectuada la consulta, puede usarse un programa FTP para bajarse el fichero localizado [3].

El servicio Archie tuvo mucho éxito y pronto se difundió por la red -El servidor de la propia McGill registraba unas 30 conexiones diarias en Noviembre de 1990, que habían pasado a ser 2.600 para Septiembre del 91-. El programa original fue posteriormente retocado y mantenido por el Archie Group de la dicha universidad, pero adolecía de la dificultad de que había que conocer de antemano el nombre del fichero buscado. Para subsanar esta dificultad surgieron programas o servicios como CWIS, WAIS y Gopher, que permitían buscar por contenidos y no solo por nombres.

En Otoño de 1991 se estimaba que los servidores Archie contenían información sobre unos 900 servidores FTP, distribuidos por los cinco continentes, con 1 millón de ficheros y un ritmo de crecimiento de 7 a 10 nuevos sitios cada semana (contando solo servidores Unix). En Agosto de 1994 existían unos 1.200 servidores FTP anónimos, con cientos, a veces miles de ficheros en cada uno.

Incluso sabiendo el servidor en que hay que buscar, la tarea no es fácil, por lo que es mejor preguntar a Archie en la esperanza que haya indizado todos los ficheros de cada uno de los servidores que tiene registrados. A la fecha (1998), los ficheros en servidores FTP clasificados por Archie se referían mayoritariamente a información técnica relacionadas con la ingeniería, las ciencias de la computación y catálogos de bibliotecas. Este último campo de información (la catalogación de fondos bibliográficos), es uno de los que ha tenido más rápido carecimiento en Internet, de forma que bibliotecas de la más variada índole, Colegios, Universidades, Instituciones, etc. se han apresurado a "Publicar" sus fondos en la Web (se supone que una vez estén los catálogos, el próximo paso será contar con la obra misma).

Tradicionalmente han existido tres maneras de acceder a servidores Archie para hacer consultas:

Correo electrónico. Los servidores Archie disponen de una interfaz que permite a los clientes enviar preguntas y recibir las respuestas por e-mail ( 8.1).
Sesión remota (Telnet 8.7). Evidentemente para usar este procedimiento es necesario tener una "Cuenta" en un Servidor Archie para que podamos conectarnos al mismo, con Telnet, y realizar la consulta, o bien que el servidor sea anónimo.
Cliente Archie, de los que existen infinidad. En esencia los clientes Archie son meras interfaces que permiten acceso remoto (Telnet) a los servidores (mediante el protocolo Prospero). Permiten realizar consultas y búsquedas; bajar listas de contenido por FTP, y enviar mensajes al servidor e-mail del sistema anfitrión, que se encarga de enviar automáticamente listados del índice o del resultado de la búsqueda. Todo ello sin necesidad de utilizar directamente los comandos Unix. Además, estos programas suelen tener también capacidad FTP, de forma que es posible bajarse el fichero una vez localizado. También puede darse la circunstancia complementaria, que los buenos clientes FTP cuenten con la capacidad añadida de buscar en los Servidores Archie.

Archie ha seguido perfeccionándose y extendiendo el servicio, a fin de ampliar el tipo de información proporcionado, incluyendo directorios de "Páginas Amarillas" y de direcciones de correo. Actualmente es mucho más fácil utilizar las múltiples pasarelas Web [4] (la Web está fagocitando muchos de estos proto-servicios de Internet). Por otra parte, los modernos robots de búsqueda están convirtiendo en obsoletos estos servicios que serán pronto reliquias históricas.

§2 Gopher

Para superar algunos de los problemas de Archie, en 1991, un equipo dirigido por Mark McCahill de la universidad de Minnesota, crea Gopher (inicialmente solo estaba pensado para administrar información en el ámbito del campus de la propia Universidad). Se trata de un sistema cliente-servidor (precursor de la Web en ciertos aspectos), en el que los proveedores de información disponen de un sistema (servidor Gopher), que organiza un sistema de índices jerarquizado con las descripciones de los datos que contiene el servidor. Una especie de guía de contenido, que los clientes por su parte verán como menús por los que navegar (con una estructura que remeda la organización de directorios y ficheros en cualquier ordenador), de forma que se puede ir horquillando la búsqueda hasta dar con la información buscada.

"Gopher was originally developed in April 1991 by the University of Minnesota (Microcomputer, Workstation, Networks Center), to help users on the campus find information". Clay Irving: "Using and Finding Gophers" en: "The Internet unleashed, 1994".

De la historia del coberespacio. Dr. Giesbert Damaschke, Muenchen www.w3history.org/

Como se ha dicho, debido a ciertas peculiaridades, Gopher es considerado el precursor de la Web. De hecho, un cliente Gopher permite una cierta clase de "Navegación" por la información, ya que estos servidores almacenan información, creando lo que se dio en llamar Gopherespacio (un remedo de Ciberespacio actual).

La simplicidad del modelo permitió que de inmediato se construyeran clientes Gopher para multitud de plataformas, y el sistema se extendió rápidamente (en Noviembre de 1993 ya había censados unos 2.200 servidores Gopher). Además utiliza un protocolo muy sencillo (a medio camino entre FTP y HTTP). Gopher presenta la información organizada en un símil de directorios y ficheros (como FTP), mientras que comparte con HTTP el poder referenciar información que esté físicamente situada en cualquier parte del sistema, incluso fuera de la propia red local (en otro continente). Esta similitud ha permitido dotar a los navegadores actuales de capacidades Gopher, de forma que el Gopherespacio puede ser navegado como parte de la propia Web [5].

Aunque este protocolo caería en desuso con la aparición de HTTP ( 5.2) y la Word Wide Web, MS I. Explorer incluye un cliente gopher que permite acceder a este tipo de servicios a travéés de URLs que comiencen con gopher://. Desde el navegador se puede usar un comando Gopher como se hace como con cualquier otro:

gopher://nombre.de.servidor/pathname

Nombre de servidor es el nombre del dominio que aloja al servidor

Pathname es la dirección completa del fichero dentro del dominio.

Más información en Nota 19 ( N.19).

§3 VERONICA

Para resolver algunos problemas que presentan las búsquedas en el Gopherespacio, por ejemplo, cuando no se sabía en que servidor empezar la búsqueda, o la clasificación exacta del recurso deseado, se inventa VERONICA ("Very Ease Rodent-Oriented Netwide Index To Computerized Archives") en la Universidad de Nevada [6]. Este servicio hace en el Gopherespacio lo que Archie en los servidores FTP, es decir, crear un motor que escanéa periódicamente los servidores Gopher, construyendo un índice con el contenido de sus menús. Por esta razón Veronica ha sido denominado el "Archie del Gopherespacio".

Recordemos que Gopher es un sistema de búsqueda mediante navegación (sistema de índices navegables ), pero gracias a Veronica el Gopherespacio se convierte también en un área donde son posibles búsquedas del tipo pregunta-respuesta. Su eficacia y popularidad se deben a que los clientes Gopher pueden acceder al servidor Veronica, e inmediatamente (gracias al sistema de hiperenlaces de sus menús, y a la política de puertas abiertas de la mayoría de los sitios), a los servidores Gopher que contienen los recursos encontrados.

Veronica encuentra e indiza la práctica totalidad de los servidores Gopher de acceso público. En Febrero de 1994 contenía índices de mas de 3.200 de estos servidores en unos 2.500 equipos de Internet. En dicho mes las consultas a servidores Veronica se estimaron en 1.200.000 accesos, siendo resultas la mayoría en menos de 20 segundos. Ocho de estos servidores (de grandes instituciones) atendían las necesidades del público de Internet en general, mientras que algunos otros atendían las necesidades específicas de ciertas organizaciones.

The veronica service infrastructure has been fairly stable since July, 1993, with eight server sites offering searches for the internet community (March 1994). These servers are supported by the participating institutions: NYSERNET, PSI, SERRA, CNIDR, University of Koeln, SUNET, University of Bergen and the University of Nevada System Computing Services. Several additional servers offer searches with access limited to internal users; in this class are servers at MSU, SUNET, and the Australian University system.

El servicio Veronica comprende dos tareas (que no tienen porqué ser realizadas necesariamente por el mismo ordenador):

Recolectar datos de los servidores Gopher e indizarlos de forma que sean utilizables.
Poner esta información a disposición de los clientes.

Los servidores Veronica son fácilmente accesibles mediante los propios clientes Gopher (actualmente también se puede acceder a Veronica desde pasarelas Web), ofreciendo varios tipos de búsquedas. Desde las mas simples (de una sencilla palabra clave), a interrogaciones lógicas de tipo booleano (and, or, not, etc. Ap. K) de cualquier complejidad (incluyendo paréntesis). Es posible así mismo establecer el número máximo de respuestas que se desean, así como restringir la búsqueda a ciertos tipos Gopher. Los resultados de las interrogaciones se obtienen en formato Gopher, es decir, como una serie de ítemes de tipo menú, cuyos títulos responden al criterio de búsqueda utilizado. Debido a que la interrogación se realiza utilizando un cliente Gopher, el usuario puede ya seleccionar directamente cualquiera de estos ítemes que le conducirá directamente al servidor Gopher que contiene la información correspondiente.

En 1994 la recolección y preparación de datos era realizada por la Universidad de Nevada que distribuía los resultados a los diversos servidores Veronica. Desde el propio Veronica se pueden obtener mas instrucciones sobre su utilización.

§4 WHAIS

El sistema WAIS ("Wide Area Information Servers system"), fue introducido en 1991 por Thinking Machines Corporation de Cambridge, Massachusetts en colaboración con Apple Computer, Dow Jones & Company y KPMG Peat Marwick.

Nota: Otras fuentes citan que WAIS fue creado en 1989 por Brewster Kahle, un desarrollador de Thinking Machines (que más tarde fundaría The Internet Archieve), que comienza a trabajar en un sistema para compartir datos de redes, incluyendo Internet; se traslada a San Francisco y funda WAIS Inc.

«Aquí es donde interviene WAIS. Brewster Kahle, fundador y presidente de WAIS Inc. declaraba en septiembre pasado (1998) a Internet World: "Nos gusta usar esta analogía: un libro tiene tres secciones: la tabla de contenidos; las páginas, y el índice analítico. Así que pensemos en la Internet como en un libro: está Gopher, que es la tabla de contenidos; está el World-Wide Web, que son las páginas de hipertexto, y está WAIS, que es una búsqueda directa cuando sabes lo que quieres". Cuando uno sabe lo que busca, y sólo le falta encontrarlo, tiene WAIS, que sería algo así como un índice analítico para el WWW. Pero WAIS no se ha conformado siempre con este papel secundario. En un principio aspiraba a ser mucho más.»

Más adelante añade: «Si tenemos éxito, nadie sabrá que está usando WAIS ... Sólo estamos interesados en ser la parte de atrás, y la fontanería sólo se nota cuando funciona mal. Así que nuestro objetivo es estar fuera de vista y trabajar.»

El párrafo anterior es de Carles Bellver Torlà, "Índices electrónicos en el World-Wide Web" http://nti.uji.es/docs/nti/net/indices.html. (este artículo se publicó originalmente en el número de febrero de 1996 en la revista Net Conexión).

Se trata de un sistema electrónico de indizado, publicación y recuperación de información multimedia, en un entorno de red, es decir: de bases de datos personales, corporativas o públicas en cualquier punto del mundo. La información es accesible con independencia de su formato, ya sea texto corriente, documentos formateados, imágenes, hojas de cálculo, gráficos sonidos o video [7].

Nota: Algunos sistemas actuales son ya capaces de identificar y leer mas de 200 formatos de archivo diferentes y estas habilidades crecen sin parar.

Utiliza un modelo Cliente/Servidor y un sencillo protocolo (Z39.50-1988). Consta de tres paquetes software de los que existen versiones para la mayoría de los Sistemas Operativos (mas detalles en: www.iti.gov.sg). El sistema tiene varios componentes:

Indizador: Permite clasificar automáticamente cualquier cantidad de información por grande que sea. Se distingue de otros sistemas de índice, como Archie o Veronica, en que no solo puede indizar los documentos contenidos en un servidor, también indizar una descripción del contenido del mismo.
Servidor: Permite hacer utilizable la información a través de redes como Internet. Un servidor Wais permite al administrador establecer un índice de los documentos (o recursos) que serán publicados. Dispone de un agente, encargado de recibir las interrogaciones de los clientes y devolver el resultado. Por su parte, el usuario del servicio puede utilizar un cliente Wais, encadenarlo a un servidor específico, establecer un patrón de búsqueda y asociarlo a su vez al índice del servidor, de forma que búsquedas que hayan sido probadas satisfactoriamente pueden ser repetidas automáticamente, y que avisen de la nueva información que haya al respecto tan pronto como se encuentre disponible.
Cliente Wais: Como clientes pueden usarse clientes Wais específicos; clientes Gopher (mediante una pasarela trasparente para el usuario), y clientes Web (Navegadores) como Mosaic, Netscape o MS I Explorer (también mediante pasarelas). Esta última facilidad es responsable de que, en la práctica, resulte excepcional la utilización de clientes Wais, siendo por lo común interrogados los servidores con los navegadores mediante pasarelas Web. En la Universidad Complutense de Madrid existe una de estas pasarelas, aunque recientemente (1998) ha dejado de actualizar sus índices: www.ucm.es.

El sistema permite ser interrogado en lenguaje natural, de forma que la búsqueda y recuperación de información se realizan utilizando el lenguaje nativo (se han usado Ingles, Francés, Italiano y Latín). Las palabras mas comunes ("stop" words) son eliminadas y se suponen "OR" lógicos implícitos entre las palabras que quedan. También se permiten búsquedas lógicas (booleanas) e incluso de condiciones de proximidad de palabras, etc. El servidor Wais lee la consulta, busca a continuación en la totalidad de los textos de su base de datos, intentando encontrar los documentos que considera concordantes al respecto. A continuación, los documentos seleccionados, son ordenados mediante un proceso estadístico tras asignar un cierto peso a las palabras según un esquema de su relevancia probable (que incluye no solo el número de encuentros en el texto sino la proximidad de unos a otros); de esta forma, el sistema contesta proporcionando la información de forma ponderada y ordenada según su importancia probable. En realidad, el servidor no tiene que comprender totalmente la pregunta, el sistema de recuperación de la información se base en un método de búsqueda que contiene elementos de lógica difusa, denominado de realimentación de relevancia ("Relevance feedback"). El usuario puede elegir ver determinados documentos o realizar un nuevo afinado.

Una de las características más interesantes de la utilización de esta lógica es que, con el fin de refinar búsquedas sucesivas, los documentos más relevantes encontrados (cualquiera que sea su tamaño), pueden ser reenviados al servidor diciéndole: "Encuéntrame algo más, parecido a esto".

Muchos de los servicios de búsquedas distribuidas que permiten consultas en lenguaje natural sobre índices (muchos buscadores de la Web), utilizan sistemas Wais (algunos son claramente identificables, precisamente porque devuelven los resultados ordenados en orden de importancia decreciente).

Inicio.

[1] El nombre tiene su origen en el de un personaje de un famoso cómic Norteamericano, aunque viene a ser "Archive" menos una letra.

[2] En principio los servidores Archie solo escrutaban los servidores de ficheros en máquinas UNIX.

[3]. Los servidores FTP suelen tener en su directorio raíz un fichero con un nombre algo así como 1s-1R que contiene los nombres de todos los ficheros contenidos en el servidor.

[4] En www.ucm.es de la Universidad Complutense de Madrid, es una de estas pasarelas Web-Archie.

[5] En www.ucm.es de la Universidad Complutense de Madrid, existe una pasarela Web-Gopher.

[6] Premio al acrónimo mas largo!. "Los 20 peores acrónimos". Byte Magazine Septiembre 1995.

[7] Existe una buena descripción de sistema en "Browsing Through Terabytes" de Richard Marlon Stein. BYTE Magazine Mayo 1991 (edición USA).

Inicio