OFFLINE EXPLORER

Capturando la Web

NOTAS INICIALES

Algunas veces nos encontramos una web con un contenido tan interesante que nos gustaría verla entera, pero la falta de tiempo, el costo de la conexión, la volatilidad de determinado tipo de páginas, y un montón de cosas más, nos impiden escudriñar todos los rincones de ese sitio.

Una solución podría ser guardar la página para poder verla en cualquier otro momento. La mayor parte de los navegadores actuales permiten guardar en disco la pagina que se está viendo, pero si queremos guardar más de una página de la misma web la solución deja de ser efectiva, porque se duplican muchos archivos y la tarea puede llegar a ser tremendamente tediosa.

Para solucionar este tipo de contratiempos tenemos los capturadores web (o aspiradores web), unas utilidades que nos permiten descargar todo el contenido de un sitio para poder verlo off-line, tranquilamente.

Seguro que a todo el mundo le suenan nombres como 'Teleport', 'WebZip', 'MemoWeb', y alguno más. Después de probar media docena de programas de este tipo me quedo con 'Offline Explorer'. Creo que es el que más posibilidades de configuración ofrece, y explicándolas se puede hacer uno una idea muy buena de la forma de configurar cualquier otro programa de este tipo.

ENTRAMOS EN MATERIA

Esta guía/tutorial está basada en el siguiente programa...

Offline Explorer Pro 1.9.570 SR4
Copyright MetaProducts Corporation 1997-2001
Mail: info@metaproducts.com
Homepage: http://www.metaproducts.com/

Creo que las explicaciones sobre esta versión serán aplicables a cualquier otra de este producto, y en general a cualquier otro software de este tipo.

Nota: Puedes descargar "Offline Explorer" desde la sección de "Software - Internet - Varios"

¿Cómo funciona?

El funcionamiento de un capturador web es realmente sencillo. Se le proporciona una dirección de partida y el programa comienza a descargar la primera página tal y como lo haría cualquier navegador estándar. Una vez descargada la página, el programa la recorre buscando todos los enlaces que contiene, y comienza a descargar la página, o el archivo, al que apunta cada uno de ellos. Con cada nueva página se repite el proceso de búsqueda de enlaces y descarga... así hasta el infinito. Dependiendo de la velocidad de la conexión a Internet, y de la capacidad del dispositivo de almacenamiento en el que se guarda la descarga, en unos días (o unos meses) tendremos casi toda Internet en nuestro ordenador.

...

Naturalmente esto no puede funcionar exactamente así. Los programas capturadores de web (o aspiradores web) se pueden y deben configurar para limitar el ámbito de la descarga. La facilidad y eficacia con la que se puede definir lo que se quiere, y no se quiere descargar, es lo que marca la calidad de un aspirador web, y en este apartado 'Offline Explorer' es de lo más completo que he visto.

...

Este programa organiza los detalles para la descarga de una web en una ficha de 'proyecto'. Se pueden almacenar tantos proyectos como se quiera, organizándolos en una estructura similar al típico árbol de directorios. Cada proyecto se puede revisar, ver y descargar (o redescargar) en cualquier momento con tan sólo pulsar un par de botones. El método es muy eficaz y permite mantener la información bien organizada.

Conceptos básicos

Para descargar una web es bueno conocer un par de detalles sobre su estructura...

Carpetas

Una web no es más que una colección de archivos que el servidor web entrega al cliente (nuestro navegador) cuando son requeridos (al pulsar sobre un enlace). Un diseño web coherente usará carpetas para organizar la información y agrupar esos archivos...

Las carpetas se referencian poniéndolas a continuación del dominio y separándolas con una barra (la de dividir). Por ejemplo, si quisieras referenciar la carpeta "enlaces" de mi web tendría que poner algo así...

http://www.elisoft.net/enlaces/

Tener este detalle en cuenta puede ayudar a descargar una parte concreta del contenido de una web.

Niveles

Este concepto hace referencia a la estructura lógica de una web. El punto de entrada a una web (normalmente la página principal) sería el nivel cero. Cada enlace de esa página del nivel cero llevaría a las páginas del nivel uno. Cada enlace de las página del nivel uno llevaría a las páginas del nivel dos... y así hasta llegar a todas las páginas de la web.

Otra forma de verlo es considerar los 'niveles' como el número de clics que tenemos que hacer en los enlaces de una web para llegar desde el punto de entrada hasta la página deseada.

Creo que un ejemplo lo dejará totalmente claro...

Supongamos que quieres descargar todas las páginas de la sección de "enlaces" de mi web. La URL, o punto de entrada, de esta sección es "http://www.elisoft.net/enlaces/". Esto sería el nivel cero de esta descarga. Para ver cada colección de enlaces tendrías que avanzar hasta el siguiente nivel pulsando en cada uno de los enlaces del menú... todas esas páginas estarían en el nivel uno de esta descarga.

Instalación

La instalación del programa no implica la menor dificultad. Se inicia el instalador y se selecciona la carpeta de destino de la instalación. En 5 segundos, y en poco menos de 800 Kb, quedan copiados todos los archivos necesarios. Se añadirá un nuevo menú al botón 'Inicio', y dependiendo de nuestra selección, un acceso directo en el escritorio.

Ejecución

Este apartado tampoco encierra secreto alguno. Se selecciona la opción correspondiente del menú de programas, o se utiliza el icono de acceso directo del escritorio.

Nada más iniciar el programa se pone en marcha el 'Project Wizard' (el típico asistente de las aplicaciones Windows), que nos guiará paso a paso en la definición de nuestro primer proyecto para descargar una web.

Comenzamos proporcionando la URL que queremos descargar y un nombre para el proyecto.

A continuación especificamos el nivel hasta el que queremos que el programa profundice buscando enlaces y descargando páginas.

En la siguiente ventana podemos seleccionar, de una forma muy general, el tipo de archivos que queremos que sean descargados o ignorados.

A continuación podemos elegir si queremos que el programa descargue páginas de cualquier servidor o sólo del que hemos especificado en la URL.

Y para terminar, podemos elegir entre comenzar la descarga inmediatamente, guardar el proyecto, o abrir la ventana de propiedades avanzadas para revisar los detalles del proyecto.

Realmente esto es más que suficiente para la mayor parte de los casos, y es la manera más sencilla de definir un proyecto de descarga de forma rápida y efectiva. Este cómodo asistente se puede activar en cualquier momento pulsando el correspondiente botón de la barra de herramientas del programa...

Si no quieres que se active automáticamente cada vez que abras el programa, quita la marca de la casilla 'Show when Offline Explorer starts' que aparece en la primera ventana del asistente.

El programa

Un repaso rápido a la ventana del programa puede ayudar a describir buena parte de sus funciones y capacidades...

(1) Barra de menú

Menú 'File': Con las opciones para crear, borrar, importar, exportar y modificar las propiedades de los proyectos y plantillas.

Menú 'Edit': Con las opciones para cortar, copiar y pegar proyectos, y buscar archivos o carpetas dentro de un proyecto.

Menú 'View': Desde el que se puede habilitar y deshabilitar la presentación de diversas opciones, y acceder a la ventana de configuración general del programa.

Menú 'Download': Con varias opciones para el inicio, parada y reanudación de la descarga de los proyectos.

Menú 'Tools': Agrupa los accesos a herramientas externas, como visores o editores, definibles en las opciones generales del programa. También se encuentran aquí las opciones para hacer un Backup, y el correspondiente Restore, de un proyecto.

Menú 'Help': Acceso a una completa ayuda en inglés, a la web del fabricante y a los 'tips'. También se accede a la información de registro desde la ventana 'About'.

(2) Barra de herramientas

La típica barra de botones a las funcionas mas usuales y prácticas: Crear, descargar, detener y editar un proyecto, y acceso a la configuración general del programa, entre otras cosas.

(3) Barra de direcciones

Una forma rápida de crear y descargar una URL. Se escribe la dirección, se ajusta hasta que 'nivel' se quiere descargar, y listo. Con esto se crea un proyecto que comienza a descargarse inmediatamente. El resto de parámetros para el proyecto se toman de la plantilla predeterminada.

(4) Projects/Map/Queue

La pestaña 'Projects' muestra la lista de proyectos definidos. La pestaña 'Map' muestra una representación en forma de árbol de la estructura que tiene el proyecto seleccionado. La pestaña 'Queue' muestra la lista de archivos pendientes para completar la descarga del proyecto seleccionado.

(5) Barra de herramientas del navegador interno

Los botones y la barra de direcciones tienen las funciones típicas de cualquier navegador. Como curiosidad, el botón 'Go Home' muestra la lista

(6) Lista de proyectos

En esta pequeña ventana se muestran todos los proyectos definidos. En ella se pueden crear carpetas (virtuales o reales) para organizar los proyectos por temas o por el criterio que quieras. Cada proyecto tiene un pequeño icono que muestra el estado en el que se encuentra...

El proyecto no ha sido descargado todavía.
El proyecto se está descargando en este momento.
La descarga del proyecto se encuentra suspendida.
La descarga del proyecto ha sido detenida por el usuario.
Se ha encontrado un problema al intentar descargar el primer archivo del proyecto.
El proyecto se ha descargado completamente.
La descarga del proyecto está programada para un momento concreto.
(7) Navegador interno

Con este navegador incorporado podrás ver directamente los proyectos descargados, o navegar por cualquier página que pongas en la barra de direcciones de la zona (5) de la ventana del programa. Es necesario que el sistema tenga instalado IE 3.0 o superior.

(8) Panel de estado de descarga

Para conseguir el máximo aprovechamiento del ancho de banda disponible la descarga se realiza por varias líneas, o canales, de forma simultánea. En este panel se muestran todos los canales por los que se está transfiriendo información. La transferencia se realiza de forma simultánea por todos ellos, y en cada uno aparece información detallada sobre la URL que se está descargando y el estado de la operación. Pulsando el botón secundario sobre un canal se puede detener o reanudar su descarga.

(9) Barra de estado

La barra de estado se utiliza para proporcionar información sobre el programa y el proyecto seleccionado. Esta dividida en cinco zonas que pueden mostrar la siguiente información...

1 Ready; el programa está listo para comenzar una descarga.

Suspend; se ha seleccionado la opción 'Suspend' y se está esperando la orden 'Resume'.

Parsing; se está enviando un archivo a la lista 'Queue'.

Downloading; se está descargando un proyecto en este momento.
2 Nada mientras no se esté descargando un proyecto.

Downloaded; durante la descarga de un proyecto muestra el número de ficheros descargados.
3 Nada mientras no se esté descargando un proyecto.

Queue; durante la descarga de un proyecto muestra el número de archivos pendientes.
4 Nada mientras no se esté descargando un proyecto.

Size; durante la descarga de un proyecto muestra el tamaño de los ficheros descargados.
5 Speed; indica la velocidad media conseguida durante los últimos cinco segundos.

Configuración

Options

Como casi todos los programas, este tiene unas opciones generales de configuración que permiten hacer diferentes ajustes. Se llega hasta ellas desde el menú "View / Options...", o pulsando el botón "Options" de la barra de herramientas.

La ventana de configuración muestra las opciones agrupadas en categorías, y al pulsar sobre cada una de ellas se pueden ver y editar sus valores. Sólo me detendré en las opciones que son realmente importantes o tienen algo de miga.

...

Después de probar diferentes combinaciones de valores, me he quedado con estos. Con esta configuración se abren diez canales simultáneos de descarga. El tiempo de espera es de 30 segundos por canal (en lugar de los 300 predeterminados), y se reintenta la conexión 3 veces antes de darla por perdida. Se hace una pausa de 2 segundos antes de abrir un nuevo canal, lo que deja un pequeño margen para que otros programas (correo, navegador, etc.) puedan acceder a Internet mientras Offline Explorer descarga un proyecto.

Mientras Offline Explorer se está ejecutando puede actuar como servidor web de lo que ha descargado. Con la opción 'Internal HTTP Server' se activa ese servidor web interno, se determina el puerto por el que se presta el servicio, y se permite o impide la conexión de otros equipos a ese servidor. Si el servidor está activado el navegador interno lo utilizará para mostrar las páginas descargadas.

En el último bloque de esta ventana se selecciona cómo se identificará Offline Explorer ante el servidor web del que está descargando un proyecto. Esto ayuda en el caso de los servidor que hacen una composición on-line de las páginas dependiendo del cliente para el que las generan.

...

Las opciones 'Dial up' y 'Disconnect & Exit' permiten programar conexiones y desconexiones automáticas desatendidas. Una buena opción para aprovechar la tarifa plana.

...

La categoría 'Proxy Server' permite configurar los parámetros del servidor proxy que queramos utilizar, tanto para el protocolo HTTP como para el FTP. Los datos son los típicos, dirección y puerto. Recuerda que si usas un proxy local, como MultiProxy o un ComeBanners, la dirección será '127.0.0.1' o 'localhost', y el puerto suele ser el 8080 o el 8088.

...

En la categoría 'Tools' se configuran las herramientas externas que luego aparecerán en el menú "Tools". Se pueden configurar navegadores (External Browsers), visores para cualquier formato de archivo (Viewers) y editores (Editors).

...

De la categoría 'Advanced' lo único digno de mención son las opciones...

'Download directory', que determina el lugar que servirá de almacén de todo lo que el programa descargue.

'Project, templates and maps directory', que determina el lugar en el que se guardan los proyectos, plantillas y mapas de los sitios descargados.

'Maintenance - Clean...', que sirve para liberar espacio en disco al eliminar los archivos descargados que ya no forman parte de ningún proyecto porque las páginas ya no hacen referencia a ellos.

'When adding a URL - Use default template', que hace que los nuevos proyectos utilicen como patrón la plantilla que tengamos marcada como predeterminada. Una opción muy interesante que ahorra mucho tiempo a la hora de confeccionar un proyecto de descarga.

...

El resto de opciones de configuración no son especialmente determinantes para el funcionamiento del programa, y la ayuda, aunque está en inglés, proporciona completa información sobre su funcionamiento.

Template Editor

Ya he comentado que Offline Explorer organiza los detalles de la descarga de una web en una ficha de 'proyecto'. Estas fichas se crean automáticamente al usar el 'Project Wizard', la opción de menú "File / New...", o el botón "New" de la barra de herramientas.

La cantidad de parámetros que se pueden configurar en un proyecto es enorme, y la tarea se puede volver un poco pesada si tenemos que repetirla varias veces. Para facilitarnos la vida, 'Offline Explorer' proporciona unas plantillas que se configuran exactamente igual que las fichas de proyecto, y que luego se pueden usar como patrón a la hora de hacer uno.

Las plantillas se crean y organizan desde el 'Template Editor', al que se accede con la opción del menú "File / Templates...".

Desde esta ventana se pueden crear y modificar tantas plantillas como se quiera. Luego se pueden usar para crear un proyecto seleccionándolas desde el menú "File / New...", o desde el botón "New" de la barra de herramientas (pulsando en la flecha del lado derecho del botón).

Lo único que queda por comentar sobre el 'Template Editor' es que se puede marcar una de ellas como la predeterminada. Esta plantilla será usada automáticamente como patrón para las nuevas plantillas, para los proyectos creados con el 'Project Wizard', y para los proyectos generados automáticamente al escribir una URL en la barra de direcciones 'Address'.

Default Proyect Properties

Puesto que la ficha de una plantilla es idéntica a la de un proyecto autentico, y que utilizar plantillas nos facilita la vida, comentaré las opciones de una de estas fichas. Además, configurar adecuadamente la plantilla por defecto nos ahorrará mucho tiempo y trabajo al, y nos permitirá crear proyectos de descarga muy eficaces.

Abre el 'Template Editor', renombra una de las plantillas con un nombre que te ayude a identificarla, y asegúrate de que está marcada como la predeterminada (tiene una pequeña marca en su icono). Una vez hecho esto pulsa el botón "Properties...". Se abrirá la ficha de la plantilla 'Default Proyect Properties'.

...

Esta es la lista de categorías que agrupan todos los detalles de la descarga. La ventana de configuración muestra las opciones agrupadas en categorías, y al pulsar sobre cada una de ellas se pueden ver y editar sus valores. No las voy a comentar todas, pero si la mayor parte de ellas.

...

En la categoría 'Project' se un nombre para el proyecto, la URL que se quiere descargar y el nivel hasta el que se quiere profundizar buscando y descargando enlaces. En la ficha de la plantilla predeterminada no se puede introducir nada en el campo 'Address', pero en las fichas de proyectos si que es posible.

El apartado 'File modification check' tiene su razón de ser cuando se pone al día una descarga previa. Dependiendo de la opción que elijas, Offline Explorer descargará sólo los archivos modificados (el caso ideal), todos los archivos (una descarga completa), los archivos que no tengamos descargados (para continuar una descarga cortada), o los archivos que estén a niveles superiores al especificado (buena opción para descargar listas de mensajes, news o foros).

La mejor solución debería ser la de descargar sólo lo modificado, pero lamentablemente no todos los servidores web proporcionan esta información. Si no funciona utiliza la opción de descargar los archivos que no tengas ya descargados.

...

La categoría 'File Filters' esta compuesta por varias subcategorías. En cada una de ellas se puede especificar lo que queremos hacer con determinado tipo de archivo. Para la plantilla predeterminada yo he desactivado la descarga de las categorías 'Video', 'Audio' y 'Archive'. De esta forma evito descargar archivos que pueden llegar a ser muy grandes, y que tal vez no me interesen en su totalidad. Para completar el filtro he modificado la categoría 'Others' para impedir la descarga de cualquier archivo mayor de '128 Kb'. Con estos ajustes tengo garantizada la descarga de lo justo y necesario para no perderme nada de lo que suele ser el contenido documental de una web.

...

En la categoría 'URL Filters - Protocol' tengo marcado 'Load all protocols' para asegurarme de que no me dejo nada.

...

En 'URL Filters - Server' tengo marcado 'Load files only within the starting Server'. De esta forma impido que Offline Explorer descargue páginas de cualquier otro servidor que no sea el especificado en la URL, lo que no podría terminar nunca como alguna de las páginas descargadas tenga un enlace a Google. Para los sitios que estén organizados en subdominios puede ser necesario seleccionar 'Domain' en lugar de 'Server'. De esta forma podrás descargar referencias a 'www.dominio.com' y a 'cgi.domicio.com', por ejemplo.

...

Aquí tengo seleccionada la opción que limita la descarga a los ficheros contenidos en la carpeta especificada en la URL o a las carpetas contenidas en ella. Esto no me impide la descarga de una web completa con una URL del tipo 'www.dominio.com', y me permite descargar limpiamente sólo una parte con una URL del tipo 'www.dominio.com/carpeta'.

...

En esta categoría he personalizado el filtro para evitar la descarga de unos pocos tipos de archivos que suelen aparecer en los enlaces de las webs y que se escapan a los filtros de la categoría 'File Filters'.

...

Con las opciones de la categoría 'Advanced' también se pueden poner límites a la descarga atendiendo al tamaño, el número de archivos o el tiempo empleado en ella.

Las opciones del bloque 'Parsing' habilitan la búsqueda de enlaces en los scripts y los apples de java, ambas opciones muy recomendables. No siempre funcionan, pero merece la pena intentarlo. Otra opción recomendable es la de habilitar el chequeo de la integridad de los archivos HTML descargados.

La opción que hace referencia a los archivos '*.primary' requiere una pequeña aclaración...

Dependiendo del tipo de traducción de enlaces que tengamos seleccionado (se comenta en el siguiente punto), Offline Explorer guarda una copia del archivo HTML original, con extensión '.primary', y hace los cambios en los enlaces sobre el archivo con el nombre original. Estos archivos '.primary' no son necesarios para la navegación off-line, son una copia del archivo original con los enlaces originales.

...

Con las opciones de esta categoría se selecciona el tipo de traducción que se aplicará a los enlaces de las páginas HTML descargadas.

...

Quedan por comentar las opciones de las categorías 'Scheduling', 'Password' y 'File Copies'. Las opciones de 'Scheduling' sirven para programar una descarga en un momento concreto. En 'Password' se puede poner la identificación de usuario si el sitio que pretendemos descargar lo requiere. Y las opciones de 'File Copies' son para seleccionar si se quiere dejar copia de los ficheros viejos al actualizar una descarga. Creo que la configuración de estas opciones no encierra ninguna dificultad.

Ejemplos

Me parece, que después de haber repasado las opciones de configuración, la utilización del programa requiere pocas aclaraciones adicionales, pero por si acaso, aquí tienes unos ejemplos con casos típicos.

En todos los ejemplos daré por supuesto que tienes el programa configurado tal y como te he propuesto en el apartado 'Configuración'.

Descargar todo el texto de un sitio

Si lo que te interesa es leer todo el contenido de un sitio puedes crear el proyecto de descarga con las opciones que te propongo para la plantilla predeterminada.

Descargar todos los programas de un sitio

Para este caso puedes utilizar también las opciones propuestas para la plantilla predeterminada, pero quitando las marcas de las categorías 'File Filters - Images' y 'File Filters - Other', y poniendo la de 'File Filters - Archive'. Puede que también necesites cambiar la configuración personalizada de la categoría 'URL Filters - Filename'.

Descargar una parte de un sitio

Podrás descargar fácilmente una parte de un sitio, si está organizado por carpetas, usando las opciones de la plantilla predeterminada tal y como te las he propuesto. Sólo tendrás que poner la URL, incluida la carpeta, y comenzar la descarga. Ocasionalmente tendrás que ajustar las categorías 'URL Filters - Directory' y 'URL Filters - Filename'.

Las opciones para este tipo de descarga se pueden combinar perfectamente con las recomendadas para descargar el texto y/o los programas.

Descargar un sitio redireccionado

La única dificultad de descargar una URL redireccionada a otra parte, está en que es muy posible que tengas que ajustar la categoría 'URL Filters - Server' de la plantilla predeterminada. Un truco que suele funcionar es seleccionar 'Custom servers configuration' y añadir palabras contenidas en las URL's del sitio a la lista 'View included server keywords'.

Este es el caso de 'La Web de ELISOFT', así que para descargarla utiliza la URL 'http://www.elisoft.net/' y en la lista 'Custom servers configuration' añade la palabra 'elisoft'. De esta forma no tendrás ningún problema... que lo disfrutes.

NOTAS FINALES

Debo reconocer que Offline Explorer no es el programa más sencillo de configurar, pero si que es de los que más posibilidades ofrece, precisamente por su gran cantidad de opciones.

Dedicando un poco de tiempo a leer la ayuda (en inglés), y espero que con las aclaraciones y sugerencias de esta guía/tutorial, no es complicado definir unos buenos proyectos de descarga.

Si este programa se te hace demasiado complicado puedes intentar usar otro de los que te recomiendo en la sección de "Software - Internet - Varios", o puedes buscarlo en Softonic.

Elisoft © 05-04-2002


¿Has encontrado este documento interesante?... entonces tal vez quieras hacer una donación en agradecimiento.
¿Quieres tener una copia de este documento en los formatos MS-Word y PDF?... pues pasa por la página de descarga.




La Web de ELISOFT
Copyright © Elisoft - Septiembre 2000