> Manuales > Usabilidad en la web

Qué es un log y cómo extraer información para conocer mejor a tus usuarios y sus pautas de comportamiento.

En este artículo aprenderás qué es un log, sus partes y podrás conocer algunas cosas que nos aportan para conocer mejor a los visitantes y los usos que se dan de una aplicación.

Resumen:

1. Que es un log y partes que lo componen.

El log de visitas es una fuente de información que debemos tener presente para valorar el rendimiento de nuestro site, asi como extraer información sobre nuestros productos. El log nos dara información sobre qué datos estan solicitando los usuarios, que información les resulta mas interesante, cuándo la necesitas, rutas de navegación...

Es muy importante que esta fuente de información este accesible por todos los departamentos en un formato sencillo de entender y fácil de usar. Es esencial que la comunicación entre los departamentos (o individuos) que tienen la información del log y aquellos que la pueden necesitar sea fluida para no desaprovechar la riqueza de información que se puede extraer del log.

Técnicamente el "log de visitas" es un archivo creado por el servidor donde se registran las acciones que los usuarios generan en la web.

El archivo en bruto presenta un formato bastante espeso y su tamaño puede ser un problema a la hora de manejarlo (un log de 20.000 visitas puede pesar 3 megas).

Ejemplo de línea de un log:


200.66.196.132 - - [03/Mar/2002:23:59:20 +0100] "GET /directorio/16.html HTTP/1.1" 304 - "http://www.dominio.com/directorio/index.html" "Mozilla/4.0 (compatible; MSIE 5.5; Windows 98; Win 9x 4.90)"	

El formato de los logs varia dentro de cada servidor y dentro de cada servidor de la configuracion del mismo.

Cada vez que se produce una llamada a un archivo dentro de nuestra web, el servidor escribira una línea como esta. Cada visita, cada HTML, cada imagen dentro de ese HTML generara una línea. Es esta "redundancia" de información lo que hace que el log sea bastante difícil de manejar en bruto.

Explicacion de cada elemento dentro del log
200.66.196.132 I.P. del usuario (numero de identificacion del ordenador desde el que el usuario accede)
- Usuario - para sites con identificacion
- Password
[03/Mar/2002:23:59:20 +0100] Fecha
"GET /directorio/16.html HTTP/1.1" Archivo pedido
304 ID de contestacion (2xx es OK | 3xx son de redirecion | 4xx son de autentificacion | 5xx son de errores de servicio)
- Numero de bytes enviados
"http://www.dominio.com/directorio/index.html" Pagina desde la que se pide el archivo
"Mozilla/4.0 (compatible; MSIE 5.5; Windows 98; Win 9x 4.90)" Informacion sobre version del navegador, terminal del usuario...

2. Como extraer informacion. Excel puede ser un primer paso muy util.
Extraer informacion de un log de visitas en crudo usando una herramienta como excel no es facil y presenta muchos problemas, pero nos puede ayudar a entender mejor como funciona el proceso de representacion de un log.


Resultados que se obtienen ordenado el log.
 Si ordenamos por...... obtenemos.
200.66.196.132 I.P. del usuarionumero de usuarios unicos, rutas de dichos usuarios, paginas de salida...
- Usuario - para sites con identificacionNumero de usuarios registrado frente a usuario anonimos, ratio de conversion...
- PasswordNumero de errores a la hora de introducir el password, longitud de password preferida...
[03/Mar/2002:23:59:20 +0100] FechaFechas con mas visitas, duracion de la visita (combinado con el IP), identificacion geografica (global) de los visitantes...
"GET /directorio/16.html HTTP/1.1" Archivo pedidoPaginas mas vistas - si lo combinamos con IPs sacamos las rutas.
304 ID de contestacion (2xx es OK | 3xx son de redirecion | 4xx son de autentificacion | 5xx son de errores de servicio)Errores de peticiones, movimiento de archivos...
- Numero de bytes enviadosEnvio total de datos (transferencia), El tiempo de visita se puede ver afectado por el peso de los archivos solicitados.
"http://www.dominio.com/
directorio/index.html"
Pagina desde la que se pide el archivoque paginas estan dirigiendo el trafico, que enlaces dentro de que paginas son los mas usados, resultado de busquedas (internos y externos), paginas externas con enlaces a nuestro site...
"Mozilla/4.0 (compatible;
MSIE 5.5; Windows 98; Win 9x 4.90)"
Informacion sobre version del navegador, terminal del usuario... Estadisitica sobre versiones, target real del site...

La idea de abrir un log en crudo requiere dedicacion y algo de tiempo, pero nos ayudara a entender de forma mas clara la informacion que estamos manejando y como pedir los resultados que realmente nos ayudaran a mejorar nuestro site.

Como alternativa siempre podemos disponer de alguna aplicacion de analisis de logs. Disponibles en una amplia gama (gratuitos, de pago, caros, baratos, buenos, malos....) el uso de estas herramientas suele requerir algo de dedicacion para poder extraer los datos en un formato que nos ofrezca resultados validos. Por lo general todos los fabricantes ofrecen un tiempo de prueba o versiones demo con lo que podemos comparar antes de comprar. Al final de este articulo se ofreceran algunas recomendaciones.

3. Que hacer con los resultados. Presentacion de datos, pruebas, confirmar teorias.
Para valorar los resultados de nuestor log, debemos comparar. Lo mas normal es comparar los datos de forma interna viendo la evolucion en el tiempo (comparando el numero de visitas mes a mes, numero de paginas vistas, duracion de las visitas). Esta comparacion nos dara una idea sobre la evolucion del site, como cambios en la portada pueden afectar al numero de paginas vistas, reduccion del peso del site y la evolucion de tiempo de permanencia, etc...

A la hora de comparar debemos seleccionar elementos que presenten equivalencias. A parte de comparar valores absolutos en distintos periodos de tiempo, debemos ser capaces de comparar los resultados de paginas similares. Paginas de menu, fichas de producto, formularios... deben ser extraidas del log para ver informacion sobre el tiempo de permanencia, siguente pagina, pagina de referencia, etc... Esta comparacion resultara mas sencilla cuanto mas homogeneo sea nuestro site (ya que podremos aislar las variables). Un ejemplo sencillo de comparacion es crear X plantillas de resultados de busquedas, lanzar las paginas en el site y estudiando el log identificar virtudes y debilidades en los diferentes modelos.

Otra forma de utilizar el log es para monitorizar campañas. Comprobar la eficacia de una oferta, comparacion de productos... el log es una fuente de informacion valida para poder realizar test de forma rapida y economica en el desarrollo de productos. Al ser informacion que se colecta sin ser solicitada de forma directa, presenta algo mas de validez que datos recogidos bajo formularios o encuestas.

El ser capaz de representar los datos de forma comprensible para nuestra audiencia es un paso muy importante para mostrar la validez del sistema y poder justificar el desarrollo de esta fuente de informacion.

4. El analisis de log no es una ciencia exacta (pero se acerca).
Como todo metodo de recogida de informacion el log presenta una toleracion en su precision. El principal problema que tiene el log es que nos puede dar menos visitas de las que realmente se estan produciendo. La cache (del navegador o del servidor proxy) haran que multiples visitas cuenten como una unica vista y que movimientos de avance y retroceso puedan no quedar registrados en el log.

El otro problema es el no poder contar con la velocidad de conexion del usuario. Al no tener esta referencia, el tiempo de conexion se convierte en un parametro algo incierto. Del tiempo de conexion, cuanto se dedica a la bajada de datos y cuanto a tiempo de lectura? Dificil de adivinar, pero de nuevo la comparacion nos deberia dar algun indice sobre el que poder crear una referencia.

Estos problemas estan comentados de forma precisa en este articulo.

5. Agradecimientos y algunos enlaces de interes.
Agradecimientos a Colman Lopez por su ayuda a la hora de preparar este articulo y a Jose Manuel Suarez y Jeff Miller por la información aportada.

Enlaces de interes:

  • Para eliminar las lineas dentro del log que no nos interesan debemos utilizar un editor del estilo KEDIT ($159) (permite abrir cualquier documento de texto y realizar eliminaciones de lineas según parámetros).

  • Excelente articulo sobre circunstancias a la hora de extraer informacion de un log de visitas.
    http://www.microsoft.com/usability/webconf/fuller/fuller.htm

  • Juan C. Dursteler recomienda un par de artículos:
    - http://www.analog.cx/docs/webworks.html. Errores comunes a la hora de leer un log de visitas. Un tono algo negativo.
    - http://www.infovis.net/Revista/num_65.htm. Articulo dentro de infovis.net sobre visualizacion de logs.

    En la Wikipedia es un buen sitio para encontrar software de analizador de logs, que básicamente hace de servicio de estadística (está mezclado con otros programas para hacer estadística basados en otras tecnologías): https://en.wikipedia.org/wiki/List_of_web_analytics_software

    Ya como herramienta de última generación, para personas que necesiten extraer más de los log en tiempo real, recomiendo echar un vistazo a las herramientas de Elastic, algunas de ellas de código abierto. Son increíbles. https://www.elastic.co/. En concreto de logs encuentras Logstash. Dale una mirada!

  • César Martín

    Especializado en usabilidad, hoy César es gerente de marketing y ventas de Docxp...

    Manual