Qué es un log y cómo extraer información para conocer mejor a tus usuarios y sus pautas de comportamiento.
En este artículo aprenderás qué es un log, sus partes y podrás conocer algunas cosas que nos aportan para conocer mejor a los visitantes y los usos que se dan de una aplicación.
Resumen:
- Que es un log y partes que lo componen.
- Como extraer información. Excel puede ser un primer paso muy util.
- Que hacer con los resultados. Presentación de datos, pruebas, confirmar teorias.
- El análisis de log no es una ciencia exacta (pero se acerca).
- Agradecimientos y algunos enlaces de interés.
1. Que es un log y partes que lo componen.
El log de visitas es una fuente de información que debemos tener presente para valorar el rendimiento de nuestro site, asi como extraer información sobre nuestros productos. El log nos dara información sobre qué datos estan solicitando los usuarios, que información les resulta mas interesante, cuándo la necesitas, rutas de navegación...
Es muy importante que esta fuente de información este accesible por todos los departamentos en un formato sencillo de entender y fácil de usar. Es esencial que la comunicación entre los departamentos (o individuos) que tienen la información del log y aquellos que la pueden necesitar sea fluida para no desaprovechar la riqueza de información que se puede extraer del log.
Técnicamente el "log de visitas" es un archivo creado por el servidor donde se registran las acciones que los usuarios generan en la web.
El archivo en bruto presenta un formato bastante espeso y su tamaño puede ser un problema a la hora de manejarlo (un log de 20.000 visitas puede pesar 3 megas).
Ejemplo de línea de un log:
200.66.196.132 - - [03/Mar/2002:23:59:20 +0100] "GET /directorio/16.html HTTP/1.1" 304 - "http://www.dominio.com/directorio/index.html" "Mozilla/4.0 (compatible; MSIE 5.5; Windows 98; Win 9x 4.90)"
El formato de los logs varia dentro de cada servidor y dentro de cada servidor de la configuracion del mismo.
Cada vez que se produce una llamada a un archivo dentro de nuestra web, el servidor escribira una línea como esta. Cada visita, cada HTML, cada imagen dentro de ese HTML generara una línea. Es esta "redundancia" de información lo que hace que el log sea bastante difícil de manejar en bruto.
Explicacion de cada elemento dentro del log | |
200.66.196.132 | I.P. del usuario (numero de identificacion del ordenador desde el que el usuario accede) |
- | Usuario - para sites con identificacion |
- | Password |
[03/Mar/2002:23:59:20 +0100] | Fecha |
"GET /directorio/16.html HTTP/1.1" | Archivo pedido |
304 | ID de contestacion (2xx es OK | 3xx son de redirecion | 4xx son de autentificacion | 5xx son de errores de servicio) |
- | Numero de bytes enviados |
"http://www.dominio.com/directorio/index.html" | Pagina desde la que se pide el archivo |
"Mozilla/4.0 (compatible; MSIE 5.5; Windows 98; Win 9x 4.90)" | Informacion sobre version del navegador, terminal del usuario... |
2. Como extraer informacion. Excel puede ser un primer paso muy util.
Extraer informacion de un log de visitas en crudo usando una herramienta como excel no es facil y presenta muchos problemas, pero nos puede ayudar a
entender mejor como funciona el proceso de representacion de un log.
- Un primer paso es eliminar la informacion "redundante". Las peticiones de graficos, hojas de estilo, flash... pueden tener su utilidad, pero
para analizar el trafico de nuestra web los documentos "HTML" seran la referencia valida. Elimando las lineas que no nos interesan, el tamaño
del archivo se puede reducir hasta x6 (un archivo de 20 megas paso a 3 eliminando las lineas de informacion "no util"). Al final de
este articulo se incluyen enlaces a programas que nos pueden ayudar a limpiar el log.
- Teniendo un archivo limpio, podemos importarlo en Excel. A la hora de abrir un log, Excel presenta un "wizard" que nos
ayudara a tabular la informacion creando un documento con la informacion separada por celdas. Excel presenta una limitacion de unas 65,000 filas.
- Dentro de Excel ordenaremos la informacion para extraer conclusiones sobre nuetro log.
Resultados que se obtienen ordenado el log. | ||
Si ordenamos por... | ... obtenemos. | |
200.66.196.132 | I.P. del usuario | numero de usuarios unicos, rutas de dichos usuarios, paginas de salida... |
- | Usuario - para sites con identificacion | Numero de usuarios registrado frente a usuario anonimos, ratio de conversion... |
- | Password | Numero de errores a la hora de introducir el password, longitud de password preferida... |
[03/Mar/2002:23:59:20 +0100] | Fecha | Fechas con mas visitas, duracion de la visita (combinado con el IP), identificacion geografica (global) de los visitantes... |
"GET /directorio/16.html HTTP/1.1" | Archivo pedido | Paginas mas vistas - si lo combinamos con IPs sacamos las rutas. |
304 | ID de contestacion (2xx es OK | 3xx son de redirecion | 4xx son de autentificacion | 5xx son de errores de servicio) | Errores de peticiones, movimiento de archivos... |
- | Numero de bytes enviados | Envio total de datos (transferencia), El tiempo de visita se puede ver afectado por el peso de los archivos solicitados. |
"http://www.dominio.com/ directorio/index.html" | Pagina desde la que se pide el archivo | que paginas estan dirigiendo el trafico, que enlaces dentro de que paginas son los mas usados, resultado de busquedas (internos y externos), paginas externas con enlaces a nuestro site... |
"Mozilla/4.0 (compatible; MSIE 5.5; Windows 98; Win 9x 4.90)" | Informacion sobre version del navegador, terminal del usuario... | Estadisitica sobre versiones, target real del site... |
La idea de abrir un log en crudo requiere dedicacion y algo de tiempo, pero nos ayudara a entender de forma mas clara la informacion que estamos manejando y como pedir los resultados que realmente nos ayudaran a mejorar nuestro site.
Como alternativa siempre podemos disponer de alguna aplicacion de analisis de logs. Disponibles en una amplia gama (gratuitos, de pago, caros, baratos, buenos, malos....) el uso de estas herramientas suele requerir algo de dedicacion para poder extraer los datos en un formato que nos ofrezca resultados validos. Por lo general todos los fabricantes ofrecen un tiempo de prueba o versiones demo con lo que podemos comparar antes de comprar. Al final de este articulo se ofreceran algunas recomendaciones.
3. Que hacer con los resultados. Presentacion de datos, pruebas, confirmar teorias.
Para valorar los resultados de nuestor log, debemos comparar. Lo mas normal es comparar los datos de forma interna viendo la evolucion
en el tiempo (comparando el numero de visitas mes a mes, numero de paginas vistas, duracion de las visitas). Esta comparacion nos dara
una idea sobre la evolucion del site, como cambios en la portada pueden afectar al numero de paginas vistas, reduccion del peso del site
y la evolucion de tiempo de permanencia, etc...
A la hora de comparar debemos seleccionar elementos que presenten equivalencias. A parte de comparar valores absolutos en distintos periodos de tiempo, debemos ser capaces de comparar los resultados de paginas similares. Paginas de menu, fichas de producto, formularios... deben ser extraidas del log para ver informacion sobre el tiempo de permanencia, siguente pagina, pagina de referencia, etc... Esta comparacion resultara mas sencilla cuanto mas homogeneo sea nuestro site (ya que podremos aislar las variables). Un ejemplo sencillo de comparacion es crear X plantillas de resultados de busquedas, lanzar las paginas en el site y estudiando el log identificar virtudes y debilidades en los diferentes modelos.
Otra forma de utilizar el log es para monitorizar campañas. Comprobar la eficacia de una oferta, comparacion de productos... el log es una fuente de informacion valida para poder realizar test de forma rapida y economica en el desarrollo de productos. Al ser informacion que se colecta sin ser solicitada de forma directa, presenta algo mas de validez que datos recogidos bajo formularios o encuestas.
El ser capaz de representar los datos de forma comprensible para nuestra audiencia es un paso muy importante para mostrar la validez del sistema
y poder justificar el desarrollo de esta fuente de informacion.
- Usar capturas de pantalla. Un problema que tienen los programas que analizan los logs es que no enlazan de forma visual los resultados
con las pantallas de nuestra web. Para ello, a la hora de presentar los resultados se deben usar capturas de pantalla y graficas de tal forma que
se puedan ver las modificaciones en la web y el resultado que han generado.
- Informacion visual. En anteriores articulos hemos explicado como utilizar graficas para mejorar la representacion de datos. Ahora
tenemos la fuente de informacion idonea para crear representaciones que ayudaran a entender y analizar las mejoras y cambios dentro de
nuestro web asi como de la informacion expuesta.
Ejemplo de representacion de un path.
Los path de un usuario a traves de nuesta web son dificiles de identificar y representar. Creando un frame con "thumbnails" con las paginas vistas durante la visita indicando el tiempo de estancia en cada pagina y enlazando estos thumbnails a la pagina real (en el frame inferior) podemos crear un sistema bastante sencillo que presenta la informacion de forma clara y util ya que cualquier persona puede recrear la visita del usuario.Comparacion de menus.
A la hora de comparar modelos, debemos ser capaces de enlazar la informacion con el producto. En este ejemplo se representan los hits en cada enlace a modo de grafica de tarta.- En la mitad superior se representan los 3 enlaces y su distribucion de hits.
- En la mita inferior se compara la eficacia en hits de los 2 banners (texto Vs. telefono).
- En el lateral se compara la cantidad de hits de los enlaces en texto frente a los "banners" graficos.
Antes de lanzar una campaña nacional, un test en la web te puede ayudar a confirmar teorias, pulir ideas...
- Distribuir la informacion de forma "publica". Ya sea a traves de la intranet o en memos, es importante que el personal involucrado en el proyecto conozca los datos del log de visitas. Tambien es importante explicar la validez de los datos y que informacion se puede extraer de ellos. Diferente departamentos pueden encontrar nuevas utilidades (conocer que puestos de trabajo son los mas vistos, preguntas mas frecuentes...), debe servir como incentivo y objetivo.
4. El analisis de log no es una ciencia exacta (pero se acerca).
Como todo metodo de recogida de informacion el log presenta una toleracion en su precision. El principal problema que tiene el
log es que nos puede dar menos visitas de las que realmente se estan produciendo. La cache (del navegador
o del servidor proxy) haran que multiples visitas cuenten como una unica vista y que movimientos de avance y retroceso puedan no quedar
registrados en el log.
El otro problema es el no poder contar con la velocidad de conexion del usuario. Al no tener esta referencia, el tiempo de conexion se convierte en un parametro algo incierto. Del tiempo de conexion, cuanto se dedica a la bajada de datos y cuanto a tiempo de lectura? Dificil de adivinar, pero de nuevo la comparacion nos deberia dar algun indice sobre el que poder crear una referencia.
Estos problemas estan comentados de forma precisa en este articulo.
5. Agradecimientos y algunos enlaces de interes.
Agradecimientos a Colman Lopez por su ayuda a la hora de preparar este articulo y a Jose Manuel Suarez y Jeff Miller por la información aportada.
Enlaces de interes:
http://www.microsoft.com/usability/webconf/fuller/fuller.htm
- http://www.analog.cx/docs/webworks.html. Errores comunes a la hora de leer un log de visitas. Un tono algo negativo.
- http://www.infovis.net/Revista/num_65.htm. Articulo dentro de infovis.net sobre visualizacion de logs. En la Wikipedia es un buen sitio para encontrar software de analizador de logs, que básicamente hace de servicio de estadística (está mezclado con otros programas para hacer estadística basados en otras tecnologías): https://en.wikipedia.org/wiki/List_of_web_analytics_software
Ya como herramienta de última generación, para personas que necesiten extraer más de los log en tiempo real, recomiendo echar un vistazo a las herramientas de Elastic, algunas de ellas de código abierto. Son increíbles. https://www.elastic.co/. En concreto de logs encuentras Logstash. Dale una mirada!
César Martín
Especializado en usabilidad, hoy César es gerente de marketing y ventas de Docxp...