... | @@ -4,4 +4,36 @@ |
... | @@ -4,4 +4,36 @@ |
|
|
|
|
|
LA Referencia, junto a [OpenAIRE](https://www.openaire.eu/), está llevando a cabo una prueba piloto de estadísticas distribuidas en el cual Argentina participará junto con otros países de Latinoamerica.
|
|
LA Referencia, junto a [OpenAIRE](https://www.openaire.eu/), está llevando a cabo una prueba piloto de estadísticas distribuidas en el cual Argentina participará junto con otros países de Latinoamerica.
|
|
|
|
|
|
> Nota: tarea relacionada #92 |
|
> Nota: tarea relacionada [#92](https://github.com/crai-unrn/DSpace/issues/92)
|
|
\ No newline at end of file |
|
|
|
|
|
## DSpace Usage Stats Collector
|
|
|
|
El **Recopilador de estadísticas de uso de DSpace** es un agente de [Python](https://www.python.org/), cuyo propósito es la recopilación y envío de eventos de estadísticas de uso de DSpace a [Matomo](https://matomo.org/)/OpenAIRE, para su futuro procesamiento y análisis.
|
|
|
|
|
|
|
|
- Software libre: GNU General Public License v3
|
|
|
|
- Documentación: <https://dspace-stats-collector.readthedocs.io>
|
|
|
|
|
|
|
|
El recopilador envía datos de uso de los repositorios a un servidor regional externo mediante la emisión de consultas de solo lectura al subsistema de estadísticas [DSpace Solr](https://wiki.lyrasis.org/display/DSDOC6x/SOLR+Statistics).
|
|
|
|
De esta forma, permite compartir datos sobre el acceso a elementos en repositorios, tales como revistas electrónicas y [sistemas CRIS](https://es.wikipedia.org/wiki/Sistema_de_informaci%C3%B3n_de_investigaci%C3%B3n_actual), con el fin de apoyar la evaluación, gestión y presentación de informes.
|
|
|
|
|
|
|
|
El éxito de esta prueba depende de la instalación del componente recopilador en cada repositorio, proporcionando un proceso fácil de usar, no invasivo y confiable para los administradores de repositorios.
|
|
|
|
|
|
|
|
Este desarrollo es parte de las tareas de LA Referencia en el proyecto OpenAIRE Advance, cuyo objetivo es construir un piloto sobre el intercambio de datos de uso entre las infraestructuras de ciencia abierta de América Latina y Europa.
|
|
|
|
|
|
|
|
El diseño y el desarrollo de este agente recopilador se basó en los siguientes principios:
|
|
|
|
- Desarrollo colaborativo de código abierto
|
|
|
|
- Procedimiento de instalación sencillo para usuarios de Linux no expertos sin privilegios de root o superusuario
|
|
|
|
- Desarrollo capaz de ejecutarse en un sandbox, es decir, ejecutar el recopilador de forma segura y sin peligro de comprometer el resto del sistema operativo.
|
|
|
|
- Estabilidad y rendimiento
|
|
|
|
- Compatible con el Servicio de estadísticas de uso de OpenAIRE
|
|
|
|
- Adaptable a otras plataformas de software
|
|
|
|
|
|
|
|
### Aspectos destacados del recopilador
|
|
|
|
La solución se basa en una arquitectura de "tubería y filtro" con etapas de entrada, filtro y salida para eventos. Este enfoque tiene como objetivo factorizar el problema en componentes independientes, de modo que se puedan agregar/conectar más etapas en el futuro, permitiendo cubrir otras plataformas de software.
|
|
|
|
|
|
|
|
En esta primera versión del agente, se implementaron las siguientes etapas para las versiones 4, 5 y 6 de DSpace:
|
|
|
|
- **Entrada de estadísticas de DSpace Solr**: un componente de entrada inicial consulta el núcleo de estadísticas interno de DSpace Solr (posteriores a una marca de tiempo dada/almacenada) para nuevos eventos de uso (vistas de elementos y/o descargas). Este evento inicial contiene campos para marca de tiempo, ID de elemento, agente de usuario, dirección IP, entre otros.
|
|
|
|
- **Filtro de robots de COUNTER**: este filtro excluye los eventos generados por robots y rastreadores de Internet, basados en una lista proporcionada por el [proyecto COUNTER](https://www.projectcounter.org/)
|
|
|
|
- **Filtro de base de datos DSpace**: esta etapa consulta la base de datos relacional interna de DSpace (actualmente solo es compatible con Postgres) para obtener información complementaria del elemento que no está almacenada en el núcleo de Solr, pero que es requerida por las especificaciones OpenAire. Este filtro agrega título de elemento, nombre de archivo de flujo de bits y `oai_identifier` como campos de evento
|
|
|
|
- **Filtro de API de Matomo**: este filtro transforma los datos recopilados previamente en un conjunto de parámetros requeridos por [Matomo HTTP Tracking API](https://developer.matomo.org/api-reference/tracking-api)
|
|
|
|
- **Salida del remitente de Matomo**: este filtro almacena en un búfer y envía lotes de eventos al rastreador regional utilizando la función de seguimiento masivo de _Matomo HTTP Tracking API_
|
|
|
|
|