jueves, 28 de julio de 2016

Evitar web crawlers en Koha (CPU 100%)

Soy administrador (sysadmin) de varios sistemas en GC (Google Clould) y uno de los sistemas que administro es una instancia de Koha (Sistema integral de gestión bibliotecaria) en una plataforma GCE (Google Compute Engine).

Al monitorizar el sistema Koha, el uso del CPU de la instancia estaba siempre al 100% de su capacidad, lo cual causaba molestia a los usuarios  debido a que el sistema estaba demasiado lento.



Al revisar las causas, encontré que esto se debe a web crawlers los cuales  hacen búsquedas en el catálogo de Koha para poder indexar resultados, la búsqueda de soluciones me llevo a este wiki de Koha para poder realizarle un tuning (afinamiento) al sistema.

https://wiki.koha-community.org/wiki/Koha_Tuning_Guide


Esta guía ayudo a muchos, pero en mi caso no, los web crawlers seguian accediendo a pesar de agregar el archivo " robots.txt ".

La forma de solucionarlo fue creando (en mi caso) el archivo .htaccess con este archivo de configuraron del servidor Apache  logre detener los web crawlers el uso de este archivo de configuración, puede traer repercusiones a tu servidor, en el caso de eficiencia y tiempo de espera, pero para una instancia pequeña como la que administro es perfecta.

Usando esta lista:

http://www.robotstxt.org/db.html

y este generador de archivo .htaccess en esta página http://incredibill.me/htaccess-block-user-agent

ya con el archivo creado, simplemente resto ponerlo en la carpeta www de apache y reiniciar el servidor, con esto se arreglo el problema de los web crawlers que alentaban el procesador y las búsquedas en mi instancia de Koha.

Espero que esta información les sea de ayuda a quien logre encontrar esta entrada.