Saltar al contenido

Obtener páginas populares de sus registros de Apache

Un archivo de registro de Apache puede ser enorme y difícil de leer.
A continuación, se muestra una forma de obtener una lista de las páginas (o archivos) más visitados de un archivo de registro de Apache.

En este ejemplo, solo queremos conocer las URL de las solicitudes GET. Usaremos el maravilloso contador que se encuentra en las colecciones de Python


import collections

logfile = open("yourlogfile.log", "r")

clean_log=[]

for line in logfile:
    try:
        # copy the URLS to an empty list.
        # We get the part between GET and HTTP
        clean_log.append(line[line.index("GET")+4:line.index("HTTP")])
    except:
        pass

counter = collections.Counter(clean_log)

# get the Top 50 most popular URLs
for count in counter.most_common(50):
    print(str(count[1]) + "	" + str(count[0]))

logfile.close()

Entrenamiento de Python recomendado

Para el entrenamiento de Python, nuestra principal recomendación es DataCamp.