lunes, 18 de octubre de 2010

A.p.p.s. (Awk, Perl, Python, Shell)

Esto es la actividad de semana 5: 3 programas lenguaje script.

Awk

Awk es un lenguaje de programación diseñado o especializado en el procesado de archivos de texto o flujos de caracteres. Cada línea del archivo es considerado un registro dividido en campos y a su vez cada campo esta separado por un patrón, por ejemplo un caracter de espacio, una coma o mezclas extrañas.

Debido a su efectividad al tratar con cadenas de texto, se pueden manejar fácilmente pequeñas bases de dato, generar reportes y preparar documentos para otro proceso.

La palabra awk proviene del nombre de sus diseñadores Alfred V. Aho, Peter J. Weinberger y Brian W. Kernighan. La versión original fue escrita en 1977 y en 1985 fue actualizada.

La función básica es buscar por patrones en cada registro y realizar una acción:

/patrón/ {acción}

Existen varios intérpretes para awk, los más conocidos son mawk (que viene preinstalado en algunas versiones de ubuntu) y gawk, para instalar cualquiera de ellos, desde la terminal se escribe:

sudo apt-get install gawk
sudo apt-get install mawk

Hay distintas maneras de ejecutar el programa, si el código es pequeño se puede escribir desde la misma terminal encerrado entre comillas simples y seguido del archivo a procesar:

:~$ awk '/1/ {print $2}' archivoDatos

Cada campo en un registro es referido con un caracter $ seguido del número que lo representa.

Si el código es grande, se crearía un archivo que contiene el código y se usaría:

:~$ awk -f programa archivoDatos archivoDatos2

...y en un archivo como el siguiente:

123 nombre
24444.24 nom2
111   nom3
567 nom4
37   nom5
7177    nom6

...nos mostraría:

nombre
nom3
nom6

Lo que hace es buscar el patrón 1 y si lo encuentra imprime el campo número 2 del registro donde lo identificó.

Ahora imaginemos que necesitamos conseguir la temperatura promedio semanal de cada una de las ciudades en el mundo con la restricción de que las ciudades tengan mas de 1 millón de habitantes.

Tomando una lista de ciudades: Lista.
Y obteniendo temperaturas ficticias aleatorias entre 10 y 30 grados celsius: Temperaturas.

Primero comprobamos que ambos archivos contengan la misma cantidad de líneas:

:~$ wc -l city
336 city
:~$ wc -l temp
336 temp

Ahora juntamos ambos archivos para trabajar fácil en awk:

:~$ cat city temp > lista

Y hacemos un programa como este. Obtenemos este resultado.

Guías de awk:
Perl

Este programa calcula el número stirling del segundo tipo:

El número Stirling del segundo tipo S(n, m) es la cantidad de maneras en que se puede partir un conjunto de n cosas en m subconjuntos no vacíos.

Guías de Perl:



Python

Intento de creador de laberinto simple.

Lo que trataba de hacer: El laberinto se iba a construir a partir de las paredes destruidas entre cada celda o casilla de la matriz, solo se recorrerían todas las celdas de la matriz con un BFS destruyendo algunas paredes al azar y regresando a la celda anterior si la actual ya tiene alguna pared tirada o destruida que no sea la anterior que destruimos.

Guías de Python:



Shell

A veces no se puede extraer el texto de un pdf con herramientas como pdftotext (poppler-utils) o pdfminer. Una opción es convertir el pdf a imágenes y extraer el texto con un OCR (optical character recognition) como tesseract, se muestra el ejemplo aquí [1]. La desventaja es que el texto puede contener errores dependiendo de la resolución y otras cosas, hay que revisarlo.

Nota [1]: Para que funcione tienes que instalar tesseract y el idioma que vas a identificar ej.: sudo apt-get install tesseract-ocr-spa.

Guías Shell: