Taller de Web Scraping

En la era actual, la Web está plagada de datos. Datos que pueden ser valiosos en su propio contexto, o combinados entre ellos o usados de forma completamente diferente a su uso habitual. Los datos, como algunos dicen, son el nuevo petróleo. Y es que pocas aplicaciones podrían funcionar sin datos y además las aplicaciones que se pueden crear partiendo de datos son ciertamente interesantes.

Pero, ¿cuál es problema que tenemos en la Web? Que dicha tecnología no está orientada a los datos sino está orientada a la distribución de información (al menos en su concepción). Ya hay muchos proyectos que orientan sus servicios a datos a través del uso de APIs públicas (gratuítas o de pago). Pero por otro lado hay una vasta cantidad de información en la red que puede ser aprovechada y aun no lo está siendo debido a que la forma de recolección no es tan sencilla o estándar.

Por todo lo anterior se propone este Taller de Web Scraping en el que se mostrará una de las formas más extendidas de recolectar datos/información de la Web, siguiendo unas prácticas más o menos automatizadas. Se expondrán diversas herramientas que os pueden servidor para ello y nos centraremos en el uso de Python como lenguaje (por su versatilidad y facilidad de uso) y de Beautiful Soup como framework (por su sencillez). Haremos algunos ejemplos reales para que se vea el potencial del proceso.

¿Qué necesito saber?
Se requiere conocimientos básicos de programación (preferiblemente Python pero no es bloqueante) o alta capacidad de aprendizaje y asimilación.

¿Qué necesito llevar?
Portatil con Linux instalado (preferiblemente Ubuntu por sencillez) o MacOS.

Impartido por:

Pablo Martín Muñoz (@pr3ssh ‏)
Ingeniero Informático y Máster en Tecnologías Informáticas Avanzadas por la Universidad de Huelva con especialización en Minería de Datos y Aprendizaje Automatico. Socio trabajador de la cooperativa Enreda. Confundador de la asociación ciudadana Openkratio. Nodo técnico del proyecto Tipi Ciudadano. Hacktivista pro datos abiertos y soberanía tecnológica.

 

RESERVA

(2/03/2018)

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *