Créditos ECTS Créditos ECTS: 6
Horas ECTS Criterios/Memorias Trabajo del Alumno/a ECTS: 108 Horas de Tutorías: 1 Clase Expositiva: 21 Clase Interactiva: 20 Total: 150
Lenguas de uso Castellano, Gallego, Inglés
Tipo: Materia Ordinaria Máster RD 1393/2007 - 822/2021
Centro Escuela Técnica Superior de Ingeniería
Convocatoria: Segundo semestre
Docencia: Con docencia
Matrícula: Matriculable | 1ro curso (Si)
La cantidad cada vez mayor de información accesible a través de Internet hace que el procesamiento eficiente de grandes cantidades de datos sea cada vez de mayor interés. Esto ha llevado al desarrollo de nuevas técnicas de almacenamiento y procesamiento de ingentes cantidades de información, denominadas técnicas Big Data, que se adaptan de forma natural a los sistemas distribuidos.
El objetivo principal de esta materia es dar a conocer diferentes técnicas de procesamiento de grandes cantidades de información dentro del mundo Big Data, en particular en el ámbito del ecosistema Hadoop, y hacer una comparación con el tipo de procesamiento más tradicional del mundo HPC para, desde una actitud reflexiva, poder seleccionar las herramientas óptimas para resolver un determinado problema.
1. Introducción a Data Engineering
1.1 HPC vs Big Data: similitudes y diferencias en el tratamiento de datos
1.2 Tecnologías Hardware y Software para High Performance Data Engineering
1.3 Data Engineering en infraestructuras HPC vs entornos Cloud
2 Etapas de Data Engineering
2.1 Modelado (Formatos, Compresión, Diseño de Esquemas)
2.2 Ingesta (Periodicidad, Transformaciones, Herramientas)
2.3 Almacenamiento (HDFS y BBDD NoSQL, HBase, MongoDB, Cassandra)
2.4 Procesado (Batch, Real-Time)
2.5 Orquestación
2.6 Análisis (SQL, Machine Learning, Graphs, UI)
2.7 Gobernanza
2.8 Integración con BI (Visualización)
3 Introducción a Analítica de Datos
3.1 Exploratory Data Analytics
3.2 Introducción a Machine Learning
4 Casos de Uso
4.1 Aplicaciones en Internet de las Cosas (entornos Smart e Industria 4.0)
4.2 Aplicaciones en ciencias e ingeniería
Bibliografía básica
- T. White, "Hadoop: The Definitive Guide", 4th Edition, O'Reilly, 2015
- Wes McKinney "Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython" 2nd Edition, O'Reilly, 2017
Bibliografía complementaria
- Alex Holmes, "Hadoop in practice", 2nd Edition, Manning, 2014
- El alumno será capaz de instalar, configurar y gestionar el software básico para el procesamiento de datos masivos.
- El alumno será capaz de implementar códigos en algún lenguaje especializado en el procesamiento de datos masivos.
- El alumno conocerá y aprenderá a utilizar algunas de las herramientas disponibles para Data Engineering (en particular, par Ingesta/Almacenamiento/Procesado/Visualización).
- El alumno adquirirá la habilidad necesaria para la búsqueda, selección y manejo de recursos (bibliografía, software, etc.) relacionados con Big Data.
Competencias de la titulación que se trabajan (ver memoria título):
- Básicas: CG1, CG3, CG5, CB6, CB7.
- Transversales/Generales: CT1, CT4.
- Específicas: CE1, CE2
- Clases teóricas, en las que se expone el contenido de cada tema. El alumnado dispondrá de todo el material necesario antes de la clase y el profesorado promoverá una actitud activa, realizando preguntas que permitan aclarar aspectos concretos y dejando cuestiones abiertas para la reflexión del alumnado.
- Todos los materiales docentes estarán a disposición do alumnado en una plataforma virtual, que este curso será el Aula Cesga, https://aula.cesga.es/.
- Clases prácticas en el laboratorio y en aula de informática, en las que se realizan tareas dirigidas que permitan al alumnado familiarizarse desde un punto de vista práctico con los contenidos expuestos en las clases teóricas.
- Realización de trabajos, en los que el alumnado tiene que emplear los conocimientos adquiridos para resolver distintos problemas de forma autónoma.
- Discusión dirigida, Orientación para la realización de los trabajos individuales o en grupo, resolución de dudas y actividades de evaluación continua.
- Tutorías de seguimiento: orientación para la realización de los trabajos, resolución de dudas, etc.
Actividades formativas de carácter presencial y su relación con las competencias de la titulación:
Clases de teoría CB6, CE1, CE2, CT4
Clases prácticas en laboratorio CB6, CG3, CG5
Tutorías CB6, CB7
Actividades formativas de carácter no presencial y su relación con las competencias de la titulación:
Clases prácticas en laboratorio CB6, CG3, CG5
Realización de trabajos académicamente dirigidos CB6, CB7, CG3, CE1, CE2
Discusión dirigida CG1, CT1, CT4
Prácticas de laboratorio. Evaluación de las prácticas llevadas a cabo por los estudiantes. 50%
Trabajos tutelados. Evaluación de los trabajos tutelados desarrollados por los estudiantes. 50%
No presentado: Se considerará no presentado al alumn@ que no entregue ninguna práctica ni trabajo académicamente dirigido.
Segunda oportunidad (extraordinaria - junio / julio): Volver a realizar aquellas prácticas y trabajos tutelados que no se entregaran o versiones mejoradas de los ya entregados.
En el caso de realización fraudulenta de ejercicios o pruebas, será de aplicación lo recogido en la Normativa de avaliación do rendemento académico dos estudantes e de revisión de cualificacións.
En aplicación de la Normativa da ETSE sobre plaxio (aprobada por la Xunta de la ETSE el 19/12/2019), la copia total o parcial de algún ejercicio supondrá el suspenso en las dos oportunidades del curso, con la calificación de 0,0 en ambos casos.
- Clases de teoría: 18h presenciales + 0h trabajo autónomo (total 18h)
- Clases prácticas en laboratorio: 20h presenciales + 60h trabajo autónomo (total 80h)
- Discusión dirigida: 3h presenciales + 3h trabajo autónomo (total 6h)
- Tutorías: 1h presencial + 0h trabajo autónomo (total 1h)
- Realización de trabajos: 0h presenciales + 45h trabajo autónomo (total 45h)
TOTAL: 42h presenciales + 108h trabajo autónomo, para un total de 150h
Debido al fuerte componente práctico es recomendable ir haciendo las actividades prácticas y trabajos académicamente dirigidos de forma regular a lo largo del cuatrimestre.
El conocimiento del inglés tanto hablado como escrito es imprescindible dado que la bibliografía y las conferencias externas pueden desarrollarse en inglés.
Se hará un uso intensivo de herramientas de comunicación online: videoconferencia, chat, etc. Las sesiones presenciales serán grabadas para u revisión posterior. Además, se hará uso de la herramienta Aula CESGA para la distribución de contenidos, creación de foros de discusión, etc...
Las herramientas software utilizadas en esta materia son generalmente open-source o tienen licencia gratuita para estudiantes.
La asignatura será impartida en inglés.