Créditos ECTS Créditos ECTS: 6
Horas ECTS Criterios/Memorias Traballo do Alumno/a ECTS: 108 Horas de Titorías: 1 Clase Expositiva: 21 Clase Interactiva: 20 Total: 150
Linguas de uso Castelán, Galego, Inglés
Tipo: Materia Ordinaria Máster RD 1393/2007 - 822/2021
Centro Escola Técnica Superior de Enxeñaría
Convocatoria: Segundo semestre
Docencia: Con docencia
Matrícula: Matriculable | 1ro curso (Si)
A cada vez maior cantidade de información accesible a través de Internet fai que o procesamento eficiente de grandes cantidades de datos sexa cada vez de maior interese. Isto levou ao desenvolvemento de novas técnicas de almacenamento e procesamento de inxentes cantidades de información, nomeadamente técnicas Big Data, que se adaptan de forma natural aos sistemas distribuídos.
O obxectivo principal desta materia é dar a coñecer diferentes técnicas de procesamento de grandes cantidades de información dentro do mundo Big Data, en particular no ámbito do ecosistema Hadoop, e facer unha comparativa co tipo de procesamiento máis tradicional do mundo HPC, para dende unha actitude reflexiva poder seleccionar as ferramentas máis óptimas para resolver un determinado problema.
.
1. Introducción a Data Engineering
1.1 HPC vs Big Data: similitudes e diferenzas no tratamento de datos
1.2 Tecnoloxías Hardware e Software para High Performance Data Engineering
1.3 Data Engineering en infraestructuras HPC vs entornos Cloud
2 Etapas de Data Engineering
2.1 Modelado (Formatos, Compresión, Diseño de Esquemas)
2.2 Ingesta (Periodicidade, Transformacións, Ferramentas)
2.3 Almacenamento (HDFS e BBDD NoSQL, HBase, MongoDB, Cassandra)
2.4 Procesado (Batch, Real-Time)
2.5 Orquestración
2.6 Análise (SQL, Machine Learning, Graphs, UI)
2.7 Gobernanza
2.8 Integración con BI (Visualización)
3 Introducción a Analítica de Datos
3.1 Exploratory Data Analytics
3.2 Introducción a Machine Learning
4 Casos de Uso
4.1 Aplicacións en Internet das Cousas (entornos Smart e Industria 4.0)
4.2 Aplicacións en ciencias e enxeñaría
Bibliografía básica
- T. White, "Hadoop: The Definitive Guide", 4th Edition, O'Reilly, 2015
- Wes McKinney "Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython" 2nd Edition, O'Reilly, 2017
Bibliografía complementaria
- Alex Holmes, "Hadoop in practice", 2nd Edition, Manning, 2014
- O alumno será capaz de instalar, configurar e xestionar o software básico para o procesamento de datos masivos.
- O alumno será capaz de implementar códigos nalgunha linguaxe especializada no procesamento de datos masivos.
- O alumno coñecerá e aprenderá a utilizar algunhas das ferramentas dispoñibles para Data Engineering (en particular para Inxesta/Almaceamento/Procesado/Visualización).
- O alumno adquirirá a habilidade necesaria para a procura, selección e manexo de recursos (bibliografía, software, etc.) relacionados co Big Data.
Competencias da titulación que se traballan (ver memoria título):
- Básicas: CG1, CG3, CG5, CB6, CB7.
- Transversais/Xerais: CT1, CT4.
- Específicas: CE1, CE2
- Clases teóricas, nas que se expón o contido de cada tema. O alumnado disporá de todo o material necesario antes da clase e o profesor promoverá unha actitude activa, realizando preguntas que permitan aclarar aspectos concretos e deixando cuestións abertas para a reflexión do alumnado.
- Tódolos materiais docentes estarán a disposición do alumnado nunha plataforma virtual, que este curso será a Aula Cesga, https://aula.cesga.es/.
- Clases prácticas no laboratorio e en aula de informática, nas que se realizan tarefas dirixidas que permitan ao alumnado familiarizarse desde un punto de vista práctico cos contidos expostos nas clases teóricas.
- Realización de traballos, nos que o alumnado ten que empregar os coñecementos adquiridos para resolver distintos problemas de forma autónoma.
- Discusión dirixida, Orientación para a realización dos traballos individuais ou en grupo, resolución de dúbidas e actividades de avaliación continua.
- Titorías de seguimento: orientación para a realización dos traballos, resolución de dúbidas, etc.
Actividades formativas de carácter presencial e a súa relación coas competencias da titulación:
Clases de teoría CB6, CE1, CE2, CT4
Clases prácticas en laboratorio CB6, CG3, CG5
Tutorías CB6, CB7
Actividades formativas de carácter non presencial e a súa relación coas competencias da titulación:
Clases prácticas en laboratorio CB6, CG3, CG5
Realización de traballos académicamente dirixidos CB6, CB7, CG3, CE1, CE2
Discusión dirixida CG1, CT1, CT4
Prácticas de laboratorio. Avaliación das prácticas levadas a cabo polos estudantes. 50%
Trabajos titelados. Avaliación dos traballos titelados desenvolvidos polos estudantes. 50%
Non presentado: Considerarase non presentado @ alumn@ que non entregue ningunha práctica nin traballo academicamente dirixido.
Segunda oportunidade (extraordinaria - xuño/xullo): Volver a realizar aquelas prácticas e traballos tutelados que non se entregaran ou versións melloradas dos xa entregados.
No caso de realización fraudulenta de exercicios ou probas, será de aplicación o recollido na Normativa de avaliación do rendemento académico dos estudantes e de revisión de cualificacións.
En aplicación da Normativa da ETSE sobre plaxio (aprobada pola Xunta da ETSE o 19/12/2019), a copia total ou parcial dalgún exercicio suporá o suspenso nas dúas oportunidades do curso, coa cualificación de 0,0 en ambos casos.
- Clases de teoría: 18h presenciais + 0h traballo autónomo (total 18h)
- Clases prácticas en laboratorio: 20h presenciais + 60h traballo autónomo (total 80h)
- Discusión dirixida: 3h presenciais + 3h traballo autónomo (total 6h)
- Titorías: 1h presencial+ 0h traballo autónomo (total 1h)
- Realización de traballos: 0h presenciais + 45h traballo autónomo (total 45h)
TOTAL: 42h presenciais + 108h traballo autónomo, para un total de 150h
Debido á forte compoñente práctica é recomendable ir facendo as actividades prácticas e traballos académicamente dirixidos de forma regular ao longo do cuadrimestre.
O coñecemento do inglés tanto falado como escrito é imprescindible xa que a bibliografía e as conferencias externas poden ser en inglés.
Farase un uso intensivo de ferramentas de comunicación online: videoconferencia, chat, etc. As sesións presenciais serán gravadas para ou revisión posterior. Ademais, farase uso da ferramenta Aula CESGA para a distribución de contidos, creación de foros de discusión, etc...
As ferramentas software utilizadas nesta materia son xeralmente open-source ou teñen licencia gratuita para estudantes.
A asignatura será impartida en inglés.