Créditos ECTS Créditos ECTS: 6
Horas ECTS Criterios/Memorias Traballo do Alumno/a ECTS: 108 Horas de Titorías: 1 Clase Expositiva: 21 Clase Interactiva: 20 Total: 150
Linguas de uso Castelán, Galego, Inglés
Tipo: Materia Ordinaria Máster RD 1393/2007 - 822/2021
Centro Escola Técnica Superior de Enxeñaría
Convocatoria: Segundo semestre
Docencia: Con docencia
Matrícula: Matriculable | 1ro curso (Si)
A cada vez maior cantidade de información accesible a través de Internet fai que o procesamento eficiente de grandes cantidades de datos sexa cada vez de maior interese. Isto levou ao desenvolvemento de novas técnicas de almacenamento e procesamento de inxentes cantidades de información, nomeadamente técnicas Big Data, que se adaptan de forma natural aos sistemas distribuídos.
O obxectivo principal desta materia é dar a coñecer diferentes técnicas de procesamento de grandes cantidades de información dentro do mundo Big Data, en particular no ámbito do ecosistema Hadoop, e facer unha comparativa co tipo de procesamiento máis tradicional do mundo HPC, para dende unha actitude reflexiva poder seleccionar as ferramentas máis óptimas para resolver un determinado problema.
1. Introducción a Data Engineering
1.1 HPC vs Big Data: similitudes e diferenzas no tratamento de datos
1.2 Tecnoloxías Hardware e Software para High Performance Data Engineering
1.3 Data Engineering en infraestructuras HPC vs entornos Cloud
2 Etapas de Data Engineering
2.1 Modelado (Formatos, Compresión, Diseño de Esquemas)
2.2 Ingesta (Periodicidade, Transformacións, Ferramentas)
2.3 Almacenamento (HDFS e BBDD NoSQL, HBase, MongoDB, Cassandra)
2.4 Procesado (Batch, Real-Time)
2.5 Orquestración
2.6 Análise (SQL, Machine Learning, Graphs, UI)
2.7 Gobernanza
2.8 Integración con BI (Visualización)
3 Introducción a Analítica de Datos
3.1 Exploratory Data Analytics
3.2 Introducción a Machine Learning
4 Casos de Uso
4.1 Aplicacións en Internet das Cousas (entornos Smart e Industria 4.0)
4.2 Aplicacións en ciencias e enxeñaría
Bibliografía básica
- T. White, "Hadoop: The Definitive Guide", 4th Edition, O'Reilly, 2015
- Wes McKinney "Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython" 2nd Edition, O'Reilly, 2017
Bibliografía complementaria
- Alex Holmes, "Hadoop in practice", 2nd Edition, Manning, 2014
- O alumno será capaz de instalar, configurar e xestionar o software básico para o procesamento de datos masivos.
- O alumno será capaz de implementar códigos nalgunha linguaxe especializada no procesamento de datos masivos.
- O alumno coñecerá e aprenderá a utilizar algunhas das ferramentas dispoñibles para Data Engineering (en particular para Inxesta/Almaceamento/Procesado/Visualización).
- O alumno adquirirá a habilidade necesaria para a procura, selección e manexo de recursos (bibliografía, software, etc.) relacionados co Big Data.
Competencias da titulación que se traballan (ver memoria título):
- Básicas: CG1, CG3, CG5, CB6, CB7.
- Transversais/Xerais: CT1, CT4.
- Específicas: CE1, CE2
- Instrución programada a través de materiais docentes, especialmente deseñados para unha aprendizaxe autónoma e asíncrona, cun peso importante das referencias ás fontes documentais empregadas nos distintos contidos.
- Tódolos materiais docentes estarán a disposición do alumnado nunha plataforma virtual, que este curso será a Aula Cesga, https://aula.cesga.es/.
- Realización de prácticas de forma autónoma con seguimento do profesorado
- Realización de traballos, nos que o alumnado ten que empregar os coñecementos adquiridos para resolver distintos problemas de forma autónoma.
- Discusión dirixida, Orientación para a realización dos traballos individuais ou en grupo, resolución de dúbidas e actividades de avaliación continua.
- Titorías de seguimento: orientación para a realización dos traballos, resolución de dúbidas, etc.
Actividades formativas de carácter non presencial e a súa relacion coas competencias da titulacio:
Lectura de material didáctico, visionado de vídeos e consulta de material multimedia CB6, CE1, CE2, CG1, CT4
Realización de prácticas de forma autónoma con seguimento do profesorado CB10, CB6, CG3, CG5
Realización de trabajos académicamente dirixidos CB6, CB7, CG3, CE1, CE2
Discusión dirixida CG1, CT1, CT4
Titorías de seguimento na modalidade a distancia CB6, CB7
Prácticas de laboratorio. Avaliación das prácticas levadas a cabo polos estudantes. 50%
Trabajos titelados. Avaliación dos traballos titelados desenvolvidos polos estudantes. 50%
Non presentado: Considerarase non presentado @ alumn@ que non entregue ningunha práctica nin traballo academicamente dirixido.
Segunda oportunidade (extraordinaria - xuño/xullo): Volver a realizar aquelas prácticas e traballos tutelados que non se entregaran ou versións melloradas dos xa entregados.
No caso de realización fraudulenta de exercicios ou probas, será de aplicación o recollido na Normativa de avaliación do rendemento académico dos estudantes e de revisión de cualificacións.
En aplicación da Normativa da ETSE sobre plaxio (aprobada pola Xunta da ETSE o 19/12/2019), a copia total ou parcial dalgún exercicio suporá o suspenso nas dúas oportunidades do curso, coa cualificación de 0,0 en ambos casos.
- Lectura de material didáctico, visionado de vídeos e consulta de material multimedia: 0h presenciais + 18h traballo autónomo (total 18h)
- Realización de prácticas de forma autónoma con seguimento do profesorado: 0h presenciais + 80h traballo autónomo (total 80h)
- Titorías de seguimento na modalidade a distancia: 1h presencial + 0h traballo autónomo (total 1h)
- Discusión dirixida: 3h presenciais + 3h traballo autónomo (total 6h)
- Realización de traballos: 0h presenciais + 45h traballo autónomo (total 45h)
TOTAL: 4h presenciais + 146h traballo autónomo, para un total de 150h
Debido á forte compoñente práctica é recomendable ir facendo as actividades prácticas e traballos académicamente dirixidos de forma regular ao longo do cuadrimestre.
O coñecemento do inglés tanto falado como escrito é imprescindible xa que a bibliografía e as conferencias externas poden ser en inglés
Farase un uso intensivo de ferramentas de comunicación online: videoconferencia, chat, etc. As sesións presenciais serán gravadas para ou revisión posterior. Ademais, farase uso da ferramenta Aula CESGA para a distribución de contidos, creación de foros de discusión, etc...
As ferramentas software utilizadas nesta materia son xeralmente open-source ou teñen licencia gratuita para estudantes.
A asignatura será impartida en inglés.