Créditos ECTS Créditos ECTS: 6
Horas ECTS Criterios/Memorias Traballo do Alumno/a ECTS: 99 Horas de Titorías: 3 Clase Expositiva: 24 Clase Interactiva: 24 Total: 150
Linguas de uso Castelán, Galego
Tipo: Materia Ordinaria Grao RD 1393/2007 - 822/2021
Centro Escola Politécnica Superior de Enxeñaría
Convocatoria: Segundo semestre
Docencia: Sen docencia (Extinguida)
Matrícula: Non matriculable
A aprendizaxe por reforzo no contexto da robótica móbil ten un enorme potencial dado que permite que os robots poidan aprender e adquirir políticas de control por si mesmos, mediante a súa propia interacción coa contorna no que traballan.
A través da aprendizaxe por reforzo pódense resolver unha ampla gama de tarefas complexas de toma de decisións con mínima intervención humana. A aprendizaxe por reforzo céntrase na aprendizaxe dirixida a obxectivos a partir da interacción, aprender interactuando. Neste caso á máquina ou robot non se lles di que accións realizar, senón que é algo que deben descubrir por si mesmos, mediante proba e erro, identificando que accións producen a maior recompensa. Ese é en realidade o seu obxectivo, maximizar a recompensa.
A aprendizaxe por reforzo ofrece á robótica un marco e un conxunto de ferramentas para o deseño de comportamentos sofisticados e difíciles de deseñar. O obxectivo final é dotar aos robots da capacidade de aprender, mellorar e adaptarse a partir da exploración e a aprendizaxe autónoma. Dotar aos robots de habilidades similares ás humanas para realizar habilidades motoras dunha maneira suave e natural é un dos obxectivos importantes da robótica. Unha forma prometedora de lograr isto é creando robots que poidan aprender novas habilidades por si mesmos, de maneira similar aos humanos. Con todo, adquirir novas habilidades motoras non é sinxelo e implica varias formas de aprendizaxe. A través das estratexias que se verán nesta materia o robot poderá aprender a resolver tarefas que serían difíciles de programar de forma directa, ou para as que é difícil obter un bo proceso demostrativo ou conxunto de exemplos. Falamos tamén de tarefas ou problemas de optimización que non teñen unha formulación analítica directa ou unha solución de forma pechada coñecida. O robot poderá adaptarse a cambios no hardware ou na contorna. Tamén é posible que o robot poida partir dunha demostración "suficientemente boa" e ila perfeccionando de forma gradual. Nesta materia aprenderanse estratexias capaces de dotar ao robot coa capacidade de adaptarse dinámicamente aos cambios do propio hardware, fallas de sensores, ou cambios na propia contorna no que se move o robot.
Os resultados da aprendizaxe
-----------------------------------
Coñecer como lograr modelos e programas de control, capaces de adaptarse en tempo real a partir da actuación do robot na contorna.
Entender en que medida as estratexias de aprendizaxe por interacción robot-entoo permiten facer fronte ás limitacións da programación explícita.
Dominar as técnicas de aprendizaxe por reforzo e coñecer o tipo de tarefas para as que se empregan. Tamén deberá ser capaz de manexar as implementacións software dos algoritmos de aprendizaxe, ou programar algún delas.
Saber como lograr a aprendizaxe de controladores por demostración, utilizando técnicas para extraer a información relevante que acompaña a acción do demostrador, e crear un mapa sensor-motor que relaciona as entradas sensoriais con comandos motrices necesarios para imitar un comportamento ou unha tarefa.
Os contidos xerais da materia conforme se recollen na memoria verificada son:
Aprendizaxe por reforzo no contexto da robótica. Procesos de Markov. Políticas e funcións de Valor. Algoritmos para a procura de políticas. Xeneralización e aproximación de funcións. Aprendizaxe por reforzo multi-obxectivo e multi-axente. Aprendizaxe por demostración e imitación
Estes contidos estruturaranse na seguinte secuencia de temas e prácticas:
1. Introdución: aprendizaxe por reforzo e os seus elementos. Modelización dun problema. En que se diferencia doutras estratexias. Obxectivos e reforzos.
(temporización: 2HP, 2HNP)
2. Procesos de decisión de Markov. Contornas deterministas e estocásticos. Políticas e funcións de valor. Ecuación de Bellman e Bellman óptima.
(temporización: 2HP, 2HNP)
3. Solucións Tabulares: Programación Dinámica. Métodos de Monte Carlo. Diferenzas Temporais. Trazas de Elegibilidad. Dilema exploración-explotación.
(temporización: 8HP, 8HNP)
4. Métodos de solución aproximados: Procura da política óptima a través de métodos baseados en gradiente.
(temporización: 4HP, 4HNP)
5. Introdución á aprendizaxe por reforzo profundo. Deep Q- Networks
(temporización: 4HP, 4HNP)
6. Procesos de aprendizaxe por demostración e imitación.
(temporización: 4HP, 4HNP)
Trátase dunha materia cun importante compoñente práctica, a través das prácticas os alumnos ilustraranse de maneira experimental os conceptos dos temas teóricos. A través das prácticas o alumno poñerá en xogo algúns dos principais algoritmos de aprendizaxe descritos na teoría para a aprendizaxe de diferentes comportamentos en robots. Empregaranse as librerías adecuadas para este tipo de aprendizaxes.
Por outra banda as prácticas reforzaránse con importantes traballos/casos prácticos que o alumno deberá plantexar cos algoritmos vistos na teoría.
Bibliografía básica:
R.S. Sutton, A. G. Barto, “Reinforcement Learning: an introduction”. Second Edition. A Bradford Book. The MIT Press Cambridge, Massachusetts London, England
https://web.stanford.edu/class/psych209/Readings/SuttonBartoIPRLBook2nd…
J. Torres, “Introducción al aprendizaje por refuerzo profundo. Teoría y práctica en Python”. Watch this space book series. 2021
Bibliografía complementaria
Deep Reinforcement Learning with Python: with PyTorch, TensorFlow and OpenAI Gym. Nimish Sanghi, Apress,2021
Deep Reinforcement Learning Hands-On: Apply modern RL methods to practical problems of chatbots, robotics, discrete optimization, web automation, and more, 2nd edition. Maxim Lapan. Packt 2020
Tal e como se recolle na memoria verificada do título. As competencias que se cobren nesta materia son as seguintes:
Competencias básicas:
-----------------------------
CB2: Que os estudantes saiban aplicar os seus coñecementos ao seu traballo ou vocación dunha forma profesional e posúan as competencias que adoitan demostrarse por medio da elaboración e defensa de argumentos e a resolución de problemas dentro da súa área de estudo.
CB5: Que os estudantes desenvolvesen aquelas habilidades de aprendizaxe necesarias para emprender estudos posteriores cun alto grao de autonomía.
Competencias Xerais:
--------------------------
CG1: Coñecemento das materias básicas e tecnoloxías, que capaciten para a aprendizaxe e desenvolvemento de novos métodos e tecnoloxías, así como as que lles doten dunha gran versatilidade para adaptarse a novas situacións.
CG2: Capacidade de resolución de problemas no campo da enxeñería robótica con creatividade, iniciativa, metodoloxía e razoamento crítico.
Competencias específicas
------------------------------
CE15: Coñecer as técnicas de intelixencia artificial utilizadas en robótica industrial e de servizos, saber como utilizalas en aplicacións robóticas fixas e móbiles.
Competencias Transversais
-------------------------------
CT1: Capacidade de análise e síntese.
CT3: Capacidade de traballo individual, con actitude autocrítica.
CT10: Utilización de información bibliográfica e da internet.
CT11: Utilización de información complementaria e/ou puntual en lingua inglesa.
CT12: Capacidade para resolver problemas mediante a aplicación integrada dos seus coñecementos.
As clases teóricas desenvolveranse na aula de teoría, e nelas o profesor dará aos alumnos as directrices necesarias para a resolución dos proxectos/prácticas que se exporán durante as prácticas da materia.
A docencia interactiva levará a cabo nas aulas de informática e laboratorios de robótica. Nas clases prácticas estableceremos métodos de ensino activos ou produtivos baseados no ensino problémica que faciliten a adquisición de capacidades cognitivas e de tipo creador. Nas prácticas exporanse exercicios a través dos cales o alumno aprenderá a manexar diferentes algoritmos de aprendizaxe baseados en reforzo, cos que se lograrán comportamentos adaptativos en robots. Será necesaria programación, manexo de plataformas e librerías específicas, así como algunha ferramenta de simulación.
Así mesmo, nas titorías atenderase ao alumnado para discutir, comentar, aclarar ou resolver cuestións concretas en relación coas súas tarefas dentro da materia. Estas titorías serán poderán ser tanto presenciais como virtuais a través da plataforma Ms Teams.
Curso Virtual: Esta materia dispoñerá dun curso virtual desenvolto sobre a plataforma de Campus virtual da USC, usando ademais a ferramenta colaborativa Ms Teams. Nestas facilitaráselle ao alumnado todo o material necesario en formato dixital, ademais de distintas ferramentas de comunicación para o apoio, tanto da docencia virtual como das titorías, incluíndo videoconferencia, chat, correo electrónico, foros…
A avaliación levará a cabo de dúas formas: (1) Avaliación continua, poderase levar a cabo a través de diferentes mecanismos: a) valoración de prácticas de laboratorio nas que se terán que aplicar os algoritmos de aprendizaxe adaptivo. É posible que os alumnos deban expoñer o traballo realizado e mostrar os resultados alcanzados. b) proposta de traballos nos que se expoñan casos de uso dos algoritmos vistos en teoría, estes traballos fomentarán a creatividade do alumno, motivación, posta en práctica de coñecementos, permitirán profundar nalgúns dos contidos da materia, ou explorar alternativas non cubertas directamente nos contidos impartidos polo profesor. c) realización dalgún cuestionario no que se avalíe a comprensión por parte do alumno dos aspectos vistos en clases. d) pódese propoñer tamén a realización de traballos voluntarios. (2) Por outra banda, haberá unha última proba final que poderá conter exercicios teóricos e/ou prácticos. A proba final representará o 40% do total da materia, mentres que o 60% restante represéntao a avaliación continua descrita no punto 1.
Debido a este tipo de avaliación continua, a asistencia a prácticas será obrigatoria salvo causa xustificada. Non será posible a superación da materia salvo que se asistiu como mínimo ao 80% das prácticas. A non asistencia ás mesmas impedirá a superación da materia tanto na oportunidade ordinaria como na de recuperación.
O alumno recibirá a cualificación de " non presentado" cando non faga o exame final e non entregue un conxunto mínimo de probas correspondentes á avaliación continua (e que marque o profesor como imprescindibles)
Para os casos de realización fraudulenta de exercicios ou probas será de aplicación o establecido na “Normativa de avaliación do rendemento académico dous estudantes e de revisión dás cualificacións”
Segunda oportunidade, dispensa de asistencia, repetidores
-------------------------------------------------------------------------
Haberá un exame de segunda oportunidade. Os alumnos poderán entregar en data previa o exame da segunda oportunidade, aquelas actividades que lle expoña o profesor, correspondentes a aquelas prácticas que non superasen na convocatoria anterior. Poderá haber exame práctico ou unha defensa de traballos co profesor na oportunidade de xullo (para poder aplicar avaliación continua), para aqueles alumnos que non haxan superen a materia na convocatoria de febreiro.
No caso de que a algunha persoa concédaselle dispensa de asistencia eximiráselle da asistencia a clases de teoría, pero deberá realizar as prácticas de forma presencial. Aplicaránselle os mesmos criterios de avaliación que ao resto do alumnado.
O alumno recibirá a cualificación de " non presentado" cando non faga o exame final e non entregue un conxunto mínimo de probas correspondentes á avaliación continua (e que marque o profesor como imprescindibles para esta segunda oportunidade)
Para os casos de realización fraudulenta de exercicios ou probas será de aplicación o establecido na “Normativa de avaliación do rendemento académico dous estudantes e de revisión dás cualificacións”
Os alumnos repetidores serán avaliados cos mesmos criterios que os non repetidores.
Avaliación de competencias
--------------------------------
Evidentemente a realización dos diferentes exercicios prácticos ou a proba final permitirá a avaliación da competencia específica (CE15). A competencia básica CB2, ou as xerais CG1 e CG2, aplicaranse e avaliarán mediante as prácticas da materia e traballos voluntarios (o alumno terá que ser capaz de adquirir as destrezas adecuadas para a aprendizaxe de novos métodos e tecnoloxías, así como a resolución de problemas con creatividade e iniciativa). De feito esta creatividade, iniciativa e pensamento crítico valorarase de forma moi especial nas prácticas realizadas, enfoque, profundización e calidade das solucións que o alumno expoña aos problemas propostos. A capacidade de análise e síntese poñerase ( CT1) intervirá na presentación/entregas dos traballos realizados e tamén se valorará. As competencias transversais CT3, CT10, CT11, CT12 valorarase a través dos traballos voluntarios e que vaian máis aló dos contidos explicados polo profesor directamente en clase. É aquí tamén onde se poñerá en xogo a competencia CB5. Poderase dedicar puntuación para a valoración destas competencias a través dos traballos voluntarios realizados.
Clases expositivas Clases maxistrais 2,4( ECTS) 24( HP) 24( HNP)
Clases interactivas Laboratorio e aulas de informática 2,4( ECTS) 24( HP) 48( HNP)
Titoría en grupo 0,3( ECTS) 3( HP) 4( HNP)
Titoría individualizada 0,4( ECTS) 4( HP) 7( HNP)
Avaliación e revisión 0,5( ECTS) 5( HP) 7( HNP)
Total 6,0( ECTS) 60( HP) 90( HNP)
HP=Horas Presenciais
HNP=Horas non presenciais