Créditos ECTS Créditos ECTS: 6
Horas ECTS Criterios/Memorias Horas de Titorías: 3 Clase Expositiva: 24 Clase Interactiva: 24 Total: 51
Linguas de uso Castelán, Galego
Tipo: Materia Ordinaria Grao RD 1393/2007 - 822/2021
Departamentos: Electrónica e Computación
Áreas: Ciencia da Computación e Intelixencia Artificial
Centro Escola Politécnica Superior de Enxeñaría
Convocatoria: Segundo semestre
Docencia: Con docencia
Matrícula: Matriculable
A aprendizaxe por reforzo no contexto da robótica móbil ten un enorme potencial dado que permite que os robots poidan aprender e adquirir políticas de control por si mesmos, mediante a súa propia interacción coa contorna no que traballan.
A través da aprendizaxe por reforzo pódense resolver unha ampla gama de tarefas complexas de toma de decisións con mínima intervención humana. A aprendizaxe por reforzo céntrase na aprendizaxe dirixida a obxectivos a partir da interacción, aprender interactuando. Neste caso á máquina ou robot non se lles di que accións realizar, senón que é algo que deben descubrir por si mesmos, mediante proba e erro, identificando que accións producen a maior recompensa. Ese é en realidade o seu obxectivo, maximizar a recompensa.
A aprendizaxe por reforzo ofrece á robótica un marco e un conxunto de ferramentas para o deseño de comportamentos sofisticados e difíciles de deseñar. O obxectivo final é dotar aos robots da capacidade de aprender, mellorar e adaptarse a partir da exploración e a aprendizaxe autónoma. Dotar aos robots de habilidades similares ás humanas para realizar habilidades motoras dunha maneira suave e natural é un dos obxectivos importantes da robótica. Unha forma prometedora de lograr isto é creando robots que poidan aprender novas habilidades por si mesmos, de maneira similar aos humanos. Con todo, adquirir novas habilidades motoras non é sinxelo e implica varias formas de aprendizaxe. A través das estratexias que se verán nesta materia o robot poderá aprender a resolver tarefas que serían difíciles de programar de forma directa, ou para as que é difícil obter un bo proceso demostrativo ou conxunto de exemplos. Falamos tamén de tarefas ou problemas de optimización que non teñen unha formulación analítica directa ou unha solución de forma pechada coñecida. O robot poderá adaptarse a cambios no hardware ou na contorna. Tamén é posible que o robot poida partir dunha demostración "suficientemente boa" e ila perfeccionando de forma gradual. Nesta materia aprenderanse estratexias capaces de dotar ao robot coa capacidade de adaptarse dinámicamente aos cambios do propio hardware, fallas de sensores, ou cambios na propia contorna no que se move o robot.
Os contidos xerais da materia conforme se recollen na memoria verificada son:
Aprendizaxe por reforzo no contexto da robótica. Procesos de Markov. Políticas e funcións de Valor. Algoritmos para a procura de políticas. Xeneralización e aproximación de funcións. Aprendizaxe por reforzo multi-obxectivo e multi-axente. Aprendizaxe por demostración e imitación
Estes contidos estruturaranse na seguinte secuencia de temas e prácticas:
1. Introdución: aprendizaxe por reforzo e os seus elementos. Modelización dun problema. En que se diferencia doutras estratexias. Obxectivos e reforzos.
(temporización: 2HP, 2HNP)
2. Procesos de decisión de Markov. Contornas deterministas e estocásticos. Políticas e funcións de valor. Ecuación de Bellman e Bellman óptima.
(temporización: 2HP, 2HNP)
3. Solucións Tabulares: Programación Dinámica. Métodos de Monte Carlo. Diferenzas Temporais. Trazas de Elegibilidad. Dilema exploración-explotación.
(temporización: 8HP, 8HNP)
4. Métodos de solución aproximados: Procura da política óptima a través de métodos baseados en gradiente.
(temporización: 4HP, 4HNP)
5. Introdución á aprendizaxe por reforzo profundo. Deep Q- Networks, Actor-Critic, DDPG
(temporización: 4HP, 4HNP)
6. Procesos de aprendizaxe por demostración e imitación.
(temporización: 4HP, 4HNP)
Trátase dunha materia cun importante compoñente práctica, a través das prácticas os alumnos ilustraranse de maneira experimental os conceptos dos temas teóricos. A través das prácticas o alumno poñerá en xogo algúns dos principais algoritmos de aprendizaxe descritos na teoría para a aprendizaxe de diferentes comportamentos en robots. Empregaranse as librerías adecuadas para este tipo de aprendizaxes.
Por outra banda as prácticas reforzaránse con importantes traballos/casos prácticos que o alumno deberá plantexar cos algoritmos vistos na teoría.
Bibliografía básica:
R.S. Sutton, A. G. Barto, “Reinforcement Learning: an introduction”. Second Edition. A Bradford Book. The MIT Press Cambridge, Massachusetts London, England
https://web.stanford.edu/class/psych209/Readings/SuttonBartoIPRLBook2nd…
J. Torres, “Introducción al aprendizaje por refuerzo profundo. Teoría y práctica en Python”. Watch this space book series. 2021
Bibliografía complementaria
Deep Reinforcement Learning with Python: with PyTorch, TensorFlow and OpenAI Gym. Nimish Sanghi, Apress,2021
Deep Reinforcement Learning Hands-On: Apply modern RL methods to practical problems of chatbots, robotics, discrete optimization, web automation, and more, 2nd edition. Maxim Lapan. Packt 2020
Ao terminar con éxito esta materia, os estudantes serán capaces de:
Coñecemento:
Con57. Coñecer como lograr modelos e programas de control, capaces de adaptarse en tempo real a partir da
actuación do robot na contorna.
Con58. Entender en que medida as estratexias de aprendizaxe por interacción robot-contorna permiten facer
fronte ás limitacións da programación explícita.
Con59. Familiarizarse coas técnicas de aprendizaxe por reforzo e coñecer o tipo de tarefas para as que se empregan.
Destreza:
H/D63. Desenvolver e analizar aplicacións prácticas simples
H/D64. Implementar algoritmos de aprendizaxe por interacción robot/contorna baseados en reforzo.
Competencia:
Comp14. Coñecer as técnicas de intelixencia artificial utilizadas en robótica industrial e de servizos, saber como
utilizalas en aplicacións robóticas fixas e móbiles.
As clases teóricas desenvolveranse na aula de teoría, e nelas o profesor dará aos alumnos as directrices necesarias para a resolución dos proxectos/prácticas que se exporán durante as prácticas da materia.
A docencia interactiva levará a cabo nas aulas de informática e laboratorios de robótica. Nas clases prácticas estableceremos métodos de ensino activos ou produtivos baseados no ensino problémica que faciliten a adquisición de capacidades cognitivas e de tipo creador. Nas prácticas exporanse exercicios a través dos cales o alumno aprenderá a manexar diferentes algoritmos de aprendizaxe baseados en reforzo, cos que se lograrán comportamentos adaptativos en robots. Será necesaria programación, manexo de plataformas e librerías específicas, así como algunha ferramenta de simulación.
Así mesmo, nas titorías atenderase ao alumnado para discutir, comentar, aclarar ou resolver cuestións concretas en relación coas súas tarefas dentro da materia. Estas titorías serán poderán ser tanto presenciais como virtuais a través da plataforma Ms Teams.
Curso Virtual: Esta materia dispoñerá dun curso virtual desenvolto sobre a plataforma de Campus virtual da USC, usando ademais a ferramenta colaborativa Ms Teams. Nestas facilitaráselle ao alumnado todo o material necesario en formato dixital, ademais de distintas ferramentas de comunicación para o apoio, tanto da docencia virtual como das titorías, incluíndo videoconferencia, chat, correo electrónico, foros…
A avaliación levará a cabo de dúas formas: (1) Avaliación continua, poderase levar a cabo a través de diferentes mecanismos: a) valoración de prácticas de laboratorio nas que se terán que aplicar os algoritmos de aprendizaxe adaptivo. É posible que os alumnos deban expoñer o traballo realizado e mostrar os resultados alcanzados. b) proposta de traballos nos que se expoñan casos de uso dos algoritmos vistos en teoría, estes traballos fomentarán a creatividade do alumno, motivación, posta en práctica de coñecementos, permitirán profundar nalgúns dos contidos da materia, ou explorar alternativas non cubertas directamente nos contidos impartidos polo profesor. c) realización dalgún cuestionario no que se avalíe a comprensión por parte do alumno dos aspectos vistos en clases. d) pódese propoñer tamén a realización de traballos voluntarios. (2) Por outra banda, haberá unha última proba final que poderá conter exercicios teóricos e/ou prácticos. A proba final representará o 40% do total da materia, mentres que o 60% restante represéntao a avaliación continua descrita no punto 1.
Debido a este tipo de avaliación continua, a asistencia a prácticas será obrigatoria salvo causa xustificada. Non será posible a superación da materia salvo que se asistiu como mínimo ao 80% das prácticas. A non asistencia ás mesmas impedirá a superación da materia tanto na oportunidade ordinaria como na de recuperación.
O alumno recibirá a cualificación de " non presentado" cando non faga o exame final e non entregue un conxunto mínimo de probas correspondentes á avaliación continua (e que marque o profesor como imprescindibles)
Para os casos de realización fraudulenta de exercicios ou probas será de aplicación o establecido na “Normativa de avaliación do rendemento académico dous estudantes e de revisión dás cualificacións”
Segunda oportunidade, dispensa de asistencia, repetidores
-------------------------------------------------------------------------
Haberá un exame de segunda oportunidade. Os alumnos poderán entregar en data previa o exame da segunda oportunidade, aquelas actividades que lle expoña o profesor, correspondentes a aquelas prácticas que non superasen na convocatoria anterior. Poderá haber exame práctico ou unha defensa de traballos co profesor na oportunidade de xullo (para poder aplicar avaliación continua), para aqueles alumnos que non haxan superen a materia na convocatoria de febreiro.
No caso de que a algunha persoa concédaselle dispensa de asistencia eximiráselle da asistencia a clases de teoría, pero deberá realizar as prácticas de forma presencial. Aplicaránselle os mesmos criterios de avaliación que ao resto do alumnado.
O alumno recibirá a cualificación de " non presentado" cando non faga o exame final e non entregue un conxunto mínimo de probas correspondentes á avaliación continua (e que marque o profesor como imprescindibles para esta segunda oportunidade)
Para os casos de realización fraudulenta de exercicios ou probas será de aplicación o establecido na “Normativa de avaliación do rendemento académico dous estudantes e de revisión dás cualificacións”
Os alumnos repetidores serán avaliados cos mesmos criterios que os non repetidores.
* Avaliación de competencias
En xeral o desenvolvemento das actividades prácticas, así como a preparación dos temas teóricos permitirá ao alumnado traballar as competencias básicas, xerais e transversais da materia, e acadar os resultados da aprendizaxe previstos.
Clases expositivas Clases maxistrais 2,4( ECTS) 24( HP) 24( HNP)
Clases interactivas Laboratorio e aulas de informática 2,4( ECTS) 24( HP) 48( HNP)
Titoría en grupo 0,3( ECTS) 3( HP) 4( HNP)
Titoría individualizada 0,4( ECTS) 4( HP) 7( HNP)
Avaliación e revisión 0,5( ECTS) 5( HP) 7( HNP)
Total 6,0( ECTS) 60( HP) 90( HNP)
HP=Horas Presenciais
HNP=Horas non presenciais
Roberto Iglesias Rodriguez
Coordinador/a- Departamento
- Electrónica e Computación
- Área
- Ciencia da Computación e Intelixencia Artificial
- Correo electrónico
- roberto.iglesias.rodriguez [at] usc.es
- Categoría
- Profesor/a: Titular de Universidade
Marcos Fernandez Pichel
- Departamento
- Electrónica e Computación
- Área
- Ciencia da Computación e Intelixencia Artificial
- Correo electrónico
- marcosfernandez.pichel [at] usc.es
- Categoría
- Profesor/a: Axudante Doutor LOSU