-
Apresentação
Apresentação
O curso se aprofunda nas áreas de inteligência artificial moderna e aprendizado de máquina, com foco em algoritmos avançados de aprendizado automático que interagem com ambientes para maximizar recompensas. Abrange áreas como tomada de decisão automática, otimização, robótica e teoria dos jogos. A sua relevância reside em fornecer aos alunos ferramentas para enfrentar problemas complexos de aprendizagem e controlo em diversos setores, garantindo uma compreensão abrangente dos sistemas inteligentes.
-
Disciplina do curso
Disciplina do curso
-
Grau | Semestres | ECTS
Grau | Semestres | ECTS
Doutor | Semestral | 5
-
Ano | Natureza | Lingua
Ano | Natureza | Lingua
1 | Opcional | Português
-
Código
Código
ULHT1504-25629
-
Pré-requisitos e co-requisitos
Pré-requisitos e co-requisitos
Não aplicável
-
Estágio Profissional
Estágio Profissional
Não
-
Conteúdos Programáticos
Conteúdos Programáticos
Parte 1: Introdução ao Aprendizado por Reforço Visão geral da aprendizagem por reforço e suas aplicações Compensações exploração-exploração Tipos de algoritmos de aprendizagem por reforço Parte 2: Processos de Decisão Markov Introdução aos processos de decisão de Markov A equação de Bellman Iteração de valor e política; programaçao dinamica Programação dinâmica aproximada Parte 3: Métodos de Monte Carlo Previsão de Monte Carlo Controle de Monte Carlo Aprendizagem dentro e fora da política Parte 4: Aprendizagem de Diferença Temporal Previsão de TD Salsa Q-aprendizagem Parte 5: Aproximação de Função Aproximação de função linear Aproximação de função não linear Redes Q profundas Parte 6: Aplicações de Aprendizagem por Reforço Robótica Jogando Sistemas autônomos Parte 7: Tópicos Avançados em Aprendizagem por Reforço
-
Objetivos
Objetivos
Os objetivos do curso são: introduzir os conceitos e princípios fundamentais da aprendizagem por reforço e do controle ótimo dos Processos de Decisão Markov (MDPs); fornecer uma compreensão abrangente das diferentes abordagens para resolver os MDPs, incluindo iteração de valor, iteração de políticas e programação dinâmica; ensinar diferentes abordagens e conceitos na aprendizagem por reforço, incluindo compensações exploração-exploração, funções de recompensa, diferença temporal, Monte Carlo, gradiente de política e métodos ator-críticos; introduzir tópicos avançados, como aprendizagem por reforço profundo e aprendizagem por reforço multiagente, incluindo abordagens de aprendizagem descentralizadas e distribuídas; equipar os alunos com as habilidades práticas para implementar e aplicar os algoritmos a problemas do mundo real e incentivar os alunos a avaliar criticamente os pontos fortes e as limitações das abordagens aprendidas e a identificar futuras direções de pesquisas na área.
-
Metodologias de ensino e avaliação
Metodologias de ensino e avaliação
Palestras: As palestras podem ser ministradas por meio de ensino em sala de aula tradicional, vídeos on-line ou palestras pré-gravadas que os alunos podem acessar a qualquer momento. Discussões em Grupo: Os alunos podem discutir seus pontos de vista e opiniões sobre tópicos específicos relacionados ao curso. Essa abordagem pode ajudar os alunos a desenvolver suas habilidades de pensamento analítico e crítico. Exercícios de resolução de problemas: Exercícios de resolução de problemas podem ser usados ¿¿para desenvolver habilidades práticas para implementar e aplicar algoritmos de aprendizagem por reforço. Esses exercícios podem ser realizados em grupo ou individualmente e podem ser baseados em problemas do mundo real relacionados à robótica, jogos e sistemas autônomos. Tarefas: Essas tarefas podem incluir tarefas de programação que exigem que os alunos implementem e apliquem algoritmos de aprendizagem por reforço a problemas do mundo real. Projetos.
-
Bibliografia principal
Bibliografia principal
Richard S. Sutton and Andrew G. Barto. Reinforcement Learning: An Introduction", 2015. Yuxi Li, Deep Reinforcement Learning: An Overview, 2018. M.S. Stankovic, N. Ilic and S.S. Stankovic, “Decentralized Consensus-Based Estimation and Target Tracking“, Academic Mind, Belgrade, 2021 Vamvoudakis, K.G., Wan, Y., Lewis, F.L., Cansever, D. (eds), Handbook of Reinforcement Learning and Control. Studies in Systems, Decision and Control, vol 325. Springer, 2021. Bertsekas, Dimitri. Reinforcement learning and optimal control. Athena Scientific, 2019. Bertsekas, Dimitri P. "Dynamic programming and optimal control 4th edition, volume ii." Athena Scientific, 2015. Meyn, Sean. Control systems and reinforcement learning. Cambridge University Press, 2022. Ba¿ar, Tamer, and Geert Jan Olsder. Dynamic noncooperative game theory. Society for Industrial and Applied Mathematics, 1998. Goodfellow, Ian, Yoshua Bengio, and Aaron Courville. Deep learning. MIT press, 2016.
-
Horário de Atendimento
Horário de Atendimento
-
Mobilidade
Mobilidade
Não