| Partie 01 | |||
| 01 - Introduction à la problématique de l'apprentissage par renforcement | |||
| 01 - Présentation.mkv | 79.84 MB | ||
| 02 - Concepts et terminologie.mkv | 55.47 MB | ||
| 03 - Fonctionnement de l'apprentissage par renforcement.mkv | 29.75 MB | ||
| 04 - Autres concepts.mkv | 59.08 MB | ||
| 05 - Processus de décision Markovien (MDP) déterministes.mkv | 51.35 MB | ||
| 06 - MDP stochastiques.mkv | 13.59 MB | ||
| 07 - Exemple de MDP en 2D sous Python.mkv | 28.98 MB | ||
| 08 - Table des transitions stochastiques.mkv | 66.7 MB | ||
| 09 - Formulation mathématique des MDP.mkv | 58.58 MB | ||
| 10 - Problématique du bandit manchot.mkv | 75.94 MB | ||
| 11 - Paramétrage des distributions (loi normale).mkv | 40.36 MB | ||
| 12 - Calcul de la valeur d'une action.mkv | 41.14 MB | ||
| 13 - Programme Python du bandit manchot.mkv | 82.72 MB | ||
| 14 - Utiliser les tenseurs en Python avec Numpy.mkv | 68.57 MB | ||
| 15 - Programme de simulation.mkv | 32.19 MB | ||
| 16 - Simulation avec la méthode Epsilon-Greedy.mkv | 30.37 MB | ||
| 17 - Simulation avec la méthode UCB.mkv | 30.13 MB | ||
| 02 - Approche avec les équations de Bellman | |||
| 01 - Fonction valeur d'état.mkv | 69.88 MB | ||
| 02 - Fonction valeur d'action.mkv | 21.77 MB | ||
| 03 - Equation de Bellman pour la valeur d'état.mkv | 61.13 MB | ||
| 04 - Equation de Bellman pour la valeur d'action.mkv | 25.45 MB | ||
| 05 - Optimalité.mkv | 9.44 MB | ||
| 06 - Exemple en Python - Présentation du problème.mkv | 27.48 MB | ||
| 07 - Exemple en Python - Construction de la table de transition.mkv | 87.82 MB | ||
| 08 - Exemple en Python - Application de l'algorithme.mkv | 127.51 MB | ||
| 03 - Application sur un projet réel | |||
| 01 - Présentation du projet.mkv | 92.64 MB | ||
| 02 - Instanciation de la classe et table des transitions.mkv | 52.38 MB | ||
| 03 - Table des valeurs des actions et des états.mkv | 9.43 MB | ||
| 04 - Application Bellman avec stratégie Greddy.mkv | 78.24 MB | ||
| 05 - Application Bellman avec stratégie Epsilon-Greedy.mkv | 42.25 MB | ||
| 04 - Méthodes d'optimisation basées sur la programmation dynamique | |||
| 01 - Introduction à la programmation dynamique.mkv | 32.97 MB | ||
| 02 - Exemple d'algorithme récursif et dynamique.mkv | 34.74 MB | ||
| 03 - Rappels sur l'optimalité des fonctions de valeurs d'actions et d'états.mkv | 29.36 MB | ||
| 04 - Algorithme itératif pour l'évaluation des stratégies.mkv | 104.65 MB | ||
| 05 - Algorithme d'amélioration des stratégies.mkv | 75.82 MB | ||
| 06 - Algorithme final d'itération des stratégies.mkv | 23.13 MB | ||
| 07 - Exemple Frozen Lake non déterministe.mkv | 127.8 MB | ||
| 08 - Exemple Frozen Lake quasi-déterministe.mkv | 15.9 MB | ||
| 09 - Algorithme par itération des valeurs.mkv | 35.87 MB | ||
| 10 - Application sur le projet du magasin.mkv | 110.72 MB | ||
| 05 - Méthodes de Monte Carlo | |||
| 01 - Introduction aux méthodes de Monte Carlo.mkv | 50.98 MB | ||
| 02 - Estimation de la fonction des valeurs des états.mkv | 38.23 MB | ||
| 03 - Exemple présentation du jeu et création des trajectoires.mkv | 90.74 MB | ||
| 04 - Estimation des valeurs des états avec les algorithmes FVMC et EVMC.mkv | 56.45 MB | ||
| 05 - Blackjack - Règles du jeu et avantage de la méthode de Monte Carlo.mkv | 90.12 MB | ||
| 06 - Blackjack - Création des stratégies initiales et des trajectoires.mkv | 98.67 MB | ||
| 07 - Blackjack - Estimation de la fonction des valeurs des états.mkv | 119.5 MB | ||
| 08 - Estimation de la fonction des valeurs des actions.mkv | 66.4 MB | ||
| 09 - Blackjack - Estimation de la fonction des valeurs des actions.mkv | 89.11 MB | ||
| 10 - Approximation des stratégies optimales.mkv | 52.57 MB | ||
| 11 - Blackjack - Approximation des stratégies optimales.mkv | 114.34 MB | ||
| 12 - Stratégies de type epsilon-soft.mkv | 30.51 MB | ||
| 13 - Blackjack - Stratégies de type epsilon soft.mkv | 81.97 MB | ||
| 14 - Prédictions avec échantillonnage préférentiel - On-policy et Off-policy.mkv | 68.83 MB | ||
| 15 - Ratio d'échantillonnage préférentiel.mkv | 58.83 MB | ||
| 16 - Méthode de calcul de la prédiction.mkv | 55.34 MB | ||
| 17 - Algorithme itératif de prédiction.mkv | 58.81 MB | ||
| 18 - Test de convergence des algorithmes d'échantillonnage préférentiel et ordina.mkv | 182.3 MB | ||
| 19 - Contrôle Monte Carlo de type Off Policy.mkv | 57.28 MB | ||
| 06 - Apprentissage par différences temporelles (TD Methods) - Sarsa et Q-learning | |||
| 01 - Introduction à l'apprentissage de type TD.mkv | 26.72 MB | ||
| 02 - Petit retour sur la méthode de Monte-Carlo.mkv | 45.29 MB | ||
| 03 - Prédiction par différences temporelles.mkv | 75.32 MB | ||
| 04 - Exemple d'illustration.mkv | 91.13 MB | ||
| 05 - Avantages des méthodes TD.mkv | 23.16 MB | ||
| 06 - Explications de l'algorithme TD(0) sur la marche aléatoire.mkv | 43.93 MB | ||
| 07 - Expérimentations avec les méthodes TD(0) et MC-alpha constant.mkv | 90.51 MB | ||
| 08 - L'apprentissage par lots.mkv | 22.11 MB | ||
| 09 - Expériences avec la marche aléatoire.mkv | 52.08 MB | ||
| 10 - Analyse des résultats.mkv | 40.87 MB | ||
| 11 - Méthode Sarsa.mkv | 64.53 MB | ||
| 12 - 12. Exemple d'illustration.mkv | 40.71 MB | ||
| 13 - Exemple d'application Sarsa avec stratégie epsilon greedy.mkv | 85.8 MB | ||
| 14 - Méthode Q-learning.mkv | 32.99 MB | ||
| 15 - 15. Exemple d'illustration.mkv | 19.66 MB | ||
| 16 - Exemple d'application Q-learning avec stratégie epsilon-soft.mkv | 81.69 MB | ||
| 17 - Comparaison Sarsa et Q-learning avec stratégie epsilon-soft.mkv | 70.03 MB | ||
| 18 - Comparaison Sarsa et Q-learning avec stratégie epsilon-greedy.mkv | 39.48 MB | ||
| 07 - Méthodes par différences temporelles n-Step (n-step TD Methods) | |||
| 01 - Introduction aux méthodes n-step.mkv | 7.57 MB | ||
| 02 - Prédiction avec les méthodes TD n-step.mkv | 71.03 MB | ||
| 03 - Exemple - Présentation de la problématique.mkv | 46.76 MB | ||
| 04 - Applicaton de l'algorithme n-step.mkv | 47.69 MB | ||
| 05 - Avantage des méthodes n-step sur les erreurs d'estimation commises.mkv | 40.13 MB | ||
| 06 - Contrôle avec la méthode Sarsa n-step.mkv | 35.89 MB | ||
| 07 - Exemple d'application Sarsa n-step.mkv | 94.19 MB | ||
| 08 - Apprentissage de type Off-policy avec les méthodes n-step.mkv | 51.32 MB | ||
| 09 - Exemple d'application Off-policy Sarsa n-step.mkv | 109.64 MB | ||
| 10 - Apprentissage de type Off-policy sans échantillonnage préférentiel.mkv | 46.01 MB | ||
| 11 - Mise en équation et construction de l'algorithme n-step à Arbre.mkv | 52.57 MB | ||
| 12 - Exemple d'application n-step à Arbre.mkv | 65.04 MB | ||
| 13 - Conclusion.mkv | 10.87 MB | ||
| Fichiers source | |||
| 01 | |||
| 1.1 1. Présentation.pdf | 815.55 KB | ||
| 10.1 6. Problématique du bandit manchot.html | 273.43 KB | ||
| 11.1 7. Simulations avec Python.ipynb | 14.86 KB | ||
| 12.1 7. Simulations avec Python.ipynb | 14.86 KB | ||
| 13.1 7. Simulations avec Python.ipynb | 14.86 KB | ||
| 14.1 7.4. Les tenseurs avec Numpy.ipynb | 7.27 KB | ||
| 15.1 7. Simulations avec Python.ipynb | 14.86 KB | ||
| 16.1 7. Simulations avec Python.ipynb | 14.86 KB | ||
| 17.1 7. Simulations avec Python.ipynb | 14.86 KB | ||
| 2.1 2. Problématiques et concepts en RL.html | 277.37 KB | ||
| 3.1 2. Problématiques et concepts en RL.html | 277.37 KB | ||
| 4.1 2. Problématiques et concepts en RL.html | 277.37 KB | ||
| 5.1 3. Processus de décision Markovien.html | 272.8 KB | ||
| 6.1 3. Processus de décision Markovien.html | 272.8 KB | ||
| 7.1 4_Exemple_de_MDP_en_2D.ipynb | 7.11 KB | ||
| 8.1 4_Exemple_de_MDP_en_2D.ipynb | 7.11 KB | ||
| 9.1 5. Formulation mathématique des MDP.html | 269.01 KB | ||
| 02 | |||
| 1.1 1. Fonction de valeur d'état et d'action.html | 273.8 KB | ||
| 2.1 1. Fonction de valeur d'état et d'action.html | 273.8 KB | ||
| 3.1 2. Equation de Bellman.html | 269.95 KB | ||
| 4.1 3. Equation de Bellman pour la valeur d'action.html | 269.6 KB | ||
| 5.1 4. Optimalité.html | 268.13 KB | ||
| 6.1 Exemple_Simple_Bellman.ipynb | 23.11 KB | ||
| 7.1 Exemple_Simple_Bellman.ipynb | 23.11 KB | ||
| 8.1 Exemple_Simple_Bellman.ipynb | 33.11 KB | ||
| 03 | |||
| 1.1 1. Présentation du projet.pdf | 2.37 MB | ||
| 2.1 2. Exemple application Bellman.ipynb | 20.48 KB | ||
| 3.1 2. Exemple application Bellman.ipynb | 20.48 KB | ||
| 4.1 2. Exemple application Bellman.ipynb | 20.48 KB | ||
| 5.1 2. Exemple application Bellman.ipynb | 30.48 KB | ||
| 04 | |||
| 1.1 1. Introduction à la programmation dynamique.html | 268.16 KB | ||
| 10.1 10. Application sur le projet du magasin.ipynb | 11.31 KB | ||
| 2.1 2. Exemple d'algorithme récursif et dynamique.ipynb | 5.85 KB | ||
| 4.1 4. Algorithme itératif pour l'évaluation des stratégies.html | 275.56 KB | ||
| 5.1 5. Algorithme d'amélioration des stratégies.html | 275.05 KB | ||
| 6.1 6. Algorithme final d'itération des stratégies.html | 269.54 KB | ||
| 7.1 7. Exemple Frozen Lake.ipynb | 18.18 KB | ||
| 8.1 7. Exemple Frozen Lake.ipynb | 18.18 KB | ||
| 9.1 9. Algorithme par itération des valeurs.html | 272.42 KB | ||
| 05 | |||
| 1.1 1. Introduction aux méthodes de Monte Carlo.html | 270.26 KB | ||
| 10.1 7. Approximation des stratégies optimales.html | 272.92 KB | ||
| 11.1 8. Blackjack - Approximation des stratégies optimales.ipynb | 24.56 KB | ||
| 12.1 9. Stratégies de type epsilon-soft.html | 268.93 KB | ||
| 13.1 10. Blackjack - Stratégies de type epsilon soft.ipynb | 22.88 KB | ||
| 14.1 11. Prédictions avec échantillonnage préférentiel - On-policy et Off-policy.html | 270.81 KB | ||
| 15.1 12. Ratio d'échantillonnage préférentiel.html | 271.7 KB | ||
| 16.1 13. Méthode de calcul de la prédiction.html | 274.27 KB | ||
| 17.1 14. Algorithme itératif de prédiction.html | 274.96 KB | ||
| 18.1 15. Test de convergence des algorithmes d'échantillonnage préférentiel et ordinaires.ipynb | 29.02 KB | ||
| 19.1 16. Contrôle Monte Carlo de type Off Policy.ipynb | 20.81 KB | ||
| 2.1 2. Estimation de la fonction des valeurs des états.html | 269.27 KB | ||
| 3.1 3. Exemple avec une marche aléatoire.ipynb | 16.19 KB | ||
| 4.1 3. Exemple avec une marche aléatoire.ipynb | 16.19 KB | ||
| 5.1 4. Blackjack - Estimation des valeurs des états.ipynb | 24.79 KB | ||
| 6.1 4. Blackjack - Estimation des valeurs des états.ipynb | 34.79 KB | ||
| 7.1 4. Blackjack - Estimation des valeurs des états.ipynb | 24.79 KB | ||
| 8.1 5. Estimation de la fonction des valeurs des actions.html | 270.31 KB | ||
| 9.1 6. Blackjack - Estimation de la fonction des valeurs des actions.ipynb | 23.39 KB | ||
| 06 | |||
| 1.1 1. Introduction à l'apprentissage de type TD.html | 268.31 KB | ||
| 10.1 5. Apprentissage par lots.ipynb | 19.16 KB | ||
| 11.1 6. Méthode Sarsa.html | 281.07 KB | ||
| 12.1 7. Exemple d'illustration.html | 269.57 KB | ||
| 13.1 8. Exemple d'application Sarsa avec stratégie epsilon greedy.ipynb | 22.88 KB | ||
| 14.1 9. Méthode Q-learning.html | 271.59 KB | ||
| 15.1 10. Exemple d'illustration.html | 268.59 KB | ||
| 16.1 11. Exemple d'application Q-learning avec stratégie epsilon-soft.ipynb | 12.31 KB | ||
| 17.1 12. Comparaison Sarsa et Q-learning avec stratégie epsilon-soft.ipynb | 14.4 KB | ||
| 18.1 13. Comparaison Sarsa et Q-learning avec stratégie epsilon-greedy.ipynb | 14.22 KB | ||
| 2.1 2. Prédiction par différences temporelles.html | 287.93 KB | ||
| 3.1 2. Prédiction par différences temporelles.html | 277.93 KB | ||
| 4.1 3. Exemple d'illustration.html | 286.24 KB | ||
| 5.1 4. Avantages des méthodes TD pour la prédiction.ipynb | 18.07 KB | ||
| 6.1 4. Avantages des méthodes TD pour la prédiction.ipynb | 18.07 KB | ||
| 7.1 4. Avantages des méthodes TD pour la prédiction.ipynb | 18.07 KB | ||
| 8.1 5. Apprentissage par lots.ipynb | 19.16 KB | ||
| 9.1 5. Apprentissage par lots.ipynb | 19.16 KB | ||
| 07 | |||
| 1.1 1. Introduction aux méthodes n-step.html | 267.26 KB | ||
| 10.1 8. Apprentissage de type Off-policy sans échantillonnage préférentiel.html | 275.17 KB | ||
| 11.1 8. Apprentissage de type Off-policy sans échantillonnage préférentiel.html | 275.17 KB | ||
| 12.1 9. Exemple d'application n-step à Arbre.ipynb | 15.17 KB | ||
| 13.1 10. Conclusion.pdf | 195.35 KB | ||
| 2.1 2. Prédiction avec les méthodes TD n-step.html | 275.22 KB | ||
| 3.1 3. Exemple avec une marche aléatoire.ipynb | 13.75 KB | ||
| 4.1 3. Exemple avec une marche aléatoire.ipynb | 13.75 KB | ||
| 5.1 3. Exemple avec une marche aléatoire.ipynb | 13.75 KB | ||
| 6.1 4. Contrôle avec la méthode Sarsa n-step.html | 279.44 KB | ||
| 7.1 5. Exemple d'application Sarsa n-step.ipynb | 23.91 KB | ||
| 8.1 6. Apprentissage de type Off-policy avec les méthodes n-step.html | 281.07 KB | ||
| 9.1 7. Exemple d'application Off-policy Sarsa n-step.ipynb | 17.17 KB | ||
| Partie 02 | |||
| 01 - Prédiction de type on-policy par approximations | |||
| 01 - Introduction.mkv | 64.3 MB | ||
| 02 - Approximation de la fonction des valeurs des états.mkv | 74.29 MB | ||
| 03 - Fonction objectif de prédiction.mkv | 112.89 MB | ||
| 04 - Principe de la méthode SGD.mkv | 63.08 MB | ||
| 05 - Méthodes du gradient et du semi-gradient.mkv | 81.88 MB | ||
| 06 - Technique d'agrégation des états.mkv | 23.95 MB | ||
| 07 - Exemple d'application - Mise en place de l'environnement.mkv | 55.84 MB | ||
| 08 - Calcul des vraies valeurs des états par programmation dynamique.mkv | 47.51 MB | ||
| 09 - Application de l'algorithme SGD par agrégation des états.mkv | 58.45 MB | ||
| 10 - Analyse des résultats.mkv | 57.51 MB | ||
| 11 - Principe d'approximation par les méthodes linéaires.mkv | 24.18 MB | ||
| 12 - Convergence des méthodes linéaire et majoration de l'erreur.mkv | 81.24 MB | ||
| 13 - Algorithme du semi-gradient TD n-step.mkv | 20.87 MB | ||
| 14 - Exemple d'application semi-gradient TD(0).mkv | 42.88 MB | ||
| 15 - Analyse des erreurs obtenues pour différentes valeurs de alpha et de n.mkv | 18.78 MB | ||
| 02 - Construction des fonctions d'approximations linéaires | |||
| 01 - Introduction.mkv | 46.44 MB | ||
| 02 - Bases polynomiales.mkv | 64.64 MB | ||
| 03 - Exemple avec les bases polynomiales - implantation du modèle.mkv | 121.1 MB | ||
| 04 - Exécution du modèle et analyse des résultats.mkv | 105.92 MB | ||
| 05 - Les bases de Fourier en 1D.mkv | 46.76 MB | ||
| 06 - Exemple de base de Fourier et d'approximation de fonction en 1D.mkv | 32.71 MB | ||
| 07 - Exemple de base de Fourier et d'approximation de fonction en 2D.mkv | 102.14 MB | ||
| 08 - Exemple avec les bases de Fourier.mkv | 98.91 MB | ||
| 09 - Comparaison bases Polynomiales et de Fourier.mkv | 27.88 MB | ||
| 03 - Approximation des fonctions non linéaires avec les réseaux neuronaux artificiels | |||
| 01 - Intelligence artificielle, machine learning et deep learning.mkv | 27.97 MB | ||
| 02 - Les types d'apprentissages en deep learning.mkv | 69.72 MB | ||
| 03 - Structure d'un réseau de neurones artificiels.mkv | 51.36 MB | ||
| 04 - Fonction d'activation de type Sigmoide.mkv | 25.18 MB | ||
| 05 - Fonction de prédiction, de perte et de coût.mkv | 66.3 MB | ||
| 06 - Algorithme du gradient.mkv | 38.3 MB | ||
| 07 - Utiliser un réseau de neurones avec Tensorflow-Keras Introduction.mkv | 51.27 MB | ||
| 08 - Utiliser un réseau de neurones avec Tensorflow-Keras - Création du modèle.mkv | 76.73 MB | ||
| 09 - Utiliser un réseau de neurones avec Tensorflow-Keras - Entrainement + prédiction.mkv | 48.5 MB | ||
| 10 - Exemple d'application avec un réseau de neurones - Création du réseau.mkv | 40.85 MB | ||
| 11 - Exemple d'application avec un réseau de neurones - Algorithme n-step TD.mkv | 143.74 MB | ||
| 12 - Exemple d'application avec un réseau de neurones - Configuration de l'optimiseur.mkv | 88.47 MB | ||
| 13 - Exemple d'application avec un réseau de neurones - Entrainement du modèle.mkv | 68.02 MB | ||
| 04 - Contrôle de type on-policy par approximations | |||
| 01 - Introduction.mkv | 30.89 MB | ||
| 02 - Contrôle semi-gradient sur des tâches épisodiques.mkv | 67.94 MB | ||
| 03 - Exemple d'application Sarsa 1-pas épisodique avec Fourier - Environnement du jeu.mkv | 149.42 MB | ||
| 04 - Exemple d'application Sarsa 1-pas épisodique avec Fourier - Fnc. d'approximation.mkv | 173.39 MB | ||
| 05 - Exemple d'application Sarsa 1-pas épisodique avec Fourier - Algorithme avec.mkv | 162.07 MB | ||
| 06 - Exemple d'application Sarsa 1-pas épisodique avec Fourier - Résultats.mkv | 131.61 MB | ||
| 07 - Contrôle semi-gradient sur des tâches continues.mkv | 92.65 MB | ||
| 08 - Exemple de tâche continue - Présentation de l'environnement.mkv | 100.87 MB | ||
| 09 - Exemple de tâche continue - Entrainement avec l'algorithme Sarsa différentiel.mkv | 102.66 MB | ||
| 10 - Exemple de tâche continue - Analyse des résultats.mkv | 38.26 MB | ||
| 11 - Algorithme différentiel semi gradient Sarsa n-step.mkv | 36.87 MB | ||
| 12 - Exemple de contrôle différentiel semi gradient Sarsa n-step.mkv | 100.63 MB | ||
| 05 - Contrôle on-policy Deep-Sarsa (Méthode Sarsa avec les réseaux de neurones) | |||
| 01 - Présentation du problème.mkv | 68.83 MB | ||
| 02 - Construction du réseau de neurones.mkv | 91.97 MB | ||
| 03 - Algorithme d'apprentissage.mkv | 81.68 MB | ||
| 04 - Présentation de l'algorithme Python.mkv | 85.41 MB | ||
| 05 - Explications de l'algorithme Python.mkv | 104.62 MB | ||
| 06 - Résultats et analyse.mkv | 24.25 MB | ||
| 06 - Méthodes off-policy avec approximations | |||
| 01 - Introduction.mkv | 59.9 MB | ||
| 02 - Méthodes semi gradient.mkv | 52.66 MB | ||
| 03 - Exemples d'instabilités.mkv | 103.15 MB | ||
| 04 - Exemple de Baird.mkv | 52.99 MB | ||
| 05 - Méthode TD(0) off-policy sur l'exemple de Baird.mkv | 103.72 MB | ||
| 06 - Méthode Q-learning sur l'exemple de Baird.mkv | 46.2 MB | ||
| 07 - La triade de la mort.mkv | 59.95 MB | ||
| 08 - Aspect géométrique des fonctions des valeurs.mkv | 53.37 MB | ||
| 09 - Aspect géométrique de la méthode de Monte-Carlo.mkv | 31.02 MB | ||
| 10 - Aspect géométrique de la méthode par programmation dynamique.mkv | 50.72 MB | ||
| 11 - Aspect géométrique de la méthode par différences temporelles.mkv | 41.49 MB | ||
| 12 - Méthode SGD sur l'erreur TD(0).mkv | 50.34 MB | ||
| 13 - Exemple de mauvaise convergence de l'algorithme naïf résiduel du gradient.mkv | 49.48 MB | ||
| 14 - Méthode SGD sur l'erreur de Bellman.mkv | 97.57 MB | ||
| 15 - Exemple de mauvaise convergence de l'algorithme résiduel du gradient.mkv | 29.08 MB | ||
| 16 - Concept d'apprenabilité.mkv | 44.63 MB | ||
| 17 - La fonction objectif VE n'est pas apprenable.mkv | 76.05 MB | ||
| 18 - Présentation de l'environnement pour tester l'erreur de Bellman.mkv | 52.18 MB | ||
| 19 - L'erreur de Bellman n'est pas apprenable.mkv | 46.73 MB | ||
| 20 - L'erreur de Bellman ne partage pas les paramètres optimaux.mkv | 70.4 MB | ||
| 21 - Méthodes par gradient TD - Notations matricielles et rappels géométriques.mkv | 135.62 MB | ||
| 22 - Méthodes par gradient TD - Expression du projecteur orthogonal.mkv | 45.84 MB | ||
| 23 - Méthodes par gradient TD - Construction de l'algorithme.mkv | 84.38 MB | ||
| 24 - Méthode Gradient TD - Exemple de Baird.mkv | 89.59 MB | ||
| 25 - Méthodes Emphatic-TD.mkv | 109.47 MB | ||
| 26 - Méthode Emphatic TD - Exemple de Baird.mkv | 69.55 MB | ||
| 07 - Contrôle off-policy Deep Q-learning | |||
| 01 - Présentation de l'environnement.mkv | 22.58 MB | ||
| 02 - Illustration animée de l'environnement.mkv | 19.85 MB | ||
| 03 - Entrainement du modèle.mkv | 104.55 MB | ||
| 04 - Animation des résultats.mkv | 24.78 MB | ||
| Fichiers source | |||
| 01 | |||
| 1.1 1. Introduction.html | 268.84 KB | ||
| 10.1 5. Exemple d'application - agrégation d'états d'une marche aléatoire.ipynb | 18.69 KB | ||
| 11.1 6. Méthodes linéaires.ipynb | 13.48 KB | ||
| 12.1 6. Méthodes linéaires.ipynb | 13.48 KB | ||
| 13.1 6. Méthodes linéaires.ipynb | 13.48 KB | ||
| 14.1 7. Exemple d'application semi_gradient TD(0) et n-step.ipynb | 20.27 KB | ||
| 15.1 7. Exemple d'application semi_gradient TD(0) et n-step.ipynb | 20.27 KB | ||
| 2.1 2. Approximation de la fonction des valeurs des états.html | 271.47 KB | ||
| 3.1 3. Fonction objectif de prédiction.html | 275.01 KB | ||
| 4.1 4. Méthodes du gradient stochastique et du semi-gradient.html | 281.62 KB | ||
| 5.1 4. Méthodes du gradient stochastique et du semi-gradient.html | 281.62 KB | ||
| 6.1 4. Méthodes du gradient stochastique et du semi-gradient.html | 281.62 KB | ||
| 7.1 5. Exemple d'application - agrégation d'états d'une marche aléatoire.ipynb | 18.69 KB | ||
| 8.1 5. Exemple d'application - agrégation d'états d'une marche aléatoire.ipynb | 18.69 KB | ||
| 9.1 5. Exemple d'application - agrégation d'états d'une marche aléatoire.ipynb | 18.69 KB | ||
| 02 | |||
| 1.1 1. Introduction.html | 269.85 KB | ||
| 2.1 2. Bases polynomiales.html | 270.12 KB | ||
| 3.1 3. Exemple avec les bases polynomiales.ipynb | 20.07 KB | ||
| 4.1 3. Exemple avec les bases polynomiales.ipynb | 20.07 KB | ||
| 5.1 4. Bases de Fourier.ipynb | 20.24 KB | ||
| 6.1 4. Bases de Fourier.ipynb | 20.24 KB | ||
| 7.1 4. Bases de Fourier.ipynb | 20.24 KB | ||
| 8.1 5. Exemple avec les bases de Fourier.ipynb | 21.2 KB | ||
| 9.1 6. Comparaison bases Polynomes et Fourier.ipynb | 22.79 KB | ||
| 03 | |||
| 10.1 5. Exemple d'approximation non linéaire avec un réseau de neurones.ipynb | 20.44 KB | ||
| 11.1 5. Exemple d'approximation non linéaire avec un réseau de neurones.ipynb | 20.44 KB | ||
| 12.1 5. Exemple d'approximation non linéaire avec un réseau de neurones.ipynb | 20.44 KB | ||
| 3.1 4. Concepts liés aux réseaux de neurones artificiels.ipynb | 13 KB | ||
| 4.1 4. Concepts liés aux réseaux de neurones artificiels.ipynb | 13 KB | ||
| 5.1 4. Concepts liés aux réseaux de neurones artificiels.ipynb | 13 KB | ||
| 6.1 3. Concepts liés aux réseaux de neurones artificiels.ipynb | 13 KB | ||
| 7.1 4. Utilisation de Keras-Tensorflow pour mettre en oeuvre des réseaux de neurones.ipynb | 10.61 KB | ||
| 8.1 4. Utilisation de Keras-Tensorflow pour mettre en oeuvre des réseaux de neurones.ipynb | 10.61 KB | ||
| 9.1 4. Utilisation de Keras-Tensorflow pour mettre en oeuvre des réseaux de neurones.ipynb | 10.61 KB | ||
| 04 | |||
| 1.1 1. Introduction.html | 268.44 KB | ||
| 10.1 6. Exemple de contrôle semi gradient sur des tâches continues.ipynb | 29.71 KB | ||
| 11.1 7. Algorithme différentiel semi gradient Sarsa n-step.html | 270.91 KB | ||
| 12.1 8. Exemple de contrôle différentiel semi gradient Sarsa n-step.ipynb | 27.94 KB | ||
| 3.1 3. Exemple d'application de l'algorithme semi gradient Sarsa 1-pas épisodique avec bases de Fourier.ipynb | 30.76 KB | ||
| 4.1 3. Exemple d'application de l'algorithme semi gradient Sarsa 1-pas épisodique avec bases de Fourier.ipynb | 30.76 KB | ||
| 5.1 3. Exemple d'application de l'algorithme semi gradient Sarsa 1-pas épisodique avec bases de Fourier.ipynb | 30.76 KB | ||
| 6.1 3. Exemple d'application de l'algorithme semi gradient Sarsa 1-pas épisodique avec bases de Fourier.ipynb | 30.76 KB | ||
| 7.1 5. Contrôle semi-gradient sur des tâches continues.html | 280.01 KB | ||
| 8.1 6. Exemple de contrôle semi gradient sur des tâches continues.ipynb | 29.71 KB | ||
| 9.1 6. Exemple de contrôle semi gradient sur des tâches continues.ipynb | 29.71 KB | ||
| 05 | |||
| 1.1 Deep-Sarsa.ipynb | 30.28 KB | ||
| 2.1 Deep-Sarsa.ipynb | 30.28 KB | ||
| 3.1 Deep-Sarsa.ipynb | 40.28 KB | ||
| 4.1 Deep-Sarsa.ipynb | 30.28 KB | ||
| 5.1 Deep-Sarsa.ipynb | 30.28 KB | ||
| 6.1 Deep-Sarsa.ipynb | 30.28 KB | ||
| 06 | |||
| 1.1 1. Introduction.html | 270.12 KB | ||
| 10.1 7. Aspect géométrique des fonctions des valeurs.html | 288.76 KB | ||
| 11.1 7. Aspect géométrique des fonctions des valeurs.html | 288.76 KB | ||
| 12.1 8. Méthode par descente du gradient sur l'erreur de Bellman.html | 294.9 KB | ||
| 13.1 8. Méthode par descente du gradient sur l'erreur de Bellman.html | 294.9 KB | ||
| 14.1 8. Méthode par descente du gradient sur l'erreur de Bellman.html | 294.9 KB | ||
| 15.1 8. Méthode par descente du gradient sur l'erreur de Bellman.html | 294.9 KB | ||
| 16.1 9. L'erreur de Bellman n'est pas apprenable.html | 297.48 KB | ||
| 17.1 9. L'erreur de Bellman n'est pas apprenable.html | 297.48 KB | ||
| 18.1 9. L'erreur de Bellman n'est pas apprenable.html | 297.48 KB | ||
| 19.1 9. L'erreur de Bellman n'est pas apprenable.html | 297.48 KB | ||
| 2.1 2. Méthodes semi gradient.html | 275.99 KB | ||
| 20.1 9. L'erreur de Bellman n'est pas apprenable.html | 297.48 KB | ||
| 21.1 10. Méthodes par gradient TD - Introduction des concepts mathématiques.html | 286.77 KB | ||
| 22.1 10. Méthodes par gradient TD - Introduction des concepts mathématiques.html | 286.77 KB | ||
| 23.1 11. Méthodes par gradient TD - Construction de l'algorithme.html | 289.68 KB | ||
| 24.1 12. Méthode Gradient TD - Exemple de Baird.ipynb | 16.51 KB | ||
| 25.1 13. Méthodes Emphatic-TD.html | 281.94 KB | ||
| 26.1 14. Méthode Emphatic TD - Exemple de Baird.ipynb | 35.36 KB | ||
| 3.1 3. Exemples d'instabilités.html | 279.46 KB | ||
| 4.1 3. Exemples d'instabilités.html | 279.46 KB | ||
| 5.1 4. Méthode TD(0) off-policy sur l'exemple de Baird.ipynb | 12.38 KB | ||
| 6.1 5. Méthode Q-learning sur l'exemple de Baird.ipynb | 24.4 KB | ||
| 7.1 6. La triade de la mort.html | 271.51 KB | ||
| 8.1 7. Aspect géométrique des fonctions des valeurs.html | 288.76 KB | ||
| 9.1 7. Aspect géométrique des fonctions des valeurs.html | 288.76 KB | ||
| 07 | |||
| 1.1 Deep Q-Learning.ipynb | 29.31 KB | ||
| 2.1 Deep Q-Learning.ipynb | 29.31 KB | ||
| 3.1 Deep Q-Learning.ipynb | 29.31 KB | ||
| 4.1 Deep Q-Learning.ipynb | 29.31 KB |
Udemy - Apprentissage par renforcement avec Python
Partie 1 : 7 sections • 90 sessions • Durée totale: 9 h 5 min
Partie 2 : 7 sections • 85 sessions • Durée totale: 9 h 57 min
Ce que vous apprendrez
Comprendre le fonctionnement de l'apprentissage par renforcement et les concepts généraux associés
Comprendre les différentes approches permettant de résoudre les problèmes d'apprentissage par renforcement et trouver le plus adapter
Comprendre en profondeur le fonctionnement des différents algorithmes utilisés
Comment coder l'ensemble des algorithmes proposés en langage Python sur de nombreux exemples
Prérequis
Connaissances en Python et notions de probabilités en Mathématiques.
Accès à google colab (gratuit, nécessite un compte gmail)
Description
L’intelligence artificielle s’invite dans tous les secteurs. Toutefois, contrairement à ce que l’on peut penser, l’IA n’est pas une technologie unique.
Il existe de nombreuses branches et sous-catégories telles que le Machine Learning et le Deep Learning. Dans cette formation, je vous propose de vous initier à l’apprentissage par renforcement (Reinforcement Learning). Vous utiliserez le langage de programmation Python et des librairies spécialisées dans le traitement des données comme par exemple Numpy.
PARTIE 2:
Ce que vous apprendrez
Apprentissage par renforcement dans les environnement continus
Apprentissage en ligne et hors ligne (on-policy et off-policy)
Construire des réseaux de neurones avec Keras et Tensorflow
Deep reinforment learning (Deep Sarsa, Deep Q-learning)
Coder des algorithmes avancés d'apprentissage par renforcement en Python
Prérequis
Connaissances en Python
Accès à google colab (gratuit, il faut juste un compte gmail)
Mathématiques : Notions sur les probabilités, algèbre linéaire (matrices et espaces vectoriels)
Description
À l’heure actuelle, l’apprentissage par renforcement se révèle comme la façon la plus efficace de faire appel à la créativité des machines. Contrairement à un humain, une intelligence artificielle peut effectuer des milliers de tentatives en simultané. Il suffit pour ce faire de lancer le même algorithme en parallèle sur une puissante infrastructure informatique.
Cette formation fait suite à ma précédente formation d’initiation à l’apprentissage par renforcement (partie 1).
Dans cette nouvelle formation, vous allez étendre toutes les connaissances et les méthodes acquises dans le cadre d’environnements finis sur des environnements infinis, sur des tâches épisodiques et continues.
Vous apprendrez par exemple à coder des approximations de fonctions linéaires et non linéaires à l’aide de réseaux de neurones artificiels sous Keras / Tensorflow, à coder des algorithmes en ligne (on-policy) deep Sarsa et hors ligne (off-policy) deep Q-learning… Et bien plus encore !
Codec vidéo: MPEG /1280 x 720 px / 30 im/s 520 à 3334 kbp:/s
Codec Audio: aac 128 kbp/s à 946 kbp/s
Langues : Français
Sous-titres : oui (fr)
Nombre De Fichiers: 345
Nombre de dossiers: 32
Poids Total: 10.70 GO
| torrent name | size | uploader | age | seed | leech |
|---|---|---|---|---|---|
|
STARTER PACK - FORMATION ENTREPRENEUR / TRADING / SEO / RESEAUX SOCIAUX Posted by
Pti__Math in Other
|
272.95 GB | Pti__Math | 1 year | 0 | 0 |
|
Théophile Eliet - Formation Mega Pack V2 Webmarketing 2020 FRENCH WEB 720p x264 Posted by
Merci_Yumi in Other
|
19.08 GB | Merci_Yumi | 1 year | 7 | 0 |
|
Elephorm - Pack.de.4.formation.Studio.One.6.Professional.FR.2023.WEB-DL.1080P.X264 Posted by
Nawel087 in Other
|
4.55 GB | Nawel087 | 2 years | 0 | 2 |
| 5.7 GB | Nawel087 | 3 years | 25 | 0 | |
| 3.15 GB | Nawel087 | 3 years | 15 | 0 |
All Comments