mi-reinforcement-learning/a00040_source.html

 #ifndef SRC_APPLICATION_MAZEOFDIGITSDLRERPOMPD_HPP_

 #define SRC_APPLICATION_MAZEOFDIGITSDLRERPOMPD_HPP_


 #include <vector>

 #include <string>


 #include <opengl/application/OpenGLEpisodicApplication.hpp>

 #include <opengl/visualization/WindowCollectorChart.hpp>

 #include <opengl/visualization/WindowMazeOfDigits.hpp>

 using namespace mic::opengl::visualization;


 #include <mlnn/BackpropagationNeuralNetwork.hpp>

 // Using multi layer neural networks

 using namespace mic::mlnn;

 using namespace mic::types;


 #include <types/MazeOfDigits.hpp>

 #include <types/SpatialExperienceMemory.hpp>


 namespace mic {

 namespace application {


 class MazeOfDigitsDLRERPOMPD: public mic::opengl::application::OpenGLEpisodicApplication {

 public:

     MazeOfDigitsDLRERPOMPD(std::string node_name_ = "application");


     virtual ~MazeOfDigitsDLRERPOMPD();


 protected:


     virtual void initialize(int argc, char* argv[]);


     virtual void initializePropertyDependentVariables();


     virtual bool performSingleStep();


     virtual void startNewEpisode();


     virtual void finishCurrentEpisode();


 private:


     WindowCollectorChart<float>* w_chart;


     mic::utils::DataCollectorPtr<std::string, float> collector_ptr;


     WindowMazeOfDigits* wmd_environment;

     WindowMazeOfDigits* wmd_observation;


     mic::environments::MazeOfDigits env;


     std::shared_ptr<std::vector <mic::types::Position2D> > saccadic_path;


     size_t batch_size;


     mic::configuration::Property<float> step_reward;


     mic::configuration::Property<float> discount_rate;


     mic::configuration::Property<float> learning_rate;


     mic::configuration::Property<double> epsilon;


     mic::configuration::Property<int> step_limit;


     mic::configuration::Property<std::string> statistics_filename;


     mic::configuration::Property<std::string> mlnn_filename;


     mic::configuration::Property<bool> mlnn_save;


     mic::configuration::Property<bool> mlnn_load;


     BackpropagationNeuralNetwork<float> neural_net;


     float computeBestValueForGivenStateAndPredictions(mic::types::Position2D player_position_, float* predictions_);


     mic::types::MatrixXfPtr getPredictedRewardsForGivenState(mic::types::Position2D player_position_);


     mic::types::NESWAction selectBestActionForGivenState(mic::types::Position2D player_position_);


     std::string streamNetworkResponseTable();


     long long sum_of_iterations;


     double sum_of_opt_to_episodic_lenghts;


     SpatialExperienceMemory experiences;

 };


 } /* namespace application */

 } /* namespace mic */


 #endif /* SRC_APPLICATION_MAZEOFDIGITSDLRERPOMPD_HPP_ */

mic::application::MazeOfDigitsDLRERPOMPD::collector_ptr
mic::utils::DataCollectorPtr< std::string, float > collector_ptr
Data collector.
Definition: MazeOfDigitsDLRERPOMPD.hpp:100

mic::application::MazeOfDigitsDLRERPOMPD::statistics_filename
mic::configuration::Property< std::string > statistics_filename
Property: name of the file to which the statistics will be exported.
Definition: MazeOfDigitsDLRERPOMPD.hpp:144

MazeOfDigits.hpp

mic::application::MazeOfDigitsDLRERPOMPD::discount_rate
mic::configuration::Property< float > discount_rate
Definition: MazeOfDigitsDLRERPOMPD.hpp:125

mic::application::MazeOfDigitsDLRERPOMPD::sum_of_iterations
long long sum_of_iterations
Definition: MazeOfDigitsDLRERPOMPD.hpp:189

mic::application::MazeOfDigitsDLRERPOMPD::saccadic_path
std::shared_ptr< std::vector< mic::types::Position2D > > saccadic_path
Saccadic path - a sequence of consecutive agent positions.
Definition: MazeOfDigitsDLRERPOMPD.hpp:112

mic::application::MazeOfDigitsDLRERPOMPD::wmd_observation
WindowMazeOfDigits * wmd_observation
Window displaying the observation.
Definition: MazeOfDigitsDLRERPOMPD.hpp:105

SpatialExperienceMemory.hpp

mic::application::MazeOfDigitsDLRERPOMPD::learning_rate
mic::configuration::Property< float > learning_rate
Definition: MazeOfDigitsDLRERPOMPD.hpp:130

mic::application::MazeOfDigitsDLRERPOMPD::sum_of_opt_to_episodic_lenghts
double sum_of_opt_to_episodic_lenghts
Definition: MazeOfDigitsDLRERPOMPD.hpp:194

mic::application::MazeOfDigitsDLRERPOMPD::mlnn_filename
mic::configuration::Property< std::string > mlnn_filename
Property: name of the file to which the neural network will be serialized (or deserialized from)...
Definition: MazeOfDigitsDLRERPOMPD.hpp:147

mic::application::MazeOfDigitsDLRERPOMPD::w_chart
WindowCollectorChart< float > * w_chart
Window for displaying statistics.
Definition: MazeOfDigitsDLRERPOMPD.hpp:97

mic::application::MazeOfDigitsDLRERPOMPD::experiences
SpatialExperienceMemory experiences
Definition: MazeOfDigitsDLRERPOMPD.hpp:199

mic::application::MazeOfDigitsDLRERPOMPD::mlnn_load
mic::configuration::Property< bool > mlnn_load
Property: flad denoting thether the nn should be loaded from a file (at the initialization of the tas...
Definition: MazeOfDigitsDLRERPOMPD.hpp:153

mic::environments::MazeOfDigits
Class emulating the maze of digits environment.
Definition: MazeOfDigits.hpp:50

mic::application::MazeOfDigitsDLRERPOMPD::env
mic::environments::MazeOfDigits env
The maze of digits environment.
Definition: MazeOfDigitsDLRERPOMPD.hpp:109

mic::application::MazeOfDigitsDLRERPOMPD::epsilon
mic::configuration::Property< double > epsilon
Definition: MazeOfDigitsDLRERPOMPD.hpp:136

mic::application::MazeOfDigitsDLRERPOMPD
Application of Partially Observable Deep Q-learning with Experience Reply to the maze of digits probl...
Definition: MazeOfDigitsDLRERPOMPD.hpp:51

mic::application::MazeOfDigitsDLRERPOMPD::neural_net
BackpropagationNeuralNetwork< float > neural_net
Multi-layer neural network used for approximation of the Qstate rewards.
Definition: MazeOfDigitsDLRERPOMPD.hpp:156

mic::application::MazeOfDigitsDLRERPOMPD::wmd_environment
WindowMazeOfDigits * wmd_environment
Window displaying the whole environment.
Definition: MazeOfDigitsDLRERPOMPD.hpp:103

mic::application::MazeOfDigitsDLRERPOMPD::step_limit
mic::configuration::Property< int > step_limit
Definition: MazeOfDigitsDLRERPOMPD.hpp:141

mic::application::MazeOfDigitsDLRERPOMPD::batch_size
size_t batch_size
Size of the batch in experience replay - set to the size of maze (width*height).
Definition: MazeOfDigitsDLRERPOMPD.hpp:115

mic::types::SpatialExperienceMemory
Class representing the spatial experience memory - used in memory replay. Derived from the Batch clas...
Definition: SpatialExperienceMemory.hpp:87

mic::application::MazeOfDigitsDLRERPOMPD::step_reward
mic::configuration::Property< float > step_reward
Definition: MazeOfDigitsDLRERPOMPD.hpp:120

mic::application::MazeOfDigitsDLRERPOMPD::mlnn_save
mic::configuration::Property< bool > mlnn_save
Property: flad denoting thether the nn should be saved to a file (after every episode end)...
Definition: MazeOfDigitsDLRERPOMPD.hpp:150