mi-reinforcement-learning/a00031_source.html

 #include <limits>

 #include <utils/RandomGenerator.hpp>


 #include <application/GridworldDRLExperienceReplayPOMDP.hpp>


 namespace mic {

 namespace application {


 void RegisterApplication (void) {

     REGISTER_APPLICATION(mic::application::GridworldDRLExperienceReplayPOMDP);

 }


 GridworldDRLExperienceReplayPOMDP::GridworldDRLExperienceReplayPOMDP(std::string node_name_) : OpenGLEpisodicApplication(node_name_),

         step_reward("step_reward", 0.0),

         discount_rate("discount_rate", 0.9),

         learning_rate("learning_rate", 0.005),

         epsilon("epsilon", 0.1),

         step_limit("step_limit",0),

         statistics_filename("statistics_filename","drl_er_statistics.csv"),

         mlnn_filename("mlnn_filename", "drl_er_mlnn.txt"),

         mlnn_save("mlnn_save", false),

         mlnn_load("mlnn_load", false),

         experiences(10000,1)

     {

     // Register properties - so their values can be overridden (read from the configuration file).

     registerProperty(step_reward);

     registerProperty(discount_rate);

     registerProperty(learning_rate);

     registerProperty(epsilon);

     registerProperty(step_limit);

     registerProperty(statistics_filename);

     registerProperty(mlnn_filename);

     registerProperty(mlnn_save);

     registerProperty(mlnn_load);


     LOG(LINFO) << "Properties registered";

 }


 GridworldDRLExperienceReplayPOMDP::~GridworldDRLExperienceReplayPOMDP() {

     delete(w_chart);

 }


 void GridworldDRLExperienceReplayPOMDP::initialize(int argc, char* argv[]) {

     // Initialize GLUT! :]

     VGL_MANAGER->initializeGLUT(argc, argv);


     collector_ptr = std::make_shared < mic::utils::DataCollector<std::string, float> >( );

     // Add containers to collector.

     collector_ptr->createContainer("number_of_steps",  mic::types::color_rgba(255, 0, 0, 180));

     collector_ptr->createContainer("number_of_steps_average", mic::types::color_rgba(255, 255, 0, 180));

     collector_ptr->createContainer("collected_reward", mic::types::color_rgba(0, 255, 0, 180));

     collector_ptr->createContainer("collected_reward_average", mic::types::color_rgba(0, 255, 255, 180));

     collector_ptr->createContainer("success_ratio",  mic::types::color_rgba(255, 255, 255, 180));


     sum_of_iterations = 0;

     sum_of_rewards = 0;

     number_of_successes = 0;


     // Create the visualization windows - must be created in the same, main thread :]

     w_chart = new WindowCollectorChart<float>("GridworldDRLExperienceReplayPOMDP", 256, 256, 0, 0);

     w_chart->setDataCollectorPtr(collector_ptr);


 }


 void GridworldDRLExperienceReplayPOMDP::initializePropertyDependentVariables() {

     // Initialize the gridworld.

     grid_env.initializeEnvironment();


     // Hardcode batchsize - for fastening the display!

     batch_size = grid_env.getObservationWidth() * grid_env.getObservationHeight();


     // Try to load neural network from file.

     if ((mlnn_load) && (neural_net.load(mlnn_filename))) {

         // Do nothing ;)

     } else {

         // Create a simple neural network.

         // gridworld wxhx4 -> 100 -> 4 -> regression!.

         neural_net.pushLayer(new Linear<float>((size_t) grid_env.getObservationSize(), 250));

         neural_net.pushLayer(new ReLU<float>(250));

         neural_net.pushLayer(new Linear<float>(250, 100));

         neural_net.pushLayer(new ReLU<float>(100));

         neural_net.pushLayer(new Linear<float>(100, 4));


         // Set batch size.

         neural_net.resizeBatch(batch_size);

         // Change optimization function from default GradientDescent to Adam.

         neural_net.setOptimization<mic::neural_nets::optimization::Adam<float> >();

         // Set loss function -> regression!

         neural_net.setLoss <mic::neural_nets::loss::SquaredErrorLoss<float> >();


         LOG(LINFO) << "Generated new neural network";

     }//: else


     // Set batch size in experience replay memory.

     experiences.setBatchSize(batch_size);

 }


 void GridworldDRLExperienceReplayPOMDP::startNewEpisode() {

     LOG(LSTATUS) << "Starting new episode " << episode;


     // Generate the gridworld (and move player to initial position).

     grid_env.initializeEnvironment();


     LOG(LSTATUS) << "Network responses: \n" <<  streamNetworkResponseTable();

     LOG(LSTATUS) << "Observation: \n"  << grid_env.observationToString();

     LOG(LSTATUS) << "Environment: \n" << grid_env.environmentToString();

 }


 void GridworldDRLExperienceReplayPOMDP::finishCurrentEpisode() {

     LOG(LTRACE) << "End current episode";


     mic::types::Position2D current_position = grid_env.getAgentPosition();

     float reward = grid_env.getStateReward(current_position);

     sum_of_iterations += iteration;

     sum_of_rewards += reward;

     if (reward > 0)

             number_of_successes++;


     // Add variables to container.

     collector_ptr->addDataToContainer("number_of_steps",iteration);

     collector_ptr->addDataToContainer("number_of_steps_average",(float)sum_of_iterations/episode);

     collector_ptr->addDataToContainer("collected_reward", reward);

     collector_ptr->addDataToContainer("collected_reward_average", (float)sum_of_rewards/episode);

     collector_ptr->addDataToContainer("success_ratio", (float)number_of_successes/episode);


     // Export reward "convergence" diagram.

     collector_ptr->exportDataToCsv(statistics_filename);


     // Save nn to file.

     if (mlnn_save)

         neural_net.save(mlnn_filename);

 }


 std::string GridworldDRLExperienceReplayPOMDP::streamNetworkResponseTable() {

     LOG(LTRACE) << "streamNetworkResponseTable()";

     std::string rewards_table;

     std::string actions_table;


     // Remember the current state i.e. player position.

     mic::types::Position2D current_player_pos_t = grid_env.getAgentPosition();


     // Create new matrices for batches of inputs and targets.

     MatrixXfPtr inputs_batch(new MatrixXf(grid_env.getObservationSize(), batch_size));


     // Assume that the batch_size = grid_env.getWidth() * grid_env.getHeight()

     assert(grid_env.getObservationWidth()*grid_env.getObservationHeight() == batch_size);


     size_t dx = (grid_env.getObservationWidth()-1)/2;

     size_t dy = (grid_env.getObservationHeight()-1)/2;

     mic::types::Position2D p = grid_env.getAgentPosition();


     // Copy data.

     for (long oy=0, ey=(p.y-dy); oy<(long)grid_env.getObservationHeight(); oy++, ey++){

         for (long ox=0, ex=(p.x-dx); ox<(long)grid_env.getObservationWidth(); ox++, ex++) {


     //for (size_t y=0; y<grid_env.getObservationHeight(); y++){

 //      for (size_t x=0; x<grid_env.getObservationWidth(); x++) {


             // Move the player to given state - disregarding whether it was successful or not, answers for walls/positions outside of the gridworld do not interes us anyway...

             if (!grid_env.moveAgentToPosition(Position2D(ex,ey)))

                 LOG(LDEBUG) << "Failed!";

             // Encode the current state.

             mic::types::MatrixXfPtr encoded_state = grid_env.encodeObservation();

             // Add to batch.

             inputs_batch->col(oy*grid_env.getObservationWidth()+ox) = encoded_state->col(0);

         }//: for x

     }//: for y


     // Get rewards for the whole batch.

     neural_net.forward(inputs_batch);

     // Get predictions for all those states - there is no need to create a copy.

     MatrixXfPtr predicted_batch = neural_net.getPredictions();


     rewards_table += "Action values:\n";

     actions_table += "Best actions:\n";

     // Generate all possible states and all possible rewards.

     for (long oy=0, ey=(p.y-dy); oy<(long)grid_env.getObservationHeight(); oy++, ey++){

         rewards_table += "| ";

         actions_table += "| ";

         for (long ox=0, ex=(p.x-dx); ox<(long)grid_env.getObservationWidth(); ox++, ex++) {

             float bestqval = -std::numeric_limits<float>::infinity();

             size_t best_action = -1;

             for (size_t a=0; a<4; a++) {

                 float qval = (*predicted_batch)(a, oy*grid_env.getObservationWidth()+ox);


                 rewards_table += std::to_string(qval);

                 if (a==3)

                     rewards_table += " | ";

                 else

                     rewards_table += " , ";


                 // Remember the best value.

                 if (grid_env.isStateAllowed(ex,ey) && (!grid_env.isStateTerminal(ex,ey)) && grid_env.isActionAllowed(ex,ey,a) && (qval > bestqval)){

                     bestqval = qval;

                     best_action = a;

                 }//: if


             }//: for a(ctions)

             switch(best_action){

                 case 0 : actions_table += "N | "; break;

                 case 1 : actions_table += "E | "; break;

                 case 2 : actions_table += "S | "; break;

                 case 3 : actions_table += "W | "; break;

                 default: actions_table += "- | ";

             }//: switch


         }//: for x

         rewards_table += "\n";

         actions_table += "\n";

     }//: for y


     // Move player to previous position.

     grid_env.moveAgentToPosition(current_player_pos_t);


     return rewards_table + actions_table;

 }


 float GridworldDRLExperienceReplayPOMDP::computeBestValueForGivenStateAndPredictions(mic::types::Position2D player_position_, float* predictions_){

     LOG(LTRACE) << "computeBestValueForGivenState()";

     float best_qvalue = -std::numeric_limits<float>::infinity();


     // Create a list of possible actions.

     std::vector<mic::types::NESWAction> actions;

     actions.push_back(A_NORTH);

     actions.push_back(A_EAST);

     actions.push_back(A_SOUTH);

     actions.push_back(A_WEST);


     for(mic::types::NESWAction action : actions) {

         // .. and find the value of teh best allowed action.

         if(grid_env.isActionAllowed(player_position_, action)) {

             float qvalue = predictions_[(size_t)action.getType()];

             if (qvalue > best_qvalue)

                 best_qvalue = qvalue;

         }//if is allowed

     }//: for


     return best_qvalue;

 }


 mic::types::MatrixXfPtr GridworldDRLExperienceReplayPOMDP::getPredictedRewardsForGivenState(mic::types::Position2D player_position_) {

     LOG(LTRACE) << "getPredictedRewardsForGivenState()";

     // Remember the current state i.e. player position.

     mic::types::Position2D current_player_pos_t = grid_env.getAgentPosition();


     // Move the player to given state.

     grid_env.moveAgentToPosition(player_position_);


     // Encode the current state.

     mic::types::MatrixXfPtr encoded_state = grid_env.encodeObservation();


     // Create NEW matrix for the inputs batch.

     MatrixXfPtr inputs_batch(new MatrixXf(grid_env.getObservationSize(), batch_size));

     inputs_batch->setZero();


     // Set the first input - only this one interests us.

     inputs_batch->col(0) = encoded_state->col(0);


     //LOG(LERROR) << "Getting predictions for input batch:\n" <<inputs_batch->transpose();


     // Pass the data and get predictions.

     neural_net.forward(inputs_batch);


     MatrixXfPtr predictions_batch = neural_net.getPredictions();


     //LOG(LERROR) << "Resulting predictions batch:\n" << predictions_batch->transpose();


     // Get the first prediction only.

     MatrixXfPtr predictions_sample(new MatrixXf(4, 1));

     predictions_sample->col(0) = predictions_batch->col(0);


     //LOG(LERROR) << "Returned predictions sample:\n" << predictions_sample->transpose();


     // Move player to previous position.

     grid_env.moveAgentToPosition(current_player_pos_t);


     // Return the predictions.

     return predictions_sample;

 }


 mic::types::NESWAction GridworldDRLExperienceReplayPOMDP::selectBestActionForGivenState(mic::types::Position2D player_position_){

     LOG(LTRACE) << "selectBestAction";


     // Greedy methods - returns the index of element with greatest value.

     mic::types::NESWAction best_action = A_RANDOM;

     float best_qvalue = -std::numeric_limits<float>::infinity();


     // Create a list of possible actions.

     std::vector<mic::types::NESWAction> actions;

     actions.push_back(A_NORTH);

     actions.push_back(A_EAST);

     actions.push_back(A_SOUTH);

     actions.push_back(A_WEST);


     // Check the results of actions one by one... (there is no need to create a separate copy of predictions)

     MatrixXfPtr predictions_sample = getPredictedRewardsForGivenState(player_position_);

     //LOG(LERROR) << "Selecting action from predictions:\n" << predictions_sample->transpose();

     float* pred = predictions_sample->data();


     for(size_t a=0; a<4; a++) {

         // Find the best action allowed.

         if(grid_env.isActionAllowed(player_position_, mic::types::NESWAction((mic::types::NESW)a))) {

             float qvalue = pred[a];

             if (qvalue > best_qvalue){

                 best_qvalue = qvalue;

                 best_action.setAction((mic::types::NESW)a);

             }

         }//if is allowed

     }//: for


     return best_action;

 }


 bool GridworldDRLExperienceReplayPOMDP::performSingleStep() {

     LOG(LSTATUS) << "Episode "<< episode << ": step " << iteration << "";


     // TMP!

     double  nn_weight_decay = 0;


     // Get player pos at time t.

     mic::types::Position2D player_pos_t= grid_env.getAgentPosition();

     LOG(LINFO) << "Agent position at state t: " << player_pos_t;


     // Select the action.

     mic::types::NESWAction action;

     //action = A_NORTH;

     double eps = (double)epsilon;

     if ((double)epsilon < 0)

         eps = 1.0/(1.0+sqrt(episode));

     if (eps < 0.1)

         eps = 0.1;

     LOG(LDEBUG) << "eps = " << eps;

     bool random = false;


     // Epsilon-greedy action selection.

     if (RAN_GEN->uniRandReal() > eps){

         // Select best action.

         action = selectBestActionForGivenState(player_pos_t);

     } else {

         // Random action.

         action = A_RANDOM;

         random = true;

     }//: if


     // Execute action - do not monitor the success.

     grid_env.moveAgent(action);


     // Get new state s(t+1).

     mic::types::Position2D player_pos_t_prim = grid_env.getAgentPosition();

     LOG(LINFO) << "Agent position at t+1: " << player_pos_t_prim << " after performing the action = " << action << ((random) ? " [Random]" : "");


     // Collect the experience.

     SpatialExperiencePtr exp(new SpatialExperience(player_pos_t, action, player_pos_t_prim));

     // Create an empty matrix for rewards - this will be recalculated each time the experience will be replayed anyway.

     MatrixXfPtr rewards (new MatrixXf(4 , batch_size));

     // Add experience to experience table.

     experiences.add(exp, rewards);


     // Deep Q learning - train network with random sample from the experience memory.

     if (experiences.size() >= 2*batch_size) {

         // Create new matrices for batches of inputs and targets.

         MatrixXfPtr inputs_t_batch(new MatrixXf(grid_env.getObservationSize(), batch_size));

         MatrixXfPtr inputs_t_prim_batch(new MatrixXf(grid_env.getObservationSize(), batch_size));

         MatrixXfPtr targets_t_batch(new MatrixXf(4, batch_size));


         // Get the random batch.

         SpatialExperienceBatch geb = experiences.getRandomBatch();


         // Debug purposes.

         geb.setNextSampleIndex(0);

         for (size_t i=0; i<batch_size; i++) {

             SpatialExperienceSample ges = geb.getNextSample();

             SpatialExperiencePtr ge_ptr = ges.data();

             LOG(LDEBUG) << "Training sample : " << ge_ptr->s_t << " -> " << ge_ptr->a_t << " -> " << ge_ptr->s_t_prim;

         }//: for


         // Iterate through samples and create inputs_t_batch.

         for (size_t i=0; i<batch_size; i++) {

             SpatialExperienceSample ges = geb.getNextSample();

             SpatialExperiencePtr ge_ptr = ges.data();


             // Replay the experience.

             // "Simulate" moving player to position from state/time (t).

             grid_env.moveAgentToPosition(ge_ptr->s_t);

             // Encode the state at time (t).

             mic::types::MatrixXfPtr encoded_state_t = grid_env.encodeObservation();

             //float* state = encoded_state_t->data();


             // Copy the encoded state to inputs batch.

             inputs_t_batch->col(i) = encoded_state_t->col(0);

         }// for samples.


         // Get network responses.

         neural_net.forward(inputs_t_batch);

         // Get predictions for all those states...

         MatrixXfPtr predictions_t_batch = neural_net.getPredictions();

         // ... and copy them to reward pointer - a container which we will modify.

         (*targets_t_batch) = (*predictions_t_batch);


         // Iterate through samples and create inputs_t_prim_batch.

         geb.setNextSampleIndex(0);

         for (size_t i=0; i<batch_size; i++) {

             SpatialExperienceSample ges = geb.getNextSample();

             SpatialExperiencePtr ge_ptr = ges.data();


             // Replay the experience.

             // "Simulate" moving player to position from state/time (t+1).

             grid_env.moveAgentToPosition(ge_ptr->s_t_prim);

             // Encode the state at time (t+1).

             mic::types::MatrixXfPtr encoded_state_t = grid_env.encodeObservation();

             //float* state = encoded_state_t->data();


             // Copy the encoded state to inputs batch.

             inputs_t_prim_batch->col(i) = encoded_state_t->col(0);

         }// for samples.


         // Get network responses.

         neural_net.forward(inputs_t_prim_batch);

         // Get predictions for all those states...

         MatrixXfPtr predictions_t_prim_batch = neural_net.getPredictions();


         // Calculate the rewards, one by one.

         // Iterate through samples and create inputs_t_prim_batch.

         geb.setNextSampleIndex(0);

         for (size_t i=0; i<batch_size; i++) {

             SpatialExperienceSample ges = geb.getNextSample();

             SpatialExperiencePtr ge_ptr = ges.data();


             if (ge_ptr->s_t == ge_ptr->s_t_prim) {

                 // The move was not possible! Learn that as well.

                 (*targets_t_batch)((size_t)ge_ptr->a_t.getType(), i) = 3*step_reward;

             } else if(grid_env.isStateTerminal(ge_ptr->s_t_prim)) {

                 // The position at (t+1) state appears to be terminal - learn the reward.

                 (*targets_t_batch)((size_t)ge_ptr->a_t.getType(), i) = grid_env.getStateReward(ge_ptr->s_t_prim);

             } else {

                 MatrixXfPtr preds_t_prim (new MatrixXf(4, 1));

                 preds_t_prim->col(0) = predictions_t_prim_batch->col(i);

                 // Get best value for the NEXT state - position from (t+1) state.

                 float max_q_st_prim_at_prim = computeBestValueForGivenStateAndPredictions(ge_ptr->s_t_prim, preds_t_prim->data());

                 // If next state best value is finite.

                 // Update running average for given action - Deep Q learning!

                 if (std::isfinite(max_q_st_prim_at_prim))

                     (*targets_t_batch)((size_t)ge_ptr->a_t.getType(), i) = step_reward + discount_rate*max_q_st_prim_at_prim;

             }//: else


         }//: for


         LOG(LDEBUG) <<"Inputs batch:\n" << inputs_t_batch->transpose();

         LOG(LDEBUG) <<"Targets batch:\n" << targets_t_batch->transpose();


         // Perform the Deep-Q-learning.

         LOG(LDEBUG) << "Network responses before training:" << std::endl << streamNetworkResponseTable();


         // Train network with rewards.

         float loss = neural_net.train (inputs_t_batch, targets_t_batch, learning_rate, nn_weight_decay);

         LOG(LDEBUG) << "Training loss:" << loss;


         //LOG(LDEBUG) << "Network responses after training:" << std::endl << streamNetworkResponseTable();


         // Finish the replay: move the player to REAL, CURRENT POSITION.

         grid_env.moveAgentToPosition(player_pos_t_prim);

     }//: if enough experiences

     else

         LOG(LWARNING) << "Not enough samples in the experience replay memory!";


     LOG(LSTATUS) << "Network responses: \n" << streamNetworkResponseTable();

     LOG(LSTATUS) << "Observation: \n"  << grid_env.observationToString();

     LOG(LSTATUS) << "Environment: \n"  << grid_env.environmentToString();


     // Check whether state t+1 is terminal - finish the episode.

     if(grid_env.isStateTerminal(grid_env.getAgentPosition()))

         return false;


     // Check whether we reached maximum number of iterations.

     if ((step_limit>0) && (iteration >= (size_t)step_limit))

         return false;


     return true;

 }


 } /* namespace application */

 } /* namespace mic */

mic::application::GridworldDRLExperienceReplayPOMDP::finishCurrentEpisode
virtual void finishCurrentEpisode()
Definition: GridworldDRLExperienceReplayPOMDP.cpp:140

mic::application::GridworldDRLExperienceReplayPOMDP::sum_of_rewards
long long sum_of_rewards
Definition: GridworldDRLExperienceReplayPOMDP.hpp:184

mic::application::GridworldDRLExperienceReplayPOMDP::statistics_filename
mic::configuration::Property< std::string > statistics_filename
Property: name of the file to which the statistics will be exported.
Definition: GridworldDRLExperienceReplayPOMDP.hpp:134

mic::environments::Gridworld::moveAgentToPosition
virtual bool moveAgentToPosition(mic::types::Position2D pos_)
Definition: Gridworld.cpp:805

mic::types::SpatialExperienceMemory::add
virtual void add(std::shared_ptr< mic::types::SpatialExperience > input_, std::shared_ptr< mic::types::MatrixXf > target_)
Definition: SpatialExperienceMemory.hpp:110

mic::application::GridworldDRLExperienceReplayPOMDP::number_of_successes
long long number_of_successes
Definition: GridworldDRLExperienceReplayPOMDP.hpp:189

mic::environments::Gridworld::getStateReward
virtual float getStateReward(mic::types::Position2D pos_)
Definition: Gridworld.cpp:823

mic::application::GridworldDRLExperienceReplayPOMDP::~GridworldDRLExperienceReplayPOMDP
virtual ~GridworldDRLExperienceReplayPOMDP()
Definition: GridworldDRLExperienceReplayPOMDP.cpp:67

mic::application::GridworldDRLExperienceReplayPOMDP::startNewEpisode
virtual void startNewEpisode()
Definition: GridworldDRLExperienceReplayPOMDP.cpp:128

mic::application::GridworldDRLExperienceReplayPOMDP::step_limit
mic::configuration::Property< int > step_limit
Definition: GridworldDRLExperienceReplayPOMDP.hpp:131

mic::types::SpatialExperiencePtr
std::shared_ptr< mic::types::SpatialExperience > SpatialExperiencePtr
Shared pointer to spatial experience object.
Definition: SpatialExperienceMemory.hpp:66

mic::application::GridworldDRLExperienceReplayPOMDP::mlnn_filename
mic::configuration::Property< std::string > mlnn_filename
Property: name of the file to which the neural network will be serialized (or deserialized from)...
Definition: GridworldDRLExperienceReplayPOMDP.hpp:137

mic::application::GridworldDRLExperienceReplayPOMDP::performSingleStep
virtual bool performSingleStep()
Definition: GridworldDRLExperienceReplayPOMDP.cpp:352

mic::application::GridworldDRLExperienceReplayPOMDP::getPredictedRewardsForGivenState
mic::types::MatrixXfPtr getPredictedRewardsForGivenState(mic::types::Position2D player_position_)
Definition: GridworldDRLExperienceReplayPOMDP.cpp:279

mic::environments::Gridworld::encodeObservation
virtual mic::types::MatrixXfPtr encodeObservation()
Definition: Gridworld.cpp:715

mic::application::GridworldDRLExperienceReplayPOMDP::initializePropertyDependentVariables
virtual void initializePropertyDependentVariables()
Definition: GridworldDRLExperienceReplayPOMDP.cpp:94

mic::application::GridworldDRLExperienceReplayPOMDP::collector_ptr
mic::utils::DataCollectorPtr< std::string, float > collector_ptr
Data collector.
Definition: GridworldDRLExperienceReplayPOMDP.hpp:99

mic::environments::Gridworld::getAgentPosition
virtual mic::types::Position2D getAgentPosition()
Definition: Gridworld.cpp:790

mic::types::SpatialExperience
Structure storing a spatial experience - a triplet of position in time t, executed action and positio...
Definition: SpatialExperienceMemory.hpp:38

mic::application::GridworldDRLExperienceReplayPOMDP::step_reward
mic::configuration::Property< float > step_reward
Definition: GridworldDRLExperienceReplayPOMDP.hpp:110

mic::application::GridworldDRLExperienceReplayPOMDP
Class responsible for solving the gridworld problem with Q-learning, neural network used for approxim...
Definition: GridworldDRLExperienceReplayPOMDP.hpp:50

mic::application::GridworldDRLExperienceReplayPOMDP::learning_rate
mic::configuration::Property< float > learning_rate
Definition: GridworldDRLExperienceReplayPOMDP.hpp:120

mic::application::GridworldDRLExperienceReplayPOMDP::sum_of_iterations
long long sum_of_iterations
Definition: GridworldDRLExperienceReplayPOMDP.hpp:179

mic::environments::Environment::getObservationWidth
virtual size_t getObservationWidth()
Definition: Environment.hpp:87

mic::application::GridworldDRLExperienceReplayPOMDP::epsilon
mic::configuration::Property< double > epsilon
Definition: GridworldDRLExperienceReplayPOMDP.hpp:126

mic::environments::Environment::isActionAllowed
virtual bool isActionAllowed(long x_, long y_, size_t action_)
Definition: Environment.cpp:70

mic::environments::Gridworld::isStateTerminal
virtual bool isStateTerminal(mic::types::Position2D pos_)
Definition: Gridworld.cpp:849

mic::application::GridworldDRLExperienceReplayPOMDP::mlnn_save
mic::configuration::Property< bool > mlnn_save
Property: flad denoting thether the nn should be saved to a file (after every episode end)...
Definition: GridworldDRLExperienceReplayPOMDP.hpp:140

mic::application::GridworldDRLExperienceReplayPOMDP::neural_net
BackpropagationNeuralNetwork< float > neural_net
Multi-layer neural network used for approximation of the Qstate rewards.
Definition: GridworldDRLExperienceReplayPOMDP.hpp:146

GridworldDRLExperienceReplayPOMDP.hpp

mic::environments::Environment::getObservationSize
virtual size_t getObservationSize()
Definition: Environment.hpp:99

mic::application::GridworldDRLExperienceReplayPOMDP::discount_rate
mic::configuration::Property< float > discount_rate
Definition: GridworldDRLExperienceReplayPOMDP.hpp:115

mic::application::GridworldDRLExperienceReplayPOMDP::selectBestActionForGivenState
mic::types::NESWAction selectBestActionForGivenState(mic::types::Position2D player_position_)
Definition: GridworldDRLExperienceReplayPOMDP.cpp:319

mic::application::GridworldDRLExperienceReplayPOMDP::computeBestValueForGivenStateAndPredictions
float computeBestValueForGivenStateAndPredictions(mic::types::Position2D player_position_, float *predictions_)
Definition: GridworldDRLExperienceReplayPOMDP.cpp:255

mic::application::GridworldDRLExperienceReplayPOMDP::initialize
virtual void initialize(int argc, char *argv[])
Definition: GridworldDRLExperienceReplayPOMDP.cpp:72

mic::application::GridworldDRLExperienceReplayPOMDP::w_chart
WindowCollectorChart< float > * w_chart
Window for displaying statistics.
Definition: GridworldDRLExperienceReplayPOMDP.hpp:96

mic::application::GridworldDRLExperienceReplayPOMDP::experiences
SpatialExperienceMemory experiences
Definition: GridworldDRLExperienceReplayPOMDP.hpp:194

mic::application::GridworldDRLExperienceReplayPOMDP::GridworldDRLExperienceReplayPOMDP
GridworldDRLExperienceReplayPOMDP(std::string node_name_="application")
Definition: GridworldDRLExperienceReplayPOMDP.cpp:40

mic::environments::Environment::moveAgent
bool moveAgent(mic::types::Action2DInterface ac_)
Definition: Environment.cpp:48

mic::application::GridworldDRLExperienceReplayPOMDP::grid_env
mic::environments::Gridworld grid_env
The gridworld environment.
Definition: GridworldDRLExperienceReplayPOMDP.hpp:102

mic::environments::Gridworld::environmentToString
virtual std::string environmentToString()
Definition: Gridworld.cpp:689

mic::application::GridworldDRLExperienceReplayPOMDP::mlnn_load
mic::configuration::Property< bool > mlnn_load
Property: flad denoting thether the nn should be loaded from a file (at the initialization of the tas...
Definition: GridworldDRLExperienceReplayPOMDP.hpp:143

mic::types::SpatialExperienceBatch
mic::types::Batch< mic::types::SpatialExperience, mic::types::MatrixXf > SpatialExperienceBatch
Spatial experience replay batch.
Definition: SpatialExperienceMemory.hpp:78

mic::environments::Gridworld::isStateAllowed
virtual bool isStateAllowed(mic::types::Position2D pos_)
Definition: Gridworld.cpp:834

mic::application::RegisterApplication
void RegisterApplication(void)
Registers application.
Definition: EpisodicHistogramFilterMazeLocalization.cpp:32

mic::types::SpatialExperienceSample
mic::types::Sample< mic::types::SpatialExperience, mic::types::MatrixXf > SpatialExperienceSample
Spatial experience replay sample.
Definition: SpatialExperienceMemory.hpp:72

mic::environments::Gridworld::initializeEnvironment
virtual void initializeEnvironment()
Definition: Gridworld.cpp:81

mic::application::GridworldDRLExperienceReplayPOMDP::batch_size
size_t batch_size
Size of the batch in experience replay - set to the size of maze (width*height).
Definition: GridworldDRLExperienceReplayPOMDP.hpp:105

mic::application::GridworldDRLExperienceReplayPOMDP::streamNetworkResponseTable
std::string streamNetworkResponseTable()
Definition: GridworldDRLExperienceReplayPOMDP.cpp:167

mic::environments::Environment::getObservationHeight
virtual size_t getObservationHeight()
Definition: Environment.hpp:93

mic::environments::Gridworld::observationToString
virtual std::string observationToString()
Definition: Gridworld.cpp:693