mi-reinforcement-learning/a00044_source.html

 #ifndef SRC_APPLICATION_NARMEDBANDITSSIMPLEQLEARNING_HPP_

 #define SRC_APPLICATION_NARMEDBANDITSSIMPLEQLEARNING_HPP_


 #include <vector>


 #include <types/MatrixTypes.hpp>


 #include <opengl/application/OpenGLApplication.hpp>

 #include <opengl/visualization/WindowCollectorChart.hpp>

 using namespace mic::opengl::visualization;


 namespace mic {

 namespace application {


 class TestApp: public mic::opengl::application::OpenGLApplication {

 public:

     TestApp(std::string node_name_ = "application");


     virtual ~TestApp();


 protected:

     virtual void initializePropertyDependentVariables();


     virtual void initialize(int argc, char* argv[]);


     virtual bool performSingleStep();


 private:


     WindowCollectorChart<float>* w_reward;


     mic::utils::DataCollectorPtr<std::string, float> reward_collector_ptr;


     mic::types::VectorXf arms;


     mic::types::VectorXf action_values;


     mic::types::VectorXi action_counts;


     mic::configuration::Property<size_t> number_of_bandits;


     mic::configuration::Property<double> epsilon;


     mic::configuration::Property<std::string> statistics_filename;


     size_t best_arm;


     float best_arm_prob;


     short calculateReward(float prob_);


     size_t selectBestArm();


 };


 } /* namespace application */

 } /* namespace mic */


 #endif /* SRC_APPLICATION_NARMEDBANDITSSIMPLEQLEARNING_HPP_ */

mic::application::TestApp::statistics_filename
mic::configuration::Property< std::string > statistics_filename
Property: name of the file to which the statistics will be exported.
Definition: nArmedBanditsSimpleQlearning.hpp:96

mic::application::TestApp::reward_collector_ptr
mic::utils::DataCollectorPtr< std::string, float > reward_collector_ptr
Reward collector.
Definition: nArmedBanditsSimpleQlearning.hpp:78

mic::application::TestApp::best_arm_prob
float best_arm_prob
Definition: nArmedBanditsSimpleQlearning.hpp:106

mic::application::TestApp::epsilon
mic::configuration::Property< double > epsilon
Property: variable denoting epsilon in action selection (the probability "below" which a random actio...
Definition: nArmedBanditsSimpleQlearning.hpp:93

mic::application::TestApp
Class implementing a n-Armed Bandits problem solving the n armed bandits problem using simple Q-learn...
Definition: nArmedBanditsSimpleQlearning.hpp:41

mic::application::TestApp::arms
mic::types::VectorXf arms
n Bandit arms.
Definition: nArmedBanditsSimpleQlearning.hpp:81

mic::application::TestApp::w_reward
WindowCollectorChart< float > * w_reward
Window for displaying average reward.
Definition: nArmedBanditsSimpleQlearning.hpp:75

mic::application::TestApp::action_values
mic::types::VectorXf action_values
Action values.
Definition: nArmedBanditsSimpleQlearning.hpp:84

mic::application::TestApp::best_arm
size_t best_arm
Definition: nArmedBanditsSimpleQlearning.hpp:101

mic::application::TestApp::action_counts
mic::types::VectorXi action_counts
Counters storing how many times we've taken a particular action.
Definition: nArmedBanditsSimpleQlearning.hpp:87

mic::application::TestApp::number_of_bandits
mic::configuration::Property< size_t > number_of_bandits
Property: number of bandits.
Definition: nArmedBanditsSimpleQlearning.hpp:90