mi-neural-nets/a00112_source.html

 #ifndef ADAGRAD_HPP_

 #define ADAGRAD_HPP_


 #include <optimization/OptimizationFunction.hpp>


 namespace mic {

 namespace neural_nets {

 namespace optimization {


 template <typename eT=float>

 class AdaGrad : public OptimizationFunction<eT> {

 public:


     AdaGrad(size_t rows_, size_t cols_, eT eps_ = 1e-8) : eps(eps_) {

         G = MAKE_MATRIX_PTR(eT, rows_, cols_);

         // Reset G.

         G->zeros();


         // Allocate and reset delta.

         delta = MAKE_MATRIX_PTR(eT, rows_, cols_);

         delta->zeros();

     }


     mic::types::MatrixPtr<eT> calculateUpdate(mic::types::MatrixPtr<eT> x_, mic::types::MatrixPtr<eT> dx_, eT learning_rate_) {

         assert(x_->size() == dx_->size());

         assert(x_->size() == G->size());


         // Update G - add square of the gradients.

         for (size_t i=0; i<(size_t)x_->size(); i++)

                 (*G)[i] += (*dx_)[i] * (*dx_)[i];


         // delta = alpha * dW.

         for (size_t i=0; i<(size_t)x_->size(); i++)

             (*delta)[i] = learning_rate_ * (*dx_)[i] / (std::sqrt((*G)[i] + eps));


         // Return the update.

         return delta;

     }


 protected:

     eT eps;


     mic::types::MatrixPtr<eT> G;


     mic::types::MatrixPtr<eT> delta;

 };


 } //: optimization

 } //: neural_nets

 } //: mic


 #endif /* ADAGRAD_HPP_ */

mic::neural_nets::optimization::AdaGrad::AdaGrad
AdaGrad(size_t rows_, size_t cols_, eT eps_=1e-8)
Definition: AdaGrad.hpp:47

mic::neural_nets::optimization::OptimizationFunction
Abstract class representing interface to optimization function.
Definition: OptimizationFunction.hpp:41

mic::neural_nets::optimization::AdaGrad::G
mic::types::MatrixPtr< eT > G
Sum of all of the squares of the gradients up to time t ("diagonal matrix").
Definition: AdaGrad.hpp:84

mic::neural_nets::optimization::AdaGrad::eps
eT eps
Smoothing term that avoids division by zero.
Definition: AdaGrad.hpp:81

mic::neural_nets::optimization::AdaGrad::calculateUpdate
mic::types::MatrixPtr< eT > calculateUpdate(mic::types::MatrixPtr< eT > x_, mic::types::MatrixPtr< eT > dx_, eT learning_rate_)
Definition: AdaGrad.hpp:63

OptimizationFunction.hpp

mic::neural_nets::optimization::AdaGrad
Update using AdaGrad - adaptive gradient descent.
Definition: AdaGrad.hpp:39

mic::neural_nets::optimization::AdaGrad::delta
mic::types::MatrixPtr< eT > delta
Calculated update.
Definition: AdaGrad.hpp:87