self.alphas= tf.contrib.layers.fully_connected(
          inputs=l2,
          num_outputs=num_stocks+1,
          activation_fn=tf.nn.relu,
          weights_initializer=tf.initializers.glorot_uniform)

      self.alphas +=1

      self.dirichlet  = tfp.distributions.Dirichlet(self.alphas)
      self.action = self.dirichlet._sample_n(1)
      self.action = tf.squeeze(self.action)