【单选题】某个神经网络中所有隐藏层神经元使用tanh激活函数。那么如果使用np.random.randn(..,..)* 1000将权重初始化为相对较大的值。 会发生什么?
A.
这不会对训练产生影响。只要随机初始化权重,梯度下降不受权重大小的影响。
B.
这会导致tanh的输入也非常大,从而使梯度也变大。因此,你必须将学习率α设置得非常小以防止发散。这会减慢网络参数学习速度。
C.
这会导致tanh的输入也非常大,导致神经元被“高度激活”,从而加快了学习速度。
D.
这会导致tanh的输入也非常大,从而使梯度接近于零, 优化算法将因此变得缓慢。