P1 代码
1.1 比赛介绍 1.2 库介绍 1.3 最后一个批量不够batch_size如何处理 1.4 学习率衰减策略——StepLR 1.5 小结 P2 Q&A
2.1 深度学习的损失函数一般是非凸的吗? 2.2 训练树叶分类时发现训练集的交叉熵loss大于验证集,但是训练集的acc也大于验证集,这是为什么?(损失和准确率的关系) 2.3 drop_last=False时,如果不够batch_size,是补0吗?还是其他处理 2.4 weight decay和lr decay有什么区别吗? 2.5 老师可以讲一下momentum吗? 2.6 什么样的scheduler是最好的,最优的,怎么选择(cos LR)