深度学习笔记

开发集应该尽可能大，才能区分出尝试的不同算法之间的性能差距
测试集规模应该达到对整体系统进行一次高度可信的评估
数据规模越大，开发集和测试集的比例在不断降低，两者规模并非越大越好

单值评估指标：分类准确率；查准率和查全率的组合不可以。取平均值或者加权平均值是将多个指标合并为一个指标的最常用方法之一。
优化指标和满意度指标
在限定的运行时间范围(满意度指标)内，尽可能地将分类器的准确率最大化
何时修改开发集、测试集和指标
我通常会要求我的团队在不到一周（一般不会更长）的时间内给出一个初始的开发集、测试集和指标，提出一个不太完美的方案并迅速执行
注重误差分析：检查被算法误分类的开发集样本的过程，分析造成误差的原因所占的比例，从优先级最高的误差处着手。可能最初正确集标注的时候出错
考虑将开发集分为人为检查的 Eyeball 开发集和非人为检查的 Blackbox 开发集。如果在 Eyeball 开发集上的性能比在 Blackbox 开发集上好很多，说明你已过拟合 Eyeball 开发集，下一步应该考虑为其获取更多数据。