数据分析指标有哪些

动态未结置顶精帖  

用户 VIP

悬赏：60飞吻

评价指标是评判数据表现的衡量标准，它是数据分析中非常重要的部分，也是产品经理必须掌握的重点内容。不同的数分任务采用不同的评价指标，对于同一种任务在不同场景下也会采用不同的评价指标。

例如在检测垃圾邮件这个场景中，这是一个典型的二分类问题，所以可以用精确率和AUC曲线这两个指标判断模型的效果；在人脸识别场景中，使用误识率、拒识率和ROC曲线这三个指标评判模型的效果。

不同指标的着重点不一样，一个指标在不同场景下适用性可能不一样，产品经理需要学习不同指标的特性，在项目中根据实际需要选择不同的评价指标。下文中我们重点讲解一些产品经理常用的评价指标。

01 混淆矩阵

混淆矩阵（Confusion Matrix）是评价模型精度的一种标准格式，用一个N行N列的矩阵形式来表示。矩阵每一列代表预测值，每一行代表实际值。

从混淆矩阵的名字不难看出来，它的作用是表明多个类别之间是否有混淆，也就是模型到底判断对了多少个结果，有多少个结果判断错了。同时混淆矩阵能够帮助我们理解准确率、精确率和召回率的区别。

面对一个二分类问题时，通常我们会将结果表示为正类与负类，两者可以随意指定。在上述区分猫狗图片的例子中，我们假定猫为正类、狗为负类。那么在实际进行预测的时候就会出现四种情况，如下图所示：

混淆矩阵

如果这张图片是猫，机器预测出来的结果也是猫，这种情况称为真正类（True Positive，以下简称TP）；

如果这张图片是狗，机器预测出来的结果也是狗，这种情况称为真负类（True Neative，以下简称TN）；

如果这张图片是猫，机器预测出来的结果是狗，这种情况称为假负类（False Neative，以下简称FN）；

如果这张图片是狗，机器预测的结果是猫，则为假正类（False Positive，以下简称FP）。

02 准确率

准确率（Accuracy）是指预测正确的样本占总样本的比例，即模型找到的真正类与真负类与整体预测样本的比例。用公式表示为

Accuracy=(TP+TN)/(TP+TN+FP+FN)

准确率的取值范围为[0,1]，一般情况下取值越大，代表模型预测能力越好。

假设上述猫狗图片分类的例子中，猫狗图片各有500张。最后模型预测的结果中真正类有318个，真负类有415个，假正类有75个，假负类有182个。根据准确率的定义可以算出来目前模型的准确率为：（318+415）/（1000）=0.73。

准确率是评价模型效果最通用的指标之一，描述模型找到“真”类别的能力。也就是说模型准确识别出猫和狗的概率为0.73。但是在使用的时候有两点需要我们注意。首先是准确率没有针对不同类别进行区分，最后求得的准确率对每个类别而言是平等对待的，这种评价方式在很多场景下是有欠缺正确的样本占总样本的比例，即模型找到的真正类与真负类与整体预测样本的比例。用公式表示为

Accuracy=(TP+TN)/(TP+TN+FP+FN)

准确率的取值范围为[0,1]，一般情况下取值越大，代表模型预测能力越好。

上一篇 : 互联网兼职的平台有哪些

下一篇 : 怎样写数据需求文档

回帖

消灭零回复