系统评测指标：准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F-Score

大家好，又见面了，我是全栈君。

　　示例：假如某个班级有男生80人,女生20人,共计100人.目标是找出所有女生. 现在某人挑选出50个人,其中20人是女生,另外还错误的把30个男生也当作女生挑选出来了. 作为评估者的你需要来评估(evaluation)下他的工作。

一、概念

　　1.1 准确率（Accurary）：对于给定的测试数据集，分类器正确分类的样本数与总样本数之比。

　　前面的场景中，实际情况是那个班级有男和女两类，某人(也就是定义中所说的分类器)把班级中的人分为男女两类。Accuracy就是分类正确的人占总人数的比例。很容易，我们可以得到:他把其中70(20女+50男)人判定正确了,而总人数是100人，所以它的Accuracy就是70 %(70 / 100).

　　在说precision,recall和f1-measure之前,我们需要先需要定义TP,FN,FP,TN四种分类情况. 按照前面例子,我们需要从一个班级中的人中寻找所有女生,如果把这个任务当成一个分类器的话,那么女生就是我们需要的,而男生不是,所以我们称女生为”正类”,而男生为”负类”.

通过这张表,我们可以很容易得到这几个值: TP=20 FP=30 FN=0 TN=50

　　1.2 精确率(precision)：实际被检索到的结果中（TP+FP）有多少（TP）是理论正确的结果

　　公式是P=TP／(TP+FP),它计算的是所有”正确被检索的item(TP)”占所有”实际被检索到的(TP+FP)”的比例.

　　在例子中就是希望知道此君得到的所有人中,正确的人(也就是女生)占有的比例.所以其precision也就是40%(20女生/(20女生+30误判为女生的男生)).

　　1.3 召回率(recall)：理论正确的结果（TP+FN）中有多少（TP）被实际正确检索到了

　　公式是R=TP / (TP+FN),它计算的是所有”正确被检索的item(TP)”占所有”应该检索到的item(TP+FN)”的比例。

　　在例子中就是希望知道此君得到的女生占本班中所有女生的比例,所以其recall也就是100%(20女生/(20女生+ 0 误判为男生的女生))

　　上述两者的取值在0-1之间，数值接近于1，精确率（查准率）和召回率（查全率）就越高。

　　1.4 F-Score值就是精确值和召回率的调和均值,也就是

　　公式：2／F=1／P+1／R

　　调整为：F=2PR／(P+R)

　　例子中 F1-measure 也就是约为 57.143%=2∗0.4∗1/(0.4+1).

　　示例：

某池塘有1400条鲤鱼，300只虾，300只鳖。现在以捕鲤鱼为目的。撒一大网，逮着了700条鲤鱼，200只虾，100只鳖。那么，这些指标分别如下：

精确率 = 700 / (700 + 200 + 100) = 70%

召回率 = 700 / 1400 = 50%

F值 = 70% * 50% * 2 / (70% + 50%) = 58.3%

不妨看看如果把池子里的所有的鲤鱼、虾和鳖都一网打尽，这些指标又有何变化：

精确率 = 1400 / (1400 + 300 + 300) = 70%

召回率 = 1400 / 1400 = 100%

F值 = 70% * 100% * 2 / (70% + 100%) = 82.35%

　　由此可见，精确率是评估捕获的成果中目标成果所占得比例；召回率，顾名思义，就是从关注领域中，召回目标类别的比例；而F值，则是综合这二者指标的评估指标，用于综合反映整体的指标。

　　当然希望检索结果Precision越高越好，同时Recall也越高越好，但事实上这两者在某些情况下有矛盾的。比如极端情况下，我们只搜索出了一个结果，且是准确的，那么Precision就是100%，但是Recall就很低；而如果我们把所有结果都返回，那么比如Recall是100%，但是Precision就会很低。因此在不同的场合中需要自己判断希望Precision比较高或是Recall比较高。如果是做实验研究，可以绘制Precision-Recall曲线来帮助分析。　　

综合评价

　　P和R指标有时候会出现矛盾的情况，这样就需要综合考虑他们，最常见的方法就是F-Measure（又称为F-Score）。

　　F-Measure是Precision和Recall加权调和平均：

　　系统评测指标：准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F-Score