人工智能问答NO.1 机器学习概览与性能度量

机器学习简介

按照任务类型可分为：

按照学习理论可分为：

判别方法：由数据直接学习决策函数Y=f(X),或者由条件分布概率P(Y|X)作为预测模型为判别模型。

常见的判别模型有线性回归、boosting、SVM、决策树、感知机、线性判别分析(LDA)、逻辑斯蒂回归等算法。

生成方法：由数据学习x和y的联合概率密度分布函数P(Y,X)，然后通过贝叶斯公式求出条件概率分布P(Y|X)作为预测的模型为生成模型。

常见的生成模型有朴素贝叶斯、隐马尔科夫模型、高斯混合模型、文档主题生成模型(LDA)等。

举例：

判断一个动物是大象还是猫，记住大象是长鼻子就可以判别出哪个是大象，将大象和猫画出来与动物进行对比，那个像就是那个。

1)均方误差：是反映估计值与被估计量之间差异程度的一种度量。

2)RMSE均方根误差：观测值与真值偏差的平方和与观测次数m比值的平方根，用来衡量观测值同真值之间的偏差。

3)SSE和方误差

4)MAE：直接计算模型输出与真实值之间的平均绝对误差

5)MAPE：不仅考虑预测值与真实值误差，还考虑了误差与真实值之间的比例。

6)平均平方百分比误差

7)决定系数

常用的性能度量指标有：精确率、召回率、F₁、TPR、FPR。

	预测为真	预测为假
真实为真	TP(true positive)	FN(false negative)
真实为假	FP(false positive)	TN(true negative)

精确率Precision=TP/(TP+FP)

召回率Recall=TP/(TP+FN)

真正例率即为正例被判断为正例的概率TPR=TP/(TP+FN)

假正例率即为反例被判断为正例的概率FPR=FP/(TN+FP)

精确率又称查准率，顾名思义适用于对准确率较高的应用，例如网页检索与推荐。召回率又称查全率，适用于检测信贷风险、逃犯信息等。精确率与召回率是一对矛盾的度量，所以需要找一个平衡点，往往使用F₁是精确率与召回率的调和平均值：

(1) 错误率和准确率

错误率：

准确率：acc=1-e

(2)AUC与ROC曲线

对于0、1分类问题，一些分类器得到的结果并不是0或1，如神经网络得到的是0.5、0.6等，此时就需要一个阈值cutoff，那么小于阈值的归为0，大于的归为1，可以得到一个分类结果。

ROC曲线(Receiver Operational Characteristic Curve)是以False Positive Rate为横坐标，True Postive Rate为纵坐标绘制的曲线。

曲线的点表示了在敏感度和特殊性之间的平衡，例如越往左，也就是假阳性越小，则真阳性也越小。曲线下面的面积越大，则表示该方法越有利于区分两种类别。

AUC即为ROC曲线所覆盖的区域面积。

I'm so cool. Please give me money.