政策资讯

Policy Information


AI:人工智能概念之《Google发布机器学习术语表 (中英对照)》——持续更新ML、DL相关概念2018年4月!

来源: 重庆市软件正版化服务中心    |    时间: 2022-09-20    |    浏览量: 53053    |   

AI:人工智能概念之《Google发布机器学习术语表 (中英对照)》——持续更新ML、DL相关概念2018年4月!

相关文章
AI:人工智能概念之《Google发布机器学习术语表 (中英对照)》——持续更新ML、DL相关概念2018年4月!
AI:人工智能概念之机器学习、深度学习中常见关键词、参数等中英文对照(绝对干货)

目录

机器学习术语表

A

A/B 测试 (A/B testing)

准确率 (accuracy)

激活函数 (activation function)

AdaGrad

ROC 曲线下面积 (AUC, Area under the ROC Curve)

B

反向传播算法 (backpropagation)

基准 (baseline)

批次 (batch)

批次规模 (batch size)

偏差 (bias)

二元分类 (binary classification)

分箱 (binning)

分桶 (bucketing)

C

校准层 (calibration layer)

候选采样 (candidate sampling)

分类数据 (categorical data)

检查点 (checkpoint)

类别 (class)

分类不平衡的数据集 (class-imbalanced data set)

分类模型 (classification model)

分类阈值 (classification threshold)

协同过滤 (collaborative filtering)

混淆矩阵 (confusion matrix)

连续特征 (continuous feature)

收敛 (convergence)

凸函数 (convex function)

凸优化 (convex optimization)

凸集 (convex set)

成本 (cost)

交叉熵 (cross-entropy)

自定义 Estimator (custom Estimator)

D

数据集 (data set)

Dataset API (tf.data)

决策边界 (decision boundary)

密集层 (dense layer)

深度模型 (deep model)

密集特征 (dense feature)

衍生特征 (derived feature)

离散特征 (discrete feature)

丢弃正则化 (dropout regularization)

动态模型 (dynamic model)

E

早停法 (early stopping)

嵌套 (embeddings)

经验风险最小化 (ERM, empirical risk minimization)

集成学习 (ensemble)

周期 (epoch)

Estimator

样本 (example)

F

假负例 (FN, false negative)

假正例 (FP, false positive)

假正例率(false positive rate, 简称 FP 率)

特征 (feature)

特征列 (FeatureColumns)

特征组合 (feature cross)

特征工程 (feature engineering)

特征集 (feature set)

特征规范 (feature spec)

完整 softmax (full softmax)

全连接层 (fully connected layer)

G

泛化 (generalization)

广义线性模型 (generalized linear model)

梯度 (gradient)

梯度裁剪 (gradient clipping)

梯度下降法 (gradient descent)

图 (graph)

H

启发法 (heuristic)

隐藏层 (hidden layer)

合页损失函数 (hinge loss)

维持数据 (holdout data)

超参数 (hyperparameter)

超平面 (hyperplane)

I

独立同分布 (i.i.d, independently and identically distributed)

推断 (inference)

输入函数 (input function)

输入层 (input layer)

实例 (instance)

可解释性 (interpretability)

评分者间一致性信度 (inter-rater agreement)

迭代 (iteration)

K

Keras

核支持向量机 (KSVM, Kernel Support Vector Machines)

L

L1 损失函数 (L₁ loss)

L1 正则化 (L₁ regularization)

L2 损失函数 (L₂ loss)

L2 正则化 (L₂ regularization)

标签 (label)

有标签样本 (labeled example)

lambda

层 (layer)

Layers API (tf.layers)

学习速率 (learning rate)

最小二乘回归 (least squares regression)

线性回归 (linear regression)

逻辑回归 (logistic regression)

对数损失函数 (Log Loss)

损失 (Loss)

M

机器学习 (machine learning)

均方误差 (MSE, Mean Squared Error)

指标 (metric)

Metrics API (tf.metrics)

小批次 (mini-batch)

小批次随机梯度下降法 (SGD, mini-batch stochastic gradient descent)

ML

模型 (model)

模型训练 (model training)

动量 (Momentum)

多类别分类 (multi-class classification)

多项分类 (multinomial classification)

N

NaN 陷阱 (NaN trap)

负类别 (negative class)

神经网络 (neural network)

神经元 (neuron)

节点 (node)

标准化 (normalization)

数值数据 (numerical data)

Numpy

O

目标 (objective)

离线推断 (offline inference)

one-hot 编码 (one-hot encoding)

一对多 (one-vs.-all)

在线推断 (online inference)

操作 (op, Operation)

优化器 (optimizer)

离群值 (outlier)

输出层 (output layer)

过拟合 (overfitting)

P

Pandas

参数 (parameter)

参数服务器 (PS, Parameter Server)

参数更新 (parameter update)

偏导数 (partial derivative)

分区策略 (partitioning strategy)

性能 (performance)

困惑度 (perplexity)

流水线 (pipeline)

正类别 (positive class)

精确率 (precision)

预测 (prediction)

预测偏差 (prediction bias)

预创建的 Estimator (pre-made Estimator)

预训练模型 (pre-trained model)

先验信念 (prior belief)

Q

队列 (queue)

R

等级 (rank)

评分者 (rater)

召回率 (recall)

修正线性单元 (ReLU, Rectified Linear Unit)

回归模型 (regression model)

正则化 (regularization)

正则化率 (regularization rate)

表示法 (representation)

受试者工作特征曲线(receiver operating characteristic, 简称 ROC 曲线)

根目录 (root directory)

均方根误差 (RMSE, Root Mean Squared Error)

S

SavedModel

Saver

缩放 (scaling)

scikit-learn

半监督式学习 (semi-supervised learning)

序列模型 (sequence model)

会话 (session)

S 型函数 (sigmoid function)

softmax

稀疏特征 (sparse feature)

平方合页损失函数 (squared hinge loss)

平方损失函数 (squared loss)

静态模型 (static model)

平稳性 (stationarity)

步 (step)

步长 (step size)

随机梯度下降法 (SGD, stochastic gradient descent)

结构风险最小化 (SRM, structural risk minimization)

总结 (summary)

监督式机器学习 (supervised machine learning)

合成特征 (synthetic feature)

T

目标 (target)

时态数据 (temporal data)

张量 (Tensor)

张量处理单元 (TPU, Tensor Processing Unit)

张量等级 (Tensor rank)

张量形状 (Tensor shape)

张量大小 (Tensor size)

TensorBoard

TensorFlow

TensorFlow Playground

TensorFlow Serving

测试集 (test set)

tf.Example

时间序列分析 (time series analysis)

训练 (training)

训练集 (training set)

转移学习 (transfer learning)

真负例 (TN, true negative)

真正例 (TP, true positive)

真正例率(true positive rate, 简称 TP 率)

U

无标签样本 (unlabeled example)

非监督式机器学习 (unsupervised machine learning)

V

验证集 (validation set)

W

权重 (weight)

宽度模型 (wide model)


机器学习术语表

本术语表中列出了一般的机器学习术语和 TensorFlow 专用术语的定义。

A

A/B 测试 (A/B testing)

一种统计方法,用于将两种或多种技术进行比较,通常是将当前采用的技术与新技术进行比较。A/B 测试不仅旨在确定哪种技术的效果更好,而且还有助于了解相应差异是否具有显著的统计意义。A/B 测试通常是采用一种衡量方式对两种技术进行比较,但也适用于任意有限数量的技术和衡量方式。

准确率 (accuracy)

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义如下:

准确率正确的预测数样本总数准确率=正确的预测数样本总数

二元分类中,准确率的定义如下:

准确率真正例数真负例数样本总数准确率=真正例数+真负例数样本总数

请参阅真正例真负例

激活函数 (activation function)

一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

AdaGrad

一种先进的梯度下降法,用于重新调整每个参数的梯度,以便有效地为每个参数指定独立的学习速率。如需查看完整的解释,请参阅这篇论文

ROC 曲线下面积 (AUC, Area under the ROC Curve)

一种会考虑所有可能分类阈值的评估指标。

ROC 曲线下面积是,对于随机选择的正类别样本确实为正类别,以及随机选择的负类别样本为正类别,分类器更确信前者的概率。

B

反向传播算法 (backpropagation)

神经网络上执行梯度下降法的主要算法。该算法会先按前向传播方式计算(并缓存)每个节点的输出值,然后再按反向传播遍历图的方式计算损失函数值相对于每个参数的偏导数

基准 (baseline)

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

批次 (batch)

模型训练的一次迭代(即一次梯度更新)中使用的样本集。

另请参阅批次规模

批次规模 (batch size)

一个批次中的样本数。例如,SGD 的批次规模为 1,而小批次的规模通常介于 10 到 1000 之间。批次规模在训练和推断期间通常是固定的;不过,TensorFlow 允许使用动态批次规模。

偏差 (bias)

距离原点的截距或偏移。偏差(也称为偏差项)在机器学习模型中以 b 或 w0 表示。例如,在下面的公式中,偏差为 b:

y′=b+w1x1+w2x2+…wnxn

请勿与预测偏差混淆。

二元分类 (binary classification)

一种分类任务,可输出两种互斥类别之一。例如,对电子邮件进行评估并输出“垃圾邮件”或“非垃圾邮件”的机器学习模型就是一个二元分类器。

分箱 (binning)

请参阅分桶

分桶 (bucketing)

将一个特征(通常是连续特征)转换成多个二元特征(称为桶或箱),通常是根据值区间进行转换。例如,您可以将温度区间分割为离散分箱,而不是将温度表示成单个连续的浮点特征。假设温度数据可精确到小数点后一位,则可以将介于 0.0 到 15.0 度之间的所有温度都归入一个分箱,将介于 15.1 到 30.0 度之间的所有温度归入第二个分箱,并将介于 30.1 到 50.0 度之间的所有温度归入第三个分箱。

C

校准层 (calibration layer)

一种预测后调整,通常是为了降低预测偏差。调整后的预测和概率应与观察到的标签集的分布一致。

候选采样 (candidate sampling)

一种训练时进行的优化,会使用某种函数(例如 softmax)针对所有正类别标签计算概率,但对于负类别标签,则仅针对其随机样本计算概率。例如,如果某个样本的标签为“小猎犬”和“狗”,则候选采样将针对“小猎犬”和“狗”类别输出以及其他类别(猫、棒棒糖、栅栏)的随机子集计算预测概率和相应的损失项。这种采样基于的想法是,只要正类别始终得到适当的正增强,负类别就可以从频率较低的负增强中进行学习,这确实是在实际中观察到的情况。候选采样的目的是,通过不针对所有负类别计算预测结果来提高计算效率。

分类数据 (categorical data)

一种特征,拥有一组离散的可能值。以某个名为 house style 的分类特征为例,该特征拥有一组离散的可能值(共三个),即 Tudor, ranch, colonial。通过将 house style 表示成分类数据,相应模型可以学习 Tudorranch 和 colonial 分别对房价的影响。

有时,离散集中的值是互斥的,只能将其中一个值应用于指定样本。例如,car maker 分类特征可能只允许一个样本有一个值 (Toyota)。在其他情况下,则可以应用多个值。一辆车可能会被喷涂多种不同的颜色,因此,car color 分类特征可能会允许单个样本具有多个值(例如 red 和 white)。

分类特征有时称为离散特征

数值数据相对。

检查点 (checkpoint)

一种数据,用于捕获模型变量在特定时间的状态。借助检查点,可以导出模型权重,跨多个会话执行训练,以及使训练在发生错误之后得以继续(例如作业抢占)。请注意,本身不包含在检查点中。

类别 (class)

为标签枚举的一组目标值中的一个。例如,在检测垃圾邮件的二元分类模型中,两种类别分别是“垃圾邮件”和“非垃圾邮件”。在识别狗品种的多类别分类模型中,类别可以是“贵宾犬”、“小猎犬”、“哈巴犬”等等。

分类不平衡的数据集 (class-imbalanced data set)

一种二元分类问题,在此类问题中,两种类别的标签在出现频率方面具有很大的差距。例如,在某个疾病数据集中,0.0001 的样本具有正类别标签,0.9999 的样本具有负类别标签,这就属于分类不平衡问题;但在某个足球比赛预测器中,0.51 的样本的标签为其中一个球队赢,0.49 的样本的标签为另一个球队赢,这就不属于分类不平衡问题。

分类模型 (classification model)

一种机器学习模型,用于区分两种或多种离散类别。例如,某个自然语言处理分类模型可以确定输入的句子是法语、西班牙语还是意大利语。请与回归模型进行比较。

分类阈值 (classification threshold)

一种标量值条件,应用于模型预测的得分,旨在将正类别负类别区分开。将逻辑回归结果映射到二元分类时使用。以某个逻辑回归模型为例,该模型用于确定指定电子邮件是垃圾邮件的概率。如果分类阈值为 0.9,那么逻辑回归值高于 0.9 的电子邮件将被归类为“垃圾邮件”,低于 0.9 的则被归类为“非垃圾邮件”。

协同过滤 (collaborative filtering)

根据很多其他用户的兴趣来预测某位用户的兴趣。协同过滤通常用在推荐系统中。

混淆矩阵 (confusion matrix)

一种 NxN 表格,用于总结分类模型的预测成效;即标签和模型预测的分类之间的关联。在混淆矩阵中,一个轴表示模型预测的标签,另一个轴表示实际标签。N 表示类别个数。在二元分类问题中,N=2。例如,下面显示了一个二元分类问题的混淆矩阵示例:

 肿瘤(预测的标签)非肿瘤(预测的标签)
肿瘤(实际标签)181
非肿瘤(实际标签)6452

上面的混淆矩阵显示,在 19 个实际有肿瘤的样本中,该模型正确地将 18 个归类为有肿瘤(18 个真正例),错误地将 1 个归类为没有肿瘤(1 个假负例)。同样,在 458 个实际没有肿瘤的样本中,模型归类正确的有 452 个(452 个真负例),归类错误的有 6 个(6 个假正例)。

多类别分类问题的混淆矩阵有助于确定出错模式。例如,某个混淆矩阵可以揭示,某个经过训练以识别手写数字的模型往往会将 4 错误地预测为 9,将 7 错误地预测为 1。混淆矩阵包含计算各种效果指标(包括精确率和召回率)所需的充足信息。

连续特征 (continuous feature)

一种浮点特征,可能值的区间不受限制。与离散特征相对。

收敛 (convergence)

通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

另请参阅早停法

另请参阅 Boyd 和 Vandenberghe 合著的 Convex Optimization(《凸优化》)。

凸函数 (convex function)

一种函数,函数图像以上的区域为凸集。典型凸函数的形状类似于字母 U。例如,以下都是凸函数:

相反,以下函数则不是凸函数。请注意图像上方的区域如何不是凸集:

严格凸函数只有一个局部最低点,该点也是全局最低点。经典的 U 形函数都是严格凸函数。不过,有些凸函数(例如直线)则不是这样。

很多常见的损失函数(包括下列函数)都是凸函数:

梯度下降法的很多变体都一定能找到一个接近严格凸函数最小值的点。同样,随机梯度下降法的很多变体都有很高的可能性能够找到接近严格凸函数最小值的点(但并非一定能找到)。

两个凸函数的和(例如 L2 损失函数 + L1 正则化)也是凸函数。

深度模型绝不会是凸函数。值得注意的是,专门针对凸优化设计的算法往往总能在深度网络上找到非常好的解决方案,虽然这些解决方案并不一定对应于全局最小值。

凸优化 (convex optimization)

使用数学方法(例如梯度下降法)寻找凸函数最小值的过程。机器学习方面的大量研究都是专注于如何通过公式将各种问题表示成凸优化问题,以及如何更高效地解决这些问题。

如需完整的详细信息,请参阅 Boyd 和 Vandenberghe 合著的 Convex Optimization(《凸优化》)。

凸集 (convex set)

欧几里得空间的一个子集,其中任意两点之间的连线仍完全落在该子集内。例如,下面的两个图形都是凸集:

相反,下面的两个图形都不是凸集:

成本 (cost)

损失的同义词。

交叉熵 (cross-entropy)<

评论

产品推荐

更多 >

QQ咨询 扫一扫加入群聊,了解更多平台咨询
微信咨询 扫一扫加入群聊,了解更多平台咨询
意见反馈
立即提交
QQ咨询
微信咨询
意见反馈