人工智能领域常见概念中英文汇编

人工智能领域常见概念中英文汇编

本文动态收入总结AI领域的一些常见英文概念及其对应的中文释义

大模型专栏:

  1. Transformer

    • 一种用于自然语言处理的神经网络架构,通过自注意力机制(self-attention)来处理输入序列。Transformer模型包括编码器和解码器部分,常用于各种NLP任务,如翻译、文本生成等。
  2. BERT(Bidirectional Encoder Representations from Transformers)

    • 一种预训练的Transformer模型,通过双向(上下文)编码来理解文本的上下文关系,广泛应用于问答、分类等任务。
  3. GPT(Generative Pre-trained Transformer)

    • 由OpenAI开发的生成式预训练Transformer模型,擅长生成连贯的文本。GPT-3是其著名的版本之一,具有1750亿参数。
  4. Fine-tuning(微调)

    • 在预训练模型的基础上,通过在特定任务或数据集上进行进一步训练,使模型更适合特定任务。
  5. Zero-shot Learning

    • 模型在没有见过特定任务的情况下,利用其预训练知识直接进行预测。GPT-3展示了强大的零样本学习能力。
  6. Few-shot Learning

    • 模型在只见过少量示例的情况下进行学习和预测。通过提供少量示例作为提示,模型可以更好地理解和执行任务。
  7. Attention Mechanism(注意力机制)

    • 一种让模型在处理输入序列时关注重要部分的机制,极大地提升了模型的性能。自注意力机制是Transformer的核心组件。
  8. Self-Attention(自注意力)

    • Transformer中的一种机制,通过计算序列中每个元素与其他元素的相关性来生成新的表示。
  9. Language Model(语言模型)

    • 预测给定上下文下下一个词的概率模型。语言模型是生成文本和理解文本的基础。
  10. Tokenization(分词)

    • 将文本拆分成更小的单元(如单词、子词、字符等),是文本处理的第一步。常用的分词方法包括BPE(Byte-Pair Encoding)和WordPiece。
  11. Embedding(嵌入)

    • 将离散的文本表示为连续的向量,以捕捉词语之间的语义关系。嵌入向量可以通过模型学习得到,如Word2Vec、GloVe等。
  12. Sequence-to-Sequence(序列到序列,Seq2Seq)

    • 一种用于将输入序列转换为输出序列的模型架构,广泛应用于机器翻译、文本摘要等任务。通常由编码器和解码器组成。
  13. Beam Search(束搜索)

    • 一种在生成过程中用于寻找最优序列的方法,通过保留多个最优候选序列以提高生成质量。
  14. Perplexity(困惑度)

    • 评价语言模型性能的指标,反映模型对测试集的预测能力。困惑度越低,模型性能越好。

    机器学习领域

A

A/B Testing(A/B 测试) 一种受控的真实实验,用于比较系统或模型的两个变体A和B。

Activation Function(激活函数) 在人工神经网络的情境中,接受来自上一层的所有输入的加权和并生成输出值来激活下一层的函数。

Active Learning (Active Learning Strategy)(主动学习/主动学习策略) 半监督机器学习的一种特殊情况,在这种情况下,学习代理能够以交互的方式查询数据库(通常是人工标注员),以获取新数据点的标签。

Algorithm(算法) 一种关于如何解决某一类问题的过程的明确规范,它能够执行计算、处理数据并进行自动推理。

Annotation(标注) 附加到一条数据之上的元数据,通常由人工标注员提供。

Area Under the Curve (AUC)(曲线下面积) 机器学习中用于确定在多个使用的模型中哪个模型具有最高性能的一种方法。

Artificial Intelligence(人工智能) 机器模拟人类智力和行为做出决策、执行任务的能力。

Artificial Neural Networks(人工神经网络) 由简单互联单元(称作神经元)的连续层所构成的一种架构,这些单元与非线性激活函数交织在一起,会让人模糊地联想到动物大脑中的神经元。

Association Rule Learning(关联规则学习) 一种基于规则的机器学习方法,用于发现大型数据集中变量之间的关系。

Autoencoder(自动解码器) 一种人工神经网络,用于以无监督、非线性的方式生成高效的数据表示,通常用于降低维度。

Automated Speech Recognition(自动语音识别) 计算语言学的一个子领域,主要是关于通过计算机识别和翻译口语的方法。

B

Backpropagation (Backpropagation Through Time)(反向传播/基于时间的反向传播) 用于训练人工神经网络,进而计算网络权重计算所需梯度的一种方法。

Batch(批量) 在模型训练的单个梯度更新中使用的示例集。

Bayes’s Theorem(贝叶斯定理) 统计学家根据可能与某个存在相关的先验条件知识描述某个事件的概率时所用的一个著名定理。

BERT(Bidirectional Encoder Representations from Transformers)

一种预训练的Transformer模型,通过双向(上下文)编码来理解文本的上下文关系,广泛应用于问答、分类等任务。

Bias (Inductive Bias, Confirmation Bias)(偏差-归纳偏差、确认偏差) 归纳偏差:学习者在给定输入条件下预测尚未遇到的输出时所用的假设事项集。 确认偏差:以确认自己的信念或假设的方式搜索、解释、赞成和回想信息,而较少关注与之相矛盾的信息的趋势。

Bias-Variance Tradeoff(偏差与方差权衡) 当数据科学家尝试同时最大程度地减小偏差和方差时所产生的冲突,该冲突不利于监督算法推广到他们的训练集范围之外。

Boosting(提升) 主要用于减少监督学习中的偏差和方差的一种机器学习集成元算法,以及将弱学习者转化为强学习者的一系列机器学习算法。常见的boosting包括Bagging boosting(随机森林),GBDT(梯度提升树),XGBoost , LightGbm

Bounding Box(边界框) 完全包含一组点或一个对象的最小(矩形)框。

C

Chatbot(聊天机器人) 一种旨在通过对话与人类用户进行交互的计算机程序或 AI。

Classification(分类) 对映射函数进行从输入变量到离散输出变量的近似处理的任务,或者从广义上来说,是指用于确定特定实例所属的类的某一类机器学习算法。

Clustering(聚类) 在机器学习中,是指对一组对象进行分组,使得同一组(即集群)中的对象彼此之间的“相似性”高于与其他组中的对象“相似性”的无监督任务。

Cold-Start(冷启动) 由于系统无法针对尚未收集到足够信息的用户或项目推断出任何信息而引起的潜在问题。

Collaborative Filtering(协作过滤) 在推荐系统中使用的一种方法,用于通过收集来自较大用户组的偏好来预测用户的兴趣。

Computer Vision(计算机视觉) 机器学习的领域之一,主要研究如何获得对图像或视频的高级理解。

Confidence Interval(置信区间) 一种区间估计,可能包含未知总体参数的真实值。该区间与置信水平相关,而置信水平用于量化参数在区间中的置信度。

Contributor(贡献者) 提供标注服务的人工标注员。

Convolutional Neural Network (CNN)(卷积神经网络) 一种深层、前馈人工神经网络类别,通常用于计算机视觉。

Central Processing Unit (CPU)(中央处理单元) 计算机中通过执行指令指定的基本算术、逻辑、控制和输入/输出操作来执行计算机程序的指令的电子电路。

Cross-Validation (k-fold Cross-Validation, Leave-p-out Cross-Validation)(交叉验证-k 折交叉验证、留 p 法交叉验证) 旨在评估如何将预测模型的结果推广到新数据集的一组流程,包括k折交叉验证及留p法交叉验证。

D

Data (Structured Data, Unstructured Data, Data augmentation)(数据-结构化数据、非结构化数据、数据增强) 所有机器学习和人工智能项目的最基本要素。

非结构化数据:未经处理的原始数据。文本数据是非结构化数据的完美示例,因为它没有格式化为特定功能。

结构化数据:以机器学习算法可摄取的方式处理的数据;如果是监督机器学习,则为已标记的、经处理后的数据。

数据增强:将内外部来源衍生的新信息添加到数据集的过程(一般通过标注来实现)。

Decision Tree(决策树) 监督机器学习算法的一个类别,在此类算法中,数据会根据给定参数或条件进行迭代拆分。

Deep Blue(深蓝) 由 IBM 开发的国际象棋游戏计算机,作为全球首个在常规时限内同时战胜了国际象棋游戏和国际象棋比赛卫冕世界冠军的计算机国际象棋游戏系统而闻名。

Deep Learning (Deep Reinforcement Learning)(深度学习/深度强化学习) 与特定任务的算法相反,基于学习数据表示的更广泛的机器学习方法系列。深度学习包括监督学习、半监督学习或无监督学习。

Dimension维度(降维、维度灾难) 降维 Dimensionality Reduction:通过获取一组主变量来减少所考虑的随机变量数量的过程。另请参见特征选择。

维度灾难 Curse of Dimensionality:由于维数越多,可用数据量越稀疏这一事实,在高维空间中分析和组织数据时出现的一种现象。

E

Embedding (Word Embedding)(嵌入/词嵌入) 某个实例中所含的某个数学结构的另一个实例,例如作为另一个组的子组的组。

Ensemble Methods(集成方法) 在统计和机器学习中,集成方法使用多种学习算法来获得更好的预测性能,而这种性能可以单独从任何组合式学习算法中获得。与统计力学中通常是无限的统计集成不同,机器学习集成仅由一组有限的替代模型组成,但通常允许在这些替代模型之间存在更灵活的结构。

Entropy(熵) 随机数据源传达的平均信息量。

Epoch(时期) 在深度学习模型训练场景中,完整训练数据集的一次训练循环。

F

Feature (Feature Selection, Feature Learning)(特征-特征选择、特征学习) 用作模型输入的变量。

Feature Learning(特征学习) 旨在自动从原始数据中发现特征检测或分类所需的表示的一组技术。

False Positive(误报) 由于结果在虚无假设原本不应该存在的情况下拒绝虚无假设而导致的误差。

False Negative(漏报) 由于结果在虚无假设应该存在的情况下未拒绝虚无假设而导致的误差。

Feed-Forward (Neural) Networks(前馈神经网络) 一种人工神经网络,其中神经元之间的连接不会向后移动或形成循环。

F-Score(F 得分) 衡量模型准确性的一个指标,它会考量准确率和召回率来计算得分。更具体地说,F 得分是准确率和召回率的调和平均值,该平均值的最大值为 1(完美的准确率和召回率),最小值为 0。

G

Garbage In, Garbage Out(垃圾进垃圾出) 一项原则,具体说的是:只要输入数据存在缺陷,就会导致误导性的结果并产生无意义的输出,也就是“垃圾”。

General Data Protection Regulation (GDPR)(通用数据保护条例) 欧盟颁布的一部针对欧盟内所有个体的数据保护和隐私法规,旨在控制公民和居民对其个人数据的控制。

Genetic Algorithm(遗传算法) 基于进化论的一种启发式搜索算法,进化论反映了自然选择的过程,在这个过程中,最能适应环境的个体会被选出生产下一代。

Generative Adversarial Networks (GANs)(生成对抗网络) 无监督机器学习中使用的一种人工智能算法类别,作为零和游戏框架中相互竞争的两个神经网络的组合予以实施。

Graphic Processing Unit (GPU)(图形处理单元) 一种专用的电子电路,它采用并行处理架构,旨在快速操作和更改内存,以加速图像渲染,从而使其可以同时执行多个计算。

Ground Truth(事实真相) 通过直接观察(而非推论)获得的一条信息。

H

Human-in-the-Loop(人机协同) 人机协同 (HITL) 是人工智能的一个分支,它同时利用人类智能和机器智能来构建机器学习模型。在传统的“人机协同”方法中,人们会参与到一个良性循环,在其中训练、调整和测试特定算法。

Hyperparameter (Hyperparameter Tuning)(超参数/超参数优化) 模型外部的一种配置,其值无法从数据中估算出来,数据科学家会在模型训练过程中不断对其进行调整。 -手动确定训练特定模型最佳配置的过程。

I

ImageNet(ImageNet数据集) 一个庞大的视觉数据集,由1400万个手工标注图像的URL组成,并以两万个不同类别进行组织,旨在用于视觉对象识别研究。

Image Recognition(图像识别) 计算机视觉中用于确定图像是否包含某些特定对象、特征或活动的问题。

Inference(推理) 通过将经训练的模型运用到新的未标记实例来进行预测的过程。

Information Retrieval(信息检索) 计算机科学的一个领域,旨在研究在文档中搜索信息、搜索文档本身、搜索描述数据的元数据以及搜索文本、图像或声音数据库的过程。

L

Layer (Hidden Layer)(层/隐藏层) 人工神经网络中的一系列神经元,旨在处理一组输入特征,或者从广义上来说,处理这些神经元的输出。

隐藏层:神经元的一层,其输出连接到其他神经元的输入,因此不能作为网络输出直接实现可视化。

Learning-to-Learn(元学习) 机器学习领域的一个新方向,主要是研究算法如何通过分析自己的学习过程并对其加以改进来改变其归纳方式。

Learning-to-Rank(排序学习) 运用机器学习构建信息检索系统的排名模型。

Learning Rate(学习率) 梯度下降算法在人工神经网络训练阶段的每次迭代中所用的标量值,与梯度相乘得出结果。

Logit Function(Logit 函数) 在数学中(尤其是在统计学中)使用的 S 型“逻辑”函数的逆函数。

Long Short-Term Memory Networks(长短期记忆网络) 递归神经网络的一种变体,可用作梯度消失问题的一种解决方案。

M

Machine Learning(机器学习) 人工智能的一个子领域,通常使用统计技术来赋予计算机“学习”能力,即借助数据来逐步提高特定任务的性能,而无需进行显式编程。

Machine Learning Lifecycle Management(机器学习生命周期管理) 机器学习系统的 DevOps。

Machine Translation(机器翻译) 计算语言学的一个子领域,主要是研究如何使用软件将文本或语音从一种语言翻译成另一种语言。

Model(模型) 模型是机器学习系统通过训练过程从训练数据中所学到内容的抽象表示。

Monte Carlo(蒙特卡洛方法) 一种使用重复随机采样生成合成模拟数据的近似方法。

Multi-Modal Learning(多模式学习) 机器学习的一个子领域,旨在将多模式信号合并到一起进行解释,并构建模型来处理和关联来自多种数据类型的信息。

Multi-Task Learning(多任务学习) 机器学习的一个子领域,同时利用多个任务之间的异同来解决多个任务。

N

Naive Bayes(朴素贝叶斯) 基于贝叶斯定理并在特征之间具有很强的独立性假设的一系列简单概率分类器。

Named Entity Recognition(命名实体识别) 信息提取的一个子任务,旨在将文本中的命名实体识别和分类为预定类别,例如名称、位置、词性等。

Natural Language Processing (NLP)(自然语言处理) 人工智能领域之一,主要是研究计算机语言与人类语言之间的交互,尤其是如何处理和分析大量自然语言数据。

Neural Networks(神经网络) 参见人工神经网络。

Neuron(神经元) 人工神经网络中的一个单元,用以处理多个输入值,以生成单个输出值。

Node(节点) 参见神经元。

O

Optical Character Recognition(光学字符识别) 将打印、手写或键入文本的图像转换为机器友好的文本格式。

Optimization(优化) 从可用替代方案中(基于某些标准)选择最佳方案。

Overfitting(过度拟合) 模型在不知情的情况下识别出噪声中的模式并假设这些模式代表了底层结构;模型的生成结果与特定数据集过于接近,因此无法很好地归纳到不可见的观察结果。

P

Pattern Recognition(模式识别) 机器学习的领域之一,主要专注于数据模式的(监督或无监督)识别。

Pooling (Max Pooling)(轮询/最大轮询) 将卷积层生成的矩阵缩减为较小矩阵的过程。

Personally Identifiable Information(个人可识别信息) 可以单独使用或与某些其他信息结合使用,以识别特定个人的任何信息。

Precision(准确率) 正确的阳性结果数除以分类器返回的所有样阳性结果数。

Prediction(预测) 带有输入实例的训练模型的推断输出。

Preprocessing(预处理) 将原始数据转换为更易理解格式的过程。

Pre-trained Model(预训练模型) 通常已使用另一个数据集进行了初步训练的模型或模型的组成部分。另请参见:转移学习。

Principal Component Analysis(主组件分析) 使用正交变换将一组可能相关变量的观测值转换为一组线性不相关变量(称为主组件)的过程。

Prior(先前技术) 在考虑新证据之前,代表特定数量的先前存在信念的概率分布。

R

RAG(Retrieval-Augmented Generation,检索增强生成)

RAG是一种结合信息检索和生成式模型的新方法。RAG的核心思想是通过将检索模块和生成模块结合起来,以提高生成的准确性和信息性。

Random Forest(随机森林) 一种集成学习方法,其工作原理是在训练时构造大量决策树并输出每个单独树的结果的组合版本(例如均值或众数)。

Recall(召回率) 所有相关样本中被正确分类为阳性的样本数所占百分比。

Rectified Linear Unit(整流线性单元) 使用整流函数作为激活函数的单元。

Recurrent Neural Networks(递归神经网络) 人工神经网络的类别之一,其中神经元之间的连接沿着序列形成有向图,使其表现出时序动态时间行为并使用其内部状态(内存)来处理顺序信号。

Regression (Linear Regression, Logistic Regression)(回归-线性回归、逻辑回归) 一组用于估计变量间关系的统计过程。

线性回归:一种简单的回归类型,以特征的线性组合作为输入,并输出连续值。

逻辑回归:一种回归类型,通过将 S 型函数运用到线性预测对分类问题中每个可能的离散标签值生成概率。

Regressor(回归器) 一种特征,即用作模型输入的解释性变量。

Regularization(正则化) 引入额外信息以防过度拟合的过程。

Reinforcement Learning(强化学习) 机器学习的子领域之一,主要是受人类行为的启发,研究代理应如何在给定的环境中采取行动,以实现累积奖励概念的最大化。

Reproducibility (crisis of)(可再现性危机) 科学领域的一种方法论危机,即学者们发现:许多科学研究的结果很难或不可能在独立研究人员或最初研究人员自己的后续研究中复制或再现。

Restricted Boltzmann Machines(受限玻尔兹曼机) 受限玻尔兹曼机 (RBM) 是一种生成型随机人工神经网络,可以学习其输入集上的概率分布。

S

Sora(State of the Art)

指的是在某一领域内最新、最先进的技术或方法。无论是在科学研究、工程技术还是机器学习中,SOTA都代表了当前公认的最佳成果或最高水平的成就。SOTA方法和技术通常是通过同行评议的学术论文、行业报告或者标准评测中展示的,并被用作衡量其他研究或技术进展的基准。

Semi-Supervised Learning(半监督学习) 监督学习技术的一个类别,它还可以利用可用的未标记数据进行训练,通常结合使用少量的已标记实例与大量的未标记行。另请参见监督学习和无监督学习。

Sentiment Analysis 情绪分析 使用自然语言处理、文本分析、计算语言学和生物特征识别等功能系统地识别、提取、量化和研究受影响的状态和主观信息。

Speech Recognition(语音识别) 参见自动语音识别。

Statistical Distribution(统计分布) 在统计学中,经验分布函数是指与样本的经验指标相关的分布函数。该累积分布函数是一个阶跃函数,在 n 个数据点中的每个数据点上都跳了 1/n 次。它在测量变量的任何指定值处的值都是小于或等于对应指定值的测量变量观察值的分数。

Supervised Learning(监督学习) 一种机器学习任务,主要是指基于示例输入/输出对学习将输入映射到输出的函数。

Support Vector Machines (SVM)(支持向量机) 由一个单独的超平面正式定义的一种判别分类器类别,对于每个提供的带标记训练数据点,算法都会输出一个对新示例进行分类的最佳超平面。

Synthetic Data(合成数据) 当无法收集足够的实际数据或原始数据不满足特定要求时人工生成的数据。

T

TensorFlow(TensorFlow代码库) 一种开源代码库,在机器学习社区中非常流行,用于跨一系列任务的数据流编程。它是一个符号数学库,还可用于神经网络等机器学习应用。

Time Series (Time Series Data)(时序/时序数据) 在特定时间记录并根据它们的出现顺序进行索引处理的一系列数据点。

Testing (Testing Data)(测试/测试数据) 测试是指在监督机器学习情境中,使用保留数据评估模型最终性能的过程。

测试数据:数据科学家针对模型开发的测试阶段而选择的可用数据的子集。

Topic Modeling(主题建模) 无监督机器学习算法的一种类别,它使用聚类功能在文本数据中查找隐藏的结构并作为一个主题对其进行解释。

Training Data(训练数据) 在监督机器学习情境中,构建可从数据中学习并根据数据进行预测的算法。

训练数据:数据科学家针对模型开发的训练阶段而选择的可用数据的子集。

Transfer Learning(转移学习) 机器学习的一个领域,其重点在于使用获得的知识来解决特定问题,并将此类知识运用到其他相关问题。

Turing Test(图灵测试) 由艾伦·图灵开发的一种测试,用于评估机器表现出与人类相同的智能行为的能力。该测试包括人机聊天。如果在测试房间之外见证对话的评估人员不能可靠地区分人类与受测机器,则可以认定该机器已经通过了图灵测试。

Type I Error(I 类误差) 参见误报。

Type II Error(II 类误差) 参见漏报。

U

Uncertainty(不确定性) 可能包含真实值的一系列值。

Underfitting(拟合不足) 机器学习算法无法正确捕获数据的底层结构,通常是因为模型不够高级或不适用于当前任务;与过度拟合的涵义相反。

Unsupervised Learning(无监督学习) 机器学习的领域之一,包括对用于描述未标记数据结构的函数进行推断。

V

Validation(验证) 使用保留数据评估训练模型性能的过程;与模型性能最终评估的测试阶段相反,验证阶段旨在确定是否需要对模型进行任何迭代修改。

Vanishing/Exploding Gradients(消失/爆炸梯度) 数据科学家在采用基于梯度的学习方法和反向传播对人工神经网络进行训练时,由于神经网络中接收与误差函数偏导数成比例的更新的权重(考虑到每个训练迭代中的当前权重)而面临的可怕困难和主要障碍。

Variance(方差) 由于对训练集中小波动的敏感性而引起的误差,该误差按照针对随机变量与其平均值的平方偏差的期望值进行计算。


人工智能领域常见概念中英文汇编
https://linxkon.github.io/人工智能领域常见概念中英文汇编.html
作者
linxkon
发布于
2024年5月30日
许可协议