【B站】从零开始学习大语言模型-Lyi 从零开始学习大语言模型-Lyi 林亦是我比较喜欢的一个UP,视频讲述了他对深度学习基本范式的回顾和梳理。主要介绍了神经网络模型的结构和训练过程,以及当前流行的大语言模型——基于神经网络的技术。视频指出,构建一个能力强、学习效率高的模型是影响学习效果的关键,也是深度学习研究的核心问题。整个视频围绕着数据和模型展开,梳理了深度学习的核心概念和基本流程。 2024-02-17 B站 #深度学习 #大模型 #视频分享
VSCODE配置优化(AI算法向) 程序配置 1234567891011121314151617181920212223242526272829303132333435// 自动保存文件,延迟一定时间后保存"files.autoSave": "afterDelay", // 自动猜测文件编码格式"files.autoGuessEncoding": true, // 在工作 2023-12-11 categories #vscode #实用工具 #教程
如何知道一个大模型是否可以在自己的显卡上运行呢? 1.经验评估 推理显存估算:7B-float 是 28 GB,7B-BF16 是 14GB,7B-int8 是 7GB;其他版本以此类推即可。 训练的参数类型,只能是 float / BF16 训练 所需显存 保守估算 是 同参数同类型llm 推理 的 4倍。 例子:7B-float 训练 显存:28 * 4 = 112 GB 方法 bits 7B 1 2023-11-25 大模型 #大模型 #部署 #模型训练
LLM 合成数据生成完整指南 大型语言模型(LLM) 是强大的工具,不仅可以生成类似人类的文本,还可以创建高质量的合成数据。这种能力正在改变我们进行 AI 开发的方式,特别是在现实世界数据稀缺、昂贵或隐私敏感的情况下。在本综合指南中,我们将探索 LLM 驱动的合成数据生成,深入探讨其方法、应用和最佳实践。 image-20240812092339558 使用 LLM 进行合成数据生成简介 综合数据 2023-10-11 数据工程 #笔记整理 #数据工程 #合成数据
提升模型训练效率的十个Pytorch技巧 One cycle学习率策略 Batch size num workers & pin memory 自动混合精度训练 torch.backends.cudnn.benchmark torch.nn.parallel.DistributedDataParallel 梯度累加 梯度裁剪 BN前卷积层中的bias 陋习改正 在使用 PyTorch 进行深度 2023-10-02 pytorch #深度学习 #pytorch #干货总结
生成式模型与判别式模型比较 生成模型和判别模型是机器学习和统计建模中两种主要的模型类型,它们在目标、方法和应用上有显著的区别。以下是生成模型和判别模型的详细比较: 生成模型(Generative Model) 目标 生成模型的主要目标是建模数据的生成过程,即学习数据的联合分布 ( P(X, Y) ),其中 ( X ) 是输入数据,( Y ) 是标签或输出。 方法 联合概率分布:生成模型试图学习输入数据和输出标 2023-07-28 概念 #笔记整理 #算法 #模型
在LLM时代,Bert为什么不香了? BERT和T5怎么了?关于Transformer编码器、PrefixLM和去噪目标 那些在五年前就从事自然语言处理的人们,现在都在困惑:所有的编码器模型(encoder models)去哪了?如果BERT表现得如此出色,为什么不进行扩展?编码器-解码器模型( encoder-decoders)或仅编码器模型(encoder-only models)到底发生了什么? 今天,我试图解开这一切 2023-05-03 模型架构 #BERT #架构
激活函数简明教程 一、什么是激活函数? 在接触到深度学习(Deep Learning)后,特别是神经网络中,我们会发现在每一层的神经网络输出后都会使用一个函数(比如sigmoid,tanh,Relu等等)对结果进行运算,这个函数就是激活函数(Activation Function)。那么为什么需要添加激活函数呢?如果不添加又会产生什么问题呢? 2023-05-02 深度学习 #深度学习 #笔记整理 #激活函数
神经网络核心知识点梳理--一图了然 基于上篇文章的简单入门,这里重点梳理了一下神经网络的核心知识点,并以图片的方式呈现(点击放大哦~): 神经网络核心知识点梳理 1.网络结构 1.1 输入层 1x2矩阵的输入数据X1和X2 Bias(偏置)项作为额外输入,增强模型表达能力 1.2 隐藏层 6维度的神经元结构 每个神经元包含加权求和(Σ)和激活函数(f) 常用激活函数: Sigmoid: 2023-05-01 深度学习 #深度学习 #笔记整理 #神经网络