分布式训练架构相关知识 1.背景 随着chatGPT的火爆出圈,大模型也逐渐受到越来越多研究者的关注。有一份来自OpenAI的研究报告(Scaling laws for neural language models)曾经指出模型的性能常与模型的参数规模息息相关,那么如何训练一个超大规模的LLM也是大家比较关心的问题,常用的分布式训练框架有Megatron-LM和DeepSpeed,下面我们将简单介绍这些框架及其用到 2024-09-12 模型训练 #LLM #分布式
大型语言模型LLM训练流程详解 更新内容 这里是近期(2024年8月1日)更新的LLaMA3.1的模型后训练(Post-training)策略和流程 在预训练的基础上,通过几轮后训练对模型进行微调,使其更好地与人类反馈对齐。 每轮后训练包括监督微调(SFT)和直接偏好优化(DPO),后者使用了人工注释和合成的数据样本。 LLM pipline 1.提示收集 Collected Prompts 2024-08-02 大模型 #笔记整理 #深度学习 #大模型
LLaMA 3.1 模型架构技术解析及代码实现 image-20240725101545036 LLaMA 3.1的模型结构如上图所示,它代表了目前主流的大型语言模型架构,也被称为Dense LLM。它应用了经典Transformer的Decoder部分并加以改造。 与之相对的是混合专家模型(Mixture of Experts,MOE)。MOE模型的主要特点是:将前馈网络(FFN)模块中的单一SwiGLU替换为个并行的S 2024-07-24 大模型 #模型架构 #LLaMA #知识总结
谁是最强大模型--权威大模型榜单整理 大模型的发展日新月异,那到底哪个模型更强呢,不同模型又有哪些各自擅长的领域呢?这里整理几个比较权威的LLM评测榜单和数据集供诸君参考. 2024-06-25 大模型 #大模型 #排行榜
RAG加分神器:embedding与rerank 基于 Retrieval Augmented Generation (RAG) 技术的效果取决于两个关键因素: 文本嵌入及语义提取的性能: 这个环节负责将输入文本转换为有意义的语义表示向量。 嵌入算法的准确性和鲁棒性直接影响后续的搜索和排序效果。 重排序模块的性能: 这个环节负责根据语义相似度对检索到的相关文本进行排序。 排序算法的效果直接决定了包含正确答案的文本是否 2024-06-10 RAG #大模型 #原理
ollama部署常见问题解答 本文将分为以下章节对 Ollama 进行介绍: Ollama 基本介绍,它的作用是什么 Ollama 软件安装、一些常用的系统参数设置 Ollama 管理本地已有大模型(包括终端对话界面) Ollama 导入模型到本地的三种方式:直接从 Ollama 远程仓库拉取、通过 GGUF 模型权重文件导入到本地、通过 safetensors 模型权限文件导入到本地 基于 WebUI 2024-06-01 大模型部署 #大模型
高效微调统一框架——LLAMA-FACTORY技术点详解 高效的微调对于将大语言模型 (LLM) 适应下游任务至关重要。然而,在不同模型上实施这些方法需要付出不小的努力。 LLAMA-FACTORY是一个集成一套高效训练方法的统一框架。它允许用户通过内置的 Web UI LLAMA-BOARD 灵活地自定义 100 多个 LLM 的微调,无需编码。 (本文旨在说明LLAMA-FACTORY引入了NLP领域的哪些训练微调技术及其优势应用领域,项目部 2024-05-21 NLP #工具框架 #NLP #效率工具