选择RLHF还是SFT 随着 [Llama3] 的开源,人们对 Alignment 的重视程度又上一个阶梯。作为 Alignment 家族中的核中核,RLHF 家族也开始变的繁荣昌盛,这对各位 RLer 来说可真是喜闻乐见。今天我们就一起来俯瞰一下当下 RLHF 都有些什么奇巧的魔改思路。如果你还不太清楚 RLHF 的一些基本概念,可以试着看看这篇文章:何枝:【RLHF】RL 究竟是如何与 LLM 做结合 2024-10-01 RLHF #LLM #模型训练
RAG中的rerank技术 [检索增强生成](RAG)是解决大语言模型(LLM)实际使用中的一套完整的技术,它可以有效解决LLM的三个主要问题:[数据时效性]、幻觉和数据安全问题(在我之前的文章《大模型主流应用RAG的介绍——从架构到技术细节》中有详细介绍)。但是随着RAG越来越火热,使用者越来越多,我们也会发现用的好的人/团队其实还是不多的。这也是RAG常被人吐槽的一点:入门简单,用好却非常难! 对于RAG的效果,我们之 2024-09-22 RAG #LLM #rerank
RAG效果评估 随着 LLM(Large Language Model)的应用逐渐普及,人们对 RAG(Retrieval Augmented Generation)场景的关注也越来越多。然而,如何定量评估 RAG 应用的质量一直以来都是一个前沿课题。 很显然,简单的几个例子的对比,并不能准确地衡量出 RAG 应用的整体的回答的好坏,必须采用一些有说服力的指标,定量地、可复现地、来评估一个 RAG 应 2024-09-15 大模型应用 #笔记整理 #大模型应用 #方法框架
分布式训练架构相关知识 1.背景 随着chatGPT的火爆出圈,大模型也逐渐受到越来越多研究者的关注。有一份来自OpenAI的研究报告(Scaling laws for neural language models)曾经指出模型的性能常与模型的参数规模息息相关,那么如何训练一个超大规模的LLM也是大家比较关心的问题,常用的分布式训练框架有Megatron-LM和DeepSpeed,下面我们将简单介绍这些框架及其用到 2024-09-12 模型训练 #LLM #分布式
大型语言模型LLM训练流程详解 更新内容 这里是近期(2024年8月1日)更新的LLaMA3.1的模型后训练(Post-training)策略和流程 在预训练的基础上,通过几轮后训练对模型进行微调,使其更好地与人类反馈对齐。 每轮后训练包括监督微调(SFT)和直接偏好优化(DPO),后者使用了人工注释和合成的数据样本。 LLM pipline 1.提示收集 Collected Prompts 2024-08-02 大模型 #笔记整理 #深度学习 #大模型
LLaMA 3.1 模型架构技术解析及代码实现 image-20240725101545036 LLaMA 3.1的模型结构如上图所示,它代表了目前主流的大型语言模型架构,也被称为Dense LLM。它应用了经典Transformer的Decoder部分并加以改造。 与之相对的是混合专家模型(Mixture of Experts,MOE)。MOE模型的主要特点是:将前馈网络(FFN)模块中的单一SwiGLU替换为个并行的S 2024-07-24 大模型 #模型架构 #LLaMA #知识总结
谁是最强大模型--权威大模型榜单整理 大模型的发展日新月异,那到底哪个模型更强呢,不同模型又有哪些各自擅长的领域呢?这里整理几个比较权威的LLM评测榜单和数据集供诸君参考. 2024-06-25 大模型 #大模型 #排行榜
RAG加分神器:embedding与rerank 基于 Retrieval Augmented Generation (RAG) 技术的效果取决于两个关键因素: 文本嵌入及语义提取的性能: 这个环节负责将输入文本转换为有意义的语义表示向量。 嵌入算法的准确性和鲁棒性直接影响后续的搜索和排序效果。 重排序模块的性能: 这个环节负责根据语义相似度对检索到的相关文本进行排序。 排序算法的效果直接决定了包含正确答案的文本是否 2024-06-10 RAG #大模型 #原理
ollama部署常见问题解答 本文将分为以下章节对 Ollama 进行介绍: Ollama 基本介绍,它的作用是什么 Ollama 软件安装、一些常用的系统参数设置 Ollama 管理本地已有大模型(包括终端对话界面) Ollama 导入模型到本地的三种方式:直接从 Ollama 远程仓库拉取、通过 GGUF 模型权重文件导入到本地、通过 safetensors 模型权限文件导入到本地 基于 WebUI 2024-06-01 大模型部署 #大模型