第四节检索增强生成：发挥企业专有数据的优势

大模型的局限与RAG的提出

大模型虽然能覆盖大量知识，但仍存在两大不足。第一是幻觉问题，即模型生成的内容逻辑、语法都正确，但事实却是错误的。第二是知识覆盖不足，尤其是企业内部的私有数据，大模型无法直接获取。这些限制使得大模型难以在业务中完全可靠地应用。为了让模型快速“懂业务”，研究者提出了检索增强生成（RAG）技术。RAG把企业或行业知识整理成外部知识库，在用户提问时先进行信息检索，再与问题结合提供给大模型，从而让模型能利用外部数据生成答案。这样，模型不再仅依赖预训练阶段的旧知识，而是能随时借助外挂知识进行补充。

RAG带来的三方面改善

RAG技术的发展自2020年提出后迅速加快，现已成为连接大模型与外部知识的关键方法。

它带来的第一个提升是时效性，能让模型及时获取最新事件和信息，避免回答滞后。例如，当用户提问2024年奥运会获奖情况时，即使模型预训练时没有相关数据，RAG也能检索并提供最新答案。
第二个提升是专业性，尤其在企业内部场景，许多数据并不公开，但通过RAG将大模型与内部知识库相结合，就能提升生产力。
第三个提升是安全性，RAG通过限定信息来源来减少幻觉，大模型只会基于指定数据库回答，确保在高要求的场景（如新闻、医疗）中输出可靠内容。

RAG与非RAG场景下的差异

在日常应用中，RAG技术的优势十分直观。以用户查询意大利餐厅为例：如果智能助手没有RAG，它只能基于已有的内部知识或固定数据库回答，比如推荐“比萨饼和意大利面”，虽然快速，但不够具体，也无法真正帮用户找到餐厅。而有了RAG后，助手会先在外部数据库中检索真实信息，再生成答案，例如推荐“Bella Italia”“Pasta House”“Olive Garden”等具体餐厅，并附带评价。这种方式不仅更实用，还能提供个性化推荐。不过，RAG的代价在于需要额外的计算资源和检索时间。

RAG的四大核心部件

RAG的运行依赖于四个关键模块。

第一是向量数据库，它是存储和检索信息的基础。与传统关系型数据库处理结构化数据不同，向量数据库以向量为基本单元，重点在相似性搜索和距离计算。例如百度的自研系统VectorDB，能支持百亿级向量数据，高效完成语义检索，并在内存利用率上实现显著优化。
第二是查询检索（Retriever），负责将用户输入转化为向量，并在数据库中找到语义最接近的内容。
第三是重新排序（Re-ranking），用于从检索结果中过滤和排序，把最相关的前几条信息优先放出，保证大模型在生成时能用到最精确的上下文。
最后是生成回答（Generator），即基于筛选后的信息生成自然语言输出，既能满足用户需求，又能确保答案的针对性和可靠性。

RAG的基本流程

RAG技术的完整运行过程可以分为五个步骤：知识文档准备、嵌入模型、向量数据库的建立、查询检索以及生成回答。其中，前两个环节是整个流程的基础。

知识文档的准备是RAG的起点，它要求把各种形式的知识源——如Word、txt、CSV、Excel、PDF、图片、视频等——转化为模型能够理解的纯文本数据。这个过程中通常分三步：

第一是文本转换，借助文档加载器或OCR技术从多模态文件中提取文字；
第二是数据清洗，去除冗余和错误，提高数据质量；
第三是文档切片，即把长文档分割成更小的文本块，从而提升检索效率和模型处理的准确性。

嵌入模型则是将这些纯文本数据转化为数值向量。向量不仅记录了文本的基本特征，还能捕捉语义和上下文信息。相似度高的文本会对应更接近的向量距离，从而实现语义上的“聚类”。此外，嵌入模型利用降维技术把信息映射到低维空间，这种“密集向量”既能更高效地进行语义搜索，也能为后续的向量数据库构建和检索奠定基础。

完成这两个环节后，便可进入向量数据库构建、查询检索和生成回答，从而实现RAG的全流程。

RAG的典型应用场景

总结来看，RAG最适合应用于三类场景：数据动态更新（例如新闻、时事类场景）、数据私密性强（如企业内部知识）、以及专业性要求高（法律、医疗、金融等领域）。在这些领域，RAG不仅能确保答案的准确性与实用性，还能显著提升大模型落地的可行性与经济性。同时，随着企业部署和使用的便利性提升，RAG的应用会越来越普及，成为推动大模型落地的重要技术手段。

大模型的局限与RAG的提出​

RAG带来的三方面改善​

RAG与非RAG场景下的差异​

RAG的四大核心部件​

RAG的基本流程​

RAG的典型应用场景​