RAG —-检索增强生成(Retrieval Augmented Generation)

总结:RAG = 检索技术 + LLM 提示

通过自有垂域数据库检索相关信息,然后合并成为提示模板,给大模型润色生成回答。

知识的局限性:大模型自身的知识完全源于训练数据,而现有的主流大模型(deepseek、文心一言、通义千问…)的训练集基本都是构建于网络公开的数据,对于一些实时性的、非公开的或私域的数据是没有。
幻觉问题:所有的深度学习模型的底层原理都是基于数学概率,模型输出实质上是一系列数值运算,大模型也不例外,所以它经常会一本正经地胡说八道,尤其是在大模型自身不具备某一方面的知识或不擅长的任务场景。
数据安全性:对于企业来说,数据安全至关重要,没有企业愿意承担数据泄露的风险,尤其是大公司,没有人将私域数据上传第三方平台进行训练会推理。这也导致完全依赖通用大模型自身能力的应用方案不得不在数据安全和效果方面进行取舍。

而RAG就是解决上述问题的有效方案。

  • 开发框架
    • langchain,llamaIndex,autogpt等
  • Embedding模型
    • BERT 属于动态(上下文相关)嵌入,因为它会根据上下文实时生成不同的向量;Word2Vec、GloVe 是静态嵌入。
  • 大模型API
  • 向量数据库
  • faiss,weaviate等
  • 排序模型
  • prompts优化

Agent

  • 开发框架
    • langchain,llamaIndex,autogpt等
  • 数据库
  • 这里有向量数据库,有普通的关系型数据库和缓存数据库
  • function call
    • 或者新出的mcp
  • prompts优化