RAG实践篇（一）：知识资产的“梯度”

创意奇才 10-23 127

默认

摘要： 直播吧月日讯报道拉特克利夫打算到现场观看曼联维拉的比赛这将是拉特克利夫本赛季第二次到现场观看曼联比赛上一次他见证了球队惨败利物浦最终拉特克利夫将与布雷斯福德和乔尔格雷泽一起根据贝拉...

直播吧10月3日讯 The Athletic报道，拉特克利夫打算到现场观看曼联vs维拉的比赛。这将是拉特克利夫本赛季第二次到现场观看曼联比赛，上一次他见证了球队0-3惨败利物浦。最终，拉特克利夫将与布雷斯福德和乔尔-格雷泽一起，根据CEO贝拉达和体育总监阿什沃斯的建议，决定滕哈赫的命运。TA表示，曼联高层的关键人物之间每天都...

近期我们结束了一个RAG项目的开发，后续将不定期掉落RAG系列的复盘与实践。如有兴趣的读者，欢迎收藏文章和关注。

你是某个企业的领域知识专家。这个月，你们公司的AI技术来通知你，你们公司会通过RAG技术，把企业的私有知识库搬进大模型。这样，以后和这个领域的专有知识有关的问题，AI就再也不会满嘴跑火车，拿着不知真回答人了。他们希望你协助整理相关知识，然后他们就能把相关知识“喂给”大模型了。

请问，作为一位领域内容专家，你此时要怎么做？

A. 多就是好！立刻把我们庞大的、百万体量的私有知识资产，源源本本地输入进去。

B. 知识资产要怎么放，放哪些，才是真的有效？

可能此时你的表情be like：

别急，我们先来了解一下，什么是RAG？为什么当企业要把领域知识/私有知识的“AI化”的时候，要用到RAG？

RAG的全称是Ret eval-Au ented Gener ion。中文可以翻译为“检索增强生成”。技术特点就是通过增强检索功能来辅助生成模型。这个技术可以允许大语言模型在“回答”之前，先从指定的“池子”里检索相关信息。这样，AI在回答问题时，它就不仅仅是依赖于其训练期间所学习到的数据，而是能够参考更多、特定的上下文信息。

说到这里，你应该能明白，RAG对企业私有知识库的作用了。从目前的生成式AI的技术而言，大模型们虽然对各种主题都有着惊人的了解，但这些了解仅限于它们训练时使用的数据，我们姑且称之为“世界知识”。这意味着当我们将它用于企业私有或专有业务信息的时候，大模型的惊人理解力就无用武之地了。因为它根本没有“训练”过相应的知识。

而RAG（检索增强生成）技术等于给大模型开了一个知识“ ”。通过这个“ ”，一些并没有包含在原始的模型训练数据中的企业私有知识、专有业务信息，也能够被检索到，然后生成正确的输出。

简单来说，RAG的工作流程可以分为以下几个步骤：

不过，当我们用RAG技术为AI模型输入知识库时，并不像往图书馆里添加新书一样清楚简单。毕竟是一种“外部检索”技术，稍有不慎就会翻车。以下是我们在做RAG时，经常会踩的坑：

误区：在专业领域中。许多文献和资料中充满了专业术语，这些术语对于非专业人士（甚至是大模型）来说都是难以理解的。

风险：当知识库内容包含大量专业术语、且文献错综复杂，对术语没有做出很好的解释和关联时，模型可能就会“倒在” 步。因为它根本无法很好地理解这些术语，更遑论最终输出正确的了。

误区：有时候，文献量太大，RAG系统在处理大量文本数据时，它可能无法有效地从中抽取关键信息。

风险：如果模型无法从复杂的文献中提取出核心要点，那么生成的可能会缺乏重点，或者包含大量无关紧要的细节，例如，在法律文献中，关键条款往往隐藏在大量法律条文中，模型在检索时可能会“忽略”，或者一股脑地提取。导致回答要么缺漏重点，要么又多又杂、找不到重点。

误区：有时候文献过多，输入到RAG系统中的数据可能包含不准确或错误的信息。比如，一个医疗的RAG系统，它的目的为医生和患者在进行询问时，提供准确的药品信息。但是，这个系统在知识库的建立时，收集了多种来源的药品说明书、临床试验报告以及的医学研究论文。就极有可能出现以下情况：

风险：生成时，可能会出现自相矛盾的回答，或者是每次的回答都不一致，容易误导用户。

误区：过时内容是指知识库中的某些信息可能已经不再适用当前的情况。

风险：如果RAG系统提供了过时的信息，那么这些信息可能会导致用户做出基于过时数据的决策。例如，在技术快速发展的领域，如信息技术或生物医药，几年前的研究成果可能已经不再适用。

误区：无关且多余的信息是指知识库中包含了一些与当前问题无关或多余的内容。

风险：这些信息可能会干扰模型的判断，导致生成的中包含不必要的细节，从而使显得冗长而不切题。例如，在用户询问某一产品的具体规格时，系统却给出了大量与产品无关的市场营销材料。

误区：这种经常出现在一些“软”知识上，比如公司管理、领导力咨询等等。在这种知识领域，并没有的、正确的，而是不同的“学派”会有不同的切入点和理论体系。这样，同一个概念，在私有知识库和世界知识的说法不同，就可能产出冲突。

风险：模型回答的输出不稳定。面对“ ”给到的知识点和自己训练时就有的数据，大模型容易陷入“本能迁移”，更倾向于用自己训练时的数据做回答。

看完了以上的误区，你可能已经隐隐有感觉：“喂给”RAG的知识库，并不是越多越好。

尽管从知识库到正确的回答的输出，需要算法工程师进行技术的微调，但是从领域专家的角度，梳理和建设知识库时，就需要牢记以下原则：

并不是所有的知识都是平等的。你需要评估哪些知识“有价值”，而价值的私有知识，才可以称之为“知识资产”，并放入知识库之中。

那什么是有价值的知识资产？尽管各领域的知识内容不尽相同，但在实践中，我们可以遵循金字塔梯度的思路：

本文由 @AI 实践干货原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

该文观点仅代表作者本人，人人都是产品经理仅提供信息存储空间服务

标签：知识知识库模型

上一篇
不盲从，做你自己！FLY教练，上单Bwipo的这番话，值得所有人学习下一篇
C罗本场数据：6射3正+2关键传球 4对抗2成功获评7.6分

不盲从，做你自己！FLY教练，上单Bwipo的这番话，值得所有人学习
上一篇

C罗本场数据：6射3正+2关键传球 4对抗2成功获评7.6分
下一篇