1 概念篇

1.1 [0]汇总1

00.词汇
    a.第一阶:感知与交互
        核心技术词汇        通俗定义                水泥采购案例应用
        提示词             给 AI 的指令            你对 AI 说:“对比 A 和 B 项目合同,找找 30 块钱差价在哪。”
        基础大模型 (LLM)    AI 的通识大脑            它是处理逻辑的总后台(如 GPT、Qwen、Claude)。
        Tokens (标记)      AI 的计费/运算单位       你传给 AI 的合同字数越多,消耗的 Token 就越多。
        OCR (字符识别)      图片转文字              把打印版或拍照的合同、收据识别成电脑能读的文字。
    b.第二阶:数据加工
        核心技术词汇        通俗定义                水泥采购案例应用
        NER (实体识别)     提取关键要素            自动识别出“海螺牌”、“P.O 42.5”、“上海普陀区”等关键信息。
        实体消解           统一同物异名            确定合同里的“Conch”和数据中台里的“海螺”是同一家。
        异常检测           自动抓出“显眼包”        数据中台自动发出警报:B 项目 50 元价格严重偏离平均线。
        数据血缘           追踪数据来源            查清这 50 元是由于单价高,还是因为误把运费也算进了单价。
    c.第三阶:理解与关联
        核心技术词汇        通俗定义                水泥采购案例应用
        语义分析           理解文字背后的真实含义    明白合同里的“含泵送费”和“库侧交货”是导致差价的逻辑主因。
        向量化             文字转数字坐标          AI 发现“运费险”和“运输成本”在数学空间上高度相关。
        RAG (检索增强)     边查资料边回答          AI 不靠记忆瞎猜,而是去档案库检索 A、B 两个项目的真实合同。
        相似度             计算内容接近程度        发现 B 项目的 50 元价格和同地区的“山地项目”合同最接近。
    d.第四阶:推理与架构
        核心技术词汇        通俗定义                水泥采购案例应用
        智能体             自主规划的 AI 员工      发现差价后,主动去查 SQL 数据,再主动读 PDF 档案并写总结。
        思维链             引导分步骤推理          AI 自述:“先查品牌,再查规格,最后对比物流条款,得出结论。”
        可解释性 (XAI)      给出结论的证据支撑      AI 输出:“我认为 50 元合理,证据见 B 合同第 3 页第 2 条关于加急费的描述。”
        上下文窗口          AI 的临时记忆长度       决定了 AI 能不能同时“装下”两个项目几百页的全部档案进行对比。
        微调               特定领域的强化训练       用公司内部的历史审计案例训练 AI,让它更懂你们的采购套路。
        幻觉控制            确保 AI 不瞎编          设定规则:如果合同里没写原因,AI 必须回答“无法确定”,不能乱猜。

01.第一阶(感知交互层)- 49个词条
    a.提示词技术
        词条              英文名                  技术描述                                          大白描述
        提示词            Prompt                  发送给LLM的自然语言指令                            直接用自然语言提问,系统自动理解并执行查询
        基础大模型        FoundationModel         通用AI底座,如GPT-4、Claude                        系统自动理解合同条款的深层含义,识别说法不同意思一样的条款
        Tokens            Tokens                  AI处理信息的最小单位/计费单位                      明确计费标准,处理100份合同大约消耗多少费用,可以提前预算
        Temperature       Temperature             控制输出随机性的参数                                一个参数控制输出风格:审计报告模式严谨确定,风险预判模式发散多角度
        Top-P             Top-P                   核采样,限制候选词范围                              限制系统只从最可能最正常的词里选择,生成审计报告时不会突然冒出奇怪表述
        MaxTokens         MaxTokens               限制生成的最大Token数                               设置最大输出长度,系统自动控制在范围内,100份合同都能生成统一格式的摘要
        SystemPrompt      SystemPrompt            预设模型行为和角色的指令                            预设系统角色:你是央企审计专家,关注合规性和成本控制,之后所有回答都会带上这个视角
        UserPrompt        UserPrompt              用户每次输入的具体问题                              清晰的问题引导清晰的回答,请列出这份合同的三个最大风险点比看看这合同效果好得多
        PromptTemplate    PromptTemplate          预定义的提示词结构模板                               把常用问题格式固定下来,填空就能用,每次只需填项目名材料类型就能生成标准化分析指令
        Few-shot          Few-shotLearning        通过少量示例让模型适应新任务                         只需要给系统看3-5个真实案例,它就能学会识别类似问题,准备时间从3个月缩短到1周
        Zero-shot         Zero-shotLearning       无示例情况下仅凭指令完成任务                         不用准备数据,直接告诉系统帮我找出这份合同的风险条款,它就能执行,遇到新业务场景当天就能用
        Tree-of-Thought   Tree-of-Thought         同时探索多条推理路径                                 系统同时考虑统计口径问题市场波动供应商溢价等多种可能,逐一验证后选择证据最充分的结论
        Self-Consistency  Self-Consistency        多种方法解决同一问题取多数                           让系统用5种不同方式分析同一份合同取多数结论,5次分析中有4次认为存在风险则判定为高风险
    b.多模态技术
        词条              英文名                  技术描述                                          大白描述
        Multimodal        Multimodal              同时处理文本、图像、音频、视频                       一个系统同时处理合同文本扫描件图片现场照片验收视频,综合判断B项目的水泥是不是真的用到了工地上
        OCR               OCR                     图像转文本,让AI能"看懂"图片                        拍照就能把纸质文件变可搜索的文字,十年档案一周整理完,原来遇到争议要翻3天现在输入关键词10秒找到原始依据
        ASR               ASR                     语音识别,把音频转成文字                             录音自动转成文字,30分钟录音5分钟出稿,可以搜索关键词快速定位关键内容,核实口头承诺是否与合同一致
        TTS               TTS                     语音合成,把文字转成语音                             把审计报告自动转成语音,领导出差路上就能听完核心发现,回来直接讨论问题不用等领导看完报告再汇报
        图像识别          ImageRecognition        识别图像中的物体和场景                               系统自动识别照片中的材料品牌数量,照片中有50袋海螺水泥自动生成描述,1000张照片1小时处理完
        视频理解          VideoUnderstanding      理解视频内容与事件发展                               系统自动分析视频内容识别关键事件,材料进场时间14:30数量约100袋自动提取,1小时视频5分钟分析完
        图像生成          ImageGeneration         用文字描述生成图像                                   输入展示采购流程的信息图,系统自动生成专业配图,不用找设计10秒出图
        视频生成          VideoGeneration         用文字描述生成视频                                   输入文字描述系统自动生成演示视频,展示问题演变时间线,1分钟视频10分钟生成,外包5000元vs系统生成免费
        文生图            Text-to-Image           输入文本生成对应图像                                 输入展示采购流程的信息图,系统自动生成专业配图,找图做图时间从1小时缩短到10秒
        文生视频          Text-to-Video           输入文本生成对应视频                                 输入展示采购审计关键步骤,系统自动生成教学视频,培训材料从文字变成视频,新员工更容易理解
        图生文            Image-to-Text           输入图像生成文字描述                                 上传合同扫描件截图,系统自动识别并生成文字描述,不用人工看图打字10秒出文字
        语音到语音        Speech-to-Speech        直接语音输入转语音输出                               直接语音提问系统语音回答像打电话一样,开车时就能问不用看屏幕,实时对话不用等
    c.函数与工具
        词条              英文名                  技术描述                                          大白描述
        FunctionCalling   FunctionCalling         让LLM调用外部工具和API                               系统自动完成全流程:自动登录财务系统查价格、自动调取合同库数据、自动发送分析报告,从发现到报告原来40分钟现在2分钟
        ToolUse           ToolUse                 模型选择和调用外部工具                               系统自动使用合适的工具:算差价百分比用计算器、查市场价用搜索、查历史合同用数据库
        APIIntegration    APIIntegration          通过API连接AI与外部系统                              AI系统连接所有系统一次查询跨系统获取数据,不用人工登录多个系统AI自动调用,跨系统查询时间从30分钟缩短到10秒
        CodeInterpreter   CodeInterpreter         让模型编写执行代码的沙箱                             系统自动写代码分析数据生成统计图表,100份合同的价格分布图异常检测报告10分钟生成,不用找程序员写代码
        WebBrowsing       WebBrowsing             联网获取实时信息                                     系统自动联网查询当期市场价格作为对比基准,搜索2024年水泥市场价格自动获取最新数据
        FileUpload        FileUpload              处理用户上传的文件                                   直接上传PDFExcelWord文件系统自动分析,不用手动复制粘贴10份合同一起上传批量处理
    d.模型基础概念
        词条              英文名                  技术描述                                          大白描述
        FoundationModel   FoundationModel         大规模预训练的通用模型                               用成熟的基础模型作为底座,不用从零开发直接调用现成能力,后续可以用公司数据微调变成懂业务的专属AI
        LLM               LLM                     大语言模型                                          语言大模型能理解合同条款分析逻辑生成报告,输入问题输出分析结果像和一个智能员工对话
        AGI               AGI                     通用人工智能(终极目标)                              了解AI能力边界合理规划应用场景,该用AI的地方用AI该用人的地方用人
        MaaS              MaaS                    模型即服务,云端提供AI能力                            不用自己搭服务器直接调用云服务,按调用量付费用多少付多少,不用招技术团队现有人员培训就能用
        MoE               MoE                     混合专家模型,稀疏激活                                模型内部有多个小专家遇到问题只调最擅长的几个,能力强速度快成本低
        开源模型          OpenSourceModel         代码权重公开,可自由部署                              下载开源模型在公司内网部署,代码公开数据不出公司完全自主可控
        闭源模型          ClosedSourceModel       只能API调用,不公开权重                               商业模型效果最好最稳定有售后,对效果要求高的场景选择商业模型
        ModelWeights      ModelWeights            模型参数,存储学到的知识                              模型权重是AI的记忆存着它学到的所有知识,下载权重文件就能在本地运行模型
        ModelSize         ModelSize               模型大小,决定能力和资源需求                          根据任务复杂度选择:简单任务用小模型快便宜,复杂分析用大模型准全面
        Parameters        Parameters              参数量,如70B=700亿参数                               参数量是模型的脑细胞数量,参数越多越聪明但也越贵,70B属于中高水平
    e.Token与上下文
        词条              英文名                  技术描述                                          大白描述
        ContextWindow     ContextWindow           一次能处理的最大Token数                               系统能一次性吞下几百页的合同文档做全局分析,不用分批处理再人工汇总结论更准确
        KVCache           KVCache                 缓存注意力键值对,加速推理                            系统记住之前算过的东西不用重复算,多轮对话更快响应时间缩短50%
        SlidingWindow     SlidingWindow           固定窗口滑动处理长文本                                用一个窗口在文档上滑动每次处理一部分最后汇总分析结果,超长文档也能处理内容全覆盖
        Streaming         Streaming               边生成边返回的流式输出                                系统一边想一边输出用户能看到打字机效果,不用等系统想完内容逐步出现体验更好
        BatchProcessing   BatchProcessing         多个请求合并处理                                      100份合同攒一起一次性发给系统处理,成本比一份一份处理低50%,夜间自动处理白天看结果
    f.实时通信
        词条              英文名                  技术描述                                          大白描述
        Real-timeAPI      Real-timeAPI            毫秒级响应的实时API                                   毫秒级响应像打电话一样流畅,语音提问语音回答不用等
        WebSocket         WebSocket               保持持久连接的双向通信                                保持一条热线随时发消息,多轮对话更流畅不用每次重新连接
        SSE               SSE                     服务器主动推送事件                                    服务器主动推送通知不用刷新页面,分析完成自动提醒报告生成自动提示

02.第二阶(数据加工层)- 40个词条
    a.信息提取
        词条              英文名                  技术描述                                          大白描述
        NER               NER                     实体识别,提取人名地名等                              系统自动从合同中提取关键信息:材料名称规格数量金额,100份合同的关键信息10分钟提取完自动生成表格
        实体消解          EntityResolution        解决"同物异名"问题                                    系统自动识别不同名字指向同一供应商,海螺水泥和Conch Cement是同一家公司,统计时不会重复计算分析更准确
        关系抽取          RelationExtraction      识别实体间的语义关系                                  系统自动从合同中抽取关系:A公司供应水泥、B项目采购1000吨、单价50元,抽取的关系可以构建知识图谱支持复杂查询
        事件抽取          EventExtraction         识别完整事件要素                                      系统自动从文本中提取完整事件:时间2024-03-15、人物A公司B公司、动作签订合同、内容采购水泥1000吨,自动建立项目事件时间线
        EntityLinking     EntityLinking           链接实体到知识库                                      把合同中的简称别名链接到知识库中的标准实体,点击海螺自动显示完整信息:全称资质历史合作记录
        指代消解          CoreferenceResolution   识别指向同一实体的表述                                系统自动理解文本中的指代:该公司A公司、其供应商B公司、本合同当前合同,理解完整语义分析更准确
    b.知识组织
        词条              英文名                  技术描述                                          大白描述
        知识图谱          KnowledgeGraph          图结构组织知识                                        把所有关系连成一张网一目了然:A供应商供过货的项目供过的材料价格,点击一个供应商看到完整关系网,还能发现隐藏的利益关联
        Ontology          Ontology                定义概念及关系的规范                                  定义统一的概念框架:风险价格偏离超过30%、异常与历史数据差异超过2倍标准差、违规不符合采购制度的行为,AI按统一标准判断结论一致
        Taxonomy          Taxonomy                按层级组织概念的分类                                  建立材料分类体系:建材水泥P.O 42.5,按层级组织支持从大类查询所有建材和从细类查询P.O 42.5水泥
    c.数据质量
        词条              英文名                  技术描述                                          大白描述
        数据清洗          DataCleaning            修正错误、删除重复                                    系统自动清洗数据:统一格式去掉多余标点空格、删除重复记录、修正明显错误,清洗后分析准确率提升20%
        数据标注          DataAnnotation          为数据添加语义标签                                    找2个审计员标注200份历史合同标记出哪些条款后来出了问题,AI学习后新合同自动识别类似风险
        异常检测          AnomalyDetection        识别离群点                                           系统自动对比历史价格发现异常比如价格比历史高50%立即弹窗报警,原来要等年底审计才发现现在入库时就报警当场就能拦住
        DataQuality       DataQuality             数据质量评估                                          系统自动评估数据质量:完整性95%有5%的字段缺失、准确性90%有10%的数据有误、一致性85%不同系统数据有冲突
        DataValidation    DataValidation          检查数据是否符合规则                                  给数据过筛子把不合格的拦在外面:金额必须大于0、日期不能超过今天、必填字段不能为空,不合格数据自动退回不入库
        DataProfiling     DataProfiling           分析数据统计特征                                      系统自动给数据做体检生成报告:字段缺失率统计、值分布情况、异常值比例,5分钟了解数据全貌制定针对性的清洗策略
        DataDeduplication DataDeduplication       删除重复记录                                          系统自动识别并删除重复记录:识别相同供应商相同金额相近日期的重复合同、合并重复的供应商记录,清理后数据准确统计可靠
        DataMasking       DataMasking             敏感数据脱敏                                          系统自动对敏感信息打码:金额保留数量级具体数字用星号替代、联系方式部分隐藏、关键商业条款模糊化,脱敏后的数据可以安全分享
        DataPrivacy       DataPrivacy             数据隐私保护                                          建立数据隐私保护机制:分级分类不同级别数据不同权限、访问控制只有授权人员可查看、操作日志谁在什么时候看了什么
    d.数据治理
        词条              英文名                  技术描述                                          大白描述
        数据血缘          DataLineage             追溯数据流转路径                                      建立数据血缘追踪:记录数据从源头到报表的完整路径,每个环节的处理逻辑有记录,可追溯数据变更历史,每个数字都有族谱来源去向一目了然
        DataGovernance    DataGovernance          数据资产管理制度体系                                  建立数据治理体系:组织架构成立数据治理委员会、制度流程数据录入审核使用规范、质量监控数据质量持续监控改进,数据有人管有标准可追溯
        主数据管理        MasterDataManagement    统一管理核心数据                                      统一管理核心数据:供应商统一编码统一名称统一属性、材料统一分类统一规格描述、项目统一编码统一命名,各系统核心数据一致分析结果可靠
        DataCatalog       DataCatalog             数据资产目录                                          建立数据资产目录:登记所有数据资产、记录数据位置结构含义、支持快速搜索定位,像图书馆目录一样快速找到需要的数据
        DataStewardship   DataStewardship         数据管理责任人                                        明确数据责任人:每类数据指定数据管家、负责数据质量和问题处理、定期检查数据质量,数据有人管有人负责有人维护
        DataStandards     DataStandards           数据格式规范                                          建立数据标准:字段命名规范、编码规则统一、数据格式统一,各系统说同一种语言数据交换顺畅
        DataCompliance    DataCompliance          数据合规管理                                          建立数据合规管理:数据保留期限自动到期提醒归档销毁、访问权限控制分级授权操作留痕、合规检查定期检查数据处理是否符合法规
        DataLifecycle     DataLifecycle           数据生命周期管理                                      定义数据生命周期:创建数据产生时录入、使用日常业务使用、归档使用频率低时归档、销毁到期后安全销毁,数据生老病死有规则存储成本可控
    e.数据流程
        词条              英文名                  技术描述                                          大白描述
        ETL               ETL                     抽取转换加载流程                                      系统自动从各系统抽取数据清洗后汇总到一起,原来要登录3个系统查半天现在一个平台全看到
        DataPipeline      DataPipeline            数据自动化流转路径                                    建立数据管道自动完成:采集清洗存储分析,每天新增数据自动流转不用人工干预,当天数据当天可查
        DataLake          DataLake                存储原始数据的中心库                                  把所有原始数据都存下来包括合同发票邮件照片,10年的数据都能查到想分析什么随时可以
        DataWarehouse     DataWarehouse           面向分析的集成化存储                                  在数据仓库里存储整理好的数据:按主题组织采购财务合同、按时间组织年季月、支持复杂查询和报表
        数据增强          DataAugmentation        变换生成新样本                                        通过同义词替换句式变换,100份合同扩充到500份,不用人工标注更多AI训练效果更好
    f.特征工程
        词条              英文名                  技术描述                                          大白描述
        特征工程          FeatureEngineering      提取构造有用特征                                      从合同中提炼关键指标:付款周期天数、单价波动率、供应商历史违约次数、合同复杂度,用这些特征来判断风险比拍脑袋更客观
        FeatureStore      FeatureStore            特征存储和管理平台                                    建立特征存储:统一存储计算好的指标、不同项目可直接调用、指标版本管理,算一次存起来反复用
        FeatureSelection  FeatureSelection        选择最有用的特征                                      系统自动筛选最有用的指标:分析指标与风险的相关性、排序指标重要性、选择最有用的20个指标,模型更精简效果更好
        FeatureImportance FeatureImportance       特征贡献程度衡量                                      系统分析指标重要性并排名:供应商历史违约次数重要性85%、付款周期重要性60%、合同金额重要性40%,知道哪些因素最重要重点关注关键因素
        FeatureTransformation FeatureTransformation 特征数学变换                                         对指标进行数学变换:对数变换处理金额的长尾分布、标准化消除量纲影响,变换后指标更适合分析效果更好
        FeatureScaling    FeatureScaling          特征缩放到同一量纲                                    把所有指标缩放到同一范围0-1:金额100万变0.5、天数180天变0.6、次数5次变0.25,统一量纲后各指标公平参与分析
        FeatureEncoding   FeatureEncoding         类别转数值编码                                        把文字类别转换成数字:国企变1民企变2外企变3,或用更复杂的编码方式,转换后AI可以计算分析
        FeatureExtraction FeatureExtraction       从原始数据提取特征                                     从文本中提炼关键指标:条款数量、金额出现次数、风险词汇频率、合同复杂度,把文本变成数字指标支持量化分析

03.第三阶(理解关联层)- 59个词条
    a.NLP基础
        词条              英文名                  技术描述                                          大白描述
        分词              Tokenization            文本切分为最小单元                                     了解文本切分原理:知道AI如何理解文本、估算处理成本、优化文本处理策略
        词性标注          POSTagging              标注词性(名动形等)                                   系统自动标注词性:帮助理解句子结构、支持复杂语义分析、提升信息提取准确度
        依存句法分析      DependencyParsing       分析词与词的依存关系                                   系统分析句子中的权责关系:识别甲方乙方的角色、判断付款方向、准确理解合同权责
        成分句法分析      ConstituencyParsing     分解句子为短语成分                                     系统分析条款的语法结构:分解复杂条款、理解层次关系、提取核心含义
        词形还原          Lemmatization           词汇还原到词典原形                                     系统自动还原词形:付款了变付款、供应商们变供应商,搜付款也能找到付款后
        词干提取          Stemming                去除词缀提取词干                                       提取英文词的词干:统一不同变化形式、提升英文检索准确率、支持英文合同分析
        停用词            StopWords               过滤无意义常用词                                       系统自动过滤停用词:去除无意义词汇、聚焦实质内容、提升分析效率
        词义消歧          WordSenseDisambiguation 确定多义词具体含义                                     系统根据上下文判断词义:识别多义词的具体含义、避免理解错误、提升分析准确度
    b.语义分析
        词条              英文名                  技术描述                                          大白描述
        语义分析          SemanticAnalysis        解析文本深层含义                                       系统自动理解条款的深层含义:识别字面不同意思相同的条款、发现隐性陷阱和潜规则
        意图识别          IntentRecognition       识别用户输入意图                                       系统识别用户意图:查找合同执行检索、分析风险执行分析、生成报告执行报告生成
        情感分析          SentimentAnalysis       判断情感倾向                                           系统分析沟通记录的情感:识别正面负面中性态度、发现潜在不满情绪、预警可能的纠纷风险
        情绪检测          EmotionDetection        识别具体情绪类型                                       系统识别具体情绪类型:愤怒需要立即处理、失望需要改进服务、焦虑需要安抚沟通
        讽刺检测          SarcasmDetection        识别讽刺反语表达                                       系统识别讽刺表达:识别阴阳怪气的话、避免误判为正面评价、准确理解真实态度
        主题建模          TopicModeling           自动发现文本主题                                       系统自动归纳合同主题:付款相关条款35%、交付相关条款25%、质量相关条款20%
        文本分类          TextClassification      自动归类到预定义类别                                   系统自动判断合同类型并分类:识别合同特征、自动归类到预定义类别、支持批量处理
        文本聚类          TextClustering          相似文本自动分组                                       系统自动将相似合同分组:相似合同自动抱团、发现合同中的自然分组、识别异常合同
    c.向量技术
        词条              英文名                  技术描述                                          大白描述
        向量化            Vectorization           文字转为数学坐标                                       把文字编码为数字向量:水泥变成一串数字、语义相近的词数字也相近、支持语义计算和检索
        Embedding         Embedding               离散符号映射到向量空间                                 把每个词变成向量:意思相近的词向量相近、水泥和混凝土在向量空间距离近
        Word2Vec          Word2Vec                经典词向量算法                                         把每个词变成向量:意思相近的词向量相近、支持词语相似度计算
        GloVe             GloVe                   全局词共现词向量                                       使用GloVe生成词向量:结合全局统计信息、某些任务上效果更好
        FastText          FastText                支持子词的词向量                                       FastText支持子词信息:能理解没见过的词、对中文和新词处理更好
        BERTEembedding    BERTEembedding          上下文相关词向量                                       BERT根据上下文生成词向量:同一个词在不同句子中有不同向量、更准确表达语义
        SentenceEmbedding SentenceEmbedding       句子级别向量                                           把整句话编码为一个向量:甲方应按时付款变一个向量、支持句子相似度计算
        DocumentEmbedding DocumentEmbedding       文档级别向量                                           把整份合同编码为一个向量:每份合同有唯一的指纹、支持文档相似度计算
        MultimodalEmbedding MultimodalEmbedding   多模态统一向量                                         把文本和图片编码到同一空间:用文字搜图片、用图片搜文字、跨模态检索
    d.检索技术
        词条              英文名                  技术描述                                          大白描述
        RAG               RAG                     检索增强生成                                           AI分析前先检索档案库基于事实生成报告:发现异常后自动检索历史案例、每个结论都有历史档案支撑
        相似度            Similarity              计算向量距离                                           系统计算相似度并给出具体数字:B项目与去年山地大桥项目相似度90%、用数据支撑类似情况类似处理
        分块              Chunking                长文档切分成小块                                       把合同按条款切分成小块:每个条款单独存单独检、检索付款返回的是完整付款条款
        重排序            Re-ranking              检索结果二次排序                                       系统对检索结果二次排序:先粗选再精选、最相关的排在最前面、审计员优先看最相关的5个
        混合检索          HybridSearch            关键词+向量融合检索                                     两种检索方式结合:关键词找加急费、语义找赶工补偿快速通道费、检索更全面
        DenseRetrieval    DenseRetrieval          稠密向量检索                                           基于语义相似度检索:搜价格也能找到溢价差价、不限于关键词匹配、更智能的检索方式
        SparseRetrieval   SparseRetrieval         稀疏向量检索                                           传统关键词检索:精确匹配关键词、适合有明确关键词的检索、与语义检索结合使用
        LateInteraction   LateInteraction         最后阶段细粒度交互                                     先粗选再精细匹配:先快速筛选候选、再逐条精细对比、兼顾效率和精度
        ColBERT           ColBERT                 LateInteraction检索模型                                使用ColBERT高精度检索:检索效果更好、法律和合同检索效果优异、可解释性强
        QueryRewriting    QueryRewriting          查询重写优化                                           系统自动重写查询:高价变高价OR溢价OR超出市场价、扩大检索范围
        QueryExpansion    QueryExpansion          查询扩展同义词                                         自动给查询添加相关词:水泥变水泥加混凝土加建材、给查询加料搜索更全面
        BM25              BM25                    经典关键词检索算法                                      使用经典BM25算法:关键词精确匹配、考虑词频和文档长度、搜索引擎的标准算法
        TF-IDF            TF-IDF                  词重要性衡量算法                                        计算词在文档中的重要性:出现多但常见的词权重低、出现少但独特的词权重高
        检索评估指标      RetrievalMetrics        评估检索效果的指标                                      使用标准指标评估检索效果:精确率返回的结果有多准、召回率相关内容找到多少
    e.向量数据库
        词条              英文名                  技术描述                                          大白描述
        向量数据库        VectorDatabase          存储检索高维向量                                       把所有合同转成语义坐标存入数据库:输入高价案例0.1秒返回最相似的20份历史合同
        Pinecone          Pinecone                托管向量数据库服务                                     使用托管向量数据库:开箱即用无需运维、按使用量付费、快速落地
        Milvus            Milvus                  开源分布式向量库                                       使用开源向量数据库内网部署:数据不出公司、完全自主可控、支持大规模检索
        Chroma            Chroma                  轻量级向量数据库                                       使用轻量级向量数据库:快速上手、适合中小规模、适合原型开发
        Weaviate          Weaviate                支持知识图谱的向量库                                   向量检索和知识图谱一体化:语义搜索、知识关联、复杂查询支持
        Faiss             Faiss                   Meta开源向量搜索库                                     使用高性能向量检索库:支持十亿级向量检索、性能极佳、GPU加速
        Qdrant            Qdrant                  高性能向量数据库                                       支持向量检索加元数据过滤:语义检索找相关内容、同时按条件过滤
        ElasticsearchVector ESVector              ES的向量检索扩展                                       在现有ES上增加向量能力:保留原有搜索功能、增加向量检索能力、支持混合检索
    f.相似度计算
        词条              英文名                  技术描述                                          大白描述
        余弦相似度        CosineSimilarity        向量夹角余弦值                                         计算向量夹角的余弦值:衡量方向相似性、0-1之间越接近1越相似
        欧氏距离          EuclideanDistance       向量直线距离                                           计算向量之间的直线距离:衡量绝对差异、适合发现异常
        点积              DotProduct              向量对应位置乘积和                                     用点积快速计算相似度:归一化向量点积等于余弦相似度、计算速度快
        曼哈顿距离        ManhattanDistance       各维度差值绝对值和                                     使用曼哈顿距离:对异常值不敏感、像在城市走路只能横着或竖着
        Jaccard相似度     JaccardSimilarity       集合交并比                                             计算集合的交并比:重叠部分占合并部分的比例、适合判断内容重复度
        编辑距离          LevenshteinDistance     字符串最小编辑次数                                     计算字符串的最小编辑次数:把一个词变成另一个词需要改几个字
    g.检索加速
        词条              英文名                  技术描述                                          大白描述
        ANN               ANN                     近似最近邻搜索                                         使用近似最近邻搜索:牺牲不到1%精度、换取100倍速度提升
        HNSW              HNSW                    层次化导航小世界图                                     使用HNSW图索引:ANN中效果最好的算法之一、高召回率高效率
        IVF               IVF                     倒排文件索引                                           将向量分到不同桶里:检索时只搜相关桶、减少搜索范围
        PQ                PQ                      乘积量化压缩                                           压缩向量存储:将向量压缩8-32倍、大幅节省存储空间
        LSH               LSH                     局部敏感哈希                                           使用局部敏感哈希:相似向量哈希到同一个桶、快速找到相似内容
        Graph-basedIndex  Graph-basedIndex        图结构向量索引                                         用图结构组织向量:相似向量互相连接、沿着边找最近邻

04.第四阶(推理架构层)- 100个词条
    a.Agent架构
        词条              英文名                  技术描述                                          大白描述
        智能体            Agent                   自主执行任务的AI                                     AI像员工一样自主工作:发现异常后自动查数据翻档案、自己规划步骤、完成后自动发报告,从问答工具升级为数字员工
        Multi-Agent       Multi-Agent             多智能体协作                                         组建AI团队:数据Agent负责提取信息、分析Agent负责对比价格、风险Agent负责预警、报告Agent负责撰写
        ReAct             ReAct                   推理-行动交替架构                                     AI边想边干:先想需要查历史价格、调用API查询、观察结果后再想需要查供应商信用、继续调用直到得出结论
        Plan-and-Execute  Plan-and-Execute        先规划再执行                                         先做计划表再按计划执行:AI先生成审计计划10个步骤、你审核计划、AI按计划逐项执行
        Reflexion         Reflexion               自我反思改进                                         AI生成后自我反思:生成报告后问结论有证据支持吗、发现不足后补充证据、改进后再提交
        AutoGPT           AutoGPT                 自主目标驱动Agent                                    给目标AI自己干:告诉它分析这100份合同的风险、它自动规划步骤、调取数据分析问题生成报告、全自动执行
        BabyAGI           BabyAGI                 轻量任务驱动Agent                                    轻量级自主框架:核心功能完整、实现简单易上手、适合快速验证,先跑起来再优化
        LangChainAgent    LangChainAgent          LangChain框架Agent                                   用框架快速搭建:像搭积木一样简单、集成各种工具搜索数据库文件、1周内搭出原型
        CrewAI            CrewAI                  多Agent协作框架                                      专门做AI团队的框架:定义每个AI的角色、配置协作流程、自动分配任务
        AutoGen           AutoGen                 微软多Agent对话框架                                  微软的多Agent对话框架:AI之间可以开会讨论、互相求助验证、复杂问题协作解决
        MetaGPT           MetaGPT                 模拟公司角色的Agent                                  模拟公司角色的框架:项目经理AI规划任务、执行AI干活、审核AI把关质量
        AgentMemory       AgentMemory             智能体记忆存储                                       给AI装记忆:记住之前分析过的合同、记住发现的问题模式、下次遇到类似情况自动预警
        Environment       Environment             Agent运行环境                                        定义AI的舞台:能访问哪些系统ERP财务档案、能调用哪些工具搜索计算发邮件、输出格式是什么
        StateManagement   StateManagement         Agent状态管理                                        跟踪AI工作状态:当前在分析哪份合同、已完成3步还剩5步、发现了什么问题
    b.思维技术
        词条              英文名                  技术描述                                          大白描述
        思维链            Chain-of-Thought        展示推理中间步骤                                     AI分步展示推理过程:第一步确认品名一致、第二步发现B项目含税而A项目不含税、第三步计算税后差额为5元
        Tree-of-Thought   Tree-of-Thought         多条推理路径探索                                     AI同时考虑多种可能:同时考虑统计口径市场波动供应商溢价、逐一验证每个可能、选择证据最充分的结论
        Graph-of-Thought  Graph-of-Thought        思维图结构组合                                       把推理变成图结构:不同推理路径可以合并、可以分支回溯、形成完整的推理网络
        Self-Refine       Self-Refine             自我迭代改进                                         AI生成后自我改进:生成报告后问逻辑通顺吗、发现问题自己修改、改进后再提交
        Step-backPrompting Step-backPrompting     退一步思考高层概念                                   先退一步看大局:先问审计的核心原则是什么、再分析具体合同、带着原则去分析
        类比推理          AnalogicalReasoning     类比相似案例                                         AI检索相似历史案例:这个情况和去年的XX案例很像、借鉴当时的分析思路、借鉴当时的结论
        元认知            Metacognition           监控调节认知过程                                     让AI知道自己的边界:这个问题我不确定、需要查更多信息、建议咨询财务部门
    c.微调技术
        词条              英文名                  技术描述                                          大白描述
        微调              Fine-tuning             特定数据二次训练                                     用公司数据训练专属AI:理解公司特有术语和规则、一看就知道出厂价与到场价差15%、像个老员工一样懂业务
        SFT               SFT                     监督微调                                             用标注数据对AI进行专业培训:用历史审计报告训练模型、让它学会审计腔和专业表达、特定任务准确率提升30%
        RLHF              RLHF                    人类反馈强化学习                                     让AI学习人类偏好:收集好报告和差报告的对比、训练AI生成符合偏好的内容、输出越来越符合期望
        DPO               DPO                     直接偏好优化                                         直接用偏好数据优化模型:给AI看好报告和差报告、让它学会人类喜欢什么、比RLHF更简单
        PPO               PPO                     近端策略优化                                         使用稳定训练算法:小步慢跑不求快但求稳、限制每次更新幅度、训练更稳定
        KTO               KTO                     Kahn-Tucker优化                                      只需要单个标签:标注这个回答好不好即可、不需要专门找对比样本、标注成本降低50%
        ORPO              ORPO                    OddsRatio偏好优化                                    一次训练两个都学会:同时学习审计知识、同时学习报告风格、效率更高
        IPO               IPO                     Identity偏好优化                                     DPO的简化版:去掉复杂的正则化、某些场景更稳定、效果相当
        PEFT              PEFT                    参数高效微调                                         只训练小部分参数:训练1-10%的参数、效果接近全量微调、成本降低90%
        LoRA              LoRA                    低秩适应微调                                         只改模型的小部分参数:微调成本降低90%、普通服务器也能做、效果接近全量微调
        QLoRA             QLoRA                   量化LoRA                                             量化加LoRA:先把模型压缩到4-bit、再用LoRA微调、单张显卡也能微调大模型
        AdaLoRA           AdaLoRA                 自适应LoRA                                           自动分配参数:重要的层多分配参数、不重要的层少分配、效果更好
        Adapter           Adapter                 层间插入可训练模块                                    给模型装插件:不动原模型、在层间插入小模块、只训练小模块
        PrefixTuning      PrefixTuning            添加可训练前缀                                       训练专属前缀:在输入前加可训练的前缀、不同任务不同前缀、一个模型服务多个场景
        P-Tuning          P-Tuning                自动学习最优提示                                     自动学习最优提示:不用人工设计、AI自己学怎么问问题、比人工设计更有效
        InstructionTuning InstructionTuning       指令微调                                             用指令数据训练:学会理解各种指令、分析风险对比价格生成报告、按指令执行任务
    d.模型部署
        词条              英文名                  技术描述                                          大白描述
        ONNX              ONNX                    开放模型格式标准                                     模型通用格式:像PDF一样到处能打开、一次训练多框架部署、避免供应商锁定
        TensorRT          TensorRT                NVIDIA推理优化器                                     NVIDIA官方加速:推理速度提升5倍、在NVIDIA GPU上效果最好、支持量化加速
        vLLM              vLLM                    高性能LLM推理引擎                                    高吞吐推理引擎:吞吐量提升10-20倍、支持高并发请求、内存利用更高效
        Triton            Triton                  NVIDIA推理服务器                                     统一模型服务:统一管理多个模型、统一调度、支持多框架
        TorchServe        TorchServe              PyTorch官方部署框架                                  PyTorch官方部署工具:PyTorch模型快速上线、原生支持最好、提供版本管理
        TGI               TGI                     HuggingFace推理服务                                  HuggingFace部署工具:开箱即用、支持主流开源模型、流式输出支持
        llama.cpp         llama.cpp               纯C++LLM推理                                         纯CPU运行大模型:没有GPU也能跑、支持4-bit量化、内存需求大幅降低
        Ollama            Ollama                  简化本地运行大模型                                    极简本地运行工具:一条命令运行模型、安装就能用、支持多种开源模型
        LMStudio          LMStudio                图形界面本地LLM                                      图形界面运行工具:可视化操作、不用敲命令、下载模型即可用
        LocalAI           LocalAI                 兼容OpenAI的本地服务                                 本地OpenAI替代:API完全兼容、数据不出公司、无缝替换
        FastChat          FastChat                开源LLM训练部署平台                                  一站式LLM平台:训练部署评估、Web UI和API都支持、完整工具链
        DeepSpeed         DeepSpeed               微软深度学习优化库                                   微软深度学习优化库:支持超大模型训练、大幅降低显存需求、分布式训练支持
    e.推理优化
        词条              英文名                  技术描述                                          大白描述
        ContinuousBatching ContinuousBatching     连续批处理                                           动态组批处理:不等固定批次、来了就处理、GPU利用率提升
        PagedAttention    PagedAttention          分页管理KVCache                                      像操作系统一样管理内存:分页管理KV Cache、内存利用率接近100%、支持更高并发
        SpeculativeDecoding SpeculativeDecoding   投机解码加速                                         小模型猜加大模型验:小模型猜测内容、大模型快速验证、猜对了就省时间
        FlashAttention    FlashAttention          优化注意力计算                                       优化注意力计算:速度提升2-4倍、内存占用降低、支持更长上下文
        FlashAttention2   FlashAttention2         FlashAttention升级版                                 FlashAttention升级版:比一代快2倍、并行性更好、当前最快实现
        滑动窗口注意力    SlidingWindowAttention  窗口内注意力计算                                     只看窗口内的内容:减少计算量、支持超长序列、效果损失小
        ALiBi             ALiBi                   线性偏置位置编码                                     支持长度外推:训练短序列、推理长序列、无需重新训练
        RoPE              RoPE                    旋转位置编码                                         主流位置编码方案:Llama等模型使用、外推能力好、相对位置理解好
        Multi-QueryAttention MQA                  多查询共享KV                                         多查询共享KV:减少内存占用、推理更快、效果损失小
        Grouped-QueryAttention GQA                 分组查询注意力                                       MQA和MHA的折中:效果比MQA好、效率比MHA高、Llama 2/3使用
    f.模型压缩
        词条              英文名                  技术描述                                          大白描述
        量化              Quantization            高精度压缩到低精度                                   给模型减肥:把70B模型压缩后能在单张显卡上运行、4-bit压缩后只需40GB显存、普通服务器可部署
        模型蒸馏          Distillation            大模型知识迁移到小模型                               让大老师教小学生:把GPT-4级别的能力迁移到小模型、用大模型生成训练数据训练小模型、小模型达到大模型90%效果
        剪枝              Pruning                 删除不重要的参数                                     删除不重要的参数:减小模型体积、加速推理、效果损失小
        LayerPruning      LayerPruning            删除整层                                             删除不重要的层:大幅减少深度、加速推理、删10-20%效果影响小
        WeightPruning     WeightPruning           删除接近零的权重                                     删除接近零的权重:产生稀疏模型、可进一步压缩、效果损失小
        StructuredPruning StructuredPruning       按结构删除参数                                       按结构删除参数:整行整列删、硬件友好、更容易加速
        UnstructuredPruning UnstructuredPruning   无规则删除参数                                       无规则删除参数:压缩率最高、任意位置删除、难以硬件加速
    g.对齐与安全
        词条              英文名                  技术描述                                          大白描述
        幻觉控制          HallucinationControl    防止AI生成虚假信息                                   给AI装上事实安全阀:档案缺失时如实回答资料不足、不编造理由不瞎猜、有证据才下结论
        可解释性          Explainability          追溯AI决策依据                                       给AI结论贴上证据标签:高亮显示合同第15页的加急泵送服务条款、点击可跳转到原始证据、每个判断都有出处
        ConstitutionalAI  ConstitutionalAI        用原则指导AI行为                                     用宪法指导AI:定义一组原则、AI自动遵守、自己批评自己
        RedTeaming        RedTeaming              模拟攻击测试安全性                                   模拟攻击测试:找AI的漏洞、测各种攻击方式、发现潜在风险
        SafetyGuardrails  SafetyGuardrails        限制AI输出范围                                       限制AI输出:定义安全边界、拦截不当内容、防止输出违规
        ContentFiltering  ContentFiltering        过滤敏感有害内容                                     自动过滤敏感内容:检测敏感词、过滤有害内容、输出前拦截
        提示注入防御      PromptInjectionDefense  防止恶意指令控制AI                                   防御恶意指令:检测注入攻击、隔离恶意指令、防止被控制
        越狱防御          JailbreakDefense        防止绕过安全限制                                     防止绕过安全限制:检测越狱攻击、拒绝特殊话术、保持安全边界
    h.可解释性
        词条              英文名                  技术描述                                          大白描述
        XAI               XAI                     可解释人工智能                                       让AI决策可解释:展示判断依据、量化因素贡献、可视化展示
        SHAP              SHAP                    博弈论特征重要性                                     量化特征贡献:每个因素贡献值、正负贡献区分、排序展示
        LIME              LIME                    局部扰动解释                                         局部线性解释:在局部拟合简单模型、解释单个预测、直观易懂
        AttentionVisualization AttentionVisualization 注意力可视化                                       可视化注意力权重:热力图展示、高亮显示关注点、直观理解
    i.评估指标
        词条              英文名                  技术描述                                          大白描述
        Perplexity        Perplexity              语言模型困惑度                                       衡量生成质量:困惑度越低越好、量化评估标准、监控质量变化
        BLEU              BLEU                    n-gram重叠度评估                                     衡量文本重叠度:和标准答案对比、重叠越多越好、0-1分值
        ROUGE             ROUGE                   召回率评估                                           衡量内容覆盖率:覆盖标准内容多少、召回率越高越好、适合摘要评估
        BERTScore         BERTScore               语义相似度评估                                       语义相似度评估:考虑语义相似、不只是字面匹配、更符合人类判断
        MRR               MRR                     平均倒数排名                                         衡量排序质量:正确答案排位、越靠前越好、倒数排名平均
        NDCG              NDCG                    归一化折损累积增益                                   综合排序评估:考虑位置权重、越靠前越重要、全面评估
        Recall@K          Recall@K                前K结果召回率                                        衡量前K结果:前K个召回率、越高越好、实用性强
        F1Score           F1Score                 精确率召回率调和平均                                 精确率加召回率综合:调和平均、两者兼顾、综合评价
    j.模型产品
        词条              英文名                  技术描述                                          大白描述
        GPT-4o            GPT-4o                  OpenAI多模态旗舰                                     OpenAI多模态旗舰:文本图像音频视频、能力最强、多模态领先
        GPT-4             GPT-4                   OpenAI推理强模型                                     OpenAI旗舰模型:推理能力最强、各领域表现优异、成熟稳定
        GPT-3.5           GPT-3.5                 OpenAI经济型模型                                     经济型模型:速度快、价格低、适合简单任务
        Claude3           Claude3                 Anthropic最新模型                                    Anthropic最新模型:200K上下文、最安全的模型、长文档最强
        Claude2           Claude2                 Anthropic上一代                                      Anthropic上一代模型:100K上下文、性价比高、长文档依然出色
        Gemini            Gemini                  Google多模态大模型                                   Google多模态旗舰:多模态能力强、Google生态集成、不同版本选择
        Llama3            Llama3                  Meta开源模型标杆                                     Meta开源标杆:最好的开源模型之一、可本地部署、多版本选择
        Mistral           Mistral                 高效开源模型                                         高效开源模型:参数少效果好、推理速度快、资源需求低
        Qwen              Qwen                    阿里中文强模型                                       阿里开源模型:中文能力最强、多语言支持、不同规模选择
        DeepSeek          DeepSeek                国产性价比模型                                       国产高性价比模型:效果好价格低、MoE架构高效、API便宜

1.2 [0]汇总2

00.汇总
    a.分类1
        RAG              检索增强生成                           AI分析前先检索档案库基于事实生成报告:发现异常后自动检索历史案例、每个结论都有历史档案支撑
    b.分类2
        语义分析         解析文本深层含义                       系统自动理解条款的深层含义:识别字面不同意思相同的条款、发现隐性陷阱和潜规则
        意图识别         识别用户输入意图                       系统识别用户意图:查找合同执行检索、分析风险执行分析、生成报告执行报告生成
    c.分类3
        向量化           文字转为数学坐标                      把文字编码为数字向量:水泥变成一串数字、语义相近的词数字也相近、支持语义计算和检索
        相似度           计算向量距离                           系统计算相似度并给出具体数字:B项目与去年山地大桥项目相似度90%、用数据支撑类似情况类似处理
        向量数据库       存储检索高维向量                       把所有合同转成语义坐标存入数据库:输入高价案例0.1秒返回最相似的20份历史合同
    d.分类4
        智能体           自主执行任务的AI                     AI像员工一样自主工作:发现异常后自动查数据翻档案、自己规划步骤、完成后自动发报告,从问答工具升级为数字员工
        Multi-Agent      多智能体协作                         组建AI团队:数据Agent负责提取信息、分析Agent负责对比价格、风险Agent负责预警、报告Agent负责撰写
        思维链           展示推理中间步骤                     AI分步展示推理过程:第一步确认品名一致、第二步发现B项目含税而A项目不含税、第三步计算税后差额为5元
    e.分类5
        微调             特定数据二次训练                     用公司数据训练专属AI:理解公司特有术语和规则、一看就知道出厂价与到场价差15%、像个老员工一样懂业务
        vLLM             高性能LLM推理引擎                    高吞吐推理引擎:吞吐量提升10-20倍、支持高并发请求、内存利用更高效
    f.分类6
        量化             高精度压缩到低精度                   给模型减肥:把70B模型压缩后能在单张显卡上运行、4-bit压缩后只需40GB显存、普通服务器可部署
        模型蒸馏         大模型知识迁移到小模型               让大老师教小学生:把GPT-4级别的能力迁移到小模型、用大模型生成训练数据训练小模型、小模型达到大模型90%效果
    g.分类7
        剪枝             删除不重要的参数                     删除不重要的参数:减小模型体积、加速推理、效果损失小
        幻觉控制         防止AI生成虚假信息                   给AI装上事实安全阀:档案缺失时如实回答资料不足、不编造理由不瞎猜、有证据才下结论

01.第一阶(感知交互层)
    a.提示词技术
        词条             技术描述                          大白描述
        提示词           发送给LLM的自然语言指令            直接用自然语言提问,系统自动理解并执行查询
        基础大模型       通用AI底座,如GPT-4、Clau          系统自动理解合同条款的深层含义,识别说法不同意思一样的条款
    b.多模态技术
        词条             技术描述                          大白描述
        图像识别         识别图像中的物体和场景               系统自动识别照片中的材料品牌数量,照片中有50袋海螺水泥自动生成描述,1000张照片1小时处理完
        视频理解         理解视频内容与事件发展               系统自动分析视频内容识别关键事件,材料进场时间14:30数量约100袋自动提取,1小时视频5分钟分析完
        图像生成         用文字描述生成图像                   输入展示采购流程的信息图,系统自动生成专业配图,不用找设计10秒出图
        视频生成         用文字描述生成视频                   输入文字描述系统自动生成演示视频,展示问题演变时间线,1分钟视频10分钟生成,外包5000元vs系统生成免费
        文生图           输入文本生成对应图像                 输入展示采购流程的信息图,系统自动生成专业配图,找图做图时间从1小时缩短到10秒
        文生视频         输入文本生成对应视频                 输入展示采购审计关键步骤,系统自动生成教学视频,培训材料从文字变成视频,新员工更容易理解
        图生文           输入图像生成文字描述                 上传合同扫描件截图,系统自动识别并生成文字描述,不用人工看图打字10秒出文字
        语音到语音       直接语音输入转语音输出               直接语音提问系统语音回答像打电话一样,开车时就能问不用看屏幕,实时对话不用等

02.第二阶(数据加工层)
    a.信息提取
        词条             技术描述                          大白描述
        实体消解         解决"同物异名"问题                    系统自动识别不同名字指向同一供应商,海螺水泥和Conch Cement是同一家公司,统计时不会重复计算分析更准确
        关系抽取         识别实体间的语义关系                  系统自动从合同中抽取关系:A公司供应水泥、B项目采购1000吨、单价50元,抽取的关系可以构建知识图谱支持复杂查询
        事件抽取         识别完整事件要素                      系统自动从文本中提取完整事件:时间2024-03-15、人物A公司B公司、动作签订合同、内容采购水泥1000吨,自动建立项目事件时间线
    b.知识组织
        词条             技术描述                          大白描述
        知识图谱         图结构组织知识                        把所有关系连成一张网一目了然:A供应商供过货的项目供过的材料价格,点击一个供应商看到完整关系网,还能发现隐藏的利益关联
    c.数据质量
        词条             技术描述                          大白描述
        数据清洗         修正错误、删除重复                    系统自动清洗数据:统一格式去掉多余标点空格、删除重复记录、修正明显错误,清洗后分析准确率提升20%
        数据标注         为数据添加语义标签                    找2个审计员标注200份历史合同标记出哪些条款后来出了问题,AI学习后新合同自动识别类似风险
        异常检测         识别离群点                           系统自动对比历史价格发现异常比如价格比历史高50%立即弹窗报警,原来要等年底审计才发现现在入库时就报警当场就能拦住
    d.数据治理
        词条             技术描述                          大白描述
        主数据管理       统一管理核心数据                      统一管理核心数据:供应商统一编码统一名称统一属性、材料统一分类统一规格描述、项目统一编码统一命名,各系统核心数据一致分析结果可靠
    f.特征工程
        词条             技术描述                          大白描述
        特征工程         提取构造有用特征                      从合同中提炼关键指标:付款周期天数、单价波动率、供应商历史违约次数、合同复杂度,用这些特征来判断风险比拍脑袋更客观

03.第三阶(理解关联层)
    a.NLP基础
        词条             技术描述                          大白描述
        分词             文本切分为最小单元                     了解文本切分原理:知道AI如何理解文本、估算处理成本、优化文本处理策略
        词性标注         标注词性(名动形等)                   系统自动标注词性:帮助理解句子结构、支持复杂语义分析、提升信息提取准确度
        依存句法分析     分析词与词的依存关系                   系统分析句子中的权责关系:识别甲方乙方的角色、判断付款方向、准确理解合同权责
        成分句法分析     分解句子为短语成分                     系统分析条款的语法结构:分解复杂条款、理解层次关系、提取核心含义
        词形还原         词汇还原到词典原形                     系统自动还原词形:付款了变付款、供应商们变供应商,搜付款也能找到付款后
        词干提取         去除词缀提取词干                       提取英文词的词干:统一不同变化形式、提升英文检索准确率、支持英文合同分析
        停用词           过滤无意义常用词                       系统自动过滤停用词:去除无意义词汇、聚焦实质内容、提升分析效率
        词义消歧         确定多义词具体含义                     系统根据上下文判断词义:识别多义词的具体含义、避免理解错误、提升分析准确度
    b.语义分析
        词条             技术描述                          大白描述
        语义分析         解析文本深层含义                       系统自动理解条款的深层含义:识别字面不同意思相同的条款、发现隐性陷阱和潜规则
        意图识别         识别用户输入意图                       系统识别用户意图:查找合同执行检索、分析风险执行分析、生成报告执行报告生成
        情感分析         判断情感倾向                           系统分析沟通记录的情感:识别正面负面中性态度、发现潜在不满情绪、预警可能的纠纷风险
        情绪检测         识别具体情绪类型                       系统识别具体情绪类型:愤怒需要立即处理、失望需要改进服务、焦虑需要安抚沟通
        讽刺检测         识别讽刺反语表达                       系统识别讽刺表达:识别阴阳怪气的话、避免误判为正面评价、准确理解真实态度
        主题建模         自动发现文本主题                       系统自动归纳合同主题:付款相关条款35%、交付相关条款25%、质量相关条款20%
        文本分类         自动归类到预定义类别                   系统自动判断合同类型并分类:识别合同特征、自动归类到预定义类别、支持批量处理
        文本聚类         相似文本自动分组                       系统自动将相似合同分组:相似合同自动抱团、发现合同中的自然分组、识别异常合同
    c.向量技术
        词条             技术描述                          大白描述
        向量化           文字转为数学坐标                      把文字编码为数字向量:水泥变成一串数字、语义相近的词数字也相近、支持语义计算和检索
    d.检索技术
        词条             技术描述                          大白描述
        RAG              检索增强生成                           AI分析前先检索档案库基于事实生成报告:发现异常后自动检索历史案例、每个结论都有历史档案支撑
        相似度           计算向量距离                           系统计算相似度并给出具体数字:B项目与去年山地大桥项目相似度90%、用数据支撑类似情况类似处理
    e.向量数据库
        词条             技术描述                          大白描述
        向量数据库       存储检索高维向量                       把所有合同转成语义坐标存入数据库:输入高价案例0.1秒返回最相似的20份历史合同

04.第四阶(推理架构层)
    a.Agent架构
        词条             技术描述                          大白描述
        智能体           自主执行任务的AI                     AI像员工一样自主工作:发现异常后自动查数据翻档案、自己规划步骤、完成后自动发报告,从问答工具升级为数字员工
        Multi-Agent      多智能体协作                         组建AI团队:数据Agent负责提取信息、分析Agent负责对比价格、风险Agent负责预警、报告Agent负责撰写
    b.思维技术
        词条             技术描述                          大白描述
        思维链           展示推理中间步骤                     AI分步展示推理过程:第一步确认品名一致、第二步发现B项目含税而A项目不含税、第三步计算税后差额为5元
    c.微调技术
        词条             技术描述                          大白描述
        微调             特定数据二次训练                     用公司数据训练专属AI:理解公司特有术语和规则、一看就知道出厂价与到场价差15%、像个老员工一样懂业务
    d.模型部署
        词条             技术描述                          大白描述
        vLLM             高性能LLM推理引擎                    高吞吐推理引擎:吞吐量提升10-20倍、支持高并发请求、内存利用更高效
    e.推理优化
        词条             技术描述                          大白描述
        滑动窗口注意力   窗口内注意力计算                     只看窗口内的内容:减少计算量、支持超长序列、效果损失小
    f.模型压缩
        词条             技术描述                          大白描述
        量化             高精度压缩到低精度                   给模型减肥:把70B模型压缩后能在单张显卡上运行、4-bit压缩后只需40GB显存、普通服务器可部署
        模型蒸馏         大模型知识迁移到小模型               让大老师教小学生:把GPT-4级别的能力迁移到小模型、用大模型生成训练数据训练小模型、小模型达到大模型90%效果
        剪枝             删除不重要的参数                     删除不重要的参数:减小模型体积、加速推理、效果损失小
    g.对齐与安全
        词条             技术描述                          大白描述
        幻觉控制         防止AI生成虚假信息                   给AI装上事实安全阀:档案缺失时如实回答资料不足、不编造理由不瞎猜、有证据才下结论
        可解释性         追溯AI决策依据                       给AI结论贴上证据标签:高亮显示合同第15页的加急泵送服务条款、点击可跳转到原始证据、每个判断都有出处

1.3 [0]汇总3

01.常用信息1
    a.引言
        RAG vs MCP:AI开发者必须搞清楚的核心区别。
        RAG给AI知识,MCP给AI能力。前者管记忆,后者管行动。
        你有没有遇到过这种情况——用LLM搭了个应用,模型推理能力很强,但它完全不知道你公司内部文档写了什么,也不知道昨天发生了什么,更没法帮你查一条实时订单。
        解决这个问题,业界主要有两种路径:RAG 和 MCP。很多人以为它们是竞争关系,其实完全搞错了方向——它们解决的根本就不是同一个问题。
    b.RAG:给AI装一个私有知识库
        a.核心逻辑
            RAG(检索增强生成)的逻辑很简单:与其让模型只靠训练时学到的知识回答问题,不如在用户提问时实时从你自己的文档库里捞出相关内容,一起塞给模型。
        b.工作流程
            a.把你的文档(PDF、Wiki、产品手册等)切分成小块
            b.用嵌入模型把每个块转成向量,存入向量数据库
            c.用户提问时,把问题同样向量化,做相似度检索
            d.把检索到的最相关内容 + 原始问题,一起送给LLM
            e.模型基于这些真实内容生成回答
        c.适用场景
            客服机器人答复产品问题、内部知识库查询、法律/HR政策检索、技术文档问答……只要你有一批文档需要让用户用自然语言去查,RAG就是正确选择。
        d.局限性
            它只能检索你存进去的内容,不能获取实时数据,不能帮你修改一条记录,也不能触发任何操作。文档如果没及时更新,答案就会过时。
        e.总结
            简单说:RAG给AI装了长期记忆,但记忆不等于行动能力。
    c.MCP:给AI接上真实世界的手脚
        a.核心定义
            MCP(模型上下文协议)是个更新的概念,名字有点晦涩,但本质很直接:它是一套让AI模型实时连接并操作外部系统的标准化协议。
        b.形象类比
            如果说RAG是给AI配了一个藏书丰富的图书馆,那MCP就是给AI配了一部智能手机——它可以查实时数据、调接口、更新记录、发通知、触发工作流。
        c.工作方式
            a.定义AI可以使用的工具(内部API、数据库、CRM、第三方服务等)
            b.设置权限边界(哪些能读,哪些能写)
            c.用户提问时,模型自主判断调用哪个工具、按什么顺序
            d.动作可以链式执行
                查库存→确认订单→通知物流→写入CRM
        d.适用场景
            实时订单追踪、动态库存查询、拉取最新财务数据、在对话中创建Jira工单、发送Slack消息……凡是数据会变、动作要发生的场景,MCP才是正解。
        e.实现挑战
            它比RAG难实现得多。你需要考虑系统集成、权限模型、不可逆操作的人工确认机制、审计日志。外部API一旦挂掉,AI也跟着哑火。但收益是真实的——模型从知识检索者变成了真正的执行代理。

02.常用信息2
    a.分类1
        a.Foundation Model (基础大模型 / 底座模型)
            a.通俗理解
                AI 的“大脑”或“通识教育背景”。
            b.场景应用
                指的是像 GPT-4、通义千问 (Qwen)、文心一言这些已经读过全世界书的模型。
            c.在你的场景中
                它是那个懂中文语法、懂合同逻辑、知道“水泥”是一种建筑材料、知道“价格差异”需要寻找原因的智能底座。
                它不直接存你的数据,但它有处理你数据的“能力”。
        b.Prompt / Prompt Engineering (提示词 / 提示工程)
            a.通俗理解
                给 AI 下达的“精准指令”。
            b.场景应用
                你不能只给 AI 一堆数据。
            c.在你的场景中
                你需要写一个复杂的提示词:“你现在是一名资深采购审计师,请对比 A、B 两个项目的合同。
                注意:重点关注物流条款、付款周期和材料规格。如果发现 B 项目比 A 项目贵的证据,请列出并计算影响金额。” 这种写好指令的艺术就是提示工程。
        c.Agent (智能体)
            a.通俗理解
                具备“手、脚和独立思考能力”的 AI 员工。
            b.场景应用
                它是目前最高级的形态。
            c.在你的场景中
                智能体不只是回答问题。它发现 50 元价格异常后,会主动去数据中台查 SQL,发现没答案,又主动去档案库检索 PDF。
                它会自己规划步骤:“第一步查规格,第二步查运费,第三步写总结”。它是一个自动化的闭环执行者。
        d.Function Calling / Tool Use (函数调用 / 工具调用)
            a.通俗理解
                AI “连接外部世界”的接口。
            b.场景应用
                大模型数学不好,也不会直接查你的数据库。
            c.在你的场景中
                当智能体需要看 A 项目的具体金额时,它会通过 Function Calling 去调用你数据中台的 API。
                它说:“我需要查 A 项目的价格”,系统就会返回 20 元。这是打通 AI 与企业私有数据的关键。
    b.分类2
        a.Multi-Agent System (多智能体系统)
            a.通俗理解
                一个“AI 部门”,而不是一个 AI 员工。
            b.场景应用
                复杂的采购审计可能需要分工。
            c.在你的场景中
                a.智能体A(数据员)
                    专门负责从数据中台导数。
                b.智能体B(档案员)
                    专门负责读合同、做语义分析。
                c.智能体C(分析组长)
                    负责对比 A 和 B 的结果,汇总出差价结论。
                d.协作机制
                    它们之间会互相对话、校对。
        b.Context Window (上下文窗口)
            a.通俗理解
                AI 的“临时记忆长度”。
            b.场景应用
                你的档案可能很大,有的合同几百页。
            c.在你的场景中
                如果窗口太小,AI 读到第 50 页就忘了第 1 页。现在的“长上下文”技术能让 AI 一次性“吞掉”两个项目的几十份关联文档,进行全局比对。
        c.Tokens (标记/字符块)
            a.通俗理解
                AI 处理信息的“计费单位”或“字数”。
            b.场景应用
                AI 读你的合同、写报告,都是按 Token 收费或计算消耗的。
            c.在你的场景中
                你分析的档案越厚,消耗的 Token 越多。优化语义提取逻辑,本质上就是在帮你省钱(省 Token)。
        d.Fine-tuning (微调)
            a.通俗理解
                针对“特定领域”的魔鬼训练。
            b.场景应用
                基础大模型懂法律,但不一定懂你们公司具体的“水泥采购编码规则”。
            c.在你的场景中
                你可以用公司过去 10 年的采购档案对大模型进行微调,让它变得像个“老员工”一样,一看 B 项目的记录就能瞬间反应出那是“非标定制件”。

03.常用信息3
    a.第一阶:感知与交互 (AI 的感官与接口)
        a.提示词 (Prompt)
            a.它是什么
                发送给 LLM 的自然语言指令。
            b.解决的问题
                消除模糊性,划定 AI 的工作范围。
            c.场景角色
                你作为项目主管,输入的"搜索指令"就是 Prompt。例如:"请找出 B 项目比 A 项目贵 30 元的合同依据,重点看附件的费用明细。"
        b.基础大模型 (LLM)
            a.它是什么
                深度神经网络(如 GPT-4、Qwen 等),拥有海量常识和推理能力。
            b.解决的问题
                提供一个能够像人一样阅读、理解和总结的"超级大脑"。
            c.场景角色
                它是整个分析流程的"大脑",负责判断"加急费"和"单价"之间的逻辑关系。
        c.Tokens (标记)
            a.它是什么
                AI 内部处理信息的最小文本单位(可以理解为 AI 的"流量"或"计费字数")。
            b.解决的问题
                衡量计算成本和模型容量。
            c.场景角色
                当你把 B 项目几万字的招标文件全部塞给 AI 时,AI 正在消耗 Tokens。如果 Tokens 上限太低,AI 可能会漏掉文档末尾关于"山区运费补偿"的说明。
        d.OCR (字符识别)
            a.它是什么
                基于卷积神经网络 (CNN) 的图像转文本技术。
            b.解决的问题
                让 AI "看见"那些无法复制文字的图片或扫描件。
            c.场景角色
                B 项目合同是传真过来的扫描件,文字是模糊的像素。OCR 将其转化为文字,AI 才能读出那一行不起眼的备注:"单价含卸车费 15 元"。
    b.第二阶:数据加工 (AI 的资料整理)
        a.NER (实体识别)
            a.它是什么
                信息提取模型,识别文本中的专有名词。
            b.解决的问题
                从非结构化文本中抽取出核心数据点。
            c.场景角色
                自动从合同正文中定位到"水泥"、"P.O 42.5"、"上海港"等关键实体,防止分析时张冠李戴。
        b.实体消解 (Entity Resolution)
            a.它是什么
                知识整合逻辑,解决"同物异名"问题。
            b.解决的问题
                数据清洁度。
            c.场景角色
                合同 A 写"海螺水泥",合同 B 写"Conch Cement"。实体消解告诉系统:它们是同一品牌,排除"品牌溢价"导致的 30 元差价。
        c.异常检测 (Anomaly Detection)
            a.它是什么
                统计学模型(如孤立森林)或规则引擎。
            b.解决的问题
                自动报警,无需人工盯着报表。
            c.场景角色
                系统扫描数据中台时,发现 50 元比 20 元超出了 150%,自动亮红灯,并触发后续的 AI 调查程序。
        d.数据血缘 (Lineage)
            a.它是什么
                元数据追踪技术。
            b.解决的问题
                确认数据的"清白"。
            c.场景角色
                AI 追溯到 50 元这个数字是从"材料费+运费+税金"这三个科目合并录入到中台的,而 A 项目只录入了材料费。找到了 30 元差价的"数据源头"差异。
    c.第三阶:理解与关联 (AI 的思考逻辑)
        a.语义分析 (Semantic Analysis)
            a.它是什么
                基于上下文的意义解析。
            b.解决的问题
                识别文字背后的真实含义(即:语义层面的比对)。
            c.场景角色
                A 合同写"甲方自理运费",B 合同写"包干到场"。语义分析识别出这虽然字不同,但代表了"运输责任"的转移,直接对应了差价。
        b.向量化 (Embedding)
            a.它是什么
                将文字转化为高维数学坐标。
            b.解决的问题
                实现"模糊匹配"和"关联检索"。
            c.场景角色
                当 AI 搜索"价格差异"时,通过向量化,它能自动找到"偏远山区补偿"、"夜间施工补贴"等含义相近的段落,即使段落里没出现"价格"二字。
        c.RAG (检索增强生成)
            a.它是什么
                "检索器"+"生成器"的结合架构。
            b.解决的问题
                解决 AI 的"幻觉"和知识滞后。
            c.场景角色
                AI 发现 50 元异常,立刻去档案库搜寻 B 项目的补充协议(检索),然后基于协议内容写出分析报告(生成)。
        d.相似度 (Similarity)
            a.它是什么
                计算两个向量坐标之间的距离(如余弦相似度)。
            b.解决的问题
                寻找参考案例。
            c.场景角色
                AI 发现 B 项目的档案特质与另一个"55 元/斤"的山地大桥项目高度相似,从而推断 50 元是由于地形复杂导致的"合理溢价"。
    d.第四阶:推理与架构 (AI 的高级行为)
        a.智能体 (Agent)
            a.它是什么
                具有自主目标拆解和工具调用能力的系统。
            b.解决的问题
                实现从"分析"到"执行"的闭环。
            c.场景角色
                一个"采购审计 Agent"接到指令后,自己去数据中台调 API,自己去档案库读文件,最后自己写好邮件发给你。它是一个会干活的"数字员工"。
        b.思维链 (CoT)
            a.它是什么
                引导模型一步步展示逻辑推导过程。
            b.解决的问题
                提高复杂逻辑问题的准确性。
            c.场景角色
                AI 给出的理由:1. A 是工厂价,2. B 是工地价,3. 查到 B 工地离工厂 300 公里,4. 按照吨公里计算,多出的 30 元正是运费。这种分步逻辑就是 CoT。
        c.可解释性 (XAI)
            a.它是什么
                追溯 AI 决策依据的技术(如归因分析)。
            b.解决的问题
                信任问题。
            c.场景角色
                AI 在报告中附上了一个超链接,点开直接跳转到 B 项目合同第 15 页,高亮显示了"加急泵送服务"的定价条款,让你"眼见为实"。
        d.上下文窗口 (Context Window)
            a.它是什么
                AI 能够同时处理的文本最大容量。
            b.解决的问题
                决定了 AI 能不能处理"大长篇"。
            c.场景角色
                如果分析需要对比 5 份不同的招标文件和 10 份审计报告,上下文窗口足够大,AI 才能在脑子里"同时拿着"这些资料做交叉对比。
        e.微调 (Fine-tuning)
            a.它是什么
                在特定数据集上对基础模型进行二次训练。
            b.解决的问题
                解决通用 AI 不懂行业专业词汇的问题。
            c.场景角色
                经过微调的 AI 懂你们公司特有的采购编码"SN-2024-X",知道这个编码的水泥自带特殊防腐属性,所以比普通水泥贵 30 元很正常。
        f.幻觉控制 (Hallucination Control)
            a.它是什么
                事实核查与约束技术。
            b.解决的问题
                严查 AI 的"瞎编"。
            c.场景角色
                档案里没写差价原因时,系统强迫 AI 回答"资料不足,建议补充 B 项目物流单据",而不是让 AI 编一个"可能因为物价上涨"的借口。

1.4 [1]感知与交互

01.提示词(详细说明)
    a.解决什么问题
        怎么让 AI 准确理解你的需求?
        怎么消除模糊性、划定工作范围?
    b.能带来什么好处
        就像给实习生下达任务时的"详细说明":
        将业务需求瞬间转化为计算任务
        结构化 Prompt 能让 AI 像审计师一样对比运费、品牌等维度
        作为翻译官,将自然语言转化为精准的检索指令
        把话说清楚,AI 就不会理解错。
    c.投资回报
        无需开发复杂过滤界面
        降低理解门槛
        瞬间转化需求
    d.实施难度
        低。LLM 的高维概率空间条件约束。

02.基础大模型(超级大脑)
    a.解决什么问题
        需要一个懂语言、懂逻辑、有常识的智能底座。
    b.能带来什么好处
        就像一个"读过全世界书的超级大脑":
        读懂"字里行间"的潜规则
        负责判断"加急费"和"单价"之间的逻辑关系
        结合常识理解特定环境下的价格合理性
        它懂中文语法、懂合同逻辑、知道"水泥"是建筑材料。
    c.投资回报
        降低理解门槛
        通用知识储备
        推理能力强
    d.实施难度
        低。基于 Transformer 的深度神经网络。

03.Tokens(计费单位)
    a.解决什么问题
        AI 处理信息怎么计费?
        处理长文档会不会超限?
    b.能带来什么好处
        AI 处理信息的"计费单位"或"字数":
        决定处理长文档的成本预算
        Token 上限决定了是否会漏掉文档末尾的关键条款
        计算 100 份合同消耗的 Token 量,决定审计成本
        就像手机流量的计费一样。
    c.投资回报
        决定成本预算
        规划处理容量
        优化消耗
    d.实施难度
        低。AI 的内存占位与计算货币。

04.OCR(AI的眼睛)
    a.解决什么问题
        纸质文件和扫描件怎么数字化?
        手写备注怎么识别?
    b.能带来什么好处
        就像给 AI 装上了"眼睛",能看懂图片和纸质文件上的字:
        将模糊的扫描件或手写备注转化为文本
        识别出"单价含卸车费 15 元"等关键信息
        识别手写备注中的"含二次搬运费",锁定直接证据
        把十年前的手写备注变成可搜索的文本。
    c.投资回报
        实现 24 小时全量数字化
        解锁历史档案
        提取关键信息
    d.实施难度
        中。基于卷积神经网络的图像转文本技术。

05.少样本学习Few-shot Learning(看两遍就会)
    a.解决什么问题
        没有大量训练数据怎么办?
        新任务怎么快速上手?
    b.能带来什么好处
        给 AI 几个例子,它就能照着做,不用教很多遍:
        通过少量示例让模型快速适应新任务
        给 AI 看几个标准合同的写法,它就能学会识别同类合同的关键条款
        只需要给 AI 看 3 个"价格异常"的真实案例,它就能学会识别类似的异常模式
        像聪明的实习生看两遍就会了。
    c.投资回报
        降低 AI 应用门槛
        3-5 个示例即可上线新功能
        无需大规模训练数据
    d.实施难度
        低。大模型的泛化能力与上下文学习机制。

06.零样本学习Zero-shot Learning(不用教就会)
    a.解决什么问题
        没有任何示例怎么办?
        新业务场景怎么快速验证?
    b.能带来什么好处
        不给例子,AI 也能直接干,靠的是之前学的知识:
        在没有任何示例的情况下,仅凭指令完成新任务
        直接告诉 AI"找出合同中的价格异常",无需示例即可执行
        遇到新型合同,直接用自然语言描述任务
        像老员工不用教就知道怎么做。
    c.投资回报
        开箱即用
        无需准备训练数据
        快速验证想法
    d.实施难度
        低。预训练阶段积累的通用知识与推理能力。

07.温度参数Temperature(脑洞旋钮)
    a.解决什么问题
        AI 输出太随机或太死板怎么办?
        怎么控制输出风格?
    b.能带来什么好处
        控制 AI 输出的"脑洞大小",0 是一本正经,1 是天马行空:
        审计报告设为 0 确保结论一致
        头脑风暴设为 0.7 获取多样方案
        价格对比分析用 Temperature=0,确保每次分析结果一致可复现
        一个旋钮控制 AI 风格。
    c.投资回报
        0 是严谨报告,1 是创意写作
        确保结果一致性
        灵活调整风格
    d.实施难度
        低。Softmax 函数中概率分布的平滑程度调节。

08.多模态Multimodal(多感官协同)
    a.解决什么问题
        需要同时处理文本、图片、音频、视频怎么办?
    b.能带来什么好处
        AI 能同时看图、听音、读文字、看视频,像人一样多感官协同工作:
        同时分析合同文本、扫描件图片、现场照片
        读取合同扫描件、查看工地照片、分析进度表,一气呵成
        把合同扫描件、工地照片、验收视频一起扔给 AI
        一个模型搞定所有数据类型。
    c.投资回报
        不用切换多个系统
        综合分析能力强
        跨模态理解
    d.实施难度
        中。跨模态注意力机制与统一表示学习。

09.语音识别ASR(AI的耳朵)
    a.解决什么问题
        会议录音怎么转文字?
        电话沟通怎么记录?
    b.能带来什么好处
        把说的话变成文字,让 AI 有了"耳朵":
        把供应商电话沟通录音转成文字,作为审计证据链的一部分
        将谈判录音转为文字,与合同条款对比核实
        搜索关键词"加急费",核实口头承诺是否与合同一致
        Siri、小爱同学就是这个技术。
    c.投资回报
        会议录音自动转文字
        电话客服自动质检
        解放双手输入
    d.实施难度
        中。声学特征提取与语言模型解码的结合。

10.语音合成TTS(AI的嘴巴)
    a.解决什么问题
        文字怎么变成声音?
        报告怎么让人"听"?
    b.能带来什么好处
        把文字变成声音,让 AI 有了"嘴巴":
        将审计报告自动转换为语音,方便领导通勤时收听
        生成汇报语音,让领导在车上也能"听报告"
        把长达 20 页的审计报告转成语音
        抖音 AI 配音就是这个。
    c.投资回报
        自动配音、有声书制作
        降低录音成本
        解放阅读时间
    d.实施难度
        低。声学模型与声码器的端到端学习。

11.函数调用Function Calling(AI的手脚)
    a.解决什么问题
        AI 只会说话不会干活怎么办?
        怎么让 AI 调用外部系统?
    b.能带来什么好处
        给 AI 装上"手和脚",让它能查数据库、发邮件、调系统:
        AI 自动调用 ERP 系统查询历史价格
        发现异常后自动调用 API 查供应商信用记录
        调用邮件系统把分析报告发给相关负责人
        AI 从"只会说话"变成"能干实事"。
    c.投资回报
        真正实现自动化
        跨系统协作
        实时数据获取
    d.实施难度
        中。模型输出与函数签名的对齐学习。

12.上下文窗口Context Window(临时记忆)
    a.解决什么问题
        AI 一次能处理多少内容?
        长文档怎么分析?
    b.能带来什么好处
        AI 的"临时记忆长度",窗口太小读到后面就忘了前面:
        一次性"吞下"两个项目的所有合同,进行全局对比分析
        200K 上下文可容纳约 15 万字的合同文档
        决定了 AI 能不能一次性"记住"所有内容
        Claude 200K 可读 500 页 PDF。
    c.投资回报
        支持长文档分析
        多轮对话
        完整代码库理解
    d.实施难度
        低。Transformer 架构中注意力矩阵的维度限制。

13.核采样Top-P(只说常见话)
    a.解决什么问题
        AI 会说奇怪的话怎么办?
        怎么保证输出质量?
    b.能带来什么好处
        限制 AI 只从"最可能"的词里选:
        设为 0.9 时,AI 只从概率前 90% 的词中选择
        Top-P=0.1 让 AI 输出更保守稳定,适合正式文档
        生成审计报告时把 Top-P 设低,确保 AI 不会突然冒出奇怪的表述
        像限制一个人只能说常见的话。
    c.投资回报
        防止 AI 说奇怪的话
        提升输出连贯性
        适合正式文档
    d.实施难度
        低。Nucleus Sampling 算法,概率分布的动态截断。

14.最大长度Max Tokens(发言时长限制)
    a.解决什么问题
        AI 写个没完怎么办?
        怎么控制输出长度?
    b.能带来什么好处
        限制 AI 最多能说多少字,像设置发言时长限制:
        限制 AI 每次回复不超过 500 字,适合快速摘要
        设置 Max Tokens=100,强制 AI 用一句话总结核心发现
        让 AI 为每份合同生成 50 字的风险摘要
        不用担心 AI 写成长篇大论。
    c.投资回报
        控制成本
        防止 AI 写个没完
        适合短文本场景
    d.实施难度
        低。推理过程中的计数器机制。

15.系统提示词System Prompt(AI人设)
    a.解决什么问题
        怎么让 AI 始终扮演同一角色?
        怎么统一 AI 的行为风格?
    b.能带来什么好处
        给 AI 设定"人设",它会一直按这个角色回答:
        设置"你是一名资深审计师,回答要专业严谨"
        在 System Prompt 里写"你是某央企的审计专家,关注合规性和成本控制"
        AI 的所有回答都会带上这个视角
        客服系统设定"你是友好的客服"。
    c.投资回报
        统一 AI 行为风格
        始终扮演同一角色
        专业性保障
    d.实施难度
        低。对话历史中的角色定位消息。

16.用户提示词User Prompt(你问的话)
    a.解决什么问题
        怎么和 AI 交互?
        每次对话怎么不同?
    b.能带来什么好处
        你每次问 AI 的具体问题或任务,就是你输入的那句话:
        你问"这份合同有什么风险",这就是 User Prompt
        用清晰的问题引导 AI,"请列出这份合同的三个最大风险点"
        你的每个审计问题都是 User Prompt
        灵活提问,每次对话可以不同。
    c.投资回报
        灵活提问
        实现多轮交互
        个性化对话
    d.实施难度
        低。对话轮次中的用户消息。

17.提示词模板Prompt Template(填空模板)
    a.解决什么问题
        怎么复用成功的提示词?
        怎么批量处理任务?
    b.能带来什么好处
        把常用的问题格式固定下来,填空就能用:
        模板:"请分析{项目名称}的{材料类型}采购,重点关注{关注点}"
        用模板批量生成 100 份合同的分析提示词
        每次只需填入项目名和材料类型
        像表格模板一样方便。
    c.投资回报
        复用成功经验
        提升效率
        适合批量处理
    d.实施难度
        低。字符串模板与变量替换机制。

18.思维树Tree-of-Thought(多方案思考)
    a.解决什么问题
        复杂决策怎么做?
        怎么找到最优解?
    b.能带来什么好处
        让 AI 同时想多个方案,然后选最好的,像下棋一样思考多步:
        AI 同时考虑"价格异常的5种可能原因",逐一验证后选最可能的
        生成 3 个差价解释假设,分别验证,选择证据最充分的结论
        不是只给一个答案,而是同时考虑多种可能
        多方案对比,找到最优解。
    c.投资回报
        解决复杂决策问题
        多方案评估
        战略规划
    d.实施难度
        中。树状搜索算法与评估函数的结合。

19.自洽性Self-Consistency(投票表决)
    a.解决什么问题
        AI 答案有随机性怎么办?
        怎么提升准确率?
    b.能带来什么好处
        让 AI 用多种方法做同一道题,然后选出现最多的答案:
        让 AI 用 5 种不同方式分析同一份合同,取多数结论
        5 次分析中有 4 次认为存在风险,则判定为高风险
        对关键合同使用自洽性分析,多角度验证
        像投票表决一样选择最一致的答案。
    c.投资回报
        提升答案准确率
        降低随机性
        适合重要决策
    d.实施难度
        中。多次采样与投票机制。

20.图像识别Image Recognition(AI看图)
    a.解决什么问题
        图片里的内容怎么识别?
        怎么核实实物与合同是否一致?
    b.能带来什么好处
        AI 能看懂图片里是什么东西、什么场景:
        识别工地照片中的材料品牌,核实是否与合同一致
        分析验收照片,识别水泥袋上的品牌标志
        核实实际使用材料是否与采购合同一致
        像人的眼睛加大脑。
    c.投资回报
        安防监控、医疗影像
        商品识别、质量检测
        核实实物
    d.实施难度
        中。基于卷积神经网络的图像分类与目标检测技术。

21.视频理解Video Understanding(AI看电影)
    a.解决什么问题
        视频内容怎么分析?
        工程进度怎么核实?
    b.能带来什么好处
        AI 能看懂视频内容,知道发生了什么:
        分析施工视频,判断工程进度是否与报告一致
        观看工地监控视频,识别材料进场时间和数量
        核实"加急施工"的说法是否有实际证据
        像人看电影能理解剧情。
    c.投资回报
        视频审核、智能剪辑
        行为分析、监控预警
        核实进度
    d.实施难度
        高。3D 卷积网络与时序注意力机制。

22.图像生成Image Generation(文字变画)
    a.解决什么问题
        需要设计素材怎么办?
        报告配图怎么来?
    b.能带来什么好处
        用文字描述,AI 就能画出图片,像有了一个随叫随到的设计师:
        根据审计发现生成可视化图表或示意图
        生成"价格走势对比图"用于汇报
        生成审计报告中的数据可视化图表
        快速出图,降低设计成本。
    c.投资回报
        设计素材、营销图片
        创意表达、产品原型
        报告配图
    d.实施难度
        中。基于扩散模型或 GAN 的图像生成技术。

23.视频生成Video Generation(文字变电影)
    a.解决什么问题
        需要视频演示怎么办?
        培训视频怎么制作?
    b.能带来什么好处
        用文字描述,AI 就能生成视频,像有了一个视频制作团队:
        生成审计发现的动态演示视频
        生成"问题演变时间线"动画用于汇报
        生成"问题发现过程"的动画,让领导更直观地理解问题
        小团队也能做大片。
    c.投资回报
        广告制作、内容创作
        教育视频、原型演示
        培训材料
    d.实施难度
        高。基于扩散模型或 Transformer 的视频生成技术。

24.文生图Text-to-Image(文字变画)
    a.解决什么问题
        怎么快速出图?
        汇报配图怎么来?
    b.能带来什么好处
        输入文字,AI 输出图片,文字变画:
        输入"两个项目价格对比柱状图",生成专业图表
        用文字描述生成汇报用的配图
        输入"展示 A、B 项目水泥采购价格差异的信息图"
        人人都是设计师。
    c.投资回报
        快速出图
        降低设计成本
        汇报配图
    d.实施难度
        中。CLIP 文本编码器与图像解码器的对齐。

25.文生视频Text-to-Video(文字变电影)
    a.解决什么问题
        怎么快速制作视频?
        培训视频怎么来?
    b.能带来什么好处
        输入文字,AI 输出视频,文字变电影:
        输入"审计流程演示",生成培训视频
        用文字生成审计知识培训视频
        输入"展示采购审计关键步骤的演示视频"
        小团队也能做大片。
    c.投资回报
        视频制作民主化
        小团队也能做大片
        培训材料
    d.实施难度
        高。文本-视频对齐与时序生成模型。

26.图生文Image-to-Text(看图说话)
    a.解决什么问题
        图片内容怎么描述?
        扫描件怎么识别?
    b.能带来什么好处
        给 AI 一张图,它告诉你图里有什么,AI 的看图说话能力:
        上传合同扫描件图片,AI 自动识别并描述内容
        上传工地照片,AI 描述"照片中有 50 袋海螺水泥"
        快速了解合同内容
        图片描述、商品介绍。
    c.投资回报
        图片描述、商品介绍
        辅助视障人士
        快速识别
    d.实施难度
        中。视觉编码器与语言解码器的结合。

27.语音到语音Speech-to-Speech(实时对话)
    a.解决什么问题
        怎么实现语音实时对话?
        不用手打字怎么办?
    b.能带来什么好处
        说一句话,AI 用另一种声音回你一句,实时对话:
        直接与 AI 语音对话讨论审计发现
        用语音提问,AI 用语音回答,像打电话一样
        开车时用语音问 AI"今天的审计进度",AI 用语音汇报
        不用看屏幕。
    c.投资回报
        实时翻译、虚拟助手
        游戏 NPC、客服机器人
        解放双手
    d.实施难度
        高。端到端语音编码与解码模型。

28.工具使用Tool Use(AI用工具)
    a.解决什么问题
        AI 能力有边界怎么办?
        怎么扩展 AI 能力?
    b.能带来什么好处
        AI 能用各种工具,比如搜索、计算器、查天气,像人使用工具一样:
        AI 使用计算器工具算差价百分比
        使用搜索工具查市场价
        使用数据库工具查询历史合同
        AI 自动选择合适的工具。
    c.投资回报
        扩展 AI 能力边界
        完成复杂任务
        灵活组合
    d.实施难度
        中。工具描述与模型输出的对齐学习。

29.API集成API Integration(万能插头)
    a.解决什么问题
        AI 怎么连接外部系统?
        怎么打通数据孤岛?
    b.能带来什么好处
        把 AI 和其他系统连起来,让它能调用各种服务,像万能插头:
        AI 通过 API 连接 ERP、财务系统、合同库
        调用财务系统获取历史付款记录
        实现跨系统数据查询和分析
        AI 成为系统间的"万能接口"。
    c.投资回报
        打通数据孤岛
        跨系统协作
        数据交换
    d.实施难度
        中。RESTful API 与认证授权机制。

30.代码解释器Code Interpreter(AI程序员)
    a.解决什么问题
        数据分析怎么做?
        图表怎么生成?
    b.能带来什么好处
        让 AI 能写代码、运行代码、看结果,AI 程序员:
        AI 写 Python 代码分析合同数据,生成统计图表
        自动写代码计算 100 份合同的平均价格、标准差、异常值
        数据分析、图表生成、自动化脚本
        AI 自己写程序。
    c.投资回报
        数据分析、图表生成
        自动化脚本
        无需编程技能
    d.实施难度
        中。代码生成与安全执行环境的结合。

31.联网搜索Web Browsing(AI搜索引擎)
    a.解决什么问题
        AI 知识有截止日期怎么办?
        怎么获取实时信息?
    b.能带来什么好处
        让 AI 能上网查资料,回答最新问题,AI 的搜索引擎:
        AI 联网查询当期水泥市场价格,作为对比基准
        搜索"2024 年水泥市场价格走势",获取最新数据
        判断采购价格是否合理
        突破知识截止日期限制。
    c.投资回报
        突破知识截止日期限制
        获取实时信息
        对比市场数据
    d.实施难度
        低。搜索 API 与网页内容提取的结合。

32.文件上传File Upload(直接扔文档)
    a.解决什么问题
        文档内容怎么输入?
        不想复制粘贴怎么办?
    b.能带来什么好处
        让 AI 能读取你上传的文件,直接扔文档给它:
        直接上传合同 PDF,AI 自动分析内容
        上传 10 份合同文件,AI 批量提取关键信息
        不用手动复制粘贴
        支持 PDF、Excel、Word。
    c.投资回报
        分析 PDF、Excel、Word
        不用复制粘贴
        批量处理
    d.实施难度
        低。文件解析与多模态理解的结合。

33.基础模型Foundation Model(超级大脑)
    a.解决什么问题
        需要一个通用的智能底座。
        应用的基础是什么?
    b.能带来什么好处
        AI 的"超级大脑",像 GPT-4、Claude 这种读过全世界书的模型:
        GPT-4、Claude、Qwen 等底层大模型
        选择合适的基础模型作为审计 AI 的底座
        提供通用的理解和生成能力
        是所有应用的基础。
    c.投资回报
        提供通用的理解和生成能力
        是所有应用的基础
        广泛的知识和能力
    d.实施难度
        低。海量数据预训练与 Transformer 架构。

34.大语言模型LLM(语言大师)
    a.解决什么问题
        语言理解和生成怎么做?
        对话、写作、翻译怎么做?
    b.能带来什么好处
        能理解和生成人类语言的大型 AI 模型,AI 语言大师:
        核心的语言理解和生成引擎
        负责理解合同语言,生成审计报告
        对话、写作、翻译、问答
        语言相关的任务都能干。
    c.投资回报
        对话、写作、翻译、问答
        语言相关的任务都能干
        核心引擎
    d.实施难度
        低。基于 Transformer 的大规模语言模型。

35.通用人工智能AGI(AI最终形态)
    a.解决什么问题
        AI 的终极目标是什么?
        当前的 AI 能力边界在哪里?
    b.能带来什么好处
        像人一样什么都能干的 AI,能学习任何任务,AI 的最终形态:
        了解 AGI 概念,判断当前 AI 能力的边界
        知道哪些是 AI 能做的,哪些还需要人工
        未来愿景,当前的 AI 系统向这个方向演进
        能学习并完成任何智力任务。
    c.投资回报
        终极目标
        一个模型解决所有问题
        判断能力边界
    d.实施难度
        高。通用推理与学习能力(理论目标)。

36.模型即服务MaaS(AI云服务)
    a.解决什么问题
        不想自己搭服务器怎么办?
        怎么快速上线?
    b.能带来什么好处
        不用自己搭服务器,直接调用别人训练好的模型,AI 云服务:
        直接调用 OpenAI API,无需自己部署模型
        用 MaaS 模式快速搭建审计 AI 原型
        按调用量付费
        降低使用门槛。
    c.投资回报
        降低使用门槛
        按量付费
        快速上线
    d.实施难度
        低。云计算与模型部署的结合。

37.混合专家模型MoE(专家团队)
    a.解决什么问题
        模型太大推理太慢怎么办?
        怎么降低计算成本?
    b.能带来什么好处
        一个模型里有很多"小专家",遇到问题调最擅长的那几个:
        GPT-4、DeepSeek 等采用 MoE 架构
        模型更大但推理更快
        选择 MoE 架构的模型可以在相同能力下降低推理成本
        AI 的专家团队。
    c.投资回报
        模型更大但推理更快
        降低计算成本
        适合大规模部署
    d.实施难度
        高。稀疏激活与门控路由机制。

38.开源模型Open Source Model(AI的安卓)
    a.解决什么问题
        数据安全要求高怎么办?
        不想数据传出去怎么办?
    b.能带来什么好处
        代码公开,谁都能下载、修改、部署的模型,AI 的"安卓":
        Llama、Qwen、DeepSeek 等可本地部署
        下载开源模型在内网部署,数据不出公司
        敏感合同数据不出公司
        数据私有化、成本可控、可定制。
    c.投资回报
        数据私有化
        成本可控
        可定制
    d.实施难度
        中。开源社区与模型权重的公开。

39.闭源模型Closed Source Model(AI的苹果)
    a.解决什么问题
        需要最好的效果怎么办?
        需要稳定和售后怎么办?
    b.能带来什么好处
        只能调用,看不到代码,数据要传给别人的模型,AI 的"苹果":
        GPT-4、Claude 等闭源模型效果最好
        对效果要求高的场景使用闭源模型
        效果最好、最稳定、有售后
        非敏感任务可以获得最好效果。
    c.投资回报
        效果最好、最稳定
        有售后
        快速上线
    d.实施难度
        低。商业保护与服务质量保障。

40.模型权重Model Weights(AI大脑数据)
    a.解决什么问题
        本地部署需要什么?
        怎么离线运行?
    b.能带来什么好处
        AI 模型的"记忆",存着它学到的所有知识:
        下载 Llama 权重文件,本地加载运行
        从 Hugging Face 下载模型权重,本地部署
        在内网服务器上加载运行,数据完全不出公司
        下载权重就能本地部署。
    c.投资回报
        下载权重就能本地部署
        数据不出门
        离线运行
    d.实施难度
        中。神经网络的参数矩阵。

41.模型大小Model Size(AI智商等级)
    a.解决什么问题
        怎么选合适的模型?
        怎么平衡效果和成本?
    b.能带来什么好处
        模型的"脑容量",参数越多越聪明但也越贵:
        7B 小模型快但能力弱,70B 大模型强但需要更多算力
        根据任务复杂度选择合适大小的模型
        简单任务用 7B 模型省成本,复杂审计分析用 70B 模型保效果
        选对模型大小,平衡效果和成本。
    c.投资回报
        选对模型大小
        平衡效果和成本
        灵活选择
    d.实施难度
        低。参数量与存储空间的对应关系。

42.参数量Parameters(AI神经元数量)
    a.解决什么问题
        怎么衡量模型能力?
        怎么选择模型?
    b.能带来什么好处
        模型的"脑细胞数量",70B 就是 700 亿个参数:
        了解参数量与模型能力的关系
        理解参数量有助于选择合适的模型
        参数越多,能力越强,但需要更多算力
        平衡效果和成本。
    c.投资回报
        参数越多,能力越强
        但需要更多算力
        帮助选择模型
    d.实施难度
        低。神经网络中权重和偏置的总和。

43.键值缓存KV Cache(AI记忆加速器)
    a.解决什么问题
        多轮对话太慢怎么办?
        怎么避免重复计算?
    b.能带来什么好处
        AI 的"记忆缓存",记住之前算过的东西,不用重复算:
        KV Cache 让多轮对话更快,不用重复计算前面的内容
        优化 KV Cache 可以显著提升推理速度
        让审计 AI 的多轮对话响应更快
        加速推理,降低延迟。
    c.投资回报
        加速推理
        降低延迟
        提升用户体验
    d.实施难度
        中。注意力机制中的缓存优化。

44.滑动窗口Sliding Window(AI滚动阅读)
    a.解决什么问题
        文档太长超出上下文怎么办?
        怎么处理超长文本?
    b.能带来什么好处
        用一个"窗口"在文本上滑动,每次只处理窗口里的内容:
        用 4K 窗口处理 100K 文档,滑动处理
        长文档分窗口处理,结果汇总
        处理超长合同文档,每次处理一部分
        最后汇总分析结果。
    c.投资回报
        处理超长文本
        避免超出上下文限制
        灵活处理
    d.实施难度
        中。局部注意力与窗口裁剪。

45.流式输出Streaming(打字机效果)
    a.解决什么问题
        等待 AI 想完太慢怎么办?
        怎么降低感知延迟?
    b.能带来什么好处
        AI 一边想一边输出,不用等它想完再显示,打字机效果:
        AI 一边想一边输出,用户能看到"打字机效果"
        开启流式输出,用户不用等 AI 想完就能看到结果
        审计报告生成时领导能看到内容逐步出现
        降低感知延迟,用户体验更好。
    c.投资回报
        降低感知延迟
        用户体验更好
        适合长文本
    d.实施难度
        低。Token 级别的增量输出。

46.批量处理Batch Processing(AI批发模式)
    a.解决什么问题
        大量任务怎么高效处理?
        怎么降低成本?
    b.能带来什么好处
        把很多任务攒一起,一次性发给 AI 处理,AI 的批发模式:
        100 份合同攒一起,一次性发给 AI 处理
        夜间批量处理历史合同,生成风险报告
        用 Batch API 批量处理,成本比实时调用低 50%
        提高效率,降低成本。
    c.投资回报
        提高效率
        降低成本
        适合离线处理场景
    d.实施难度
        低。并行计算与批处理优化。

47.实时API Real-time API(AI实时通话)
    a.解决什么问题
        需要毫秒级响应怎么办?
        实时交互怎么实现?
    b.能带来什么好处
        毫秒级响应的 AI 接口,像打电话一样实时对话:
        毫秒级响应的语音对话体验
        GPT-4o Realtime API 实现实时语音对话
        未来可以用实时 API 做审计语音助手
        领导随时语音提问,AI 实时回答。
    c.投资回报
        语音助手、实时翻译
        游戏 NPC、客服机器人
        毫秒级响应
    d.实施难度
        高。流式处理与 WebSocket 连接。

48.长连接WebSocket(AI热线电话)
    a.解决什么问题
        每次都要重新连接怎么办?
        怎么实现低延迟?
    b.能带来什么好处
        保持一条"热线",随时能发消息,不用反复建立连接:
        保持与 AI 的"热线",随时发消息
        WebSocket 连接实现低延迟的 AI 对话
        让审计 AI 保持长连接,多轮对话更流畅
        实时对话、低延迟、双向通信。
    c.投资回报
        实时对话、低延迟
        双向通信
        不用反复建立连接
    d.实施难度
        中。TCP 长连接与全双工通信。

49.服务器推送SSE(AI单向广播)
    a.解决什么问题
        怎么实现流式响应?
        怎么让服务器主动推送?
    b.能带来什么好处
        服务器主动给浏览器推消息,实现流式输出:
        ChatGPT 用 SSE 实现流式输出
        SSE 让 AI 的回答逐步显示,不用等全部生成
        让审计报告的生成过程可视化
        用户能看到内容逐步出现。
    c.投资回报
        简单高效实现流式响应
        广泛使用
        实时更新
    d.实施难度
        低。HTTP 长连接与事件流。

1.5 [1]数据加工

01.实体识别NER(智能填表员)
    a.解决什么问题
        怎么从非结构化文本中提取关键信息?
        怎么防止分析时张冠李戴?
    b.能带来什么好处
        就像一个"智能填表员",能从一堆文字里自动找出人名、地名、金额、日期:
        从合同中提取"水泥"、"P.O 42.5"、"上海港"等实体
        提取付款周期对比资金成本,发现 180 天账期的隐性成本
        从几百份合同里自动提取关键词
        快速定位到所有相关条款,不用人工翻阅。
    c.投资回报
        变全文搜索为精准字段提取
        提升分析效率
        防止遗漏
    d.实施难度
        中。信息提取模型,从非结构化文本中识别专有名词与关键数据点。

02.实体消解(识破化名的侦探)
    a.解决什么问题
        "同物异名"怎么解决?
        数据孤岛导致的分析偏差怎么办?
    b.能带来什么好处
        就像一个"识破化名的侦探",能认出"张三"和"老张"是同一个人:
        识别"海螺水泥"与"Conch Cement"为同一品牌
        排除品牌溢价导致的虚假差价
        确认供应商同一性,排除品牌干扰
        避免因为中英文不同而误判为价格差异。
    c.投资回报
        解决数据孤岛导致的分析偏差
        排除虚假差异
        提升分析准确度
    d.实施难度
        中。知识整合逻辑,通过算法解决"同物异名"问题。

03.异常检测(火警报警器)
    a.解决什么问题
        怎么发现数据异常?
        怎么实现实时预警?
    b.能带来什么好处
        就像一个"火警报警器",当发现数据异常(价格突然暴涨)时立即响警报:
        当 50 元比历史基准价超出 150% 时自动报警
        单价偏离 150% 时瞬间弹窗报警
        触发 AI 调查程序
        让你在入账时就发现问题。
    c.投资回报
        实现入账即预警的实时监管
        及早发现问题
        降低损失
    d.实施难度
        中。统计学模型(如孤立森林),识别概率分布中的离群点。

04.数据血缘(数据族谱)
    a.解决什么问题
        数字从哪里来?
        怎么追溯数据来源?
    b.能带来什么好处
        就像数据的"族谱",能追溯每个数字的"前世今生":
        追溯 50 元数字的源头
        发现是"材料费+运费+税金"合并录入,而 A 项目仅含材料费
        发现仓库误将运费与材料发票金额合并录入
        知道数据来自哪里、经过了谁的手、被改过几次。
    c.投资回报
        定位数据录入错误的源头与责任
        数据可追溯
        责任可界定
    d.实施难度
        中。元数据追踪技术,记录数据从产生到展现的每一个环节。

05.数据清洗Data Cleaning(给数据洗澡)
    a.解决什么问题
        数据脏乱差怎么办?
        怎么提升数据质量?
    b.能带来什么好处
        给数据"洗澡",把脏数据收拾干净:
        发现合同数据中"水泥"和"水泥。"是同一种材料,统一格式
        清洗掉重复录入的合同,修正错误的金额格式
        发现"海螺水泥"、"海螺水泥有限公司"、"海螺"在系统里是三个不同供应商
        需要统一后才能正确分析。
    c.投资回报
        垃圾进垃圾出,清洗后模型准确率提升 20%+
        提升分析可靠性
        减少错误判断
    d.实施难度
        中。规则引擎与统计模型的结合应用。

06.数据标注Data Annotation(教AI认字)
    a.解决什么问题
        怎么训练 AI?
        怎么让 AI 学会识别?
    b.能带来什么好处
        给数据打标签,告诉 AI 这是什么,像教小孩认字时指着图片说"这是猫":
        人工标注 100 份合同的"异常条款",让 AI 学会自动识别
        标注历史合同中的风险条款,训练专属审计模型
        找两个审计员标注 200 份历史合同
        让 AI 学会"预警"类似风险。
    c.投资回报
        训练 AI 必需步骤
        标注质量决定模型上限
        个性化定制
    d.实施难度
        高。人类知识向机器可理解形式的转化过程。

07.知识图谱Knowledge Graph(知识点连成网)
    a.解决什么问题
        怎么理解事物关系?
        怎么发现隐藏关联?
    b.能带来什么好处
        把知识点连成网,让 AI 懂得事物之间的关系:
        构建"供应商-项目-材料-价格"关系网
        发现隐藏的利益输送
        通过图谱发现某供应商与项目经理存在关联关系
        发现"A 供应商的法人代表"和"B 项目经理的配偶"是同一个人。
    c.投资回报
        让 AI 理解事物关系
        回答复杂关联问题
        发现潜在风险
    d.实施难度
        高。以图结构组织知识,用节点表示实体、边表示关系的语义网络。

08.特征工程Feature Engineering(提取信号)
    a.解决什么问题
        原始数据怎么用?
        怎么提升模型效果?
    b.能带来什么好处
        从原始数据中提取有用的"信号":
        从合同中提取"付款周期天数"、"单价波动率"、"供应商历史违约次数"等特征
        构造"价格偏离度"特征 = (当前单价 - 历史均价) / 历史均价
        构造特征"合同复杂度"(条款数量×金额×供应商数量)
        发现复杂度越高的合同越容易出现问题。
    c.投资回报
        特征好=效果好
        是机器学习效果的关键瓶颈
        领域知识体现
    d.实施难度
        高。领域知识与数学变换的结合艺术。

09.数据增强Data Augmentation(数据繁殖术)
    a.解决什么问题
        数据不够用怎么办?
        怎么防止过拟合?
    b.能带来什么好处
        把一条数据变多条,像把图片旋转、翻转、裁剪得到新图片:
        把 100 份合同通过改写扩充到 500 份训练样本
        同义词替换、句式变换、回译等方法增强数据
        提升模型训练效果
        数据不够用时扩充数据集。
    c.投资回报
        防止过拟合
        扩充数据集
        提升模型鲁棒性
    d.实施难度
        中。数据变换与语义保持。

10.ETL(数据搬运工)
    a.解决什么问题
        怎么打通数据孤岛?
        怎么同步数据?
    b.能带来什么好处
        把数据从 A 地搬到 B 地,顺便洗一洗、改一改:
        从 ERP、财务系统抽取数据,清洗后加载到分析平台
        每天凌晨 ETL 同步前一天的业务数据
        数据仓库核心流程
        打通数据孤岛。
    c.投资回报
        数据仓库核心流程
        打通数据孤岛
        自动化同步
    d.实施难度
        中。数据管道与批处理作业。

11.数据管道Data Pipeline(数据高速公路)
    a.解决什么问题
        数据处理怎么自动化?
        怎么减少人工干预?
    b.能带来什么好处
        数据从产生到使用的自动化流水线:
        数据管道自动完成:采集→清洗→存储→分析
        用 Airflow 编排数据管道,定时执行
        建立采购数据管道,从合同签订到入库全流程自动流转
        审计时直接查询分析。
    c.投资回报
        自动化数据处理
        减少人工干预
        数据流转高效
    d.实施难度
        中。任务调度与数据流编排。

12.数据湖Data Lake(数据大水库)
    a.解决什么问题
        原始数据怎么存?
        怎么保留数据价值?
    b.能带来什么好处
        把所有原始数据都存下来,不管以后用不用:
        把所有原始合同、发票、邮件都存到数据湖
        数据湖存储 10 年的原始业务数据,随时可分析
        建立企业数据湖,存储所有原始合同、发票、沟通记录
        审计时可以回溯任何历史数据。
    c.投资回报
        先存后用,保留数据价值
        支持灵活分析
        不丢数据
    d.实施难度
        中。对象存储与 Schema-on-Read。

13.数据仓库Data Warehouse(数据大超市)
    a.解决什么问题
        分析数据怎么存?
        怎么支持复杂查询?
    b.能带来什么好处
        整理好的数据仓库,专门用来分析:
        数据仓库存储整理好的采购分析数据
        用 Snowflake 搭建企业数据仓库,支持审计分析
        在数据仓库中建立采购主题域,存储清洗后的合同数据
        支持复杂的审计分析查询。
    c.投资回报
        结构化存储
        支持复杂查询和报表
        分析专用
    d.实施难度
        中。维度建模与 OLAP 查询。

14.关系抽取Relation Extraction(AI连线能力)
    a.解决什么问题
        实体之间的关系怎么提取?
        怎么构建知识图谱?
    b.能带来什么好处
        从文本中找出两个实体之间的关系,比如"A是B的老板":
        从合同中提取"A公司-供应-水泥"关系
        抽取"供应商-材料-价格"三元组关系
        从合同文本中自动抽取"供应商-项目-材料-价格"关系
        构建采购关系网络。
    c.投资回报
        构建知识图谱的核心技术
        理解关系
        支持推理
    d.实施难度
        中。关系分类与序列标注模型。

15.事件抽取Event Extraction(AI事件雷达)
    a.解决什么问题
        文本中的事件怎么提取?
        怎么建立时间线?
    b.能带来什么好处
        从文本中提取完整事件,包括时间、地点、人物、动作:
        从合同中提取"签约事件":时间、双方、金额、标的
        抽取合同关键事件,建立时间线
        从合同和沟通记录中抽取关键事件(签约、变更、付款、纠纷)
        建立项目事件时间线。
    c.投资回报
        理解新闻、合同、报告中的关键事件
        建立时间线
        全景视图
    d.实施难度
        中。事件模板与槽位填充。

16.本体Ontology(知识高层建筑)
    a.解决什么问题
        概念怎么统一定义?
        不同系统怎么理解同一概念?
    b.能带来什么好处
        定义概念的层级关系,比如"猫是动物,动物是生物":
        定义采购领域本体:材料类型、合同类型、风险类型
        建立企业采购本体,统一术语和关系定义
        建立审计领域本体,定义"风险"、"异常"、"违规"等概念及其层级关系
        统一 AI 的理解标准。
    c.投资回报
        统一知识表示
        让不同系统理解同一概念
        标准化
    d.实施难度
        高。概念层级与语义关系定义。

17.分类体系Taxonomy(知识分类树)
    a.解决什么问题
        知识怎么组织?
        怎么支持导航和检索?
    b.能带来什么好处
        把事物按层级分类,比如"电子产品→手机→iPhone":
        建立材料分类体系:建材→水泥→P.O 42.5
        构建采购分类树,支持按类别分析
        建立采购材料分类体系,从大类到细类
        支持按类别统计分析采购情况。
    c.投资回报
        组织知识
        支持导航和检索
        层级清晰
    d.实施难度
        中。树状结构与分类标准。

18.实体链接Entity Linking(链接到标准实体)
    a.解决什么问题
        文本中的实体怎么关联到知识库?
        怎么获取完整信息?
    b.能带来什么好处
        把文本中的实体链接到知识库中的标准实体,让 AI 知道说的是哪个:
        把合同中的"海螺"链接到知识库中的"安徽海螺水泥股份有限公司"
        实体链接让 AI 知道文本里的"海螺"指的是哪个公司
        把合同中的供应商名称链接到企业知识库
        获取供应商的完整信息(资质、历史、风险)。
    c.投资回报
        打通文本与知识库
        实现知识增强
        获取完整信息
    d.实施难度
        中。实体消歧与候选排序。

19.指代消解Coreference Resolution(AI指代理解)
    a.解决什么问题
        文本中的代词怎么理解?
        "它"、"其"指的是谁?
    b.能带来什么好处
        识别"它"、"该公司"、"其"指的是谁:
        识别"该公司"、"其供应商"指代的是哪个公司
        消解合同中的代词,理解完整语义
        消解合同中的指代,如"乙方应向甲方付款,其金额为..."中的"其"指的是什么
        提升理解准确度。
    c.投资回报
        理解文本中的代词和省略
        提升理解准确度
        完整语义
    d.实施难度
        中。共指关系识别与聚类。

20.数据质量Data Quality(数据好坏程度)
    a.解决什么问题
        数据准不准、全不全?
        分析结果可信吗?
    b.能带来什么好处
        数据的"好坏程度",准不准、全不全、对不对:
        评估合同数据的完整性和准确性
        数据质量评分:完整性 95%、准确性 90%、一致性 85%
        评估采购数据质量,发现完整性 95% 但准确性只有 85%
        需要清洗后才能可靠分析。
    c.投资回报
        数据质量决定分析结果可信度
        量化评估
        指导改进
    d.实施难度
        低。质量评估框架与度量指标。

21.数据校验Data Validation(数据检查)
    a.解决什么问题
        怎么在入库前拦截错误?
        怎么保证数据质量?
    b.能带来什么好处
        检查数据是否符合规则,像表单验证一样:
        校验合同金额是否为正数、日期是否合理
        数据校验规则:金额>0、日期<=今天、必填字段非空
        建立采购数据校验规则,入库前自动检查金额、日期、供应商等字段是否合理
        在数据入库前拦截错误。
    c.投资回报
        在数据入库前拦截错误
        保证数据质量
        减少后患
    d.实施难度
        低。规则引擎与约束检查。

22.数据画像Data Profiling(数据体检)
    a.解决什么问题
        数据全貌是什么?
        数据有什么问题?
    b.能带来什么好处
        给数据"体检",了解数据的基本情况和问题:
        分析合同数据的分布、缺失率、唯一值数量
        数据画像报告:字段缺失率、值分布、异常值比例
        对采购数据做画像,了解各字段的分布和缺失情况
        决定清洗策略。
    c.投资回报
        快速了解数据全貌
        发现数据问题
        指导清洗策略
    d.实施难度
        低。统计分析与元数据提取。

23.数据去重Data Deduplication(删除重复)
    a.解决什么问题
        数据有重复怎么办?
        怎么减少冗余?
    b.能带来什么好处
        删除重复的数据,像去重歌单里的重复歌曲:
        去除重复录入的合同记录
        识别"相同供应商+相同金额+相近日期"的重复合同
        去除采购系统中重复录入的合同记录
        避免重复统计。
    c.投资回报
        减少冗余数据
        提升数据质量
        避免重复统计
    d.实施难度
        中。相似度计算与聚类算法。

24.数据脱敏Data Masking(数据打码)
    a.解决什么问题
        敏感数据怎么保护?
        怎么满足合规要求?
    b.能带来什么好处
        把敏感信息"打码",保护隐私但还能用于分析:
        对供应商联系方式、金额进行脱敏处理
        金额保留数量级,具体数字用*替代
        对审计报告中的敏感信息进行脱敏
        保护商业机密。
    c.投资回报
        满足数据安全和隐私合规要求
        保护隐私
        数据可用
    d.实施难度
        中。数据变换与隐私保护技术。

25.数据隐私Data Privacy(数据安全)
    a.解决什么问题
        数据怎么保护?
        怎么满足法律要求?
    b.能带来什么好处
        保护数据不被不该看的人看到:
        确保合同数据只有授权人员可以访问
        数据分级分类,敏感数据加密存储
        建立采购数据隐私保护机制
        敏感合同信息分级授权访问。
    c.投资回报
        满足法律法规要求
        保护企业声誉
        数据安全
    d.实施难度
        中。访问控制与加密技术。

26.数据治理Data Governance(数据规章制度)
    a.解决什么问题
        数据怎么管理?
        数据谁负责?
    b.能带来什么好处
        管理数据的"规章制度",让数据有人管、有标准、可追溯:
        建立企业数据治理体系,明确数据责任
        数据治理委员会、数据管理制度、数据质量监控
        建立采购数据治理体系
        明确数据录入、审核、使用的责任和流程。
    c.投资回报
        提升数据价值
        降低数据风险
        有章可循
    d.实施难度
        高。组织架构、制度流程与技术工具。

27.主数据管理Master Data Management(核心档案)
    a.解决什么问题
        核心数据不一致怎么办?
        各系统数据怎么统一?
    b.能带来什么好处
        管理企业的"核心档案",确保关键数据在各系统一致:
        统一管理供应商主数据,确保各系统供应商信息一致
        供应商主数据:统一编码、统一名称、统一属性
        建立供应商主数据管理
        确保 ERP、财务、合同系统中供应商信息一致。
    c.投资回报
        解决数据孤岛
        确保核心数据一致
        统一视图
    d.实施难度
        高。数据标准化与统一视图。

28.数据血缘Data Lineage(数据族谱)
    a.解决什么问题
        数据从哪来、到哪去?
        怎么追溯数据来源?
    b.能带来什么好处
        数据的"族谱",记录数据从哪来、到哪去、经过什么处理:
        追踪某个数字从录入到报表的完整路径
        数据血缘图:原始数据→ETL→数据仓库→报表
        建立采购数据血缘
        追踪审计报告中的每个数字来自哪个原始记录。
    c.投资回报
        定位数据来源
        支持数据质量追溯
        可审计
    d.实施难度
        中。元数据追踪与血缘图谱。

29.数据目录Data Catalog(数据图书馆目录)
    a.解决什么问题
        有什么数据?在哪?
        怎么找数据?
    b.能带来什么好处
        数据的"图书馆目录",记录有什么数据、在哪、是什么:
        数据目录记录有哪些数据、在哪里、什么含义
        数据目录让分析师快速找到需要的数据
        建立采购数据目录
        记录所有采购相关数据的位置、结构、含义。
    c.投资回报
        让数据可发现、可理解、可使用
        快速找数据
        数据资产化
    d.实施难度
        中。元数据管理与数据发现。

30.数据管家Data Stewardship(数据负责人)
    a.解决什么问题
        数据谁负责?
        数据问题找谁?
    b.能带来什么好处
        给数据找"负责人",让每个数据都有人管:
        指定采购数据的管家,负责数据质量和问题处理
        每个业务域有数据管家,负责数据质量
        指定采购部门的数据管家
        负责采购数据的质量和问题处理。
    c.投资回报
        让数据有人负责、有人维护
        责任明确
        问题有解
    d.实施难度
        中。组织角色与责任分配。

31.数据标准Data Standards(数据普通话)
    a.解决什么问题
        不同系统语言不通怎么办?
        数据怎么统一?
    b.能带来什么好处
        数据的"普通话",让不同系统说同一种语言:
        定义供应商编码规则、材料分类标准
        数据标准文档:字段命名、编码规则、枚举值
        建立采购数据标准
        统一供应商编码、材料分类、金额单位等。
    c.投资回报
        统一数据语言
        提升数据互操作性
        系统可集成
    d.实施难度
        中。标准化框架与规范文档。

32.数据合规Data Compliance(数据处理合法)
    a.解决什么问题
        数据处理合法吗?
        怎么避免法律风险?
    b.能带来什么好处
        让数据处理"合法合规",不触犯法律法规:
        确保采购数据处理符合审计法规
        数据合规检查:数据保留期限、访问权限、审计日志
        确保采购数据处理符合审计法规
        保留期限、访问权限、操作日志都合规。
    c.投资回报
        避免法律风险
        保护企业声誉
        合规经营
    d.实施难度
        中。合规框架与审计追踪。

33.数据生命周期Data Lifecycle(数据的一生)
    a.解决什么问题
        数据存多久?
        什么时候删除?
    b.能带来什么好处
        数据的"一生",从出生到死亡的全过程管理:
        定义合同数据的保留期限和销毁规则
        数据生命周期:创建→使用→归档→销毁
        定义采购数据的生命周期
        合同数据保留 10 年后归档,20 年后销毁。
    c.投资回报
        优化存储成本
        满足合规要求
        自动管理
    d.实施难度
        中。生命周期管理与自动归档。

34.特征存储Feature Store(特征仓库)
    a.解决什么问题
        特征怎么共享?
        怎么避免重复计算?
    b.能带来什么好处
        存"特征"的仓库,让不同模型共享特征:
        存储采购相关的特征,供多个模型使用
        特征存储:供应商历史违约率、平均采购周期等
        建立采购特征存储
        存储供应商信用评分、历史价格波动等特征。
    c.投资回报
        特征复用
        加速模型开发
        避免重复计算
    d.实施难度
        中。特征计算与版本管理。

35.特征选择Feature Selection(挑选有用特征)
    a.解决什么问题
        特征太多怎么办?
        哪些特征有用?
    b.能带来什么好处
        从很多特征中挑选最有用的,去掉没用的和重复的:
        从 100 个合同特征中选出最重要的 20 个
        特征选择方法:相关性分析、特征重要性、递归消除
        从合同特征中选择对预测风险最有用的特征
        去掉冗余特征,提升模型效果。
    c.投资回报
        减少特征数量
        提升模型效果和效率
        降维
    d.实施难度
        中。统计检验与重要性排序。

36.特征重要性Feature Importance(特征排座次)
    a.解决什么问题
        哪个特征最重要?
        模型怎么决策的?
    b.能带来什么好处
        哪个特征对预测结果影响最大,给特征"排座次":
        发现"供应商历史违约次数"是最重要的风险预测特征
        特征重要性排名:供应商信用>付款周期>合同金额
        分析特征重要性
        发现"供应商历史违约次数"是预测合同风险的最重要特征。
    c.投资回报
        理解模型决策
        指导特征工程
        业务洞察
    d.实施难度
        低。模型内置重要性或 SHAP 值。

37.特征变换Feature Transformation(特征数学变形)
    a.解决什么问题
        特征分布不理想怎么办?
        怎么提升模型效果?
    b.能带来什么好处
        对特征做"数学变形",让它更容易被模型理解:
        对金额取对数,处理长尾分布
        特征变换:对数变换、标准化、归一化
        对采购金额做对数变换
        处理长尾分布,让模型更好地学习金额特征。
    c.投资回报
        提升模型效果
        处理异常值和偏态分布
        数据适配
    d.实施难度
        中。数学变换与分布调整。

38.特征缩放Feature Scaling(特征同一尺度)
    a.解决什么问题
        特征量纲不同怎么办?
        怎么避免数值差异影响?
    b.能带来什么好处
        把不同单位的特征缩放到同一"尺度",方便比较:
        把金额和数量缩放到 0-1 范围,统一量纲
        特征缩放:Min-Max 归一化、Z-Score 标准化
        把金额(万元)和天数等不同量纲的特征缩放到统一范围
        避免数值大的特征主导模型。
    c.投资回报
        提升模型收敛速度和效果
        统一量纲
        公平比较
    d.实施难度
        低。归一化与标准化算法。

39.特征编码Feature Encoding(文字变数字)
    a.解决什么问题
        文字类别怎么处理?
        AI 怎么理解类别?
    b.能带来什么好处
        把文字类别变成数字,让 AI 能计算:
        把"供应商类型"编码为数值
        特征编码:One-Hot、Label Encoding、Embedding
        把供应商类型、材料类型等类别特征编码为数值
        供模型学习。
    c.投资回报
        让模型能够处理类别特征
        文本数字化
        可计算
    d.实施难度
        低。编码映射与嵌入表示。

40.特征提取Feature Extraction(提炼有用特征)
    a.解决什么问题
        怎么从原始数据提取特征?
        非结构化数据怎么用?
    b.能带来什么好处
        从原始数据中"提炼"出有用的特征:
        从合同文本中提取"条款数量"、"金额范围"等特征
        特征提取:文本长度、关键词频率、TF-IDF
        从合同文本中提取特征
        条款数量、金额出现次数、风险词汇频率等。
    c.投资回报
        从非结构化数据中提取结构化特征
        数据增值
        模型可用
    d.实施难度
        中。信号处理与模式识别。

1.6 [1]理解与关联

01.语义分析(读懂潜规则)
    a.解决什么问题
        AI 只能字面理解,读不懂"言外之意"。
        合同里的"甲方自理运费"和"包干到场"意思一样但字面不同。
    b.能带来什么好处
        AI 能读懂"字里行间"的潜规则:
        识别"甲方自理运费"与"包干到场"虽字面不同但代表了运输责任的转移
        理解"甲方承担卸货费"意味着单价不含装卸
        像一个"老江湖",能读懂潜规则和暗示
        从"字面理解"升级为"深度理解"。
    c.投资回报
        理解深度:读懂字里行间的含义
        发现隐藏:识别文不对题或隐形陷阱
        专业判断:像老员工一样懂行
    d.实施难度
        低。选择支持语义理解的大模型即可。

02.向量化(文字变坐标)
    a.解决什么问题
        关键词搜索找不到同义不同词的内容。
        "加急费"和"赶工补偿"意思一样但字不同。
    b.能带来什么好处
        把文字变成"数学坐标":
        意思相似的词在坐标图上靠得很近
        即使合同没写"价格"二字,也能匹配到"偏远山区补偿"
        关键词不匹配也能找到相关内容
        让电脑能计算两句话的"距离有多近"。
    c.投资回报
        检索全面:同义不同词也能找到
        召回提升:不漏掉相关内容
        语义理解:不只是字面匹配
    d.实施难度
        中。需要生成向量并存储。

03.RAG检索增强生成(给AI配图书馆)
    a.解决什么问题
        AI 没有公司内部知识,容易瞎编。
        需要让 AI 基于事实回答,而不是靠记忆。
    b.能带来什么好处
        给 AI 配一个"私人图书馆":
        AI 发现异常后检索档案库中的补充协议
        基于事实生成分析报告
        靠查证而非记忆来降低幻觉
        不是瞎编,而是"翻书查证"。
    c.投资回报
        幻觉降低:基于事实回答
        知识丰富:能查公司私有数据
        可追溯:回答有据可查
    d.实施难度
        中。需要搭建知识库和检索系统(1-2 个月)。

04.相似度(直觉变数字)
    a.解决什么问题
        "感觉挺像"没法量化。
        怎么把直觉变成可计算的依据?
    b.能带来什么好处
        把"感觉挺像"变成具体数字:
        发现 B 项目与历史"山地大桥项目"90% 相似
        推断差价为合理的地形溢价
        历史经验的数字化重现
        直觉变成可计算的依据。
    c.投资回报
        量化判断:相似度有数字
        经验复用:历史案例可对比
        决策支撑:有数据支撑的判断
    d.实施难度
        低。向量计算自带相似度。

05.向量数据库(存向量的仓库)
    a.解决什么问题
        向量数据存在哪里?
        怎么快速检索海量向量?
    b.能带来什么好处
        专门存"向量"的数据库:
        存储 10 万份合同的向量表示
        支持毫秒级语义检索
        输入"异常高价条款",瞬间返回最相似的历史合同
        让 AI 能在海量数据里快速找到"意思相近"的内容。
    c.投资回报
        检索快速:毫秒级响应
        规模支持:能存海量向量
        语义搜索:按意思搜索
    d.实施难度
        中。需要部署向量数据库(1-2 个月)。

06.分块Chunking(切蛋糕)
    a.解决什么问题
        长文档一次性处理效果差。
        检索精度低,返回内容被截断。
    b.能带来什么好处
        把长文章切成小块:
        把 100 页的合同按条款切分成 50 个块
        每个块单独检索
        检索结果是一个完整条款而非截断的句子
        像切蛋糕一样,每块单独存放和检索。
    c.投资回报
        检索精准:返回完整段落
        粒度合适:不会太长或太短
        效果提升:RAG 效果更好
    d.实施难度
        低。配置分块策略即可。

07.重排序Re-ranking(先粗选再精选)
    a.解决什么问题
        初次检索结果相关性不够高。
        最相关的没排在最前面。
    b.能带来什么好处
        先粗选再精选:
        初次检索出 50 份合同
        重排序后把最相关的 5 份排在前面
        检索效果提升 30%+
        像招聘先筛简历再面试。
    c.投资回报
        效果提升:相关性提升 30%+
        体验更好:最相关的排在前面
        节省时间:不用人工筛选
    d.实施难度
        中。需要配置重排序模型。

08.混合检索Hybrid Search(两条腿走路)
    a.解决什么问题
        关键词检索精确但召回低。
        向量检索召回高但可能跑题。
    b.能带来什么好处
        两条腿走路:
        关键词检索保证精确匹配
        向量检索保证语义匹配
        合并后效果最好
        检索准确率提升 20%+。
    c.投资回报
        效果最佳:兼顾精确和语义
        准确提升:提升 20%+
        实用性强:业界主流方案
    d.实施难度
        中。需要配置混合检索系统。

09.分词Tokenization(切词)
    a.解决什么问题
        AI 怎么理解文本?
        第一步是把句子切成"词"。
    b.能带来什么好处
        把句子切成最小处理单元:
        把"采购合同"切分为"采购"+"合同"
        是 AI 理解语言的第一步
        影响 Token 消耗和模型理解
        AI 理解语言的"切菜"步骤。
    c.投资回报
        理解基础:AI 理解的第一步
        消耗估算:帮助估算 Token 成本
        通用技术:所有 NLP 任务都需要
    d.实施难度
        低。模型自带分词器。

10.词性标注POS Tagging(标词性)
    a.解决什么问题
        AI 不知道哪个是名词、哪个是动词。
        语法分析需要词性信息。
    b.能带来什么好处
        给每个词打上"词性标签":
        标注"采购"是动词,"合同"是名词
        支持语法分析和信息提取
        帮助理解句子结构
        告诉 AI 哪个是名词、哪个是动词。
    c.投资回报
        语法理解:帮助理解句子结构
        信息提取:支撑实体识别
        基础技术:语法分析的基础
    d.实施难度
        低。工具直接可用。

11.依存句法分析(分析句子关系)
    a.解决什么问题
        句子里词与词是什么关系?
        谁是主语、谁是宾语?
    b.能带来什么好处
        分析句子中词与词的"关系":
        分析"甲方应向乙方付款"中"甲方"是主语
        理解合同的权责关系
        准确判断谁付款给谁
        理解句子的深层结构。
    c.投资回报
        关系理解:理解权责关系
        提取准确:准确提取关键信息
        语义增强:深层语义理解
    d.实施难度
        低。工具直接可用。

12.成分句法分析(拆语法树)
    a.解决什么问题
        句子的层次结构是什么?
        怎么分解为短语?
    b.能带来什么好处
        把句子拆成"语法树":
        分解为名词短语、动词短语等成分
        一层层分解
        理解合同的条款结构
        理解句子的层次结构。
    c.投资回报
        结构理解:理解语法结构
        条款解析:帮助解析复杂条款
        翻译支撑:机器翻译的基础
    d.实施难度
        低。工具直接可用。

13.词形还原Lemmatization(变回原形)
    a.解决什么问题
        "采购了"和"采购"是同一个词吗?
        怎么统一词形?
    b.能带来什么好处
        把词变回"原形":
        "采购了"→"采购","供应商们"→"供应商"
        统一词形,提升检索和匹配准确率
        搜"付款"也能找到"付款了"、"付款后"
        让搜索更准确。
    c.投资回报
        检索准确:统一词形后搜索更准
        匹配提升:同义词匹配更好
        统计准确:词频统计更准
    d.实施难度
        低。工具直接可用。

14.词干提取Stemming(砍尾巴)
    a.解决什么问题
        英文单词有各种变形。
        能不能更粗暴地还原?
    b.能带来什么好处
        把词的"尾巴"砍掉:
        "running"→"run","runs"→"run"
        更粗暴的词形还原
        快速统一词形
        英文处理常用技术。
    c.投资回报
        处理快速:简单粗暴但快
        召回提升:提升英文检索召回
        英文专用:处理英文文档
    d.实施难度
        低。工具直接可用。

15.停用词Stop Words(过滤废话)
    a.解决什么问题
        "的"、"是"、"在"这些词没什么意义。
        分析时会增加噪声。
    b.能带来什么好处
        过滤"没意义"的常用词:
        去除"的"、"是"、"在"等
        减少噪声,聚焦实质内容
        提升处理效率
        把废话过滤掉。
    c.投资回报
        噪声减少:聚焦实质性内容
        效率提升:减少计算量
        效果提升:关键词提取更准
    d.实施难度
        低。配置停用词表即可。

16.词义消歧WSD(判断多义词)
    a.解决什么问题
        "银行"是指金融机构还是河岸?
        多义词怎么判断具体含义?
    b.能带来什么好处
        AI 的"察言观色":
        根据上下文判断"银行"是指金融机构还是河岸
        提升语义理解准确度
        避免理解错误
        判断多义词在当前语境下是什么意思。
    c.投资回报
        理解准确:多义词理解正确
        避免错误:不会误解含义
        语义增强:深层语义理解
    d.实施难度
        中。需要上下文理解能力。

17.意图识别Intent Recognition(理解想干什么)
    a.解决什么问题
        用户说的话字面意思和真实意图不同。
        怎么理解用户真正想做什么?
    b.能带来什么好处
        理解用户"想干什么":
        识别"我要查合同"是查询意图
        识别"我要投诉"是投诉意图
        支持智能交互
        不只是看字面意思。
    c.投资回报
        交互智能:理解用户真实意图
        服务精准:提供正确的服务
        体验提升:更智能的交互
    d.实施难度
        中。需要训练意图分类模型。

18.情感分析Sentiment Analysis(判断高兴不高兴)
    a.解决什么问题
        文本的情感倾向是什么?
        是正面还是负面?
    b.能带来什么好处
        AI 的情绪识别:
        判断文本是"高兴"还是"不高兴"
        分析合同谈判邮件的情感倾向
        识别供应商沟通中的不满情绪
        了解用户态度。
    c.投资回报
        态度了解:了解对方态度
        风险预警:识别不满情绪
        舆情监控:监控舆情走向
    d.实施难度
        低。预训练模型直接用。

19.情绪检测Emotion Detection(判断具体情绪)
    a.解决什么问题
        只知道"高兴不高兴"不够。
        需要判断具体是哪种情绪。
    b.能带来什么好处
        不只是"高兴不高兴":
        判断是"愤怒"、"悲伤"、"恐惧"等具体情绪
        检测投诉邮件中的愤怒情绪
        识别高风险沟通
        更细粒度的情感理解。
    c.投资回报
        情绪细分:具体情绪类型
        风险识别:识别愤怒情绪优先处理
        精细分析:更细粒度的理解
    d.实施难度
        中。需要情绪分类模型。

20.讽刺检测Sarcasm Detection(识别阴阳怪气)
    a.解决什么问题
        "真是太好了"可能是讽刺。
        AI 怎么识别"阴阳怪气"?
    b.能带来什么好处
        AI 的"听出讽刺"能力:
        识别"真是太好了"是讽刺而非赞美
        提升情感分析准确度
        避免误判用户真实态度
        识别"阴阳怪气"的话。
    c.投资回报
        判断准确:不会把讽刺当赞美
        理解真实:准确理解真实态度
        效果提升:情感分析更准
    d.实施难度
        高。讽刺检测难度较大。

21.主题建模Topic Modeling(归纳话题)
    a.解决什么问题
        大量文档都在讨论什么?
        能不能自动归纳主题?
    b.能带来什么好处
        自动从一堆文章中归纳话题:
        从 100 份合同中自动归纳出"付款"、"交付"、"质量"等主题
        快速了解合同关注点
        支持内容组织和检索
        自动归纳"都在讨论什么"。
    c.投资回报
        内容组织:自动归纳主题
        快速了解:了解文档关注点
        检索支撑:按主题组织内容
    d.实施难度
        低。LDA 等算法直接用。

22.文本分类Text Classification(自动归类)
    a.解决什么问题
        文档需要人工分类。
        能不能自动归类?
    b.能带来什么好处
        AI 的"归类"能力:
        自动将合同分类为"采购合同"、"服务合同"、"租赁合同"
        自动化文档管理
        提升整理效率
        自动判断属于哪个类别。
    c.投资回报
        效率提升:自动分类,不用人工
        管理规范:分类统一规范
        检索方便:按类别检索
    d.实施难度
        低。分类模型直接用。

23.文本聚类Text Clustering(自动抱团)
    a.解决什么问题
        不知道文档应该分几类。
        能不能自动发现分组?
    b.能带来什么好处
        把相似的文档"抱团":
        将 100 份合同自动分成若干相似组
        无需预定义类别
        发现合同中的相似模式
        自动分组,不用预定义类别。
    c.投资回报
        发现模式:自动发现相似组
        异常检测:发现离群的异常值
        探索分析:支持探索性分析
    d.实施难度
        低。聚类算法直接用。

24.嵌入Embedding(文字变数字)
    a.解决什么问题
        电脑不能直接理解文字。
        怎么让电脑能计算语义?
    b.能带来什么好处
        把文字变成"数字坐标":
        把"水泥"映射为一个 768 维的向量
        让电脑能理解语义
        支撑各种 NLP 应用
        语义计算的基础。
    c.投资回报
        语义计算:电脑能算语义
        应用广泛:支撑各种 NLP 任务
        基础技术:语义理解的基础
    d.实施难度
        低。预训练模型直接用。

25.Word2Vec(词向量经典)
    a.解决什么问题
        怎么把词变成向量?
        经典方法是什么?
    b.能带来什么好处
        把每个词变成一个向量:
        意思相近的词向量也相近
        "水泥"和"混凝土"语义相似
        开创了词向量的时代
        词向量的经典算法。
    c.投资回报
        语义相似:意思相近的词向量相近
        广泛应用:各种 NLP 任务
        成熟技术:经过验证的方案
    d.实施难度
        低。预训练向量直接用。

26.GloVe(全局词向量)
    a.解决什么问题
        Word2Vec 只看局部上下文。
        能不能利用全局统计信息?
    b.能带来什么好处
        另一种词向量方法:
        通过统计词的共同出现来学习
        结合全局统计信息
        某些任务效果比 Word2Vec 更好
        Word2Vec 的"竞争者"。
    c.投资回报
        全局信息:利用全局统计
        效果好:某些任务更优
        备选方案:多一种选择
    d.实施难度
        低。预训练向量直接用。

27.FastText(能理解新词)
    a.解决什么问题
        Word2Vec 遇到没见过的词就傻眼。
        能不能理解新词?
    b.能带来什么好处
        Word2Vec 的升级版:
        能理解"水泥厂"即使没见过这个词
        支持子词信息
        对中文和专业术语处理更好
        能理解"没见过的词"。
    c.投资回报
        新词处理:能理解未见过的词
        中文友好:对中文处理更好
        多语言:支持多语言处理
    d.实施难度
        低。预训练向量直接用。

28.BERT Embedding(上下文词向量)
    a.解决什么问题
        同一个词在不同句子里意思不同。
        静态词向量解决不了。
    b.能带来什么好处
        更高级的词向量:
        同一个"银行"在不同句子里有不同的向量
        词向量随上下文变化
        更准确表达语义
        "同一个词,不同句子,不同意思"。
    c.投资回报
        语义准确:上下文相关
        理解精准:更准确理解语义
        效果提升:比静态向量更好
    d.实施难度
        中。需要 BERT 模型。

29.Sentence Embedding(句子向量)
    a.解决什么问题
        怎么把整句话变成向量?
        句子级别的语义怎么计算?
    b.能带来什么好处
        把整句话变成一个向量:
        把整个合同条款编码为一个向量
        让 AI 能计算句子之间的相似度
        支持句子级别的语义检索
        句子级别的"数字指纹"。
    c.投资回报
        句子检索:按句子检索
        相似计算:计算句子相似度
        问答匹配:匹配问题和答案
    d.实施难度
        低。Sentence-BERT 直接用。

30.Document Embedding(文档向量)
    a.解决什么问题
        怎么把整篇文档变成向量?
        文档级别的语义怎么表示?
    b.能带来什么好处
        把整篇文章变成一个向量:
        把整份合同编码为一个向量
        快速检索相似合同
        AI 的"文档指纹"
        文档级别的"数字指纹"。
    c.投资回报
        文档检索:快速检索相似文档
        分类支撑:支持文档分类
        去重帮助:识别相似文档
    d.实施难度
        低。Doc2Vec 直接用。

31.多模态嵌入Multimodal Embedding(图文统一)
    a.解决什么问题
        文字和图片是两种数据。
        能不能统一表示?
    b.能带来什么好处
        把文字和图片都变成向量:
        而且可以互相比较
        用文字搜图片
        用图片搜文字
        "图文一家亲"。
    c.投资回报
        跨模态检索:用文字搜图片
        内容理解:多模态内容理解
        应用丰富:支持多种应用
    d.实施难度
        中。需要 CLIP 等模型。

32.稠密检索Dense Retrieval(意思检索)
    a.解决什么问题
        关键词检索太死板。
        能不能按"意思"检索?
    b.能带来什么好处
        用"意思相近"来检索:
        能找到语义相关但用词不同的内容
        比关键词检索更智能
        语义检索的核心技术
        不只看字面,看意思。
    c.投资回报
        检索智能:语义相关也能找到
        召回提升:不漏相关内容
        体验提升:搜索更准确
    d.实施难度
        中。需要向量索引。

33.稀疏检索Sparse Retrieval(关键词检索)
    a.解决什么问题
        语义检索可能跑偏。
        精确匹配怎么保证?
    b.能带来什么好处
        传统的"关键词搜索":
        找包含特定词的文档
        精确匹配能力强
        适合关键词明确的检索
        找"包含这个词"的文档。
    c.投资回报
        精确匹配:包含关键词必找到
        速度快:检索速度快
        可控性强:结果可预期
    d.实施难度
        低。Elasticsearch 直接用。

34.后期交互Late Interaction(先粗选再细比)
    a.解决什么问题
        向量检索只有整体相似度。
        能不能更精细对比?
    b.能带来什么好处
        先粗选再细比:
        先粗选相关文档
        再逐词精细对比
        比单纯向量检索更精确
        "先筛简历再逐条对比"。
    c.投资回报
        精度更高:检索效果更好
        可解释:能解释为什么匹配
        平衡效率:兼顾效率和效果
    d.实施难度
        中。需要 ColBERT 等模型。

35.ColBERT(精细检索模型)
    a.解决什么问题
        普通向量检索精度不够。
        有没有更精确的方法?
    b.能带来什么好处
        一种高级检索模型:
        能更精确地匹配查询和文档
        在法律和合同检索中效果优异
        可解释性强
        检索界的"精密仪器"。
    c.投资回报
        检索精准:精度更高
        法律友好:合同检索效果好
        可解释:知道为什么匹配
    d.实施难度
        中。需要部署 ColBERT。

36.Pinecone(云端向量库)
    a.解决什么问题
        自己搭建向量数据库太麻烦。
        有没有托管服务?
    b.能带来什么好处
        云端的向量数据库:
        不用自己搭服务器
        开箱即用
        最流行的托管向量数据库之一
        向量数据库的"云服务版"。
    c.投资回报
        零运维:不用管服务器
        快速落地:开箱即用
        稳定可靠:专业团队维护
    d.实施难度
        低。注册就能用。

37.Milvus(开源向量库)
    a.解决什么问题
        不想用云服务,要自己部署。
        有没有开源方案?
    b.能带来什么好处
        开源的向量数据库:
        可以自己部署
        可自托管,支持大规模向量检索
        适合企业级场景
        向量数据库的"开源版"。
    c.投资回报
        数据自主:数据在自己服务器
        成本可控:不用付云服务费
        可定制:可以深度定制
    d.实施难度
        中。需要部署和运维。

38.Chroma(轻量向量库)
    a.解决什么问题
        大规模向量库太重。
        有没有轻量方案?
    b.能带来什么好处
        轻量级的向量数据库:
        快速上手
        Python 友好
        LangChain 默认的向量数据库
        向量数据库的"轻量版"。
    c.投资回报
        快速原型:快速搭建原型
        上手简单:学习成本低
        集成方便:LangChain 默认支持
    d.实施难度
        低。pip 安装即可。

39.Weaviate(知识图谱向量库)
    a.解决什么问题
        向量检索和知识图谱能结合吗?
        能不能两者兼得?
    b.能带来什么好处
        能做语义搜索,还能管理知识图谱:
        向量搜索与图结构的结合
        支持复杂查询
        结合知识图谱能力
        "向量+图谱"的混合体。
    c.投资回报
        能力丰富:向量+图谱
        查询复杂:支持复杂查询
        关联发现:发现知识关联
    d.实施难度
        中。需要部署和配置。

40.Faiss(向量检索引擎)
    a.解决什么问题
        向量检索速度太慢。
        有没有高性能方案?
    b.能带来什么好处
        向量检索的"引擎":
        速度极快
        Meta 开源
        支持十亿级向量检索
        向量检索的"法拉利"。
    c.投资回报
        速度极快:毫秒级检索
        规模支持:支持十亿级
        业界标准:广泛使用
    d.实施难度
        中。需要集成到系统。

41.Qdrant(带过滤向量库)
    a.解决什么问题
        向量检索时要按条件过滤。
        能不能向量+过滤一起?
    b.能带来什么好处
        支持"带条件"的向量检索:
        向量检索和元数据过滤结合
        性能好
        Rust 实现,速度快
        "先过滤再检索"。
    c.投资回报
        检索精准:带条件过滤
        性能好:Rust 实现
        灵活性高:支持复杂过滤
    d.实施难度
        中。需要部署和配置。

42.ES Vector(ES向量扩展)
    a.解决什么问题
        已经有 Elasticsearch 了。
        能不能直接加向量能力?
    b.能带来什么好处
        给 Elasticsearch 加上向量检索能力:
        在现有 ES 集群上增加向量能力
        实现混合检索(关键词+向量)
        不用新系统
        "老系统新能力"。
    c.投资回报
        投资保护:不用换系统
        能力增强:新增向量能力
        混合检索:关键词+向量
    d.实施难度
        中。需要升级 ES 版本。

43.查询重写Query Rewriting(翻译查询)
    a.解决什么问题
        用户查询可能表述不清。
        怎么让查询更容易检索?
    b.能带来什么好处
        把用户的问题"翻译"成更容易搜索的形式:
        把"高价"重写为"价格异常"、"溢价"、"超出市场价"
        提升检索覆盖面
        多个同义查询并行检索
        让查询更好搜。
    c.投资回报
        覆盖提升:找到更多相关内容
        召回提高:不漏掉相关结果
        体验更好:搜不到也能找到
    d.实施难度
        低。配置重写规则即可。

44.查询扩展Query Expansion(加料查询)
    a.解决什么问题
        只搜一个词可能漏掉相关内容。
        能不能自动加相关词?
    b.能带来什么好处
        给查询"加料":
        搜"水泥"时也搜"混凝土"
        搜"加急费"时也搜"赶工费"
        避免漏掉相关内容
        自动加同义词。
    c.投资回报
        召回提升:找到更多相关
        漏检减少:不会漏掉
        自动化:不用人工添加
    d.实施难度
        低。配置同义词表即可。

45.BM25(经典检索算法)
    a.解决什么问题
        关键词检索怎么排序?
        哪个文档更相关?
    b.能带来什么好处
        经典的"关键词搜索"算法:
        考虑词频和文档长度
        Elasticsearch 默认算法
        精确匹配效果好
        关键词检索的"黄金标准"。
    c.投资回报
        成熟稳定:经过大量验证
        效果好:精确匹配准确
        广泛使用:业界标准
    d.实施难度
        低。ES 默认支持。

46.TF-IDF(词重要性)
    a.解决什么问题
        怎么判断一个词在文档中有多重要?
        哪些词是关键词?
    b.能带来什么好处
        判断一个词在文档中"有多重要":
        词频高的词不一定重要
        要看这个词在所有文档中的分布
        关键词提取的基础
        "这个词有多特别"。
    c.投资回报
        关键词提取:自动提取关键词
        文档理解:理解文档重点
        检索基础:检索算法基础
    d.实施难度
        低。标准算法直接用。

47.检索评估Retrieval Metrics(检索打分)
    a.解决什么问题
        检索效果好不好?
        怎么量化评估?
    b.能带来什么好处
        给检索系统"打分":
        用 MRR、NDCG 等指标评估
        量化评估检索效果
        指导优化方向
        检索系统的"考试分数"。
    c.投资回报
        效果量化:有数字可参考
        优化方向:知道哪里需要改进
        持续监控:跟踪效果变化
    d.实施难度
        低。标准指标直接用。

48.余弦相似度Cosine Similarity(方向相似)
    a.解决什么问题
        怎么计算两个向量的相似度?
        用什么方法最常用?
    b.能带来什么好处
        计算两个向量的"方向相似度":
        0-1 之间,越接近 1 越相似
        向量相似度计算的标准方法
        向量检索的核心计算
        看方向,不看距离。
    c.投资回报
        标准方法:业界通用
        计算简单:计算量小
        效果好:广泛验证
    d.实施难度
        低。标准公式直接用。

49.欧氏距离Euclidean Distance(直线距离)
    a.解决什么问题
        两个向量"离多远"?
        绝对距离怎么算?
    b.能带来什么好处
        两个点之间的"直线距离":
        越近越相似
        适合衡量绝对差异
        发现"离群"的异常值
        两点之间直线最短。
    c.投资回报
        差异衡量:衡量绝对差异
        异常发现:发现离群点
        简单直观:容易理解
    d.实施难度
        低。标准公式直接用。

50.点积Dot Product(快速相似)
    a.解决什么问题
        相似度计算太慢。
        有没有更快的办法?
    b.能带来什么好处
        向量相乘,结果越大越相似:
        归一化向量点积等于余弦相似度
        向量相似度计算的快速方法
        推理加速常用
        算得快的相似度。
    c.投资回报
        计算快速:计算量小
        效果等价:归一化后等价余弦
        加速推理:推理加速常用
    d.实施难度
        低。标准公式直接用。

51.曼哈顿距离Manhattan Distance(横竖距离)
    a.解决什么问题
        对异常值敏感。
        需要更鲁棒的距离度量。
    b.能带来什么好处
        像在 Manhattan 走路,只能横着或竖着走的距离:
        对异常值更鲁棒的距离度量
        各维度差值绝对值之和
        聚类分析常用
        纽约街道路线距离。
    c.投资回报
        鲁棒性强:对异常值不敏感
        聚类效果好:适合聚类分析
        计算简单:绝对值求和
    d.实施难度
        低。标准公式直接用。

52.Jaccard相似度(集合重叠)
    a.解决什么问题
        怎么衡量集合相似度?
        两个集合重叠多少?
    b.能带来什么好处
        两个集合"重叠部分"占"合并部分"的比例:
        衡量集合相似度的标准方法
        适合衡量集合相似性
        去重和相似检测常用
        集合版的相似度。
    c.投资回报
        集合专用:适合集合数据
        去重利器:去重效果好
        简单直观:容易理解
    d.实施难度
        低。标准公式直接用。

53.编辑距离Levenshtein Distance(改字距离)
    a.解决什么问题
        两个字符串有多像?
        需要改几个字才能一样?
    b.能带来什么好处
        把一个词变成另一个词需要改几个字:
        衡量字符串相似度的经典方法
        拼写纠错和模糊匹配
        去重和相似判断
        改字就能变一样。
    c.投资回报
        字符串专用:字符串相似度
        纠错利器:拼写纠错
        模糊匹配:模糊查找
    d.实施难度
        低。标准算法直接用。

54.近似最近邻ANN(快速近似)
    a.解决什么问题
        大规模向量检索太慢。
        精确搜索扛不住。
    b.能带来什么好处
        用"差不多"的方法快速找到"差不多"最近的结果:
        在牺牲少量精度的情况下大幅提升检索速度
        支持大规模向量检索的实用技术
        牺牲不到 1% 精度换取 100 倍速度
        又快又准的近似搜索。
    c.投资回报
        速度提升:100 倍加速
        精度损失小:小于 1%
        支持大规模:百万级向量
    d.实施难度
        中。需要选索引参数。

55.HNSW(图索引算法)
    a.解决什么问题
        ANN 用什么算法效果最好?
        怎么快速找最近邻?
    b.能带来什么好处
        一种高效的"近似搜索"算法,用图结构加速检索:
        基于层次化导航小世界图的 ANN 算法
        ANN 中效果最好的算法之一
        目前最流行的 ANN 算法
        图结构的快速搜索。
    c.投资回报
        效果好:召回率高
        速度快:毫秒级检索
        生态成熟:广泛支持
    d.实施难度
        中。需要调参优化。

56.IVF(分桶索引)
    a.解决什么问题
        向量太多,怎么组织?
        怎么加速检索?
    b.能带来什么好处
        把向量分到不同"桶"里,检索时只搜相关的桶:
        基于倒排文件索引的 ANN 算法
        将向量分桶,检索时只搜索相关桶
        支持大规模向量检索
        分桶加速检索。
    c.投资回报
        速度快:减少搜索范围
        可扩展:支持大规模
        灵活:可调桶数量
    d.实施难度
        中。需要选桶数量。

57.乘积量化PQ(向量压缩)
    a.解决什么问题
        向量太占存储空间。
        怎么压缩?
    b.能带来什么好处
        把向量"压缩"成更小的表示,节省空间:
        将向量压缩为短码的量化技术
        大幅减少向量存储空间
        可以将向量压缩 8-32 倍
        压缩版的向量。
    c.投资回报
        存储节省:压缩 8-32 倍
        成本降低:内存需求低
        支持大规模:十亿级向量
    d.实施难度
        中。需要调参优化。

58.局部敏感哈希LSH(哈希分桶)
    a.解决什么问题
        怎么快速找到相似向量?
        哈希能做相似搜索吗?
    b.能带来什么好处
        把相似的向量"哈希"到同一个桶里:
        将相似向量哈希到相同桶的算法
        快速近似最近邻搜索
        适合海量数据的近似检索
        相似的进同一个桶。
    c.投资回报
        速度快:哈希查找
        海量支持:适合大数据
        简单高效:实现简单
    d.实施难度
        中。需要选哈希函数。

59.图索引Graph-based Index(图结构索引)
    a.解决什么问题
        向量索引用什么结构?
        怎么组织向量?
    b.能带来什么好处
        把向量连成图,沿着边找最近邻:
        基于图结构的向量索引方法
        高召回率高效率的检索
        HNSW 就是图索引的一种
        图结构的快速搜索。
    c.投资回报
        效果好:召回率高
        速度快:检索效率高
        灵活:可调图结构
    d.实施难度
        中。需要调参优化。

1.7 [1]推理与架构

01.智能体Agent(AI员工)
    a.解决什么问题
        怎么让 AI 自己规划步骤、执行任务?
        怎么替代人工跨系统操作?
    b.能带来什么好处
        具备"手、脚和独立思考能力"的 AI 员工:
        数字审计师自主调用 API、读档案、查天气,最后发送分析邮件
        自主调取天气数据,发现大雨导致物流成本翻倍
        它会自己规划步骤:"第一步查规格,第二步查运费,第三步写总结"
        不只是回答问题,而是会自己规划步骤、执行任务。
    c.投资回报
        替代人工跨系统操作
        降低人力成本
        24小时自动化
    d.实施难度
        高。具有自主目标拆解、工具调用与 ReAct 架构的闭环系统。

02.思维链Chain-of-Thought(展示思考过程)
    a.解决什么问题
        怎么让 AI 展示推理过程?
        怎么便于人工查错?
    b.能带来什么好处
        让 AI "展示思考过程",像数学题写出解题步骤一样:
        AI 分步汇报:确认品名一致 -> 发现含税差异 -> 计算税后差额
        分步推导含税率与送货距离对差价的贡献值
        "第一步确认品名一致,第二步发现 B 项目含税而 A 项目不含税,第三步计算税后差额为 5 元"
        逻辑步步为营,便于你查错。
    c.投资回报
        展示推理过程
        便于人工查错
        逻辑可追溯
    d.实施难度
        低。引导模型一步步展示逻辑推导过程。

03.可解释性Explainability(贴证据标签)
    a.解决什么问题
        AI 决策依据怎么追溯?
        怎么满足审计报告的合规要求?
    b.能带来什么好处
        给 AI 的结论"贴证据标签",让你能追溯到它为什么这么判断:
        报告中附上超链接,高亮显示合同第 15 页的"加急泵送服务"条款
        高亮显示技术支持费条款,解释价格构成
        "因为 B 项目包含加急服务,所以单价高出 10 元"
        让结论眼见为实。
    c.投资回报
        满足审计报告的合规与可信要求
        增强信任度
        证据可追溯
    d.实施难度
        中。归因分析技术,追溯 AI 决策依据。

04.上下文窗口Context Window(临时记忆长度)
    a.解决什么问题
        AI 一次能处理多少内容?
        怎么支持复杂项目的全局对比?
    b.能带来什么好处
        AI 的"临时记忆长度",如果窗口太小,AI 读到第 50 页就忘了第 1 页:
        同时对比水泥合同、物流协议、行业周报
        AI 在大窗口下能进行全局交叉验证
        长上下文技术能让 AI 一次性"吞掉"两个项目的几十份关联文档
        进行全局比对。
    c.投资回报
        支持复杂项目的全局观对比
        多文档综合分析
        不遗漏信息
    d.实施难度
        低。AI 能够同时处理的文本最大容量。

05.微调Fine-tuning(行业老专家)
    a.解决什么问题
        怎么让通用 AI 变成行业专家?
        怎么内化公司特有知识?
    b.能带来什么好处
        针对"特定领域"的魔鬼训练,让通用 AI 变成"行业老专家":
        懂公司特有采购编码,理解"调拨价"与"采购价"的区别
        理解"出厂价"与"到场价"之间 15% 的固定成本逻辑
        用公司过去 10 年的采购档案对大模型进行微调
        一看记录就能瞬间反应出特殊情况。
    c.投资回报
        打造垂直领域的数字老专家
        内化行业知识
        提升专业度
    d.实施难度
        高。在特定数据集上进行二次训练,修改模型权重。

06.幻觉控制Hallucination Control(事实安全阀)
    a.解决什么问题
        怎么防止 AI 编造虚假信息?
        怎么避免误导决策?
    b.能带来什么好处
        给 AI 装上"事实安全阀",防止它一本正经地胡说八道:
        档案缺失时拒绝编造理由,而是如实报告"资料不足,建议补充单据"
        数据缺失时如实回答"无法确认",不瞎编理由
        当档案缺失时,AI 会如实回答而不是编造差价理由
        这在审计场景中至关重要,避免误导决策。
    c.投资回报
        避免虚假信息导致的业务风险
        增强可信度
        审计安全
    d.实施难度
        中。事实核查与约束技术。

07.监督微调SFT(AI专业课)
    a.解决什么问题
        怎么让通用 AI 变成行业专家?
        怎么提升特定任务效果?
    b.能带来什么好处
        给 AI 上"专业课",用标准答案教它特定任务:
        用公司历史审计报告训练模型,让它学会"审计腔"
        标注 1000 份合同的风险条款,微调后模型自动识别准确率达 90%
        用公司过去 5 年的 2000 份审计报告微调模型
        让它学会公司特有的审计风格和关注点。
    c.投资回报
        让通用 AI 变成行业专家
        效果提升显著
        专属定制
    d.实施难度
        高。使用标注数据对预训练模型进行有监督的二次训练。

08.人类反馈强化学习RLHF(AI讨好人类)
    a.解决什么问题
        怎么让 AI 输出更符合人类期望?
        怎么让 AI 更有帮助、更安全?
    b.能带来什么好处
        让 AI "讨好"人类,做得好给奖励,做得差给惩罚:
        让审计员对 AI 输出打分,训练模型生成更符合审计要求的报告
        收集 500 份"好报告"和"差报告"的对比,训练模型偏好
        让资深审计员对 AI 生成的报告打分
        训练模型生成"领导爱看"的审计报告格式和措辞。
    c.投资回报
        让 AI 输出更符合人类期望
        ChatGPT 的核心技术
        更有帮助、更安全
    d.实施难度
        高。通过人类偏好反馈训练奖励模型,再用强化学习优化。

09.低秩适应LoRA(微调省钱版)
    a.解决什么问题
        微调成本太高怎么办?
        普通显卡能微调吗?
    b.能带来什么好处
        微调的"省钱版",只改模型的一小部分,效果差不多但成本大降:
        用 LoRA 微调模型,只需要 1 张显卡,成本降低 10 倍
        在公司服务器上用 LoRA 微调 70B 模型,无需昂贵算力
        用 LoRA 在公司普通服务器上微调模型
        不需要花大钱租 GPU 集群。
    c.投资回报
        微调成本降低 90%+
        普通显卡也能微调大模型
        效果接近全量微调
    d.实施难度
        中。只训练模型的小部分参数(低秩矩阵)。

10.量化Quantization(模型减肥)
    a.解决什么问题
        模型太占内存怎么办?
        普通服务器能部署吗?
    b.能带来什么好处
        给模型"减肥",把高精度的数字压缩成低精度,体积变小但能力基本不变:
        把 70B 模型量化后,能在单张显卡上运行
        4-bit 量化后,70B 模型只需 40GB 显存,普通服务器可部署
        把微调后的模型量化,部署到公司内网服务器上
        不需要昂贵的 GPU 集群,普通服务器就能跑。
    c.投资回报
        模型体积缩小 4 倍
        推理成本降低 50%+
        普通设备可部署
    d.实施难度
        中。将模型权重从高精度压缩到低精度。

11.模型蒸馏Distillation(大老师教小学生)
    a.解决什么问题
        大模型太贵怎么办?
        怎么保留能力但减少体积?
    b.能带来什么好处
        让"大老师"教"小学生",把大模型的知识转移到小模型里:
        把 GPT-4 级别的审计能力"蒸馏"到小模型,本地部署
        用大模型生成训练数据,训练小模型达到类似效果
        用云端大模型生成 10 万条审计问答对
        训练一个本地小模型,达到 80% 的效果但数据不出公司。
    c.投资回报
        小模型达到大模型 90% 效果
        速度快 10 倍
        成本大幅降低
    d.实施难度
        高。用大模型的知识训练小模型。

12.多智能体Multi-Agent(AI团队)
    a.解决什么问题
        复杂任务怎么自动化?
        单个 AI 干不完怎么办?
    b.能带来什么好处
        组建"AI 团队",每个 AI 干自己擅长的事,互相配合完成任务:
        一个 Agent 负责提取数据,一个负责分析,一个负责写报告
        审计 Agent 团队:数据采集员→风险分析师→报告撰写员→复核员
        组建虚拟审计团队——数据 Agent 负责提取合同信息
        分析 Agent 负责对比价格,风险 Agent 负责预警,报告 Agent 负责撰写。
    c.投资回报
        复杂任务自动化
        像组建虚拟团队
        分工协作
    d.实施难度
        高。多个 AI Agent 协作完成复杂任务。

13.推理行动ReAct(边想边干)
    a.解决什么问题
        怎么让 AI 边思考边行动?
        怎么像人一样"想一步做一步"?
    b.能带来什么好处
        让 AI "边想边干",不是想完再干,而是想一步干一步:
        AI 先推理"需要查历史价格",再行动调用 API 查询
        ReAct 循环:思考→行动→观察→再思考→再行动
        AI 用 ReAct 模式分析差价——先想"需要查历史价格"
        调用 API 查询,观察结果后再想"需要查供应商信用",继续调用。
    c.投资回报
        让 AI 能边思考边行动
        像人一样"想一步做一步"
        动态调整
    d.实施难度
        中。让 Agent 交替进行推理和行动的架构。

14.规划执行Plan-and-Execute(先计划再执行)
    a.解决什么问题
        复杂多步骤任务怎么管理?
        计划怎么审查?
    b.能带来什么好处
        先做"计划表",再按计划一步步执行,像项目管理:
        AI 先制定"审计计划":1.查合同 2.对比价格 3.分析原因 4.写报告
        计划阶段生成任务列表,执行阶段逐项完成
        AI 先生成审计计划(10 个步骤)
        你审核计划后,AI 再按计划逐项执行,每步完成都标记进度。
    c.投资回报
        适合复杂多步骤任务
        计划可审查
        进度可见
    d.实施难度
        中。先制定完整计划,再逐步执行的 Agent 架构。

15.反思Reflexion(AI自省)
    a.解决什么问题
        怎么提升任务完成质量?
        怎么减少 AI 错误?
    b.能带来什么好处
        让 AI "自省",做完后自己检查一遍,发现问题自己改:
        AI 生成报告后,自我反思"这个结论有证据支持吗?",然后改进
        Reflexion 循环:生成→反思→改进→再生成
        AI 生成审计报告后,自动反思"结论是否有证据支持"
        发现不足后补充证据再提交。
    c.投资回报
        提升任务完成质量
        减少错误
        自我改进
    d.实施难度
        中。让 Agent 对自己的输出进行反思和改进。

16.AutoGPT(全自动AI)
    a.解决什么问题
        怎么实现全自动执行?
        不想人工干预怎么办?
    b.能带来什么好处
        给 AI 一个目标,它自己想办法完成,不用教它怎么做:
        告诉 AutoGPT"分析这批合同的风险",它自己规划并执行
        AutoGPT 会自动分解任务、搜索信息、生成报告
        给 AutoGPT 目标"分析这 100 份合同的风险"
        它自动规划步骤、调取数据、分析问题、生成报告。
    c.投资回报
        给定目标后全自动执行
        无需人工干预
        自主规划
    d.实施难度
        高。自主设定目标、拆解任务、循环执行的自动化 Agent。

17.BabyAGI(轻量自主AI)
    a.解决什么问题
        需要简单但完整的自主 Agent 怎么办?
    b.能带来什么好处
        简化版的 AutoGPT,更轻量但核心功能完整:
        BabyAGI 维护任务列表,自动添加和完成任务
        任务队列:待办→执行→完成→添加新任务
        用 BabyAGI 管理审计任务队列
        自动添加新发现的问题作为待办任务。
    c.投资回报
        简单但完整的自主 Agent 实现
        轻量级
        快速原型
    d.实施难度
        中。轻量级的任务驱动型 Agent 框架。

18.LangChain Agent(搭积木建Agent)
    a.解决什么问题
        怎么快速构建 Agent 应用?
        怎么集成多种工具?
    b.能带来什么好处
        用 LangChain 框架搭 Agent,像搭积木一样简单:
        用 LangChain Agent 搭建审计助手
        LangChain Agent 可调用搜索、数据库、文件系统等工具
        用 LangChain Agent 快速搭建审计 AI
        集成数据库查询、文件分析、邮件发送等工具。
    c.投资回报
        快速构建 Agent 应用
        生态丰富
        工具多样
    d.实施难度
        中。LangChain 框架提供的 Agent 实现。

19.CrewAI(AI团队框架)
    a.解决什么问题
        怎么组建 AI 团队?
        怎么让多个 AI 协作?
    b.能带来什么好处
        专门做"AI 团队"的框架,每个 AI 有自己的角色和职责:
        用 CrewAI 组建"审计团队":研究员、分析师、撰写员
        CrewAI 让多个 Agent 各司其职,协作完成任务
        用 CrewAI 组建审计团队——研究员搜资料、分析师做对比、撰写员写报告
        审核员把关质量。
    c.投资回报
        像组建虚拟团队一样构建 AI 系统
        角色明确
        协作高效
    d.实施难度
        中。专注于多 Agent 协作的框架。

20.AutoGen(微软AI会议)
    a.解决什么问题
        怎么让多个 Agent 通过对话协作?
        怎么实现复杂交互?
    b.能带来什么好处
        微软的多 Agent 框架,AI 之间可以"开会讨论":
        用 AutoGen 让多个 Agent 通过对话协作完成审计任务
        Agent 之间可以互相讨论、求助、验证
        用 AutoGen 让数据 Agent、分析 Agent、报告 Agent 通过对话协作
        互相讨论发现的问题。
    c.投资回报
        支持复杂的多 Agent 交互场景
        微软生态
        对话协作
    d.实施难度
        中。微软开源的多 Agent 对话框架。

21.MetaGPT(软件公司AI版)
    a.解决什么问题
        怎么让 AI 团队像公司一样运作?
        软件开发怎么自动化?
    b.能带来什么好处
        让 AI 团队像软件公司一样分工协作,有 PM、有程序员、有测试:
        MetaGPT 模拟产品经理、架构师、程序员等角色协作
        每个 Agent 扮演专业角色,按流程协作
        用 MetaGPT 的思路,让 AI 团队像审计事务所一样分工
        项目经理、审计员、复核员、报告员。
    c.投资回报
        让 AI 团队像公司一样运作
        角色专业化
        流程标准化
    d.实施难度
        高。模拟软件公司角色的多 Agent 框架。

22.智能体记忆Agent Memory(AI记忆)
    a.解决什么问题
        Agent 怎么记住历史?
        怎么积累经验?
    b.能带来什么好处
        给 AI 装"记忆",让它能记住之前发生的事:
        Agent 记住之前分析过的合同,避免重复工作
        记忆存储:对话历史、任务结果、学到的知识
        审计 Agent 记住之前发现的问题模式
        下次遇到类似情况自动预警。
    c.投资回报
        让 Agent 能记住历史
        积累经验
        避免重复工作
    d.实施难度
        中。短期记忆(上下文)与长期记忆(向量库)。

23.智能体环境Environment(AI舞台)
    a.解决什么问题
        Agent 在哪里运行?
        Agent 能访问什么资源?
    b.能带来什么好处
        AI 工作的"舞台",定义了它能接触什么、能做什么:
        审计环境包含:合同库、财务系统、分析工具、报告模板
        环境定义了 Agent 能访问的资源和能执行的操作
        定义审计 Agent 的环境
        可以访问哪些系统、能调用哪些工具、输出格式是什么。
    c.投资回报
        标准化 Agent 运行环境
        便于部署和管理
        权限可控
    d.实施难度
        中。环境抽象与接口定义。

24.状态管理State Management(记住干到哪了)
    a.解决什么问题
        Agent 执行到哪一步了?
        怎么断点续做?
    b.能带来什么好处
        记住 AI "干到哪了",方便断点续做:
        跟踪审计 Agent 当前进度:已完成 3 步,还剩 5 步
        状态管理记录:当前任务、已完成步骤、中间结果
        管理审计 Agent 的状态
        当前在分析哪份合同、发现了什么问题、还需要做什么。
    c.投资回报
        支持复杂多步骤任务的执行
        断点续做
        进度可见
    d.实施难度
        中。状态机与上下文管理。

25.思维树Tree-of-Thought(多步思考)
    a.解决什么问题
        复杂决策怎么做?
        怎么多方案对比?
    b.能带来什么好处
        让 AI 同时想多个方案,像下棋一样思考多步:
        AI 同时考虑价格异常的 5 种可能原因,逐一验证
        生成多个假设,评估每个假设的证据支持度
        AI 用思维树分析差价
        同时考虑"统计口径""市场波动""供应商溢价"等可能,逐个验证后选最可能的。
    c.投资回报
        解决复杂决策问题
        多方案对比
        战略规划
    d.实施难度
        中。树状搜索与评估函数。

26.思维图Graph-of-Thought(思维网络)
    a.解决什么问题
        怎么支持更复杂的思维组合?
        思维怎么合并和分支?
    b.能带来什么好处
        思维的高级版,不只是一棵树,而是一张网:
        AI 把多个分析角度合并成一个完整的推理图
        不同推理路径可以合并、分支、回溯
        用思维图把"价格分析""供应商分析""市场分析"的结论合并
        形成完整判断。
    c.投资回报
        比思维树更灵活
        支持思维合并和分支
        复杂推理
    d.实施难度
        高。图结构与思维聚合。

27.自我改进Self-Refine(AI改作业)
    a.解决什么问题
        怎么提升输出质量?
        怎么减少人工修改?
    b.能带来什么好处
        让 AI 自己"改作业",发现问题自己改:
        AI 生成报告后,自己指出问题并改进
        Self-Refine 循环:生成→评估→改进→再生成
        AI 生成审计报告后,自己检查"逻辑是否通顺""证据是否充分"
        发现问题后自动改进。
    c.投资回报
        提升输出质量
        减少人工修改
        自我优化
    d.实施难度
        中。自我评估与迭代优化。

28.退步提示Step-back Prompting(先看大局)
    a.解决什么问题
        怎么提升复杂问题的解决能力?
        怎么避免陷入细节?
    b.能带来什么好处
        先看"大局",再看细节,像先看地图再走路:
        AI 先问"审计的核心原则是什么",再分析具体合同
        先理解高层概念,再应用到具体案例
        AI 分析合同前,先回顾"审计的核心原则"
        带着原则去分析具体条款。
    c.投资回报
        提升复杂问题的解决能力
        避免陷入细节
        原则指导
    d.实施难度
        低。让模型先退一步思考高层概念。

29.类比推理Analogical Reasoning(借鉴历史)
    a.解决什么问题
        怎么利用历史经验?
        怎么快速解决类似问题?
    b.能带来什么好处
        用"以前类似的事"来推断现在的事:
        AI 说"这个情况和去年的 XX 案例很像,当时的原因是..."
        检索相似历史案例,借鉴解决方案
        AI 发现当前合同的问题和去年的某个案例很像
        借鉴当时的分析思路和结论。
    c.投资回报
        利用历史经验
        快速解决类似问题
        知识复用
    d.实施难度
        中。案例检索与相似性映射。

30.元认知Metacognition(知道自己知道什么)
    a.解决什么问题
        怎么让 AI 知道自己的知识边界?
        怎么避免瞎编?
    b.能带来什么好处
        让 AI "知道自己知道什么",也会"知道自己不知道什么":
        AI 判断"这个问题我不确定,需要查更多信息"
        元认知让 AI 知道自己的知识边界
        AI 分析时会说"这个问题涉及财务专业知识,建议咨询财务部门"
        而不是瞎编。
    c.投资回报
        让 AI "知道自己知道什么"
        更智能地分配资源
        避免瞎编
    d.实施难度
        高。自我监控与策略调整。

31.直接偏好优化DPO(简化版RLHF)
    a.解决什么问题
        RLHF 太复杂怎么办?
        怎么更高效对齐?
    b.能带来什么好处
        RLHF 的简化版,直接教 AI 人类喜欢什么:
        用 DPO 让模型学会生成"审计风格"的报告
        DPO 只需要"好答案"和"差答案"的对比数据
        用 DPO 训练模型,给它看"好报告"和"差报告"的对比
        让它学会写好报告。
    c.投资回报
        比 RLHF 更简单高效的对齐方法
        训练成本低
        效果好
    d.实施难度
        中。直接用人类偏好数据优化模型。

32.近端策略优化PPO(RLHF核心算法)
    a.解决什么问题
        怎么稳定训练大模型?
        RLHF 用什么算法?
    b.能带来什么好处
        强化学习的"稳健派",小步慢跑,不求快但求稳:
        PPO 是 ChatGPT RLHF 训练的核心算法
        PPO 在训练过程中限制策略更新幅度,保持稳定
        用 PPO 训练审计 AI
        让它稳定地学会人类喜欢的报告风格。
    c.投资回报
        让 RLHF 训练更稳定高效
        ChatGPT 核心技术
        训练稳定
    d.实施难度
        高。策略梯度与重要性采样。

33.KTOKahn-Tucker优化(DPO升级版)
    a.解决什么问题
        DPO 需要成对数据怎么办?
        标注成本高怎么办?
    b.能带来什么好处
        DPO 的升级版,标注更简单,不用非得配对:
        用 KTO 训练模型,只需要标注"这个回答好不好"
        KTO 不需要成对的"好坏对比",单独标注也行
        用 KTO 训练审计 AI
        审计员只需标记"这个报告好不好",不用专门找对比样本。
    c.投资回报
        比 DPO 更灵活
        只需要"好"或"坏"的标签
        标注简单
    d.实施难度
        中。一种不需要成对偏好数据的对齐方法。

34.ORPO(合并训练)
    a.解决什么问题
        怎么同时学技能和偏好?
        怎么提高训练效率?
    b.能带来什么好处
        把"学技能"和"学偏好"合并在一起学,效率更高:
        用 ORPO 在微调的同时学习审计报告风格
        ORPO 把 SFT 和偏好学习合并成一个训练过程
        用 ORPO 同时教 AI 审计知识和报告风格
        一次训练两个都学会。
    c.投资回报
        同时学习任务和偏好
        训练更高效
        一步到位
    d.实施难度
        中。结合 SFT 和偏好优化的训练方法。

35.IPO(DPO精简版)
    a.解决什么问题
        DPO 太复杂怎么办?
        怎么简化对齐训练?
    b.能带来什么好处
        DPO 的"精简版",去掉了复杂的正则化:
        IPO 是 DPO 的简化变种
        IPO 在某些数据分布下比 DPO 更稳定
        用 IPO 作为 DPO 的替代方案
        可能训练更稳定。
    c.投资回报
        比 DPO 更简单
        在某些场景效果更好
        实现简单
    d.实施难度
        中。简化版的 DPO。

36.PEFT(微调省钱派)
    a.解决什么问题
        微调成本太高怎么办?
        普通设备能微调吗?
    b.能带来什么好处
        微调的"省钱派",只改一小部分参数,效果差不多:
        PEFT 包括 LoRA、Prefix Tuning、P-Tuning 等方法
        PEFT 只训练 1-10% 的参数,效果接近全量微调
        用 PEFT 方法微调审计 AI
        只需要普通服务器,不用昂贵的 GPU 集群。
    c.投资回报
        大幅降低微调成本
        普通设备也能微调大模型
        效果接近全量微调
    d.实施难度
        中。只训练模型小部分参数的微调方法统称。

37.QLoRA(极限省钱微调)
    a.解决什么问题
        显存不够怎么微调?
        单张显卡能微调大模型吗?
    b.能带来什么好处
        LoRA 的"极限省钱版",先把模型压缩再微调:
        用 QLoRA 在 24GB 显卡上微调 70B 模型
        QLoRA 把模型量化到 4-bit,再加 LoRA 微调
        用 QLoRA 在公司普通服务器(单张显卡)上微调审计 AI。
    c.投资回报
        单张消费级显卡也能微调大模型
        显存需求大幅降低
        成本极低
    d.实施难度
        中。结合量化和 LoRA 的微调方法。

38.AdaLoRA(智能LoRA)
    a.解决什么问题
        LoRA 参数怎么分配?
        怎么优化微调效果?
    b.能带来什么好处
        LoRA 的"智能版",自己决定哪里多分配资源:
        AdaLoRA 自动决定哪些层需要更多参数
        AdaLoRA 根据梯度信息动态分配 LoRA 参数
        用 AdaLoRA 自动优化审计 AI 的微调参数分配
        效果更好。
    c.投资回报
        比固定秩 LoRA 更高效
        自动优化资源分配
        效果更好
    d.实施难度
        中。根据重要性动态调整 LoRA 秩。

39.Adapter适配器(模型插件)
    a.解决什么问题
        怎么不动原模型就微调?
        怎么支持多任务?
    b.能带来什么好处
        给模型装"插件",不动原模型,只训练小插件:
        在 BERT 层间插入 Adapter,适配审计任务
        Adapter 通常只有原模型的 1-5% 参数
        用 Adapter 方法为不同类型的审计任务训练不同插件
        共享底座模型。
    c.投资回报
        冻结主模型,只训练 Adapter
        参数极少
        适合多任务
    d.实施难度
        中。在模型层之间插入的小型可训练模块。

40.前缀调优Prefix Tuning(专属前缀)
    a.解决什么问题
        怎么用最少参数微调?
        怎么支持多任务?
    b.能带来什么好处
        给 AI 的输入加个"专属前缀",让它适应特定任务:
        为审计任务训练一个"审计前缀"
        Prefix Tuning 只训练前缀向量,不到 1% 参数
        为不同业务线训练不同的前缀
        一个模型服务多个审计场景。
    c.投资回报
        参数极少
        适合多任务场景
        灵活切换
    d.实施难度
        中。在输入前添加可训练的连续向量前缀。

41.P-Tuning(自动学提示)
    a.解决什么问题
        人工设计提示太累怎么办?
        怎么找到最优提示?
    b.能带来什么好处
        让 AI 自己学会"怎么问问题",不用人工设计:
        P-Tuning 自动学习"审计任务"的最优提示
        P-Tuning 用 LSTM 或 MLP 编码提示
        用 P-Tuning 自动学习审计任务的最优提示
        比人工设计更有效。
    c.投资回报
        自动学习最优提示
        比人工设计更好
        省时省力
    d.实施难度
        中。用神经网络优化的连续提示。

42.指令微调Instruction Tuning(教AI听指挥)
    a.解决什么问题
        怎么让模型听懂人话?
        怎么让模型按指令行事?
    b.能带来什么好处
        教 AI "听指挥",让它学会按指令干活:
        用指令微调让模型学会"分析这份合同的风险"
        指令微调数据:指令+输入+期望输出
        用指令微调让审计 AI 学会理解各种审计指令
        如"分析风险""对比价格""生成报告"。
    c.投资回报
        让模型听懂人话
        按指令行事
        ChatGPT 基础训练
    d.实施难度
        中。用指令-响应数据训练模型。

43.ONNX(模型通用格式)
    a.解决什么问题
        不同框架模型怎么互通?
        怎么避免供应商锁定?
    b.能带来什么好处
        模型的"通用格式",像 PDF 一样到处都能打开:
        把 PyTorch 模型转成 ONNX,在多种环境部署
        ONNX Runtime 提供高性能推理
        把审计模型转成 ONNX 格式
        部署到不同服务器环境。
    c.投资回报
        一次训练,多框架部署
        避免供应商锁定
        跨平台
    d.实施难度
        低。开放的模型格式标准。

44.TensorRT(NVIDIA加速器)
    a.解决什么问题
        怎么在 NVIDIA GPU 上实现极致性能?
        推理太慢怎么办?
    b.能带来什么好处
        NVIDIA 的"加速器",让模型跑得飞快:
        用 TensorRT 优化审计模型,推理速度提升 5 倍
        TensorRT 支持 FP16、INT8 量化加速
        用 TensorRT 优化审计模型
        实现毫秒级响应。
    c.投资回报
        在 NVIDIA GPU 上实现极致推理性能
        速度提升 5-10 倍
        延迟降低
    d.实施难度
        中。NVIDIA 的高性能深度学习推理优化器。

45.vLLM(LLM加速神器)
    a.解决什么问题
        LLM 推理太慢怎么办?
        怎么支持高并发?
    b.能带来什么好处
        LLM 推理的"加速神器",跑得快还省内存:
        用 vLLM 部署审计 AI,支持高并发请求
        vLLM 的 PagedAttention 高效管理 KV Cache
        用 vLLM 部署审计 AI
        支持多人同时使用。
    c.投资回报
        吞吐量提升 10-20 倍
        成为 LLM 部署标配
        高并发支持
    d.实施难度
        中。高性能 LLM 推理引擎。

46.Triton(模型服务器)
    a.解决什么问题
        怎么统一管理多个模型?
        怎么规模化部署?
    b.能带来什么好处
        模型的"服务器",统一管理、统一调度:
        用 Triton 统一管理审计相关的多个模型
        Triton 支持 TensorFlow、PyTorch、ONNX 等多种格式
        用 Triton 统一管理审计系统的多个 AI 模型。
    c.投资回报
        统一管理多种模型
        支持规模化部署
        动态批处理
    d.实施难度
        中。NVIDIA 的推理服务器。

47.TorchServe(PyTorch官方服务器)
    a.解决什么问题
        PyTorch 模型怎么快速上线?
        怎么部署 PyTorch 模型?
    b.能带来什么好处
        PyTorch 的"官方服务器",部署 PyTorch 模型最方便:
        用 TorchServe 部署 PyTorch 训练的审计模型
        TorchServe 提供模型版本管理和 A/B 测试
        用 TorchServe 快速部署 PyTorch 训练的审计模型。
    c.投资回报
        PyTorch 模型快速上线
        原生支持
        版本管理
    d.实施难度
        低。PyTorch 官方的模型部署框架。

48.TGI(Hugging Face一键部署)
    a.解决什么问题
        开源大模型怎么快速部署?
        怎么开箱即用?
    b.能带来什么好处
        Hugging Face 的"一键部署"工具,开源模型部署首选:
        用 TGI 快速部署开源大模型
        TGI 支持续批处理和 Flash Attention
        用 TGI 快速部署开源审计大模型。
    c.投资回报
        开箱即用的 LLM 部署方案
        Hugging Face 生态
        部署简单
    d.实施难度
        低。Hugging Face 的文本生成推理服务器。

49.llama.cpp(无显卡也能跑)
    a.解决什么问题
        没有 GPU 怎么跑大模型?
        普通电脑能跑吗?
    b.能带来什么好处
        大模型的"平民版",没有显卡也能跑:
        用 llama.cpp 在普通电脑上运行审计模型
        llama.cpp 支持 4-bit 量化,内存需求大幅降低
        用 llama.cpp 在普通办公电脑上运行轻量级审计模型。
    c.投资回报
        没有 GPU 也能跑大模型
        普及 LLM
        内存需求低
    d.实施难度
        低。用纯 C++ 实现的 LLaMA 推理。

50.Ollama(本地跑大模型傻瓜工具)
    a.解决什么问题
        本地跑大模型太复杂怎么办?
        非技术人员能用吗?
    b.能带来什么好处
        本地跑大模型的"傻瓜工具",安装就能用:
        用 Ollama 在本地快速跑开源模型
        ollama run llama3 一条命令启动模型
        用 Ollama 在本地快速测试各种开源审计模型。
    c.投资回报
        一条命令运行大模型
        极简体验
        快速测试
    d.实施难度
        低。简化本地运行大模型的工具。

51.LM Studio(图形界面本地LLM)
    a.解决什么问题
        不想敲命令怎么办?
        非技术用户怎么用?
    b.能带来什么好处
        有"界面"的本地大模型工具,不用敲命令:
        用 LM Studio 图形界面运行审计模型
        LM Studio 支持从 Hugging Face 下载模型
        让非技术人员也能用 LM Studio 本地运行审计模型。
    c.投资回报
        可视化操作
        非技术用户也能用
        图形界面
    d.实施难度
        低。带图形界面的本地 LLM 运行工具。

52.LocalAI(OpenAI本地替身)
    a.解决什么问题
        怎么无缝替换 OpenAI API?
        数据怎么不出本地?
    b.能带来什么好处
        OpenAI 的"本地替身",API 一样但跑在本地:
        用 LocalAI 替换 OpenAI API,审计数据不出公司
        LocalAI 兼容 OpenAI 的 chat/completions 接口
        用 LocalAI 替换 OpenAI API
        敏感审计数据不出公司。
    c.投资回报
        无缝替换 OpenAI API
        数据不出本地
        API 兼容
    d.实施难度
        中。兼容 OpenAI API 的本地推理服务。

53.FastChat(LLM一站式平台)
    a.解决什么问题
        需要 LLM 全流程工具怎么办?
        从训练到部署怎么管理?
    b.能带来什么好处
        大模型的"一站式平台",训练、部署、评估都有:
        用 FastChat 部署审计模型服务
        FastChat 支持 Web UI 和 OpenAI 兼容 API
        用 FastChat 搭建完整的审计 AI 平台。
    c.投资回报
        完整的 LLM 工具链
        支持从训练到部署
        一站式
    d.实施难度
        中。开源的 LLM 训练、部署、评估平台。

54.DeepSpeed(大模型训练神器)
    a.解决什么问题
        显存不够怎么训练大模型?
        怎么训练超大模型?
    b.能带来什么好处
        训练大模型的"神器",显存不够也能训:
        用 DeepSpeed 训练大型审计模型
        DeepSpeed ZeRO 可训练 100B+ 参数模型
        用 DeepSpeed 在有限资源下训练大型审计模型。
    c.投资回报
        训练超大模型
        降低显存需求
        微软生态
    d.实施难度
        高。微软的深度学习优化库。

55.连续批处理Continuous Batching(不等就出发)
    a.解决什么问题
        GPU 利用率低怎么办?
        请求延迟高怎么办?
    b.能带来什么好处
        不等"凑够一车"就出发,来了就处理:
        用连续批处理提升审计 AI 的并发能力
        vLLM 的核心优化,吞吐量提升 10 倍以上
        用连续批处理让审计 AI 支持多人同时使用
        响应更快。
    c.投资回报
        提升 GPU 利用率
        降低请求延迟
        吞吐量提升 10 倍+
    d.实施难度
        中。动态组批,不等固定批次大小就处理请求。

56.PagedAttention(内存页管理)
    a.解决什么问题
        KV Cache 太占内存怎么办?
        显存碎片怎么解决?
    b.能带来什么好处
        把 KV Cache 像"内存页"一样管理,省内存:
        PagedAttention 是 vLLM 的核心技术
        PagedAttention 让显存利用率接近 100%
        用 PagedAttention 优化审计 AI 的显存使用
        支持更多并发。
    c.投资回报
        大幅降低显存碎片
        提升吞吐量
        显存利用率接近 100%
    d.实施难度
        高。像操作系统内存分页一样管理 KV Cache。

57.投机解码Speculative Decoding(小猜大验)
    a.解决什么问题
        大模型推理太慢怎么办?
        怎么加速不损失质量?
    b.能带来什么好处
        让小模型"猜"答案,大模型"验证",猜对了就省时间:
        用小模型猜测审计报告内容,大模型快速验证
        投机解码让大模型推理快而不损失质量
        用投机解码加速审计 AI 的报告生成速度。
    c.投资回报
        加速大模型推理 2-3 倍
        不损失质量
        推理加速
    d.实施难度
        高。用小模型猜测,大模型验证,加速推理。

58.Flash Attention(注意力加速)
    a.解决什么问题
        注意力计算太慢怎么办?
        怎么处理长文档?
    b.能带来什么好处
        注意力计算的"加速版",省内存还更快:
        用 Flash Attention 加速审计模型的长文档处理
        Flash Attention 支持更长的上下文窗口
        用 Flash Attention 让审计 AI 能处理更长的合同文档。
    c.投资回报
        注意力计算速度提升 2-4 倍
        内存占用降低
        长上下文支持
    d.实施难度
        中。优化的注意力计算,减少内存访问。

59.Flash Attention 2(注意力再加速)
    a.解决什么问题
        Flash Attention 还不够快怎么办?
    b.能带来什么好处
        Flash Attention 的"升级版",更快更强:
        Flash Attention 2 是当前最快的注意力实现
        Flash Attention 2 充分利用 GPU 并行能力
        用 Flash Attention 2 进一步加速审计 AI 的长文档处理。
    c.投资回报
        比 Flash Attention 快 2 倍
        当前最快
        最新技术
    d.实施难度
        中。Flash Attention 的升级版。

60.滑动窗口注意力Sliding Window(只看附近)
    a.解决什么问题
        超长序列怎么处理?
        计算复杂度怎么降低?
    b.能带来什么好处
        只看"附近的词",不看太远的,省计算:
        用滑动窗口处理超长合同文档
        Mistral 模型使用滑动窗口注意力
        用滑动窗口注意力处理超长合同
        AI 不会"看不过来"。
    c.投资回报
        支持超长序列处理
        计算复杂度降低
        长文档友好
    d.实施难度
        中。只关注窗口内的 Token,减少计算量。

61.ALiBi(位置外推)
    a.解决什么问题
        训练时序列短,推理时序列长怎么办?
        怎么处理比训练时更长的文本?
    b.能带来什么好处
        一种"位置标记"方法,让 AI 能读懂比训练时更长的文章:
        ALiBi 让模型能处理比训练时更长的文本
        ALiBi 不需要学习位置编码,直接外推
        用 ALiBi 让审计 AI 能处理比训练时更长的合同。
    c.投资回报
        训练短序列,推理长序列
        无需微调
        位置外推
    d.实施难度
        中。用线性偏置代替位置编码。

62.RoPE旋转位置编码(旋转表位置)
    a.解决什么问题
        怎么更好地表示位置信息?
        怎么提升外推能力?
    b.能带来什么好处
        用"旋转"来表示位置,让 AI 更好理解词的位置关系:
        RoPE 是 Llama 等模型的位置编码方案
        RoPE 支持相对位置,外推性好
        了解 RoPE 有助于选择合适的长上下文模型处理合同。
    c.投资回报
        比绝对位置编码更好的外推能力
        Llama 等主流模型
        相对位置
    d.实施难度
        中。用旋转矩阵编码位置信息。

63.多查询注意力Multi-Query Attention(共享答案索引)
    a.解决什么问题
        KV Cache 太大怎么办?
        推理太慢怎么办?
    b.能带来什么好处
        多个"问题"共享同一组"答案索引",省内存:
        Multi-Query Attention 让模型推理更快
        MQA 减少 KV Cache 大小,加速推理
        用 MQA 模型让审计 AI 推理更快,支持更多并发。
    c.投资回报
        推理速度更快
        显存占用更低
        加速推理
    d.实施难度
        中。多个 Query 共享一组 Key 和 Value。

64.分组查询注意力Grouped-Query Attention(中间派)
    a.解决什么问题
        怎么平衡效果和效率?
        MQA 和 MHA 怎么选?
    b.能带来什么好处
        多查询注意力的"中间派",效果和速度都兼顾:
        GQA 是 Llama 2/3 使用的注意力方案
        GQA 比 MQA 效果好,比 MHA 效率高
        了解 GQA 有助于选择合适的审计模型。
    c.投资回报
        平衡效果和效率
        Llama 2/3 使用
        中间方案
    d.实施难度
        中。Multi-Query 和 Multi-Head 的折中方案。

65.剪枝Pruning(给模型理发)
    a.解决什么问题
        模型太大怎么办?
        推理太慢怎么办?
    b.能带来什么好处
        给模型"理发",剪掉没用的参数:
        用剪枝精简审计模型,提升推理速度
        剪枝可以删除 30-50% 的参数而效果下降不多
        用剪枝精简审计模型,让它在普通服务器上跑得更快。
    c.投资回报
        减小模型体积
        加速推理
        效果损失小
    d.实施难度
        中。删除模型中不重要的参数或结构。

66.层剪枝Layer Pruning(删整层)
    a.解决什么问题
        模型太深怎么办?
        怎么大幅减少模型深度?
    b.能带来什么好处
        删掉整层"神经元",减少模型深度:
        删除审计模型中不太重要的层
        层剪枝可以删除 10-20% 的层
        用层剪枝简化审计模型,加速推理。
    c.投资回报
        大幅减少模型深度
        加速推理
        深度优化
    d.实施难度
        中。删除模型中的整层。

67.权重剪枝Weight Pruning(删没用的连接)
    a.解决什么问题
        怎么产生稀疏模型?
        怎么进一步压缩?
    b.能带来什么好处
        删掉"没用的连接",让模型变稀疏:
        删除审计模型中不重要的权重
        权重剪枝可以产生 90% 稀疏度的模型
        用权重剪枝让审计模型变小变快。
    c.投资回报
        产生稀疏模型
        可进一步压缩
        稀疏化
    d.实施难度
        中。删除模型中接近零的权重参数。

68.结构化剪枝Structured Pruning(整块删除)
    a.解决什么问题
        非结构化剪枝难以加速怎么办?
        怎么让剪枝后模型更规整?
    b.能带来什么好处
        按"整块"删除,不像权重剪枝那样零散:
        用结构化剪枝让审计模型保持规整结构
        结构化剪枝删除整行整列,方便硬件加速
        用结构化剪枝让审计模型更容易在硬件上加速。
    c.投资回报
        剪枝后的模型更容易加速
        硬件友好
        结构规整
    d.实施难度
        中。按结构(通道、头等)删除参数。

69.宪法AI Constitutional AI(给AI定规矩)
    a.解决什么问题
        怎么让 AI 内化价值观?
        怎么自动遵守规则?
    b.能带来什么好处
        给 AI 定"规矩",让它自己遵守:
        定义"审计宪法",让 AI 自动遵守审计原则
        Constitutional AI 让模型自己批评自己是否违反原则
        定义"审计宪法"(如"不编造证据""保持客观")
        让审计 AI 自动遵守。
    c.投资回报
        让 AI 内化价值观
        自动遵守规则
        Claude 模型
    d.实施难度
        高。用一组原则(宪法)指导 AI 行为的对齐方法。

70.红队测试Red Teaming(攻击AI找漏洞)
    a.解决什么问题
        AI 有什么潜在风险?
        怎么发现漏洞?
    b.能带来什么好处
        找人"攻击"AI,看看哪里有漏洞:
        用红队测试检验审计 AI 是否会被绕过
        红队成员尝试各种方式让 AI 出错或违规
        组织红队测试审计 AI,看是否能被诱导给出错误结论。
    c.投资回报
        发现 AI 的潜在风险和漏洞
        安全测试
        风险管理
    d.实施难度
        高。模拟攻击者测试 AI 系统的安全性。

71.安全护栏Safety Guardrails(给AI装护栏)
    a.解决什么问题
        怎么防止 AI 乱说?
        怎么控制输出范围?
    b.能带来什么好处
        给 AI 装"护栏",不让它乱说:
        给审计 AI 加上安全护栏,防止输出不当内容
        安全护栏可以拦截敏感、有害、违规的输出
        给审计 AI 加上安全护栏
        确保输出符合审计规范和企业政策。
    c.投资回报
        防止 AI 输出有害或不当内容
        内容安全
        合规控制
    d.实施难度
        中。限制 AI 输出范围的安全机制。

72.内容过滤Content Filtering(输出过筛子)
    a.解决什么问题
        怎么过滤敏感内容?
        怎么确保输出合规?
    b.能带来什么好处
        给 AI 的输出"过筛子",把不好的滤掉:
        过滤审计报告中的敏感信息或不当表述
        内容过滤器在输出前检查敏感词、有害内容
        用内容过滤确保审计报告不包含敏感或不当内容。
    c.投资回报
        防止 AI 生成不当内容
        内容审核
        合规控制
    d.实施难度
        中。检测和过滤 AI 输出中的敏感或有害内容。

73.提示注入防御Prompt Injection Defense(防止被忽悠)
    a.解决什么问题
        怎么防止恶意指令控制 AI?
        怎么保护 AI 不被滥用?
    b.能带来什么好处
        防止有人"忽悠"AI,让它不听你的话:
        防止有人在合同数据中嵌入恶意指令
        检测输入中的"忽略之前指令"等攻击模式
        防止有人在合同数据中嵌入"忽略审计规则"等恶意指令。
    c.投资回报
        保护 AI 系统不被恶意利用
        AI 安全
        输入验证
    d.实施难度
        中。防止攻击者通过输入恶意指令控制 AI。

74.越狱防御Jailbreak Defense(防止被骗)
    a.解决什么问题
        怎么防止绕过安全限制?
        怎么防止 AI 被滥用?
    b.能带来什么好处
        防止有人"骗"AI 做不该做的事:
        防止有人用特殊话术让审计 AI 绕过规则
        检测各种越狱攻击模式并拒绝
        防止有人用特殊话术让审计 AI 违反审计规则。
    c.投资回报
        保护 AI 不被滥用
        AI 安全
        合规保护
    d.实施难度
        中。防止攻击者绕过 AI 的安全限制。

75.可解释人工智能XAI(让AI说清楚)
    a.解决什么问题
        AI 决策怎么理解?
        怎么满足合规要求?
    b.能带来什么好处
        让 AI "说清楚"为什么这么做判断:
        用 XAI 技术解释审计 AI 的判断依据
        XAI 包括 SHAP、LIME、注意力可视化等方法
        用 XAI 让审计 AI 解释"为什么认为这个价格异常"
        增强可信度。
    c.投资回报
        让人类信任 AI 决策
        满足合规要求
        增强可信度
    d.实施难度
        中。让 AI 的决策过程可解释、可理解的技术统称。

76.SHAP(算功劳)
    a.解决什么问题
        每个因素贡献多少?
        怎么量化特征重要性?
    b.能带来什么好处
        给每个因素"算功劳",看谁对结果贡献大:
        用 SHAP 解释哪些因素导致价格被判定为异常
        SHAP 值可以正负,表示正向或负向贡献
        用 SHAP 解释"供应商历史违约次数贡献了 40% 的风险判断"。
    c.投资回报
        量化每个特征对预测的贡献
        模型解释
        风险评估
    d.实施难度
        中。基于博弈论的特征重要性解释方法。

77.LIME(局部解释)
    a.解决什么问题
        单个预测怎么解释?
        怎么用简单模型解释复杂模型?
    b.能带来什么好处
        在局部"用简单模型解释复杂模型":
        用 LIME 解释单个合同的异常判断
        LIME 在预测点附近拟合简单模型
        用 LIME 解释"这份合同为什么被判定为高风险"。
    c.投资回报
        简单直观的模型解释方法
        单样本分析
        局部解释
    d.实施难度
        中。通过局部扰动解释模型预测。

78.注意力可视化Attention Visualization(看AI看哪里)
    a.解决什么问题
        AI 关注哪些内容?
        怎么展示 AI 的关注点?
    b.能带来什么好处
        用颜色深浅显示 AI "在看哪里":
        可视化审计 AI 在分析合同时关注哪些词
        注意力热力图高亮显示模型关注的区域
        可视化审计 AI 在分析合同时关注哪些条款和词汇。
    c.投资回报
        直观展示模型"在看什么"
        模型调试
        理解模型
    d.实施难度
        低。可视化模型的注意力权重,展示关注点。

79.困惑度Perplexity(AI有多困惑)
    a.解决什么问题
        模型质量怎么评估?
        生成质量怎么监控?
    b.能带来什么好处
        AI 对文本"有多困惑",越不困惑越好:
        用困惑度评估审计模型的生成质量
        困惑度越低,模型越"不惊讶",效果越好
        用困惑度监控审计模型的生成质量,发现异常。
    c.投资回报
        评估语言模型质量的基础指标
        质量监控
        异常检测
    d.实施难度
        低。衡量语言模型对文本的"惊讶程度"。

80.BLEU(重合多少)
    a.解决什么问题
        生成内容和标准答案有多像?
        怎么评估机器翻译?
    b.能带来什么好处
        看生成的内容和标准答案"重合多少":
        用 BLEU 评估审计报告与标准报告的相似度
        BLEU 值 0-1,越高越好
        用 BLEU 评估 AI 生成的审计报告与标准报告的相似度。
    c.投资回报
        机器翻译评估的经典指标
        文本生成评估
        相似度度量
    d.实施难度
        低。衡量生成文本与参考文本的 n-gram 重叠度。

81.ROUGE(覆盖多少)
    a.解决什么问题
        生成内容覆盖了多少标准答案?
        怎么评估摘要质量?
    b.能带来什么好处
        看生成的内容"覆盖了多少"标准答案:
        用 ROUGE 评估审计摘要的质量
        ROUGE 值越高,覆盖的参考内容越多
        用 ROUGE 评估 AI 生成的合同摘要质量。
    c.投资回报
        摘要评估的经典指标
        召回率度量
        覆盖评估
    d.实施难度
        低。衡量生成文本与参考文本的召回率。

82.BERTScore(语义相似度)
    a.解决什么问题
        字面不同但意思相近怎么办?
        怎么评估语义相似性?
    b.能带来什么好处
        用 AI 来判断两段话"意思有多像":
        用 BERTScore 评估审计报告的语义质量
        BERTScore 考虑语义相似,不只是字面匹配
        用 BERTScore 评估审计报告与标准报告的语义相似度。
    c.投资回报
        比 BLEU/ROUGE 更符合语义相似性
        语义评估
        更准确
    d.实施难度
        中。用 BERT 嵌入计算生成文本与参考文本的相似度。

83.MRR(排在第几个)
    a.解决什么问题
        检索结果排序怎么评估?
        正确答案排在哪里?
    b.能带来什么好处
        正确答案"排在第几个",越靠前越好:
        用 MRR 评估合同检索的效果
        MRR 越高,正确答案排在越前面
        用 MRR 评估审计 AI 检索相关合同的效果。
    c.投资回报
        评估检索系统效果的核心指标
        排序评估
        搜索优化
    d.实施难度
        低。衡量检索结果中第一个正确答案的排名。

84.NDCG(专业打分)
    a.解决什么问题
        排序质量怎么全面评估?
        位置权重怎么考虑?
    b.能带来什么好处
        排序评估的"专业打分",位置越前越重要:
        用 NDCG 评估合同检索结果的排序质量
        NDCG 考虑排序位置,越靠前权重越高
        用 NDCG 评估审计 AI 检索结果的排序质量。
    c.投资回报
        全面评估排序质量
        考虑位置权重
        专业指标
    d.实施难度
        中。考虑位置权重的排序质量指标。

85.Recall@K(前K个找到多少)
    a.解决什么问题
        前 K 个结果覆盖了多少相关内容?
        召回能力怎么评估?
    b.能带来什么好处
        在前 K 个结果里"找到了多少"相关内容:
        用 Recall@10 评估前 10 个检索结果的召回率
        Recall@K 衡量前 K 个结果覆盖了多少相关内容
        用 Recall@10 评估审计 AI 前 10 个检索结果的召回率。
    c.投资回报
        评估检索系统的召回能力
        截断评估
        召回度量
    d.实施难度
        低。在前 K 个结果中找到的相关项比例。

86.F1 Score(综合成绩)
    a.解决什么问题
        精确率和召回率怎么平衡?
        怎么综合评估分类效果?
    b.能带来什么好处
        精确率和召回率的"综合成绩":
        用 F1 评估风险分类的综合效果
        F1 越高,精确率和召回率越平衡
        用 F1 评估审计 AI 风险分类的综合效果。
    c.投资回报
        综合评估分类效果
        平衡精确率和召回率
        综合指标
    d.实施难度
        低。精确率和召回率的调和平均。

87.GPT-4o(OpenAI全能王)
    a.解决什么问题
        需要最强多模态能力怎么办?
        复杂任务用什么模型?
    b.能带来什么好处
        OpenAI 的"全能王",看图听音写文样样行:
        用 GPT-4o 做复杂的审计分析任务
        GPT-4o 可以同时理解合同文本、扫描件图片、验收视频
        用 GPT-4o 综合分析合同文本、扫描件、现场视频。
    c.投资回报
        当前最强模型之一
        多模态能力领先
        综合能力强
    d.实施难度
        低。OpenAI 的多模态旗舰模型。

88.Claude 3(安全卫士)
    a.解决什么问题
        需要长上下文怎么办?
        安全敏感场景用什么?
    b.能带来什么好处
        Anthropic 的"安全卫士",长文档处理最强:
        用 Claude 3 做需要长上下文的审计分析
        Claude 3 Opus/Sonnet/Haiku 三个版本满足不同需求
        用 Claude 3 处理超长合同文档,安全可靠。
    c.投资回报
        最安全的模型之一
        200K 上下文
        长文档处理最强
    d.实施难度
        低。Anthropic 的最新模型系列。

89.Gemini(Google全能选手)
    a.解决什么问题
        Google 生态用什么模型?
        多模态需求怎么办?
    b.能带来什么好处
        Google 的"全能选手",在 Google 生态里用最好:
        用 Gemini 做多模态审计分析
        Gemini Ultra/Pro/Nano 满足不同场景
        如果公司用 Google 生态,Gemini 是好的选择。
    c.投资回报
        Google 生态集成
        多模态能力强
        生态整合
    d.实施难度
        低。Google 的多模态大模型系列。

90.Llama 3(开源王者)
    a.解决什么问题
        需要本地部署怎么办?
        数据安全要求高怎么办?
    b.能带来什么好处
        开源界的"王者",免费且强大:
        用 Llama 3 在内网部署审计模型
        Llama 3 8B/70B/405B 满足不同规模需求
        用 Llama 3 在内网部署审计 AI,数据完全不出公司。
    c.投资回报
        最好的开源模型之一
        可本地部署
        免费且强大
    d.实施难度
        中。Meta 开源的大模型系列。

91.Mistral(小而美)
    a.解决什么问题
        资源受限怎么办?
        需要轻量级模型怎么办?
    b.能带来什么好处
        开源界的"小而美",参数少但很强:
        用 Mistral 部署轻量级审计模型
        Mistral 7B 效果媲美更大模型
        用 Mistral 部署轻量级审计 AI,适合普通服务器。
    c.投资回报
        参数少但效果好
        高效模型
        资源友好
    d.实施难度
        中。Mistral AI 的高效开源模型。

92.Qwen通义千问(中文开源王)
    a.解决什么问题
        中文场景用什么模型?
        中文处理效果怎么保证?
    b.能带来什么好处
        中文界的"开源王",处理中文最在行:
        用 Qwen 处理中文合同审计任务
        Qwen 7B/14B/72B 覆盖不同规模需求
        用 Qwen 处理中文合同审计,效果最好。
    c.投资回报
        中文场景最好的开源模型之一
        中文能力强
        多语言优化
    d.实施难度
        中。阿里开源的大模型系列。

93.DeepSeek(性价比王)
    a.解决什么问题
        成本敏感怎么办?
        大规模部署用什么?
    b.能带来什么好处
        开源界的"性价比王",便宜又好用:
        用 DeepSeek 部署高性价比审计模型
        DeepSeek V2/V3 效果好且 API 价格低
        用 DeepSeek 做大规模审计分析,成本可控效果好。
    c.投资回报
        开源模型中的性价比之王
        便宜又好用
        MoE 架构
    d.实施难度
        中。国产开源大模型,MoE 架构。

94.GPT-4(AI老大哥)
    a.解决什么问题
        需要最强推理能力怎么办?
        复杂推理任务用什么?
    b.能带来什么好处
        AI 界的"老大哥",能力强但贵:
        用 GPT-4 做复杂审计推理任务
        GPT-4 适合需要强推理能力的场景
        用 GPT-4 处理复杂的审计推理任务。
    c.投资回报
        2023 年最强模型
        各领域表现优异
        推理能力强
    d.实施难度
        低。OpenAI 的旗舰模型。

95.GPT-3.5(经济版GPT)
    a.解决什么问题
        成本敏感怎么办?
        大批量简单任务用什么?
    b.能带来什么好处
        GPT 系列的"经济版",便宜够用:
        用 GPT-3.5 处理简单的合同分类任务
        GPT-3.5 速度快、价格低,适合简单任务
        用 GPT-3.5 处理大批量合同的初步分类。
    c.投资回报
        性价比高
        速度快成本低
        适合大批量处理
    d.实施难度
        低。OpenAI 的经济型模型。

96.Claude 2(Claude前任)
    a.解决什么问题
        需要长文档处理但预算有限怎么办?
    b.能带来什么好处
        Claude 3 的"前任",长文档处理依然出色:
        用 Claude 2 处理长合同文档
        Claude 2 的 100K 上下文适合长文档
        用 Claude 2 处理超长合同,性价比高。
    c.投资回报
        长文档处理能力强
        安全可靠
        性价比高
    d.实施难度
        低。Anthropic 的上一代模型。

97.量化Quantization(模型减肥)
    a.解决什么问题
        模型太占内存怎么办?
        普通服务器能部署吗?
    b.能带来什么好处
        给模型"减肥",把高精度的数字压缩成低精度:
        把 70B 模型量化后,能在单张显卡上运行
        4-bit 量化后,70B 模型只需 40GB 显存
        把微调后的模型量化,部署到公司内网服务器上。
    c.投资回报
        模型体积缩小 4 倍
        推理成本降低 50%+
        普通服务器可部署
    d.实施难度
        中。将模型权重从高精度压缩到低精度。

98.模型蒸馏Distillation(大老师教小学生)
    a.解决什么问题
        大模型太贵怎么办?
        怎么保留能力但减少体积?
    b.能带来什么好处
        让"大老师"教"小学生",把大模型的知识转移到小模型里:
        把 GPT-4 级别的审计能力"蒸馏"到小模型,本地部署
        用大模型生成训练数据,训练小模型达到类似效果
        用云端大模型生成 10 万条审计问答对
        训练一个本地小模型,达到 80% 的效果但数据不出公司。
    c.投资回报
        小模型达到大模型 90% 效果
        速度快 10 倍
        成本大幅降低
    d.实施难度
        高。用大模型的知识训练小模型。

99.QLoRA(极限省钱微调)
    a.解决什么问题
        显存不够怎么微调?
        单张显卡能微调大模型吗?
    b.能带来什么好处
        LoRA 的"极限省钱版",先把模型压缩再微调:
        用 QLoRA 在 24GB 显卡上微调 70B 模型
        QLoRA 把模型量化到 4-bit,再加 LoRA 微调
        用 QLoRA 在公司普通服务器(单张显卡)上微调审计 AI。
    c.投资回报
        单张消费级显卡也能微调大模型
        显存需求大幅降低
        成本极低
    d.实施难度
        中。结合量化和 LoRA 的微调方法。

1.8 [2]感知与交互

01.提示词(智能查询条件)
    a.解决什么问题
        现在查合同靠人工翻找,问一句"这个项目的水泥为什么贵",没人能马上回答。
        要找专人去翻档案、查系统,一个简单问题可能要等半天。
    b.能带来什么好处
        直接用自然语言提问,系统自动理解并执行查询。
        原来要找专人查半天,现在自己输入问题 10 秒出结果。
        比如输入"对比 A、B 两个项目的水泥采购价格",系统自动列出差异。
    c.投资回报
        人力成本:省 1 个专职查询岗(年省 20 万)
        效率提升:查询时间从半天缩短到 10 秒
        响应速度:领导问话能马上回答,不用"我查一下"
    d.实施难度
        低。培训半天就能学会写查询条件。

02.基础大模型(智能分析底座)
    a.解决什么问题
        合同条款写得复杂,不同项目用词不一样,人工对比容易漏掉关键差异。
        比如"甲方自理运费"和"包干到场"其实是一回事,但没经验的人看不出来。
    b.能带来什么好处
        系统自动理解合同条款的深层含义,识别出"说法不同、意思一样"的条款。
        原来要靠老员工的经验判断,现在系统自动识别,准确率 95%以上。
    c.投资回报
        人力成本:减少对资深人员的依赖,新员工也能干
        风险规避:避免因理解偏差导致的决策失误
        质量提升:分析结论更准确,审计报告更可靠
    d.实施难度
        中。需要选择合适的模型,配置环境(1-2 个月)。

03.计算成本(系统使用费)
    a.解决什么问题
        上线智能系统要花多少钱?领导最关心成本预算。
        现在不知道处理一份合同要花多少钱,无法做预算。
    b.能带来什么好处
        明确计费标准:处理 100 份合同大约消耗 XX 元,可以提前预算。
        知道每项操作的"单价",就像知道复印一张纸多少钱一样清楚。
    c.投资回报
        预算可控:每月用量可预估,不会超支
        成本透明:每笔支出有据可查
        优化空间:知道哪里费钱,可以针对性优化
    d.实施难度
        低。就是计费统计,系统自带。

04.文字识别(档案数字化)
    a.解决什么问题
        仓库里有十年积累的纸质合同和手写单据,大约 5000 份。
        遇到价格争议要翻仓库找原始记录,一份合同找 3 天,还不一定能找到。
    b.能带来什么好处
        拍照就能把纸质文件变可搜索的文字,十年档案一周整理完。
        原来遇到争议要翻 3 天,现在输入关键词 10 秒找到原始依据。
        手写备注"含二次搬运费"也能识别,直接锁定证据。
    c.投资回报
        人力成本:原来 3 个人翻档案,现在 1 个人就能管,省 2 个人力(年省 40 万)
        风险规避:能快速找到原始依据,避免因"说不清楚"导致的多付/少付纠纷
        审计合规:纸质档案电子化,符合档案管理要求
    d.实施难度
        低。现有扫描仪 + 识别软件,培训半天就能上手。

05.举一反三学习(少样本学习)
    a.解决什么问题
        想让系统识别"价格异常",但没时间准备上千份标注数据。
        传统方式要人工标注几百份合同,耗时 2-3 个月。
    b.能带来什么好处
        只需要给系统看 3-5 个真实案例,它就能学会识别类似问题。
        原来要标注 1000 份,现在标注 5 份就够了,准备时间从 3 个月缩短到 1 周。
    c.投资回报
        时间成本:数据准备时间从 3 个月缩短到 1 周
        人力成本:省掉大量标注工作(省 2 个人月)
        快速上线:新功能 1 周内就能测试效果
    d.实施难度
        低。只需准备几个典型案例即可。

06.即问即答(零样本学习)
    a.解决什么问题
        遇到新型合同、新业务场景,系统没见过类似案例,能不能直接用?
        传统方式要先收集数据、训练模型,等 2 个月才能上线。
    b.能带来什么好处
        不用准备数据,直接告诉系统"帮我找出这份合同的风险条款",它就能执行。
        遇到新业务场景,当天就能用,不用等数据积累。
    c.投资回报
        时间成本:新场景上线时间从 2 个月缩短到 1 天
        灵活性:业务变化时系统不用重新训练
        覆盖面:任何合同类型都能处理
    d.实施难度
        低。直接用自然语言描述任务即可。

07.严谨程度控制(温度参数)
    a.解决什么问题
        审计报告要严谨,不能有模糊表述;但风险预判需要多想几种可能。
        怎么让系统在不同场景下有不同的"风格"?
    b.能带来什么好处
        一个参数控制输出风格:
        审计报告模式:严谨、确定、每次结论一致
        风险预判模式:发散、多角度、想多种可能
    c.投资回报
        质量控制:审计报告结论一致,不会"看心情"
        风险发现:风险预判时能多想几种可能,不遗漏
        灵活应用:一套系统多种用法
    d.实施难度
        低。就是调一个参数,培训 10 分钟学会。

08.多模态分析(图文音视频一体)
    a.解决什么问题
        审计材料不只是合同文本,还有扫描件、工地照片、验收视频。
        现在要分别用不同系统处理,来回切换很麻烦。
    b.能带来什么好处
        一个系统同时处理合同文本、扫描件图片、现场照片、验收视频。
        综合判断"B 项目的水泥是不是真的用到了工地上"。
    c.投资回报
        人力成本:不用多个系统来回切换,效率提升 50%
        证据完整:文本 + 图片 + 视频交叉验证,结论更可靠
        风险发现:照片能发现文本里没写的问题
    d.实施难度
        中。需要整理不同类型的材料(1-2 个月)。

09.语音转文字(录音整理)
    a.解决什么问题
        和供应商的电话沟通有录音,但要人工听写太费时间。
        一段 30 分钟的录音,人工整理要 2 小时。
    b.能带来什么好处
        录音自动转成文字,30 分钟录音 5 分钟出稿。
        可以搜索关键词"加急费",快速定位关键内容。
        核实口头承诺是否与合同一致。
    c.投资回报
        人力成本:录音整理时间从 2 小时缩短到 5 分钟
        证据留存:电话沟通内容有据可查
        合规要求:重要沟通留痕,满足审计要求
    d.实施难度
        低。现有录音文件直接上传即可。

10.文字转语音(报告朗读)
    a.解决什么问题
        审计报告动辄 20 页,领导没时间细看。
        能不能让领导在通勤路上"听报告"?
    b.能带来什么好处
        把审计报告自动转成语音,领导出差路上就能听完核心发现。
        回来直接讨论问题,不用等领导看完报告再汇报。
    c.投资回报
        时间效率:领导阅读时间从 30 分钟缩短到通勤时间
        汇报便捷:不用专门安排汇报会议
        覆盖面:多份报告领导都能"听"完
    d.实施难度
        低。一键转换,无需培训。

11.自动调用系统(函数调用)
    a.解决什么问题
        现在发现一个异常,要人工去:
        第一步:登录财务系统查历史价格(20 分钟)
        第二步:登录合同库找原始合同(15 分钟)
        第三步:登录邮件系统发报告(5 分钟)
        一个异常要折腾 40 分钟。
    b.能带来什么好处
        系统自动完成全流程:
        自动登录财务系统查价格
        自动调取合同库数据
        自动发送分析报告
        从发现到报告,原来 40 分钟,现在 2 分钟。
    c.投资回报
        效率提升:单次处理时间从 40 分钟缩短到 2 分钟
        人力解放:不用人工登录多个系统
        标准化:每次操作流程一致,不会遗漏
    d.实施难度
        中。需要打通各系统接口(2-3 个月)。

12.长文档处理(上下文窗口)
    a.解决什么问题
        要对比 A、B 两个项目各 50 份合同,系统"记不住"这么多内容。
        读到后面就忘了前面,分析不完整。
    b.能带来什么好处
        系统能一次性"吞下"几百页的合同文档,做全局分析。
        不用分批处理再人工汇总,结论更准确。
    c.投资回报
        分析质量:全局对比,不会遗漏关联
        效率提升:不用分批处理,一次出结果
        人力成本:省掉人工汇总环节
    d.实施难度
        低。选择支持长文档的模型即可。

13.输出质量控制(核采样)
    a.解决什么问题
        系统有时候会输出奇怪的表述,和专业审计报告风格不符。
        怎么保证输出内容"正常"?
    b.能带来什么好处
        限制系统只从"最可能、最正常"的词里选择。
        生成审计报告时不会突然冒出奇怪的表述。
    c.投资回报
        质量保证:输出内容符合专业标准
        审核成本:减少人工修改次数
        专业性:报告风格统一
    d.实施难度
        低。设置一个参数即可。

14.输出长度控制(最大长度)
    a.解决什么问题
        想让系统为每份合同生成 50 字摘要,但系统有时候写成长篇大论。
        怎么控制输出长度?
    b.能带来什么好处
        设置最大输出长度,系统自动控制在范围内。
        100 份合同都能生成统一格式的 50 字摘要,方便快速浏览。
    c.投资回报
        阅读效率:快速浏览 100 份合同摘要
        格式统一:所有摘要长度一致
        成本控制:输出越短成本越低
    d.实施难度
        低。设置一个参数即可。

15.角色设定(系统提示词)
    a.解决什么问题
        想让系统始终以"审计专家"的视角回答问题,不要跑偏。
        怎么让系统"记住"自己的角色?
    b.能带来什么好处
        预设系统角色:"你是央企审计专家,关注合规性和成本控制"。
        之后所有回答都会带上这个视角,不会跑题。
    c.投资回报
        专业性:回答始终符合审计视角
        一致性:不同人使用,输出风格统一
        培训成本:不用每次都重新说明需求
    d.实施难度
        低。写一段角色描述即可。

16.用户提问(用户提示词)
    a.解决什么问题
        怎么向系统提问才能得到准确的答案?
        有时候问得不明确,系统回答也不明确。
    b.能带来什么好处
        清晰的问题引导清晰的回答。
        "请列出这份合同的三个最大风险点"比"看看这合同"效果好得多。
    c.投资回报
        效率提升:一次问对,不用反复沟通
        质量提升:问题越清晰,回答越准确
        培训成本:学会提问技巧,事半功倍
    d.实施难度
        低。培训半天掌握提问技巧。

17.提问模板(提示词模板)
    a.解决什么问题
        每次分析合同都要重新写一遍提问内容,效率低。
        而且不同人写的不一样,结果也不一样。
    b.能带来什么好处
        把常用问题格式固定下来,填空就能用。
        "请分析{项目名称}的{材料类型}采购,重点关注{关注点}"
        每次只需填项目名、材料类型,就能生成标准化的分析指令。
    c.投资回报
        效率提升:不用每次从头写,节省 80% 时间
        标准化:不同人用模板,结果一致
        复用经验:好的提问方式沉淀下来
    d.实施难度
        低。整理几个常用模板即可。

18.多方案思考(思维树)
    a.解决什么问题
        分析价格异常时,只给一个答案可能不够全面。
        要是能同时考虑多种可能就好了。
    b.能带来什么好处
        系统同时考虑"统计口径问题""市场波动""供应商溢价"等多种可能。
        逐一验证后,选择证据最充分的结论。
    c.投资回报
        分析质量:结论更全面,不片面
        风险发现:可能原因都考虑到,不遗漏
        说服力:多方案对比,结论更有说服力
    d.实施难度
        中。需要设计合适的分析框架。

19.多角度验证(自洽性)
    a.解决什么问题
        系统给出的结论可靠吗?会不会是"偶然"得出的?
        关键合同需要更严谨的验证。
    b.能带来什么好处
        让系统用 5 种不同方式分析同一份合同,取多数结论。
        5 次分析中有 4 次认为存在风险,则判定为高风险。
    c.投资回报
        可靠性:关键结论经过多角度验证
        风险控制:重要合同不误判
        说服力:多角度验证的结论更有说服力
    d.实施难度
        低。设置验证次数即可。

20.图片识别(看图说话)
    a.解决什么问题
        有大量工地验收照片,人工一张张看太费时间。
        怎么快速识别照片中的材料品牌、数量?
    b.能带来什么好处
        系统自动识别照片中的材料品牌、数量。
        "照片中有 50 袋海螺水泥"——自动生成描述。
    c.投资回报
        效率提升:1000 张照片 1 小时处理完
        证据核实:实际使用材料与采购合同对比
        风险发现:照片能发现文本里没写的问题
    d.实施难度
        低。照片上传即可识别。

21.视频分析(看视频)
    a.解决什么问题
        有施工监控视频,但人工看视频太费时间。
        1 小时视频要看 1 小时,效率太低。
    b.能带来什么好处
        系统自动分析视频内容,识别关键事件。
        "材料进场时间:14:30,数量:约 100 袋"——自动提取。
    c.投资回报
        效率提升:1 小时视频 5 分钟分析完
        证据核实:"加急施工"说法是否有实际证据
        风险发现:视频能发现报告里没写的问题
    d.实施难度
        中。视频分析需要一定算力支持。

22.图表生成(自动作图)
    a.解决什么问题
        审计报告需要配图表,但做图表要找专人,耗时半天。
        能不能让系统自动生成?
    b.能带来什么好处
        输入"展示 A、B 项目价格对比",系统自动生成专业图表。
        不用找设计,10 秒出图。
    c.投资回报
        效率提升:做图时间从半天缩短到 10 秒
        人力成本:省掉找专人做图的环节
        汇报效果:图表让领导更容易理解
    d.实施难度
        低。输入文字即可生成。

23.视频生成(自动做视频)
    a.解决什么问题
        想给领导做个审计发现的演示视频,但视频制作太贵太慢。
        外包做 1 分钟视频要 5000 元,等 2 周。
    b.能带来什么好处
        输入文字描述,系统自动生成演示视频。
        "展示问题演变时间线"——1 分钟视频 10 分钟生成。
    c.投资回报
        成本节省:外包 5000 元 vs 系统生成免费
        时间节省:等 2 周 vs 10 分钟
        汇报效果:视频比文字更有说服力
    d.实施难度
        低。输入文字即可生成。

24.文字变图片(文生图)
    a.解决什么问题
        汇报材料需要配图,找图、做图都很费时间。
        有时候找不到合适的配图。
    b.能带来什么好处
        输入"展示采购流程的信息图",系统自动生成专业配图。
        不用找设计,10 秒出图。
    c.投资回报
        效率提升:找图做图时间从 1 小时缩短到 10 秒
        质量提升:配图更贴合内容
        汇报效果:图文并茂更专业
    d.实施难度
        低。输入文字即可生成。

25.文字变视频(文生视频)
    a.解决什么问题
        想做培训视频,但视频制作成本高、周期长。
        新员工培训材料不够生动。
    b.能带来什么好处
        输入"展示采购审计关键步骤",系统自动生成教学视频。
        培训材料从文字变成视频,新员工更容易理解。
    c.投资回报
        培训效果:视频比文字培训效果好 3 倍
        制作成本:外包做视频 vs 系统免费生成
        标准化:培训内容统一,不会因讲师不同而有差异
    d.实施难度
        低。输入文字即可生成。

26.图片变文字(图生文)
    a.解决什么问题
        合同扫描件是图片格式,不能搜索、不能复制。
        要快速了解图片里的合同内容。
    b.能带来什么好处
        上传合同扫描件截图,系统自动识别并生成文字描述。
        不用人工看图打字,10 秒出文字。
    c.投资回报
        效率提升:看图打字时间从 10 分钟缩短到 10 秒
        搜索便捷:图片内容可以搜索了
        批量处理:100 张图片批量识别
    d.实施难度
        低。上传图片即可识别。

27.语音对话(实时通话)
    a.解决什么问题
        开车时想问系统审计进度,但不方便打字。
        能不能像打电话一样和系统对话?
    b.能带来什么好处
        直接语音提问,系统语音回答,像打电话一样。
        "今天的审计进度"——开车时就能问,不用看屏幕。
    c.投资回报
        便捷性:随时随地语音提问
        安全性:开车时不用看屏幕
        响应速度:实时对话,不用等
    d.实施难度
        低。现有手机就能用。

28.工具调用(使用工具)
    a.解决什么问题
        系统只能回答问题,不能"干实事"。
        要是能让系统用计算器、查资料就好了。
    b.能带来什么好处
        系统自动使用合适的工具:
        算差价百分比用计算器
        查市场价用搜索
        查历史合同用数据库
    c.投资回报
        能力扩展:系统不只是问答,还能执行任务
        准确性:计算由工具完成,不会算错
        效率提升:不用人工切换工具
    d.实施难度
        中。需要配置工具接口。

29.系统对接(API 集成)
    a.解决什么问题
        ERP 系统、财务系统、合同管理系统各自独立,数据不互通。
        查一个数据要登录 3 个系统。
    b.能带来什么好处
        AI 系统连接所有系统,一次查询跨系统获取数据。
        不用人工登录多个系统,AI 自动调用。
    c.投资回报
        效率提升:跨系统查询时间从 30 分钟缩短到 10 秒
        数据整合:多系统数据自动汇总
        人力成本:省掉人工切换系统的环节
    d.实施难度
        中。需要打通各系统接口(2-3 个月)。

30.代码执行(自动写程序)
    a.解决什么问题
        要分析 100 份合同的采购数据,做统计、画图表。
        人工做要 2 天,找程序员写代码要等 1 周。
    b.能带来什么好处
        系统自动写代码分析数据,生成统计图表。
        100 份合同的价格分布图、异常检测报告,10 分钟生成。
    c.投资回报
        效率提升:数据分析时间从 2 天缩短到 10 分钟
        人力成本:不用找程序员写代码
        灵活性:想分析什么,告诉系统就行
    d.实施难度
        低。告诉系统需求即可。

31.联网查询(实时搜索)
    a.解决什么问题
        要判断采购价格是否合理,需要知道当期市场价格。
        人工上网查,信息分散、真假难辨。
    b.能带来什么好处
        系统自动联网查询当期市场价格,作为对比基准。
        搜索"2024 年水泥市场价格",自动获取最新数据。
    c.投资回报
        准确性:基于最新市场价判断,更客观
        效率提升:不用人工上网查资料
        证据充分:有市场数据支撑,结论更有说服力
    d.实施难度
        低。开启联网功能即可。

32.文件上传(直接扔文档)
    a.解决什么问题
        要分析合同,先要复制粘贴内容,太麻烦。
        合同格式复杂,复制粘贴容易出错。
    b.能带来什么好处
        直接上传 PDF、Excel、Word 文件,系统自动分析。
        不用手动复制粘贴,10 份合同一起上传,批量处理。
    c.投资回报
        效率提升:不用复制粘贴,节省 50% 时间
        准确性:避免复制粘贴出错
        批量处理:多份文件一起分析
    d.实施难度
        低。直接上传文件即可。

33.智能底座(基础模型)
    a.解决什么问题
        要上 AI 系统,但不知道用什么"底座"。
        是自己开发,还是用现成的?
    b.能带来什么好处
        用成熟的基础模型(如 GPT-4、Claude)作为底座。
        不用从零开发,直接调用现成能力。
        后续可以用公司数据微调,变成"懂业务"的专属 AI。
    c.投资回报
        开发成本:自研 500 万 vs 调用现成模型 10 万/年
        上线周期:自研 1 年 vs 调用 1 周
        风险控制:成熟模型稳定可靠
    d.实施难度
        低。直接调用云服务即可。

34.语言大模型(智能对话)
    a.解决什么问题
        需要一个能理解语言、生成报告的系统。
        传统软件只能按固定规则处理,不够智能。
    b.能带来什么好处
        语言大模型能理解合同条款、分析逻辑、生成报告。
        输入问题,输出分析结果,像和一个"智能员工"对话。
    c.投资回报
        智能化:从"死板规则"到"灵活理解"
        效率提升:复杂任务自动化处理
        覆盖面:语言相关的任务都能干
    d.实施难度
        中。需要选择合适的模型并配置。

35.通用智能(未来目标)
    a.解决什么问题
        当前 AI 还有很多事情做不了,需要了解能力边界。
        知道哪些能交给 AI,哪些还需要人工。
    b.能带来什么好处
        了解 AI 能力边界,合理规划应用场景。
        该用 AI 的地方用 AI,该用人的地方用人。
    c.投资回报
        风险控制:不盲目信任 AI,避免误用
        效率最优:人机协作,各展所长
        投入产出:把钱花在 AI 擅长的领域
    d.实施难度
        低。了解概念即可,不需技术实施。

36.云端服务(模型即服务)
    a.解决什么问题
        要用 AI,是不是要买服务器、招人维护?
        小单位没有技术团队,怎么用?
    b.能带来什么好处
        不用自己搭服务器,直接调用云服务。
        按调用量付费,用多少付多少。
        不用招技术团队,现有人员培训就能用。
    c.投资回报
        成本可控:不用买服务器,按量付费
        人力成本:不用招技术团队
        上线周期:不用部署环境,即开即用
    d.实施难度
        低。注册账号就能用。

37.专家模型(混合专家)
    a.解决什么问题
        大模型能力强,但用起来成本高、速度慢。
        有没有办法既强又快?
    b.能带来什么好处
        模型内部有多个"小专家",遇到问题只调最擅长的几个。
        能力强、速度快、成本低。
    c.投资回报
        成本降低:同样能力,成本低 50%
        速度提升:响应速度快 2 倍
        效果保证:专业领域效果更好
    d.实施难度
        低。选择支持混合专家的模型即可。

38.开源模型(免费可用)
    a.解决什么问题
        用云服务要付费,而且数据要传到云端。
        敏感数据能不能不出公司?
    b.能带来什么好处
        下载开源模型,在公司内网部署。
        代码公开,数据不出公司,完全自主可控。
    c.投资回报
        数据安全:敏感数据不出公司
        成本降低:软件免费,只需服务器成本
        自主可控:代码公开,想改就改
    d.实施难度
        中。需要技术团队部署维护(1-2 个月)。

39.商业模型(效果最好)
    a.解决什么问题
        开源模型效果不如商业模型。
        对效果要求高的场景,还是商业模型更好。
    b.能带来什么好处
        商业模型效果最好、最稳定、有售后。
        对效果要求高的场景,选择商业模型。
    c.投资回报
        效果最好:分析准确率更高
        稳定可靠:有服务商保障
        售后支持:有问题有人解决
    d.实施难度
        低。直接调用 API 即可。

40.模型大小选择(按需选择)
    a.解决什么问题
        模型有 7B、13B、70B 等不同大小,怎么选?
        选大了浪费钱,选小了效果差。
    b.能带来什么好处
        根据任务复杂度选择:
        简单任务用小模型:快、便宜
        复杂分析用大模型:准、全面
    c.投资回报
        成本优化:不花冤枉钱
        效果保证:复杂任务用大模型
        灵活配置:不同任务用不同模型
    d.实施难度
        低。根据需求选择即可。

41.模型参数(智商等级)
    a.解决什么问题
        不同模型参数量不同,70B、175B 是什么意思?
        怎么判断模型"聪明程度"?
    b.能带来什么好处
        参数量 = 模型的"脑细胞数量"。
        参数越多越聪明,但也越贵。
        70B = 700 亿参数,属于中高水平。
    c.投资回报
        选择依据:知道怎么选模型
        成本控制:不花冤枉钱买"过剩"能力
        效果预期:知道模型能做到什么程度
    d.实施难度
        低。了解概念即可。

42.模型权重(大脑数据)
    a.解决什么问题
        开源模型下载的是什么东西?
        为什么一个文件几十 GB?
    b.能带来什么好处
        模型权重 = AI 的"记忆",存着它学到的所有知识。
        下载权重文件,就能在本地运行模型。
    c.投资回报
        自主可控:数据完全不出公司
        成本透明:一次下载,长期使用
        可定制:可以用公司数据微调
    d.实施难度
        中。需要服务器存储和运行。

43.记忆缓存(记住算过的)
    a.解决什么问题
        多轮对话时,系统每次都要重新计算前面的内容。
        能不能记住算过的东西?
    b.能带来什么好处
        系统记住之前算过的东西,不用重复算。
        多轮对话更快,响应时间缩短 50%。
    c.投资回报
        速度提升:响应更快
        成本降低:不用重复计算
        体验更好:多轮对话更流畅
    d.实施难度
        低。开启缓存功能即可。

44.滑动窗口(滚动阅读)
    a.解决什么问题
        文档太长,系统一次处理不了。
        能不能分段处理再汇总?
    b.能带来什么好处
        用一个"窗口"在文档上滑动,每次处理一部分。
        最后汇总分析结果。
    c.投资回报
        处理能力:超长文档也能处理
        不遗漏:分段处理,内容全覆盖
        灵活配置:窗口大小可调整
    d.实施难度
        低。设置窗口大小即可。

45.流式输出(边想边说)
    a.解决什么问题
        系统生成报告要等半天,不知道在干什么。
        能不能一边生成一边显示?
    b.能带来什么好处
        系统一边想一边输出,用户能看到"打字机效果"。
        不用等系统想完,内容逐步出现,体验更好。
    c.投资回报
        用户体验:不用干等,能看到进度
        感知速度:心理上感觉更快
        交互友好:可以提前看到部分结果
    d.实施难度
        低。开启流式输出功能即可。

46.批量处理(攒一起做)
    a.解决什么问题
        100 份合同要一份一份处理,太慢。
        能不能攒一起批量处理?
    b.能带来什么好处
        100 份合同攒一起,一次性发给系统处理。
        成本比一份一份处理低 50%。
    c.投资回报
        成本降低:批量处理便宜 50%
        效率提升:夜间自动处理,白天看结果
        人力解放:不用一份一份操作
    d.实施难度
        低。设置批量任务即可。

47.实时响应(毫秒级)
    a.解决什么问题
        有些场景需要实时响应,比如语音对话。
        响应太慢,对话就不流畅。
    b.能带来什么好处
        毫秒级响应,像打电话一样流畅。
        语音提问,语音回答,不用等。
    c.投资回报
        用户体验:对话流畅自然
        效率提升:不用等系统响应
        场景扩展:适合语音助手场景
    d.实施难度
        中。需要选择支持实时的模型。

48.长连接(保持热线)
    a.解决什么问题
        每次对话都要重新建立连接,浪费时间。
        能不能保持连接,随时对话?
    b.能带来什么好处
        保持一条"热线",随时发消息。
        多轮对话更流畅,不用每次重新连接。
    c.投资回报
        响应速度:不用重新建立连接,更快
        对话流畅:多轮对话体验更好
        资源节省:减少连接开销
    d.实施难度
        低。配置长连接即可。

49.服务器推送(主动通知)
    a.解决什么问题
        想知道分析什么时候完成,要不停刷新页面。
        能不能完成了主动通知?
    b.能带来什么好处
        服务器主动推送通知,不用刷新页面。
        分析完成自动提醒,报告生成自动提示。
    c.投资回报
        效率提升:不用不停刷新页面
        及时响应:第一时间知道结果
        用户体验:不用盯着屏幕等
    d.实施难度
        低。开启推送功能即可。

1.9 [2]数据加工

01.关键信息提取(智能填表)
    a.解决什么问题
        合同里关键信息分散在各个条款,人工提取效率低、容易漏。
        要从几百份合同里统计"水泥采购量",要一份份翻。
    b.能带来什么好处
        系统自动从合同中提取关键信息:材料名称、规格、数量、金额。
        100 份合同的关键信息,10 分钟提取完,自动生成表格。
    c.投资回报
        人力成本:省 2 个信息录入岗(年省 40 万)
        效率提升:信息提取时间从 1 周缩短到 10 分钟
        准确性:避免人工抄录出错
    d.实施难度
        低。上传合同即可自动提取。

02.同一性识别(识别同一事物)
    a.解决什么问题
        同一供应商在不同系统叫不同名字:
        ERP 里叫"海螺水泥"
        财务系统叫"海螺水泥有限公司"
        合同里写"安徽海螺"
        导致统计时被当成不同供应商,分析结果出错。
    b.能带来什么好处
        系统自动识别不同名字指向同一供应商。
        "海螺水泥"和"Conch Cement"是同一家公司。
        统计时不会重复计算,分析更准确。
    c.投资回报
        准确性:供应商统计不重复、不遗漏
        效率提升:不用人工核对供应商身份
        风险发现:同一供应商不同项目价格差异一目了然
    d.实施难度
        中。需要建立供应商名称对照表(1 个月)。

03.异常检测(自动预警)
    a.解决什么问题
        现在是事后审计,等发现问题已经晚了一年,钱早付出去了,追回来很难。
        去年发现 3 起价格异常,但因为发现滞后,有 2 起已经无法追回,损失 80 万。
    b.能带来什么好处
        系统自动对比历史价格,发现异常(比如价格比历史高 50%)立即弹窗报警。
        原来要等年底审计才发现,现在入库时就报警,当场就能拦住。
    c.投资回报
        直接止损:去年 3 起异常中,有 2 起如果能及时发现,能止损 80 万
        威慑作用:知道有自动预警,供应商不敢乱报价,从源头减少异常
        人力解放:不用人工一张张核对,系统自动筛选可疑项
    d.实施难度
        中等。需要先建立历史价格数据库(约 1 个月),之后自动运行。

04.数据追溯(责任追踪)
    a.解决什么问题
        审计报告里每个数字从哪来的?是谁录入的?经过什么处理?
        出了问题找不到责任人。
    b.能带来什么好处
        每个数字都能追溯到源头:
        谁录入的
        什么时候录入的
        经过什么修改
        从哪个原始单据来的
        审计时能拿出完整证据链,避免"说不清楚"的责任风险。
    c.投资回报
        责任明确:每个数据有据可查
        审计合规:满足审计留痕要求
        风险控制:出问题能定位到责任人
    d.实施难度
        中。需要在系统里开启数据追踪功能。

05.数据清洗(数据洗澡)
    a.解决什么问题
        系统里的数据质量参差不齐:
        "海螺水泥"和"海螺水泥。"是同一种材料
        金额格式不统一,有的带逗号,有的不带
        日期格式五花八门
        不清洗直接分析,结论不可靠。
    b.能带来什么好处
        系统自动清洗数据:
        统一格式(去掉多余标点、空格)
        删除重复记录
        修正明显错误
        清洗后分析准确率提升 20%。
    c.投资回报
        准确性:分析结论更可靠
        效率提升:不用人工逐条核对
        风险控制:垃圾数据不会导致错误决策
    d.实施难度
        低。设置清洗规则,系统自动执行。

06.数据标注(教 AI 识别)
    a.解决什么问题
        想让 AI 学会识别"风险条款",但 AI 不知道什么叫风险。
        需要人工先标注一些示例,AI 才能学习。
    b.能带来什么好处
        找 2 个审计员标注 200 份历史合同,标记出哪些条款后来出了问题。
        AI 学习后,新合同自动识别类似风险。
    c.投资回报
        一次投入:标注 200 份,后续自动识别
        知识沉淀:资深审计员的经验被 AI 学会
        效率提升:新合同风险自动预警
    d.实施难度
        中。需要组织人员标注(2-3 周)。

07.知识图谱(关系网络)
    a.解决什么问题
        供应商、项目、材料、价格之间有复杂关系,但分散在各处。
        想查"A 供应商给哪些项目供过货",要翻很多资料。
    b.能带来什么好处
        把所有关系连成一张网,一目了然:
        A 供应商 → 供过货的项目 → 供过的材料 → 价格
        点击一个供应商,看到完整关系网
        还能发现隐藏的利益关联,比如"A 供应商的法人"和"B 项目经理的配偶"是同一个人。
    c.投资回报
        风险发现:发现隐藏的利益关联
        效率提升:关系查询从翻半天到 10 秒
        决策支撑:全面了解供应商背景
    d.实施难度
        中。需要整理数据构建图谱(2-3 个月)。

08.特征工程(提炼关键指标)
    a.解决什么问题
        合同有成百上千个信息点,哪些对判断风险最有用?
        靠人工判断经验主义,不够客观。
    b.能带来什么好处
        从合同中提炼关键指标:
        付款周期(天数)
        单价波动率
        供应商历史违约次数
        合同复杂度
        用这些"特征"来判断风险,比拍脑袋更客观。
    c.投资回报
        判断客观:从"凭感觉"到"看数据"
        准确率高:风险预测准确率提升 30%
        可解释:每个判断都有数据支撑
    d.实施难度
        中。需要数据分析和领域经验(1-2 个月)。

09.数据扩充(数据繁殖)
    a.解决什么问题
        只有 100 份标注好的合同,训练 AI 效果不好。
        能不能"变"出更多数据?
    b.能带来什么好处
        通过同义词替换、句式变换,100 份合同扩充到 500 份。
        不用人工标注更多,AI 训练效果更好。
    c.投资回报
        标注成本:省 400 份人工标注(省 2 个人月)
        效果提升:训练数据多,AI 效果好
        快速上线:不用等积累更多数据
    d.实施难度
        低。设置扩充规则,系统自动执行。

10.数据搬运(ETL)
    a.解决什么问题
        数据分散在 ERP、财务、合同等多个系统。
        要分析一个项目,要登录 3 个系统分别查,再人工汇总。
    b.能带来什么好处
        系统自动从各系统抽取数据,清洗后汇总到一起。
        原来要登录 3 个系统查半天,现在一个平台全看到。
    c.投资回报
        效率提升:跨系统查询从半天到 10 秒
        人力成本:省掉人工汇总环节
        数据一致:各系统数据自动对齐
    d.实施难度
        中。需要打通各系统接口(2-3 个月)。

11.数据管道(自动化流水线)
    a.解决什么问题
        每天新增的合同、采购数据,怎么自动同步到分析平台?
        现在靠人工导出导入,容易漏、容易错。
    b.能带来什么好处
        建立数据管道,自动完成:采集 → 清洗 → 存储 → 分析。
        每天新增数据自动流转,不用人工干预。
    c.投资回报
        效率提升:数据自动同步,不用人工
        及时性:当天数据当天可查
        准确性:避免人工操作出错
    d.实施难度
        中。需要配置数据管道(1-2 个月)。

12.数据湖(原始数据库)
    a.解决什么问题
        分析需求不断变化,原来没存的数据现在想用怎么办?
        原始数据扔了,想分析也没法分析。
    b.能带来什么好处
        把所有原始数据都存下来,包括合同、发票、邮件、照片。
        10 年的数据都能查到,想分析什么随时可以。
    c.投资回报
        数据资产:原始数据是企业的"数字资产"
        灵活分析:新需求随时可以分析
        历史追溯:可以回溯任意历史数据
    d.实施难度
        中。需要存储空间和治理机制(2-3 个月)。

13.数据仓库(分析数据库)
    a.解决什么问题
        原始数据太乱,不适合直接分析。
        需要整理好的数据,专门用来做分析、出报表。
    b.能带来什么好处
        在数据仓库里存储整理好的数据:
        按主题组织(采购、财务、合同)
        按时间组织(年、季、月)
        支持复杂查询和报表
        审计分析直接查数据仓库,不用处理原始数据。
    c.投资回报
        分析效率:整理好的数据,分析快 10 倍
        报表质量:数据一致,报表可靠
        人力成本:不用每次都处理原始数据
    d.实施难度
        中。需要数据建模和 ETL(2-3 个月)。

14.关系抽取(AI 连线)
    a.解决什么问题
        合同里"A 公司供应水泥",怎么让系统理解这个关系?
        而不是只知道有"A 公司"和"水泥"两个词。
    b.能带来什么好处
        系统自动从合同中抽取关系:
        A 公司 → 供应 → 水泥
        B 项目 → 采购 → 1000 吨
        单价 → 50 元
        抽取的关系可以构建知识图谱,支持复杂查询。
    c.投资回报
        理解深度:不只是识别词,还理解关系
        查询能力:支持"找出所有供应水泥的公司"这类查询
        知识沉淀:关系数据可复用
    d.实施难度
        中。需要配置关系抽取规则(1 个月)。

15.事件抽取(AI 事件雷达)
    a.解决什么问题
        合同和沟通记录里有很多事件:签约、变更、付款、纠纷。
        怎么快速了解发生了什么?
    b.能带来什么好处
        系统自动从文本中提取完整事件:
        时间:2024-03-15
        人物:A 公司、B 公司
        动作:签订合同
        内容:采购水泥 1000 吨
        自动建立项目事件时间线,一目了然。
    c.投资回报
        效率提升:不用人工整理事件
        全面了解:项目事件时间线清晰
        风险发现:事件序列异常容易被发现
    d.实施难度
        中。需要配置事件模板(1 个月)。

16.概念定义(知识框架)
    a.解决什么问题
        "风险"是什么?"异常"是什么?不同人有不同理解。
        AI 需要统一的定义才能判断。
    b.能带来什么好处
        定义统一的概念框架:
        风险:价格偏离超过 30%
        异常:与历史数据差异超过 2 倍标准差
        违规:不符合采购制度的行为
        AI 按统一标准判断,结论一致。
    c.投资回报
        判断一致:不同人用,结论一样
        可解释:每个判断有标准依据
        可调整:标准可随时更新
    d.实施难度
        中。需要整理业务定义(1 个月)。

17.分类体系(知识分类树)
    a.解决什么问题
        材料有成千上万种,怎么组织才能方便查询?
        "水泥"和"P.O 42.5"是什么关系?
    b.能带来什么好处
        建立材料分类体系:
        建材 → 水泥 → P.O 42.5
        建材 → 水泥 → P.C 32.5
        按层级组织,支持:
        从大类查询(所有建材)
        从细类查询(P.O 42.5 水泥)
    c.投资回报
        查询效率:按类别快速定位
        统计分析:按类别汇总分析
        知识组织:材料知识有序管理
    d.实施难度
        中。需要整理分类体系(1 个月)。

18.实体链接(实体定位)
    a.解决什么问题
        合同里写"海螺",系统怎么知道是"安徽海螺水泥股份有限公司"?
        而不是其他叫"海螺"的公司。
    b.能带来什么好处
        把合同中的简称、别名链接到知识库中的标准实体。
        点击"海螺",自动显示完整信息:
        全称:安徽海螺水泥股份有限公司
        资质:一级供应商
        历史:合作 5 年,无违约记录
    c.投资回报
        信息完整:简称也能获取完整信息
        效率提升:不用人工核对身份
        风险发现:供应商历史信息一目了然
    d.实施难度
        中。需要建立实体知识库(1-2 个月)。

19.指代理解(AI 读代词)
    a.解决什么问题
        合同里写"乙方应向甲方付款,其金额为...","其"指的是什么?
        AI 如果不理解指代,分析会出错。
    b.能带来什么好处
        系统自动理解文本中的指代:
        "该公司" → A 公司
        "其供应商" → B 公司
        "本合同" → 当前合同
        理解完整语义,分析更准确。
    c.投资回报
        理解准确:不会因为指代误解而出错
        分析完整:文本理解更透彻
        自动化:不用人工解释指代
    d.实施难度
        低。大模型自带指代理解能力。

20.数据质量评估(数据体检)
    a.解决什么问题
        数据质量怎么样?能不能直接用来分析?
        不知道数据"好坏",分析结果不可信。
    b.能带来什么好处
        系统自动评估数据质量:
        完整性:95%(有 5% 的字段缺失)
        准确性:90%(有 10% 的数据有误)
        一致性:85%(不同系统数据有冲突)
        知道数据质量,才能判断分析结论的可信度。
    c.投资回报
        风险控制:低质量数据不会误导决策
        质量改进:知道哪里有问题,针对性改进
        审计合规:数据质量有评估报告
    d.实施难度
        低。系统自动评估,生成报告。

21.数据校验(数据检查)
    a.解决什么问题
        数据入库前怎么确保正确?
        怎么拦截明显错误的数据?
    b.能带来什么好处
        给数据"过筛子",把不合格的拦在外面:
        金额必须大于 0
        日期不能超过今天
        必填字段不能为空
        不合格数据自动退回,不入库。
    c.投资回报
        在数据入库前拦截错误
        保证数据质量
        减少后患
    d.实施难度
        低。设置校验规则,系统自动执行。

22.数据体检(数据画像)
    a.解决什么问题
        拿到一批数据,不知道数据"长什么样"。
        有多少字段?缺失率多少?有什么异常值?
        不了解数据全貌,清洗分析无从下手。
    b.能带来什么好处
        系统自动给数据做"体检",生成报告:
        字段缺失率统计
        值分布情况
        异常值比例
        5 分钟了解数据全貌,制定针对性的清洗策略。
    c.投资回报
        效率提升:数据了解时间从 1 天缩短到 5 分钟
        决策依据:基于数据画像制定清洗策略
        质量把控:发现数据问题早发现早处理
    d.实施难度
        低。系统自动分析,生成报告。

23.数据去重(删除重复)
    a.解决什么问题
        系统里有大量重复记录:
        同一份合同被录入 2 次
        同一供应商在不同系统有 3 条记录
        重复数据导致统计结果偏高
    b.能带来什么好处
        系统自动识别并删除重复记录:
        识别"相同供应商+相同金额+相近日期"的重复合同
        合并重复的供应商记录
        清理后数据准确,统计可靠
    c.投资回报
        准确性:统计结果不被重复数据干扰
        存储节省:删除冗余数据,节省存储空间
        效率提升:数据量减少,分析更快
    d.实施难度
        低。设置去重规则,系统自动执行。

24.数据脱敏(敏感信息打码)
    a.解决什么问题
        审计报告需要对外分享,但包含敏感信息:
        供应商联系方式
        具体金额数字
        商业机密条款
        直接分享有泄密风险。
    b.能带来什么好处
        系统自动对敏感信息"打码":
        金额保留数量级,具体数字用*替代
        联系方式部分隐藏
        关键商业条款模糊化
        脱敏后的数据可以安全分享,满足保密要求。
    c.投资回报
        合规要求:满足数据安全保密要求
        风险控制:避免敏感信息泄露
        灵活使用:脱敏后数据可安全分享分析
    d.实施难度
        低。设置脱敏规则,系统自动执行。

25.数据隐私(信息安全)
    a.解决什么问题
        合同数据涉及商业机密:
        谁有权查看?
        谁有权导出?
        访问记录如何追踪?
        数据安全管理制度缺失,存在泄密风险。
    b.能带来什么好处
        建立数据隐私保护机制:
        分级分类:不同级别数据不同权限
        访问控制:只有授权人员可查看
        操作日志:谁在什么时候看了什么
        敏感数据有保护,泄密可追溯。
    c.投资回报
        合规要求:满足数据安全法律法规
        风险控制:防止数据泄露
        责任追溯:出问题能定位到人
    d.实施难度
        中。需要建立数据分级授权体系(1-2 个月)。

26.数据治理(数据管理制度)
    a.解决什么问题
        数据管理混乱:
        数据没人负责
        各系统数据标准不统一
        数据质量问题反复出现
        缺乏系统性的数据管理体系。
    b.能带来什么好处
        建立数据治理体系:
        组织架构:成立数据治理委员会
        制度流程:数据录入、审核、使用规范
        质量监控:数据质量持续监控改进
        数据有人管、有标准、可追溯。
    c.投资回报
        管理规范:数据管理有章可循
        质量提升:数据问题从源头减少
        长期价值:数据资产持续增值
    d.实施难度
        高。需要组织、制度、技术多方面配合(3-6 个月)。

27.主数据管理(核心档案统一)
    a.解决什么问题
        核心数据在各系统不一致:
        ERP 里供应商叫"海螺水泥"
        财务系统叫"海螺水泥有限公司"
        合同系统叫"安徽海螺"
        同一供应商被当成不同主体,分析结果出错。
    b.能带来什么好处
        统一管理核心数据:
        供应商:统一编码、统一名称、统一属性
        材料:统一分类、统一规格描述
        项目:统一编码、统一命名
        各系统核心数据一致,分析结果可靠。
    c.投资回报
        准确性:核心数据一致,分析不偏差
        效率提升:不用人工核对不同系统数据
        管理规范:核心数据有统一标准
    d.实施难度
        中。需要梳理核心数据并建立统一标准(2-3 个月)。

28.数据血缘追踪(数据族谱)
    a.解决什么问题
        审计报告里的数字从哪来?
        经过什么处理?
        源头是谁录入的?
        数字来源说不清楚,审计难以通过。
    b.能带来什么好处
        建立数据血缘追踪:
        记录数据从源头到报表的完整路径
        每个环节的处理逻辑有记录
        可追溯数据变更历史
        每个数字都有"族谱",来源去向一目了然。
    c.投资回报
        审计合规:数据来源可追溯,满足审计要求
        责任明确:出问题能定位到环节
        质量追溯:发现数据问题能追溯到源头
    d.实施难度
        中。需要建立数据血缘管理系统(2-3 个月)。

29.数据目录(数据资产清单)
    a.解决什么问题
        企业有什么数据?在哪?什么含义?
        数据分散各处,找不到、看不懂。
        分析师要花大量时间找数据。
    b.能带来什么好处
        建立数据资产目录:
        登记所有数据资产
        记录数据位置、结构、含义
        支持快速搜索定位
        像图书馆目录一样,快速找到需要的数据。
    c.投资回报
        效率提升:找数据时间从 1 小时缩短到 5 分钟
        资产清晰:企业数据资产一目了然
        复用价值:发现可复用的数据资源
    d.实施难度
        中。需要梳理并登记数据资产(1-2 个月)。

30.数据管家(数据责任人)
    a.解决什么问题
        数据出了问题找谁?
        数据质量谁负责?
        没人管的数据容易出问题。
    b.能带来什么好处
        明确数据责任人:
        每类数据指定"数据管家"
        负责数据质量和问题处理
        定期检查数据质量
        数据有人管、有人负责、有人维护。
    c.投资回报
        责任明确:数据问题有人负责
        质量提升:数据有人持续维护
        响应快速:数据问题能快速定位处理
    d.实施难度
        中。需要建立数据责任体系(1 个月)。

31.数据标准(数据普通话)
    a.解决什么问题
        不同系统数据"语言不通":
        字段命名不一致
        编码规则不统一
        数据格式五花八门
        系统集成困难,数据交换出错。
    b.能带来什么好处
        建立数据标准:
        字段命名规范
        编码规则统一
        数据格式统一
        各系统说"同一种语言",数据交换顺畅。
    c.投资回报
        系统集成:不同系统数据可无缝对接
        数据交换:数据格式统一,交换不出错
        维护便捷:标准统一,维护更简单
    d.实施难度
        中。需要制定并推广数据标准(1-2 个月)。

32.数据合规(合法合规)
    a.解决什么问题
        数据处理是否符合法律法规?
        数据保留期限是否合规?
        访问权限是否满足审计要求?
        合规风险难以把控。
    b.能带来什么好处
        建立数据合规管理:
        数据保留期限:自动到期提醒归档销毁
        访问权限控制:分级授权,操作留痕
        合规检查:定期检查数据处理是否符合法规
        数据处理合法合规,规避法律风险。
    c.投资回报
        风险控制:规避数据合规法律风险
        审计通过:满足审计对数据管理的要求
        声誉保护:合规管理保护企业声誉
    d.实施难度
        中。需要建立合规管理体系(2-3 个月)。

33.数据生命周期(数据生老病死)
    a.解决什么问题
        数据应该存多久?
        什么时候归档?
        什么时候销毁?
        没有明确规则,数据要么存太多浪费空间,要么删太早需要时找不到。
    b.能带来什么好处
        定义数据生命周期:
        创建:数据产生时录入
        使用:日常业务使用
        归档:使用频率低时归档
        销毁:到期后安全销毁
        数据"生老病死"有规则,存储成本可控。
    c.投资回报
        成本控制:过期数据及时归档销毁,节省存储
        合规要求:满足数据保留期限法规
        管理规范:数据管理有章可循
    d.实施难度
        中。需要定义各类数据的生命周期规则(1-2 个月)。

34.特征存储(指标仓库)
    a.解决什么问题
        不同分析项目反复计算同样的指标:
        供应商历史违约率
        平均采购周期
        价格波动率
        每次都重新计算,浪费时间。
    b.能带来什么好处
        建立特征存储:
        统一存储计算好的指标
        不同项目可直接调用
        指标版本管理
        算一次、存起来、反复用。
    c.投资回报
        效率提升:指标复用,避免重复计算
        一致性:不同项目使用相同指标,结果一致
        维护便捷:指标更新一次,所有项目受益
    d.实施难度
        中。需要建立特征存储平台(2-3 个月)。

35.特征选择(筛选有用指标)
    a.解决什么问题
        从合同提取了 100 个指标,哪些对判断风险最有用?
        指标太多,模型复杂且效果不一定好。
    b.能带来什么好处
        系统自动筛选最有用的指标:
        分析指标与风险的相关性
        排序指标重要性
        选择最有用的 20 个指标
        从 100 个指标中选出最有用的 20 个,模型更精简效果更好。
    c.投资回报
        模型效果:精选指标,模型更准确
        计算效率:指标少,计算更快
        可解释性:指标少,结论更容易理解
    d.实施难度
        中。需要数据分析和领域经验(1-2 个月)。

36.特征重要性(指标排座次)
    a.解决什么问题
        哪些因素对风险判断影响最大?
        是供应商信用?付款周期?还是合同金额?
        不了解因素重要性,决策缺乏依据。
    b.能带来什么好处
        系统分析指标重要性并排名:
        供应商历史违约次数:重要性 85%
        付款周期:重要性 60%
        合同金额:重要性 40%
        知道哪些因素最重要,重点关注关键因素。
    c.投资回报
        决策依据:知道哪些因素最重要
        资源聚焦:把精力放在最重要的因素上
        可解释:结论有数据支撑,更有说服力
    d.实施难度
        低。模型训练后自动输出重要性排名。

37.特征变换(指标变形)
    a.解决什么问题
        有些指标分布不均匀:
        金额从 1 万到 1 亿,差距太大
        极端值影响分析结果
        直接使用效果不好。
    b.能带来什么好处
        对指标进行数学变换:
        对数变换:处理金额的长尾分布
        标准化:消除量纲影响
        变换后指标更适合分析,效果更好。
    c.投资回报
        分析效果:指标变换后,分析更准确
        稳定性:减少极端值影响
        可比较:不同量纲指标可比较
    d.实施难度
        低。设置变换规则,系统自动执行。

38.特征缩放(统一量纲)
    a.解决什么问题
        不同指标单位不同:
        金额:万元
        天数:天
        次数:次
        数值差距大,分析时大数值指标会主导结果。
    b.能带来什么好处
        把所有指标缩放到同一范围(如 0-1):
        金额:100 万 → 0.5
        天数:180 天 → 0.6
        次数:5 次 → 0.25
        统一量纲后,各指标公平参与分析。
    c.投资回报
        分析公平:各指标权重不受数值大小影响
        模型效果:统一量纲,模型效果更好
        可比较:不同指标可比较重要性
    d.实施难度
        低。设置缩放规则,系统自动执行。

39.特征编码(文字变数字)
    a.解决什么问题
        AI 模型只能处理数字,但很多指标是文字:
        供应商类型:国企、民企、外企
        材料类型:水泥、钢材、砂石
        文字不能直接用于计算。
    b.能带来什么好处
        把文字类别转换成数字:
        国企 → 1,民企 → 2,外企 → 3
        或用更复杂的编码方式
        转换后 AI 可以计算分析。
    c.投资回报
        模型可用:文字变数字,模型可处理
        信息保留:编码后保留类别信息
        分析能力:类别特征也能参与分析
    d.实施难度
        低。设置编码规则,系统自动执行。

40.特征提取(提炼指标)
    a.解决什么问题
        合同文本中有大量信息,怎么提炼成可分析的指标?
        原始文本不能直接用于数值分析。
    b.能带来什么好处
        从文本中提炼关键指标:
        条款数量
        金额出现次数
        风险词汇频率
        合同复杂度
        把文本变成数字指标,支持量化分析。
    c.投资回报
        分析能力:文本信息变成可分析的数字
        量化决策:从"凭感觉"到"看数据"
        自动化:指标提取自动化,省人工
    d.实施难度
        中。需要设计提取规则(1 个月)。

1.10 [2]理解与关联

01.语义分析(读懂潜台词)
    a.解决什么问题
        合同条款写得含蓄,字面意思不等于真实含义。
        "甲方自理运费"和"包干到场"字面不同,但意思一样。
        人工对比容易漏掉这类隐性差异。
    b.能带来什么好处
        系统自动理解条款的深层含义:
        识别"字面不同、意思相同"的条款
        发现隐性陷阱和潜规则
        解释价格差异的真实原因
        原来靠老员工经验判断,现在系统自动识别。
    c.投资回报
        分析准确:从字面理解升级到语义理解
        风险发现:发现隐藏在字里行间的陷阱
        人力解放:减少对资深人员的依赖
    d.实施难度
        中。需要配置语义分析规则(1-2 个月)。

02.语义坐标(智能匹配)
    a.解决什么问题
        想搜索相关合同,但关键词不匹配。
        合同写"偏远山区补偿",搜"运费"搜不到。
        找不到语义相关但用词不同的内容。
    b.能带来什么好处
        系统把文字变成"数学坐标",语义相近的内容坐标相近:
        搜"价格"也能找到"溢价补偿"
        搜"运费"也能找到"物流成本"
        不需要精确关键词也能匹配
        语义匹配比关键词匹配更智能。
    c.投资回报
        检索全面:不漏掉语义相关的内容
        效率提升:检索时间缩短 50%
        智能程度:从关键词匹配升级到语义匹配
    d.实施难度
        中。需要建立语义索引(1-2 个月)。

03.智能检索增强(查证式分析)
    a.解决什么问题
        AI 分析有时会"瞎编",给出没有依据的结论。
        审计报告需要每个结论都有据可查。
    b.能带来什么好处
        AI 分析前先检索档案库,基于事实生成报告:
        发现异常后自动检索历史案例
        找到类似情况的处置依据
        每个结论都有历史档案支撑
        从"AI 瞎猜"升级到"AI 查证"。
    c.投资回报
        结论可靠:每个结论都有事实依据
        审计通过:报告经得起追问
        效率提升:自动检索替代人工翻档案
    d.实施难度
        中。需要建立档案检索系统(2-3 个月)。

04.相似度计算(量化匹配)
    a.解决什么问题
        "这两个项目挺像"——直觉判断不够客观。
        怎么把"感觉挺像"变成可量化的指标?
    b.能带来什么好处
        系统计算相似度并给出具体数字:
        B 项目与去年山地大桥项目相似度 90%
        因为地形相似,价格差异合理
        用数据支撑"类似情况类似处理"
        从"凭感觉"到"看数据"。
    c.投资回报
        判断客观:相似度有数字支撑
        决策依据:类似案例有据可查
        说服力强:数据比感觉更有说服力
    d.实施难度
        低。系统自动计算相似度。

05.语义数据库(智能档案库)
    a.解决什么问题
        传统档案库只能关键词搜索,找不到语义相关的内容。
        10 年积累的合同档案难以有效利用。
    b.能带来什么好处
        把所有合同转成语义坐标存入数据库:
        输入"高价案例",0.1 秒返回最相似的 20 份历史合同
        支持语义检索,不限于关键词
        历史档案变成可检索的知识资产
        从"死档案"变成"活知识库"。
    c.投资回报
        资产激活:历史档案变成可检索的知识
        效率提升:检索时间从翻半天到 0.1 秒
        知识复用:历史经验可快速调用
    d.实施难度
        中。需要建立语义索引数据库(2-3 个月)。

06.文档分块(精准检索)
    a.解决什么问题
        合同太长,整份检索精度低。
        想找"付款条款",但返回的是整份合同,还要人工定位。
    b.能带来什么好处
        把合同按条款切分成小块:
        每个条款单独存、单独检
        检索"付款"返回的是完整付款条款
        不是截断的句子,是完整段落
        检索更精准,结果更好用。
    c.投资回报
        检索精准:直接定位到相关条款
        效率提升:不用在长文档中人工定位
        结果完整:返回完整段落,不是截断内容
    d.实施难度
        低。设置分块规则,系统自动执行。

07.结果重排(精选最相关)
    a.解决什么问题
        检索返回 100 个结果,哪个最相关?
        人工逐个查看太费时间。
    b.能带来什么好处
        系统对检索结果二次排序:
        先粗选,再精选
        最相关的排在最前面
        审计员优先看最相关的 5 个
        从"大海捞针"到"精准推送"。
    c.投资回报
        效率提升:优先看最相关结果,节省筛选时间
        检索质量:最相关的不被埋没
        用户满意:结果排序符合预期
    d.实施难度
        低。开启重排序功能即可。

08.双重检索(混合搜索)
    a.解决什么问题
        单一检索方式有局限:
        关键词检索:精确但找不到同义词
        语义检索:智能但可能漏掉精确匹配
    b.能带来什么好处
        两种检索方式结合:
        关键词找"加急费"
        语义找"赶工补偿"、"快速通道费"
        合并结果,取长补短
        检索更全面,不漏掉任何相关内容。
    c.投资回报
        检索全面:精确+语义,不漏内容
        检索准确:准确率提升 20%+
        适应性强:适合各种检索场景
    d.实施难度
        低。开启混合检索模式即可。

09.文本切分(处理基础)
    a.解决什么问题
        AI 处理文本需要先切分成小单元。
        切分方式影响处理效果和成本。
    b.能带来什么好处
        了解文本切分原理:
        知道 AI 如何理解文本
        估算处理成本
        优化文本处理策略
        更好地理解和使用 AI 系统。
    c.投资回报
        成本控制:了解 Token 消耗,控制成本
        效果优化:优化切分策略,提升效果
        系统理解:更好地理解 AI 工作原理
    d.实施难度
        低。了解概念即可。

10.词性标注(语法分析)
    a.解决什么问题
        AI 需要理解句子语法结构。
        哪个是名词、哪个是动词、哪个是形容词?
    b.能带来什么好处
        系统自动标注词性:
        帮助理解句子结构
        支持复杂语义分析
        提升信息提取准确度
        AI 理解语法,分析更准确。
    c.投资回报
        分析准确:语法理解提升分析质量
        信息提取:更准确地提取关键信息
        自动化:语法分析自动化
    d.实施难度
        低。系统自动处理。

11.依存分析(权责关系)
    a.解决什么问题
        合同句子复杂,谁是主语、谁是宾语?
        "甲方应向乙方付款"——谁付给谁?
    b.能带来什么好处
        系统分析句子中的权责关系:
        识别甲方、乙方的角色
        判断付款方向
        准确理解合同权责
        避免因语法理解错误导致的分析偏差。
    c.投资回报
        理解准确:准确判断权责关系
        风险控制:避免理解错误导致的判断失误
        自动化:语法分析自动化
    d.实施难度
        低。系统自动处理。

12.成分分析(条款结构)
    a.解决什么问题
        合同条款结构复杂,需要理解层次结构。
        哪些是主句、哪些是从句?
    b.能带来什么好处
        系统分析条款的语法结构:
        分解复杂条款
        理解层次关系
        提取核心含义
        复杂条款也能准确理解。
    c.投资回报
        理解深入:复杂条款结构清晰
        分析准确:层次理解提升准确度
        自动化:结构分析自动化
    d.实施难度
        低。系统自动处理。

13.词形还原(统一词形)
    a.解决什么问题
        同一个词有不同形式:
        "付款"、"付款了"、"付款后"
        搜索时搜不到不同形式的词
    b.能带来什么好处
        系统自动还原词形:
        "付款了"→"付款"
        "供应商们"→"供应商"
        搜"付款"也能找到"付款后"
        搜索更准确,不漏内容。
    c.投资回报
        检索全面:不同词形都能找到
        处理统一:词形统一,分析更准确
        自动化:还原过程自动化
    d.实施难度
        低。系统自动处理。

14.词干提取(英文处理)
    a.解决什么问题
        英文合同中同一词有不同变化形式:
        "running"、"runs"、"ran"
    b.能带来什么好处
        提取英文词的词干:
        统一不同变化形式
        提升英文检索准确率
        支持英文合同分析
        英文合同处理更准确。
    c.投资回报
        英文支持:支持英文合同分析
        检索准确:英文检索更准确
        国际化:适应国际化业务需求
    d.实施难度
        低。系统自动处理。

15.停用词过滤(聚焦重点)
    a.解决什么问题
        文本中有很多"没意义"的常用词:
        "的"、"是"、"在"
        这些词影响分析效率
    b.能带来什么好处
        系统自动过滤停用词:
        去除无意义词汇
        聚焦实质内容
        提升分析效率
        分析更聚焦,效率更高。
    c.投资回报
        效率提升:减少噪声,分析更快
        质量提升:聚焦实质内容
        自动化:过滤过程自动化
    d.实施难度
        低。系统自动处理。

16.词义消歧(判断多义词)
    a.解决什么问题
        同一个词在不同语境下有不同含义:
        "银行":金融机构还是河岸?
        "甲方":具体指哪个单位?
    b.能带来什么好处
        系统根据上下文判断词义:
        识别多义词的具体含义
        避免理解错误
        提升分析准确度
        AI 的"察言观色"能力。
    c.投资回报
        理解准确:多义词不误解
        分析质量:语义理解更准确
        风险控制:避免理解错误导致判断失误
    d.实施难度
        低。系统自动处理。

17.意图识别(理解用户需求)
    a.解决什么问题
        用户输入一句话,系统不知道用户想干什么。
        "我要查合同"是查询还是分析?
    b.能带来什么好处
        系统识别用户意图:
        "查找合同"→执行检索
        "分析风险"→执行分析
        "生成报告"→执行报告生成
        理解用户真正想做什么,提供精准服务。
    c.投资回报
        服务精准:理解用户需求,精准响应
        效率提升:减少来回沟通
        用户体验:智能交互更友好
    d.实施难度
        中。需要配置意图识别模型(1-2 个月)。

18.情感分析(态度判断)
    a.解决什么问题
        供应商沟通记录中有情绪信息。
        哪些是正面、哪些是负面?
        负面情绪可能预示纠纷风险。
    b.能带来什么好处
        系统分析沟通记录的情感:
        识别正面/负面/中性态度
        发现潜在不满情绪
        预警可能的纠纷风险
        从情绪中发现风险信号。
    c.投资回报
        风险预警:负面情绪预警纠纷风险
        服务监控:监控沟通质量
        决策支撑:情感因素纳入考量
    d.实施难度
        低。系统自动分析。

19.情绪检测(识别具体情绪)
    a.解决什么问题
        只知道"不高兴"不够,还需要知道是"愤怒"还是"失望"。
        不同情绪需要不同处理方式。
    b.能带来什么好处
        系统识别具体情绪类型:
        愤怒:需要立即处理
        失望:需要改进服务
        焦虑:需要安抚沟通
        精细化情绪识别,精准应对。
    c.投资回报
        精准应对:不同情绪不同处理
        风险控制:愤怒情绪优先处理
        服务提升:针对性改进服务
    d.实施难度
        低。系统自动检测。

20.讽刺检测(识别反话)
    a.解决什么问题
        有些表达是"阴阳怪气":
        "真是太好了"可能是讽刺
        字面正面,实际负面
    b.能带来什么好处
        系统识别讽刺表达:
        识别"阴阳怪气"的话
        避免误判为正面评价
        准确理解真实态度
        不被表面文字迷惑。
    c.投资回报
        理解准确:讽刺不误判
        风险发现:讽刺背后可能有不满
        分析质量:情感分析更准确
    d.实施难度
        中。需要配置讽刺检测模型(1 个月)。

21.主题建模(自动归纳话题)
    a.解决什么问题
        100 份合同主要讨论什么?
        人工浏览归纳太费时间。
    b.能带来什么好处
        系统自动归纳合同主题:
        付款相关条款:35%
        交付相关条款:25%
        质量相关条款:20%
        快速了解合同关注点,把握重点。
    c.投资回报
        效率提升:快速了解合同主题分布
        重点把握:知道主要关注哪些方面
        分析基础:为主题分析打基础
    d.实施难度
        低。系统自动分析。

22.文本分类(自动归类)
    a.解决什么问题
        合同需要分类管理:
        采购合同、服务合同、租赁合同
        人工分类效率低、易出错
    b.能带来什么好处
        系统自动判断合同类型并分类:
        识别合同特征
        自动归类到预定义类别
        支持批量处理
        合同自动归档,管理更规范。
    c.投资回报
        效率提升:分类时间从 1 天缩短到 10 分钟
        准确性:自动分类准确率 95%+
        管理规范:分类统一,便于检索
    d.实施难度
        中。需要训练分类模型(1-2 个月)。

23.文本聚类(相似分组)
    a.解决什么问题
        想把相似合同分成组,但不知道怎么分。
        没有预定义类别,需要自动发现分组。
    b.能带来什么好处
        系统自动将相似合同分组:
        相似合同自动"抱团"
        发现合同中的自然分组
        识别异常(不属于任何组的合同)
        发现隐藏的合同模式。
    c.投资回报
        模式发现:发现相似合同的共同特征
        异常检测:发现与其他合同不同的异常
        分析基础:为深入分析打基础
    d.实施难度
        低。系统自动聚类。

24.语义编码(文字变坐标)
    a.解决什么问题
        计算机不能直接理解文字含义。
        需要把文字变成可以计算的"数字"。
    b.能带来什么好处
        把文字编码为数字向量:
        "水泥"变成一串数字
        语义相近的词数字也相近
        支持语义计算和检索
        文字变成可计算的"坐标"。
    c.投资回报
        计算基础:语义分析的基础技术
        智能检索:支持语义检索
        相似度计算:支持相似度计算
    d.实施难度
        低。使用预训练模型即可。

25.词语向量(词义坐标)
    a.解决什么问题
        怎么让计算机知道"水泥"和"混凝土"意思相近?
        需要把词变成可以比较的数字。
    b.能带来什么好处
        把每个词变成向量:
        意思相近的词向量相近
        "水泥"和"混凝土"在向量空间距离近
        支持词语相似度计算
        AI 能计算词语之间的"距离"。
    c.投资回报
        语义理解:计算机理解词语含义
        相似度计算:计算词语相似度
        检索增强:支持同义词检索
    d.实施难度
        低。使用预训练词向量即可。

26.全局词向量(GloVe)
    a.解决什么问题
        不同词向量算法有不同特点。
        GloVe 通过全局统计生成词向量。
    b.能带来什么好处
        使用 GloVe 生成词向量:
        结合全局统计信息
        某些任务上效果更好
        可作为预训练基础
        选择合适的词向量算法。
    c.投资回报
        效果提升:某些场景效果更好
        技术选择:多一种技术选择
        基础能力:词向量是 NLP 基础
    d.实施难度
        低。使用预训练模型即可。

27.快速文本向量(FastText)
    a.解决什么问题
        遇到没见过的词怎么办?
        传统词向量无法处理新词。
    b.能带来什么好处
        FastText 支持子词信息:
        能理解没见过的词
        对中文和新词处理更好
        支持多语言
        专业术语、新词也能处理。
    c.投资回报
        新词处理:没见过的词也能理解
        专业支持:专业术语处理更好
        多语言:支持多语言场景
    d.实施难度
        低。使用预训练模型即可。

28.上下文向量(BERT编码)
    a.解决什么问题
        同一个词在不同句子中含义不同:
        "银行"在"去银行存钱"和"在河边散步到银行"
        传统词向量无法区分
    b.能带来什么好处
        BERT 根据上下文生成词向量:
        同一个词在不同句子中有不同向量
        更准确表达语义
        语义理解更精准
        理解词语的"语境含义"。
    c.投资回报
        语义准确:上下文相关,理解更准
        消歧能力:自动区分多义词
        效果提升:分析效果提升 20%+
    d.实施难度
        中。需要 BERT 模型支持。

29.句子向量(句子坐标)
    a.解决什么问题
        需要比较两个句子的相似度。
        整句话怎么变成可比较的数字?
    b.能带来什么好处
        把整句话编码为一个向量:
        "甲方应按时付款"→一个向量
        支持句子相似度计算
        支持句子级别检索
        AI 能计算句子之间的相似度。
    c.投资回报
        句子匹配:计算句子相似度
        检索增强:支持句子级别检索
        语义理解:整句语义理解
    d.实施难度
        中。需要句子编码模型。

30.文档向量(文档指纹)
    a.解决什么问题
        需要比较两份合同的相似度。
        整份合同怎么变成可比较的数字?
    b.能带来什么好处
        把整份合同编码为一个向量:
        每份合同有唯一的"指纹"
        支持文档相似度计算
        支持快速检索相似文档
        AI 的"文档指纹"技术。
    c.投资回报
        相似匹配:快速找到相似合同
        检索加速:文档级别检索
        分类支持:支持文档分类
    d.实施难度
        中。需要文档编码模型。

31.多模态向量(图文统一)
    a.解决什么问题
        合同有文本也有扫描件图片。
        怎么让文本和图片可以互相检索?
    b.能带来什么好处
        把文本和图片编码到同一空间:
        用文字搜图片
        用图片搜文字
        跨模态检索
        文本和图片可以互相检索。
    c.投资回报
        跨模态检索:文字搜图片,图片搜文字
        证据关联:文本和扫描件关联
        分析全面:多模态综合分析
    d.实施难度
        高。需要多模态编码模型(2-3 个月)。

32.语义检索(意思匹配)
    a.解决什么问题
        关键词检索找不到语义相关的内容。
        搜"价格"找不到"溢价"。
    b.能带来什么好处
        基于语义相似度检索:
        搜"价格"也能找到"溢价"、"差价"
        不限于关键词匹配
        更智能的检索方式
        "意思相近"替代"字面匹配"。
    c.投资回报
        检索全面:不漏语义相关内容
        智能程度:从关键词升级到语义
        效率提升:检索更精准
    d.实施难度
        中。需要建立语义索引(1-2 个月)。

33.关键词检索(精确匹配)
    a.解决什么问题
        有些场景需要精确匹配关键词。
        "合同编号:2024-001"必须精确匹配。
    b.能带来什么好处
        传统关键词检索:
        精确匹配关键词
        适合有明确关键词的检索
        与语义检索结合使用
        精确匹配是检索的基础能力。
    c.投资回报
        精确匹配:有明确关键词时最可靠
        基础能力:检索系统必备
        混合使用:与语义检索结合
    d.实施难度
        低。使用现有搜索引擎即可。

34.精细检索(先粗后细)
    a.解决什么问题
        检索精度要求高,粗略检索不够精确。
        需要更精细的匹配方法。
    b.能带来什么好处
        先粗选再精细匹配:
        先快速筛选候选
        再逐条精细对比
        兼顾效率和精度
        像招聘先筛简历再面试。
    c.投资回报
        精度提升:检索精度提升 30%+
        效率保证:先粗后细,效率不低
        结果可靠:最终结果更精准
    d.实施难度
        中。需要精细检索模型。

35.高精度检索(ColBERT)
    a.解决什么问题
        合同检索要求高精度。
        检索结果必须是最相关的。
    b.能带来什么好处
        使用 ColBERT 高精度检索:
        检索效果更好
        法律和合同检索效果优异
        可解释性强
        合同条款检索的利器。
    c.投资回报
        效果最好:检索精度最高
        专业场景:适合合同法律检索
        可解释:知道为什么匹配
    d.实施难度
        中。需要部署 ColBERT 模型。

36.云端向量库(Pinecone)
    a.解决什么问题
        要建立向量检索系统,但不想自己搭服务器。
        小团队没有运维能力。
    b.能带来什么好处
        使用托管向量数据库:
        开箱即用,无需运维
        按使用量付费
        快速落地
        不用搭服务器,直接用。
    c.投资回报
        快速落地:无需部署,即开即用
        成本可控:按量付费,无固定成本
        人力节省:无需运维人员
    d.实施难度
        低。注册账号即可使用。

37.内网向量库(Milvus)
    a.解决什么问题
        数据敏感,不能上云。
        需要在内网部署向量数据库。
    b.能带来什么好处
        使用开源向量数据库内网部署:
        数据不出公司
        完全自主可控
        支持大规模检索
        数据安全,自主可控。
    c.投资回报
        数据安全:敏感数据不出公司
        自主可控:自己部署自己管理
        成本透明:软件免费,只需服务器
    d.实施难度
        中。需要技术团队部署(1-2 个月)。

38.轻量向量库(Chroma)
    a.解决什么问题
        想快速搭建原型,不需要大规模部署。
        重型数据库太复杂。
    b.能带来什么好处
        使用轻量级向量数据库:
        快速上手
        适合中小规模
        适合原型开发
        轻量快速,适合起步。
    c.投资回报
        快速起步:原型快速搭建
        简单易用:学习成本低
        适合验证:先验证再投入
    d.实施难度
        低。快速安装即可使用。

39.图谱向量库(Weaviate)
    a.解决什么问题
        既要做语义检索,又要管理知识关联。
        需要向量检索和知识图谱结合。
    b.能带来什么好处
        向量检索和知识图谱一体化:
        语义搜索
        知识关联
        复杂查询支持
        语义搜索 + 知识关联。
    c.投资回报
        能力全面:语义+图谱双重能力
        复杂查询:支持复杂关联查询
        分析深入:语义和关联结合分析
    d.实施难度
        中。需要部署和配置(1-2 个月)。

40.高性能检索(Faiss)
    a.解决什么问题
        需要处理大规模向量检索。
        千万级向量怎么快速检索?
    b.能带来什么好处
        使用高性能向量检索库:
        支持十亿级向量检索
        性能极佳
        GPU 加速
        向量检索的"引擎"。
    c.投资回报
        性能极致:速度极快
        规模支持:支持大规模检索
        基础能力:向量检索核心能力
    d.实施难度
        中。需要技术集成(1 个月)。

41.过滤检索(Qdrant)
    a.解决什么问题
        检索时需要带条件过滤:
        找"水泥"相关的合同
        但只要"2023年"的
        还要"某供应商"的
    b.能带来什么好处
        支持向量检索 + 元数据过滤:
        语义检索找相关内容
        同时按条件过滤
        结果既相关又符合条件
        "带条件"的智能检索。
    c.投资回报
        检索精准:语义匹配+条件过滤
        灵活查询:支持复杂查询条件
        效率提升:一步到位,不用二次筛选
    d.实施难度
        中。需要部署 Qdrant(1 个月)。

42.增强检索(ES向量扩展)
    a.解决什么问题
        公司已有 Elasticsearch 系统。
        不想重新部署新的向量数据库。
    b.能带来什么好处
        在现有 ES 上增加向量能力:
        保留原有搜索功能
        增加向量检索能力
        支持混合检索
        老系统升级,不用推倒重来。
    c.投资回报
        保护投资:原有系统继续使用
        平滑升级:增加能力,不换系统
        混合检索:关键词+向量双支持
    d.实施难度
        中。需要升级 ES 集群(1-2 个月)。

43.查询重写(搜索优化)
    a.解决什么问题
        用户输入的查询可能不够全面。
        搜"高价"可能漏掉"溢价"、"超出市场价"。
    b.能带来什么好处
        系统自动重写查询:
        "高价"→"高价 OR 溢价 OR 超出市场价"
        扩大检索范围
        找到更多相关内容
        把一个问题变成多个问题来搜。
    c.投资回报
        检索全面:不漏相关内容
        智能程度:自动扩展同义词
        效率提升:不用人工想同义词
    d.实施难度
        低。配置查询重写规则即可。

44.查询扩展(加料搜索)
    a.解决什么问题
        搜"水泥"可能漏掉"混凝土"相关内容。
        怎么让检索更全面?
    b.能带来什么好处
        自动给查询添加相关词:
        "水泥"→"水泥 + 混凝土 + 建材"
        扩大检索范围
        避免漏掉相关内容
        给查询"加料",搜索更全面。
    c.投资回报
        检索全面:同义词都搜到
        召回提升:召回率提升 30%+
        自动化:自动扩展,不用人工
    d.实施难度
        低。配置扩展规则即可。

45.经典检索(BM25)
    a.解决什么问题
        传统关键词检索仍然有用。
        精确匹配场景 BM25 效果好。
    b.能带来什么好处
        使用经典 BM25 算法:
        关键词精确匹配
        考虑词频和文档长度
        搜索引擎的标准算法
        关键词检索的经典选择。
    c.投资回报
        精确匹配:关键词匹配最可靠
        成熟稳定:经过长期验证
        基础能力:检索系统必备
    d.实施难度
        低。ES 默认支持。

46.关键词权重(TF-IDF)
    a.解决什么问题
        哪些词在文档中更重要?
        需要量化词的重要性。
    b.能带来什么好处
        计算词在文档中的重要性:
        出现多但常见的词权重低
        出现少但独特的词权重高
        用于关键词提取和检索
        判断词"有多重要"。
    c.投资回报
        关键词提取:自动提取重要词汇
        检索优化:重要词匹配权重高
        文本分析:理解文档重点
    d.实施难度
        低。标准算法,直接使用。

47.检索评估(效果打分)
    a.解决什么问题
        检索系统效果好不好?
        需要量化评估标准。
    b.能带来什么好处
        使用标准指标评估检索效果:
        精确率:返回的结果有多准
        召回率:相关内容找到多少
        排序质量:最相关的排前面
        给检索系统"打分"。
    c.投资回报
        效果量化:知道系统效果好坏
        持续优化:基于指标持续改进
        质量保障:检索质量可衡量
    d.实施难度
        低。使用标准评估工具。

48.方向相似度(余弦相似度)
    a.解决什么问题
        怎么计算两个向量的相似度?
        需要标准计算方法。
    b.能带来什么好处
        计算向量夹角的余弦值:
        衡量方向相似性
        0-1 之间,越接近 1 越相似
        向量检索的核心计算
        向量相似度的标准算法。
    c.投资回报
        计算标准:相似度计算的标准方法
        检索基础:向量检索的核心
        广泛使用:业界通用方法
    d.实施难度
        低。标准算法,直接使用。

49.直线距离(欧氏距离)
    a.解决什么问题
        怎么衡量两个向量之间的绝对距离?
        方向相似但距离远的情况怎么判断?
    b.能带来什么好处
        计算向量之间的直线距离:
        衡量绝对差异
        适合发现异常
        与余弦相似度结合使用
        两点之间的"直线距离"。
    c.投资回报
        异常发现:发现距离远的异常
        差异量化:量化绝对差异
        聚类分析:用于聚类和分组
    d.实施难度
        低。标准算法,直接使用。

50.快速相似度(点积)
    a.解决什么问题
        需要快速计算向量相似度。
        余弦相似度计算量大。
    b.能带来什么好处
        用点积快速计算相似度:
        归一化向量点积等于余弦相似度
        计算速度快
        适合大规模检索
        相似度计算的快速方法。
    c.投资回报
        速度快:计算速度大幅提升
        大规模:适合大规模检索
        效果相同:结果与余弦相似度一致
    d.实施难度
        低。标准算法,直接使用。

51.城市距离(曼哈顿距离)
    a.解决什么问题
        有些场景需要更鲁棒的距离度量。
        异常值影响大的情况怎么办?
    b.能带来什么好处
        使用曼哈顿距离:
        对异常值不敏感
        像在城市走路,只能横着或竖着
        聚类分析更稳定
        对异常值更"宽容"的距离。
    c.投资回报
        鲁棒性强:不受异常值影响
        聚类稳定:聚类结果更稳定
        场景适用:特定场景效果更好
    d.实施难度
        低。标准算法,直接使用。

52.集合相似度(Jaccard)
    a.解决什么问题
        怎么判断两份合同内容重叠多少?
        词汇集合的相似度怎么算?
    b.能带来什么好处
        计算集合的交并比:
        重叠部分占合并部分的比例
        适合判断内容重复度
        用于去重和相似判断
        "重叠部分"占"合并部分"的比例。
    c.投资回报
        去重判断:判断内容是否重复
        相似度量:量化集合相似度
        简单有效:计算简单效果好
    d.实施难度
        低。标准算法,直接使用。

53.字符串相似度(编辑距离)
    a.解决什么问题
        "海螺水泥"和"海螺水泥有限公司"有多相似?
        字符串相似度怎么算?
    b.能带来什么好处
        计算字符串的最小编辑次数:
        把一个词变成另一个词需要改几个字
        用于拼写纠错和模糊匹配
        判断名称相似度
        把一个词变成另一个词要改几个字。
    c.投资回报
        模糊匹配:名称相似度判断
        拼写纠错:自动纠正输入错误
        去重辅助:判断是否重复
    d.实施难度
        低。标准算法,直接使用。

54.近似搜索(ANN)
    a.解决什么问题
        精确搜索太慢,百万级数据怎么快速检索?
        需要牺牲少量精度换取大幅提升的速度。
    b.能带来什么好处
        使用近似最近邻搜索:
        牺牲不到 1% 精度
        换取 100 倍速度提升
        适合大规模检索
        用"差不多"的方法快速找到"差不多"最近的结果。
    c.投资回报
        速度提升:检索速度快 100 倍
        精度损失小:精度损失不到 1%
        大规模支持:支持百万级以上数据
    d.实施难度
        中。需要配置 ANN 索引。

55.图索引(HNSW)
    a.解决什么问题
        ANN 算法有很多,哪个效果最好?
        需要高召回率和高效率的算法。
    b.能带来什么好处
        使用 HNSW 图索引:
        ANN 中效果最好的算法之一
        高召回率高效率
        目前最流行的 ANN 算法
        近似搜索的"最优选择"。
    c.投资回报
        效果最好:ANN 算法中效果最优
        广泛应用:业界广泛使用
        检索加速:大幅提升检索速度
    d.实施难度
        中。需要配置 HNSW 索引。

56.桶索引(IVF)
    a.解决什么问题
        向量太多,怎么组织才能快速检索?
        需要分桶策略加速检索。
    b.能带来什么好处
        将向量分到不同桶里:
        检索时只搜相关桶
        减少搜索范围
        加速检索
        把向量分"桶",只搜相关的桶。
    c.投资回报
        检索加速:减少搜索范围
        组织有序:向量组织有序
        灵活配置:桶数量可调整
    d.实施难度
        中。需要配置 IVF 索引。

57.向量压缩(乘积量化)
    a.解决什么问题
        向量占用存储空间大。
        百万级向量需要大量存储。
    b.能带来什么好处
        压缩向量存储:
        将向量压缩 8-32 倍
        大幅节省存储空间
        支持更大规模数据
        把向量"压缩",节省存储。
    c.投资回报
        存储节省:存储空间减少 8-32 倍
        成本降低:服务器成本降低
        规模扩展:支持更大规模数据
    d.实施难度
        中。需要配置 PQ 压缩。

58.哈希检索(LSH)
    a.解决什么问题
        海量数据怎么快速找到相似的?
        需要极速的近似检索方法。
    b.能带来什么好处
        使用局部敏感哈希:
        相似向量哈希到同一个桶
        快速找到相似内容
        适合海量数据
        把相似向量"哈希"到同一个桶。
    c.投资回报
        极速检索:检索速度极快
        海量支持:适合海量数据
        去重利器:快速检测重复
    d.实施难度
        中。需要配置 LSH 索引。

59.图结构索引(Graph Index)
    a.解决什么问题
        向量之间有关系,怎么利用这种关系?
        需要图结构的索引方法。
    b.能带来什么好处
        用图结构组织向量:
        相似向量互相连接
        沿着边找最近邻
        高召回率高效率
        把向量连成图,沿着边找。
    c.投资回报
        检索高效:检索效率高
        召回率高:找到更多相关内容
        结构利用:利用向量间关系
    d.实施难度
        中。需要配置图索引。

1.11 [2]推理与架构

01.智能体(自主干活的AI)
    a.解决什么问题
        传统AI只会回答问题,不会"干活"。
        审计需要查多个系统、翻多份档案、综合分析,人工操作太繁琐。
    b.能带来什么好处
        AI 像员工一样自主工作:
        发现异常后自动查数据、翻档案
        自己规划步骤:"第一步查规格,第二步查运费,第三步写总结"
        完成后自动发报告
        从"问答工具"升级为"数字员工"。
    c.投资回报
        人力节省:替代跨系统人工操作,省 2-3 个岗位
        效率提升:7×24 小时自动工作,不用休息
        标准化:每次操作流程一致,不会遗漏
    d.实施难度
        中。需要打通系统和配置工作流(2-3 个月)。

02.思维链(展示推理过程)
    a.解决什么问题
        AI 直接给结论,不知道怎么推导出来的。
        审计报告需要逻辑清晰,每个结论要有推导过程。
    b.能带来什么好处
        AI 分步展示推理过程:
        第一步:确认品名一致(都是 P.O 42.5 水泥)
        第二步:发现 B 项目含税而 A 项目不含税
        第三步:计算税后差额为 5 元
        逻辑步步为营,便于查错。
    c.投资回报
        可审核:推导过程清晰,经得起追问
        易纠错:发现错误能定位到具体步骤
        可信度高:有逻辑支撑,结论更可信
    d.实施难度
        低。引导 AI 分步输出即可。

03.可解释性(追溯依据)
    a.解决什么问题
        AI 的结论从哪来?有什么证据?
        审计报告每个结论都要有据可查。
    b.能带来什么好处
        给 AI 结论贴上"证据标签":
        高亮显示合同第 15 页的"加急泵送服务"条款
        点击可跳转到原始证据
        每个判断都有出处
        让结论"眼见为实"。
    c.投资回报
        审计合规:每个结论有据可查
        可信度高:有证据支撑,领导更信服
        可追溯:出问题能定位到源头
    d.实施难度
        中。需要建立证据链接系统(1-2 个月)。

04.长文档处理(大容量记忆)
    a.解决什么问题
        AI 记不住太多内容,读到第 50 页就忘了第 1 页。
        对比两个项目各几十份合同,需要全局记忆。
    b.能带来什么好处
        AI 能一次性"吞下"大量文档:
        同时对比几十份合同
        全局交叉验证
        不会"读了后面忘前面"
        复杂项目的全局对比成为可能。
    c.投资回报
        分析全面:全局对比,不遗漏关联
        效率提升:不用分批处理再人工汇总
        质量提升:结论基于完整信息
    d.实施难度
        低。选择支持长上下文的模型即可。

05.定制化训练(打造专属AI)
    a.解决什么问题
        通用 AI 不懂公司特有业务:
        不理解"调拨价"与"采购价"的区别
        不知道公司特有的采购编码规则
    b.能带来什么好处
        用公司数据训练专属 AI:
        理解公司特有术语和规则
        一看就知道"出厂价"与"到场价"差 15%
        像个"老员工"一样懂业务
        从"通用 AI"变成"行业专家"。
    c.投资回报
        业务理解:懂公司特有业务规则
        准确率高:针对公司场景优化,准确率提升 30%
        差异化:竞争对手无法复制的专属能力
    d.实施难度
        高。需要数据和算力投入(3-6 个月)。

06.幻觉控制(防止瞎编)
    a.解决什么问题
        AI 有时会"一本正经地胡说八道"。
        审计场景中,虚假信息可能导致严重后果。
    b.能带来什么好处
        给 AI 装上"事实安全阀":
        档案缺失时如实回答"资料不足"
        不编造理由,不瞎猜
        有证据才下结论
        避免误导决策。
    c.投资回报
        风险控制:避免虚假信息误导决策
        可信度高:实事求是,更值得信任
        合规要求:审计报告不能有虚假内容
    d.实施难度
        中。需要配置事实核查机制(1-2 个月)。

07.监督微调(专业培训)
    a.解决什么问题
        想让 AI 学会特定任务,需要"专业培训"。
        通用模型不够专业,需要针对性提升。
    b.能带来什么好处
        用标注数据对 AI 进行"专业培训":
        用历史审计报告训练模型
        让它学会"审计腔"和专业表达
        特定任务准确率提升 30%+
        给 AI 上"专业课"。
    c.投资回报
        专业提升:特定任务效果大幅提升
        风格统一:输出符合公司规范
        效率提升:减少人工修改
    d.实施难度
        中。需要准备训练数据(1-2 个月)。

08.偏好学习(人类反馈强化)
    a.解决什么问题
        AI 输出风格不符合要求。
        怎么让 AI 生成"领导爱看"的报告?
    b.能带来什么好处
        让 AI 学习人类偏好:
        收集"好报告"和"差报告"的对比
        训练 AI 生成符合偏好的内容
        输出越来越符合期望
        让 AI "讨好"人类。
    c.投资回报
        风格匹配:输出符合公司偏好
        减少修改:人工修改量减少 50%
        满意度高:领导更满意 AI 输出
    d.实施难度
        高。需要收集偏好数据并训练(2-3 个月)。

09.低成本微调(省钱定制)
    a.解决什么问题
        微调大模型成本太高,需要昂贵算力。
        小公司没有 GPU 集群怎么定制?
    b.能带来什么好处
        只改模型的小部分参数:
        微调成本降低 90%+
        普通服务器也能做
        效果接近全量微调
        微调的"省钱版"。
    c.投资回报
        成本降低:微调成本降低 90%
        门槛降低:普通公司也能定制 AI
        效果保证:效果接近全量微调
    d.实施难度
        中。需要技术团队配置(1-2 个月)。

10.模型压缩(模型减肥)
    a.解决什么问题
        大模型占用资源多,部署成本高。
        想在内网部署但服务器资源有限。
    b.能带来什么好处
        给模型"减肥":
        模型体积缩小 4 倍
        推理成本降低 50%+
        普通服务器可部署
        小设备也能跑大模型。
    c.投资回报
        成本降低:服务器成本降低 50%
        部署灵活:可在普通服务器部署
        效率提升:推理速度更快
    d.实施难度
        中。需要量化和测试(1 个月)。

11.知识迁移(大模型教小模型)
    a.解决什么问题
        大模型能力强但成本高。
        能不能让小模型也有大模型的能力?
    b.能带来什么好处
        用大模型"教"小模型:
        大模型生成训练数据
        小模型学习达到类似效果
        速度快 10 倍,成本降低 80%
        "大老师"教"小学生"。
    c.投资回报
        成本降低:使用成本降低 80%
        速度提升:推理速度快 10 倍
        效果保证:达到大模型 90% 效果
    d.实施难度
        中。需要训练小模型(1-2 个月)。

12.多智能体协作(AI团队)
    a.解决什么问题
        复杂任务一个人干不完,需要分工协作。
        能不能让多个 AI 组队干活?
    b.能带来什么好处
        组建"AI 团队":
        数据 Agent 负责提取信息
        分析 Agent 负责对比价格
        风险 Agent 负责预警
        报告 Agent 负责撰写
        像组建虚拟团队一样。
    c.投资回报
        能力扩展:复杂任务可分解协作
        质量提升:多个 AI 互相检查
        效率提升:并行处理,更快完成
    d.实施难度
        中。需要设计协作流程(2-3 个月)。

13.边想边干(推理-行动)
    a.解决什么问题
        AI 是"想完再干"还是"边想边干"?
        复杂任务需要边思考边调整。
    b.能带来什么好处
        AI 边想边干:
        先想"需要查历史价格"
        调用 API 查询
        观察结果后再想"需要查供应商信用"
        继续调用,直到得出结论
        像人一样"想一步干一步"。
    c.投资回报
        灵活性:根据情况动态调整
        准确性:边做边验证,结果更准
        可解释:每步都有思考过程
    d.实施难度
        中。需要配置推理-行动框架(1-2 个月)。

14.先规划后执行(项目管理式)
    a.解决什么问题
        复杂任务需要先做计划,再按计划执行。
        避免想到哪做到哪。
    b.能带来什么好处
        先做"计划表",再按计划执行:
        AI 先生成审计计划(10 个步骤)
        你审核计划
        AI 按计划逐项执行
        像项目管理一样。
    c.投资回报
        可控性强:计划可审核,执行可监控
        不遗漏:按计划执行,不会忘
        进度可视:每步完成都标记
    d.实施难度
        中。需要配置规划-执行框架(1-2 个月)。

15.自我反思(AI自检)
    a.解决什么问题
        AI 生成内容可能有错误。
        能不能让 AI 自己检查自己?
    b.能带来什么好处
        AI 生成后自我反思:
        生成报告后问"结论有证据支持吗?"
        发现不足后补充证据
        改进后再提交
        让 AI "自省"。
    c.投资回报
        质量提升:自检后错误减少 50%
        减少人工:不用人工逐条检查
        可信度高:经过自检的内容更可靠
    d.实施难度
        低。配置反思提示词即可。

16.自主任务(给定目标自己干)
    a.解决什么问题
        能不能给 AI 一个目标,它自己想办法完成?
        不用教它怎么做。
    b.能带来什么好处
        给目标,AI 自己干:
        告诉它"分析这 100 份合同的风险"
        它自动规划步骤
        调取数据、分析问题、生成报告
        全自动执行。
    c.投资回报
        省心省力:给目标就行,不用管过程
        自动完成:7×24 小时自动工作
        适用广泛:各种任务都能自动处理
    d.实施难度
        高。需要配置完整的自主系统(3-4 个月)。

17.轻量自主(简化版Agent)
    a.解决什么问题
        自主 Agent 太复杂,有没有简单版本?
        先试试轻量方案。
    b.能带来什么好处
        轻量级自主框架:
        核心功能完整
        实现简单,易上手
        适合快速验证
        先跑起来再优化。
    c.投资回报
        快速验证:1 周内能跑起来
        成本低:投入少,风险小
        迭代灵活:验证后再投入
    d.实施难度
        低。快速搭建原型。

18.快速开发框架(LangChain)
    a.解决什么问题
        从零开发 AI 应用太慢。
        有没有现成框架快速搭建?
    b.能带来什么好处
        用框架快速搭建:
        像搭积木一样简单
        集成各种工具(搜索、数据库、文件)
        1 周内搭出原型
        快速落地的利器。
    c.投资回报
        开发效率:开发时间缩短 70%
        生态丰富:各种现成组件可用
        维护简单:框架统一,维护方便
    d.实施难度
        低。学习框架即可上手。

19.团队协作框架(CrewAI)
    a.解决什么问题
        要组建 AI 团队,怎么管理协作?
        有没有专门做多 Agent 协作的框架?
    b.能带来什么好处
        专门做"AI 团队"的框架:
        定义每个 AI 的角色
        配置协作流程
        自动分配任务
        像管理团队一样管理 AI。
    c.投资回报
        协作有序:AI 团队分工明确
        质量保证:互相检查,质量更高
        开发简单:框架封装了复杂逻辑
    d.实施难度
        中。需要设计团队协作流程(1-2 个月)。

20.对话协作框架(AutoGen)
    a.解决什么问题
        AI 之间怎么"开会讨论"?
        需要支持 AI 对话协作的框架。
    b.能带来什么好处
        微软的多 Agent 对话框架:
        AI 之间可以"开会讨论"
        互相求助、验证
        复杂问题协作解决
        AI 之间的"微信群"。
    c.投资回报
        协作智能:多 AI 讨论比单 AI 更准
        发现盲点:互相补充,不遗漏
        微软背书:成熟稳定,持续更新
    d.实施难度
        中。需要配置 Agent 对话流程(1-2 个月)。

21.角色模拟框架(MetaGPT)
    a.解决什么问题
        想让 AI 团队像公司一样分工。
        有 PM、有执行、有审核。
    b.能带来什么好处
        模拟公司角色的框架:
        项目经理 AI:规划任务
        执行 AI:干活
        审核 AI:把关质量
        像公司一样运作。
    c.投资回报
        专业分工:每个 AI 干专业的事
        流程规范:像公司流程一样标准
        质量保证:有审核环节
    d.实施难度
        中。需要设计角色分工(1-2 个月)。

22.AI记忆(记住历史)
    a.解决什么问题
        AI 每次都从零开始,记不住之前的事。
        怎么让 AI 积累经验?
    b.能带来什么好处
        给 AI 装"记忆":
        记住之前分析过的合同
        记住发现的问题模式
        下次遇到类似情况自动预警
        AI 能积累经验了。
    c.投资回报
        经验积累:越用越聪明
        效率提升:不用每次从零开始
        持续改进:自动学习新知识
    d.实施难度
        中。需要建立记忆存储系统(1-2 个月)。

23.AI环境(工作舞台)
    a.解决什么问题
        AI 能访问什么系统?能调用什么工具?
        需要定义 AI 的"工作环境"。
    b.能带来什么好处
        定义 AI 的"舞台":
        能访问哪些系统(ERP、财务、档案)
        能调用哪些工具(搜索、计算、发邮件)
        输出格式是什么
        AI 知道自己能干什么。
    c.投资回报
        边界清晰:AI 知道能做什么不能做什么
        安全可控:限制 AI 访问范围
        标准化:环境配置统一
    d.实施难度
        中。需要定义和配置环境(1 个月)。

24.状态管理(进度跟踪)
    a.解决什么问题
        AI 干到哪了?完成了多少?
        需要跟踪 AI 的工作进度。
    b.能带来什么好处
        跟踪 AI 工作状态:
        当前在分析哪份合同
        已完成 3 步,还剩 5 步
        发现了什么问题
        进度一目了然。
    c.投资回报
        进度可视:随时知道 AI 干到哪了
        断点续做:中断后能接着干
        问题定位:卡在哪一步一目了然
    d.实施难度
        低。配置状态记录即可。

25.多方案思考(思维树)
    a.解决什么问题
        一个问题可能有多种解释。
        AI 只给一个答案可能不够全面。
    b.能带来什么好处
        AI 同时考虑多种可能:
        同时考虑"统计口径""市场波动""供应商溢价"
        逐一验证每个可能
        选择证据最充分的结论
        像下棋一样思考多步。
    c.投资回报
        分析全面:多种可能都考虑到
        结论可靠:经过多方案对比
        说服力强:排除法更有说服力
    d.实施难度
        低。引导 AI 进行多方案思考即可。

26.思维图(复杂推理)
    a.解决什么问题
        思维树是树状,但有些推理是网状的。
        需要更灵活的推理结构。
    b.能带来什么好处
        把推理变成图结构:
        不同推理路径可以合并
        可以分支、回溯
        形成完整的推理网络
        比思维树更灵活。
    c.投资回报
        推理灵活:支持复杂网状推理
        综合判断:多个角度结论合并
        高级分析:复杂问题的利器
    d.实施难度
        中。需要设计推理图结构。

27.自我改进(AI改作业)
    a.解决什么问题
        AI 生成的报告可能有瑕疵。
        能不能让 AI 自己检查自己?
    b.能带来什么好处
        AI 生成后自我改进:
        生成报告后问"逻辑通顺吗?"
        发现问题自己修改
        改进后再提交
        让 AI 自己"改作业"。
    c.投资回报
        质量提升:自检后错误减少 50%
        减少人工:不用人工逐条检查
        持续优化:越改越好
    d.实施难度
        低。配置自我改进提示词即可。

28.退步思考(先看大局)
    a.解决什么问题
        AI 直接分析细节,可能忽略大局。
        能不能先理解原则再分析具体?
    b.能带来什么好处
        先退一步看大局:
        先问"审计的核心原则是什么"
        再分析具体合同
        带着原则去分析
        先看地图再走路。
    c.投资回报
        分析深度:带着原则分析,更有深度
        一致性:不同合同用同一原则
        专业性强:体现专业素养
    d.实施难度
        低。配置退步提示词即可。

29.类比推理(借鉴历史)
    a.解决什么问题
        当前问题和历史某个案例很像。
        能不能借鉴历史经验?
    b.能带来什么好处
        AI 检索相似历史案例:
        "这个情况和去年的 XX 案例很像"
        借鉴当时的分析思路
        借鉴当时的结论
        历史经验快速复用。
    c.投资回报
        效率提升:类似问题快速解决
        经验复用:历史经验不浪费
        决策一致:类似情况类似处理
    d.实施难度
        低。配置类比推理提示即可。

30.元认知(知道自己知道什么)
    a.解决什么问题
        AI 什么都敢说,不知道自己不知道。
        需要让 AI 有"自知之明"。
    b.能带来什么好处
        让 AI 知道自己的边界:
        "这个问题我不确定"
        "需要查更多信息"
        "建议咨询财务部门"
        AI 知道自己不知道什么。
    c.投资回报
        风险控制:不会不懂装懂
        可信度高:不确定就说不确定
        边界清晰:知道何时该问人
    d.实施难度
        低。配置元认知提示即可。

31.偏好优化(直接教AI喜欢什么)
    a.解决什么问题
        怎么让 AI 输出符合人类偏好?
        RLHF 太复杂,有没有更简单的方法?
    b.能带来什么好处
        直接用偏好数据优化模型:
        给 AI 看"好报告"和"差报告"
        让它学会人类喜欢什么
        比RLHF 更简单
        简化版的人类偏好训练。
    c.投资回报
        训练简单:比 RLHF 简单很多
        效果显著:输出更符合人类期望
        成本降低:训练成本降低 50%
    d.实施难度
        中。需要收集偏好数据并训练。

32.稳定训练(PPO算法)
    a.解决什么问题
        强化学习训练不稳定。
        需要稳定的训练方法。
    b.能带来什么好处
        使用稳定训练算法:
        小步慢跑,不求快但求稳
        限制每次更新幅度
        训练更稳定
        ChatGPT 的核心技术之一。
    c.投资回报
        训练稳定:不会崩溃
        效果可靠:最终效果有保障
        业界验证:经过大规模验证
    d.实施难度
        高。需要专业训练团队。

33.标签训练(KTO)
    a.解决什么问题
        偏好训练需要成对数据(好答案vs差答案)。
        收集成对数据太麻烦。
    b.能带来什么好处
        只需要单个标签:
        标注"这个回答好不好"即可
        不需要专门找对比样本
        标注成本降低 50%
        标注更简单的训练方法。
    c.投资回报
        标注简单:不用找配对样本
        成本降低:标注成本降低 50%
        效果相当:效果和配对训练相当
    d.实施难度
        中。需要收集单标签数据并训练。

34.联合训练(ORPO)
    a.解决什么问题
        微调和偏好训练要分开做。
        能不能一起做?
    b.能带来什么好处
        一次训练两个都学会:
        同时学习审计知识
        同时学习报告风格
        效率更高
        "学技能"和"学偏好"一起学。
    c.投资回报
        效率提升:训练时间减半
        效果更好:联合学习互相促进
        成本降低:只训练一次
    d.实施难度
        中。需要配置联合训练流程。

35.简化偏好训练(IPO)
    a.解决什么问题
        DPO 有些复杂,有没有更简单的版本?
    b.能带来什么好处
        DPO 的简化版:
        去掉复杂的正则化
        某些场景更稳定
        效果相当
        DPO 的"精简版"。
    c.投资回报
        实现简单:代码更简洁
        训练稳定:某些数据更稳定
        备选方案:多一种选择
    d.实施难度
        中。需要配置IPO训练。

36.高效微调(PEFT)
    a.解决什么问题
        全量微调成本太高。
        普通服务器跑不动。
    b.能带来什么好处
        只训练小部分参数:
        训练 1-10% 的参数
        效果接近全量微调
        成本降低 90%+
        微调的"省钱派"。
    c.投资回报
        成本降低:微调成本降低 90%+
        资源友好:普通服务器也能微调
        效果接近:效果接近全量微调
    d.实施难度
        中。需要选择PEFT方法并配置。

37.极限微调(QLoRA)
    a.解决什么问题
        LoRA 还是太贵。
        能不能更省钱?
    b.能带来什么好处
        量化 + LoRA:
        先把模型压缩到4-bit
        再用LoRA微调
        单张显卡也能微调大模型
        LoRA 的"极限省钱版"。
    c.投资回报
        成本极低:单张消费级显卡也能微调
        普及微调:小团队也能定制模型
        效果保留:效果损失很小
    d.实施难度
        中。需要配置QLoRA训练。

38.自适应微调(AdaLoRA)
    a.解决什么问题
        LoRA 的参数是固定的。
        能不能自动调整?
    b.能带来什么好处
        自动分配参数:
        重要的层多分配参数
        不重要的层少分配
        效果更好
        LoRA 的"智能版"。
    c.投资回报
        效果提升:比固定LoRA效果好
        资源优化:参数分配更合理
        自动化:不用手动调参数
    d.实施难度
        中。需要配置AdaLoRA。

39.插件式微调(Adapter)
    a.解决什么问题
        不想改原模型。
        能不能用"插件"方式?
    b.能带来什么好处
        给模型装"插件":
        不动原模型
        在层间插入小模块
        只训练小模块
        像给软件装插件。
    c.投资回报
        保护原模型:原模型不变
        灵活切换:不同任务换不同插件
        参数极少:只有原模型的 1-5%
    d.实施难度
        中。需要训练Adapter模块。

40.前缀微调(Prefix Tuning)
    a.解决什么问题
        能不能给 AI 加个"专属前缀"?
        让它自动适应特定任务。
    b.能带来什么好处
        训练专属前缀:
        在输入前加可训练的前缀
        不同任务不同前缀
        一个模型服务多个场景
        给 AI 加"专属身份证"。
    c.投资回报
        一模型多用:一个模型多个前缀
        参数极少:不到 1% 参数
        灵活切换:换前缀就换场景
    d.实施难度
        中。需要训练前缀向量。

41.自动提示学习(P-Tuning)
    a.解决什么问题
        人工设计提示词效果不稳定。
        能不能让 AI 自己学最优提示?
    b.能带来什么好处
        自动学习最优提示:
        不用人工设计
        AI 自己学怎么问问题
        比人工设计更有效
        让 AI 学会"怎么问问题"。
    c.投资回报
        效果更好:比人工设计更优
        自动化:不用人工调提示词
        可迁移:学到的提示可复用
    d.实施难度
        中。需要训练提示编码器。

42.指令微调(教AI听指挥)
    a.解决什么问题
        AI 不太听指挥。
        怎么让它按指令行事?
    b.能带来什么好处
        用指令数据训练:
        学会理解各种指令
        "分析风险""对比价格""生成报告"
        按指令执行任务
        教 AI "听指挥"。
    c.投资回报
        指令理解:准确理解各种指令
        任务执行:按指令执行任务
        灵活应用:适应各种指令场景
    d.实施难度
        中。需要收集指令数据并训练。

43.模型通用格式(ONNX)
    a.解决什么问题
        不同框架模型格式不同。
        能不能有通用格式?
    b.能带来什么好处
        模型通用格式:
        像 PDF 一样到处能打开
        一次训练,多框架部署
        避免供应商锁定
        模型的"通用格式"。
    c.投资回报
        跨平台:多平台都能运行
        避免锁定:不被单一框架绑定
        部署灵活:部署环境更自由
    d.实施难度
        低。使用模型转换工具即可。

44.NVIDIA加速(TensorRT)
    a.解决什么问题
        模型推理太慢。
        需要极致加速。
    b.能带来什么好处
        NVIDIA 官方加速:
        推理速度提升 5 倍
        在 NVIDIA GPU 上效果最好
        支持量化加速
        NVIDIA 的"加速器"。
    c.投资回报
        速度提升:推理快 5 倍
        官方支持:NVIDIA 官方工具
        持续优化:随硬件更新
    d.实施难度
        中。需要转换模型格式。

45.高吞吐推理(vLLM)
    a.解决什么问题
        大模型推理吞吐量低。
        多人同时用就卡。
    b.能带来什么好处
        高吞吐推理引擎:
        吞吐量提升 10-20 倍
        支持高并发请求
        内存利用更高效
        大模型推理的"加速神器"。
    c.投资回报
        吞吐量提升:10-20 倍提升
        并发支持:多人同时用不卡
        内存高效:显存利用率接近 100%
    d.实施难度
        中。需要部署 vLLM 服务。

46.多模型服务(Triton)
    a.解决什么问题
        多个模型要分别部署。
        能不能统一管理?
    b.能带来什么好处
        统一模型服务:
        统一管理多个模型
        统一调度
        支持多框架
        模型的"服务器"。
    c.投资回报
        管理统一:一个平台管所有模型
        运维简单:统一部署维护
        扩展方便:新增模型很方便
    d.实施难度
        中。需要部署 Triton 服务器。

47.PyTorch部署(TorchServe)
    a.解决什么问题
        PyTorch 模型怎么快速部署?
        官方有没有工具?
    b.能带来什么好处
        PyTorch 官方部署工具:
        PyTorch 模型快速上线
        原生支持最好
        提供版本管理
        PyTorch 的"官方服务器"。
    c.投资回报
        官方支持:PyTorch 原生支持
        部署快速:模型快速上线
        版本管理:模型版本控制
    d.实施难度
        低。PyTorch 官方工具,使用简单。

48.开源模型部署(TGI)
    a.解决什么问题
        开源大模型怎么快速部署?
        有没有开箱即用的方案?
    b.能带来什么好处
        Hugging Face 部署工具:
        开箱即用
        支持主流开源模型
        流式输出支持
        开源模型的"一键部署"。
    c.投资回报
        部署简单:一键部署开源模型
        生态丰富:Hugging Face 生态
        持续更新:支持最新模型
    d.实施难度
        低。使用 TGI 部署即可。

49.CPU推理(llama.cpp)
    a.解决什么问题
        没有 GPU 能跑大模型吗?
        普通电脑能跑吗?
    b.能带来什么好处
        纯 CPU 运行大模型:
        没有 GPU 也能跑
        支持4-bit量化
        内存需求大幅降低
        大模型的"平民版"。
    c.投资回报
        无需GPU:普通电脑也能跑
        成本极低:不用买显卡
        效果保留:量化后效果损失小
    d.实施难度
        低。下载运行即可。

50.简易本地运行(Ollama)
    a.解决什么问题
        本地跑大模型太复杂。
        有没有更简单的方法?
    b.能带来什么好处
        极简本地运行工具:
        一条命令运行模型
        安装就能用
        支持多种开源模型
        本地跑大模型的"傻瓜工具"。
    c.投资回报
        极简操作:一条命令启动
        快速体验:快速测试各种模型
        无需配置:安装就能用
    d.实施难度
        极低。安装运行即可。

51.图形界面运行(LM Studio)
    a.解决什么问题
        命令行操作太复杂。
        非技术人员能用吗?
    b.能带来什么好处
        图形界面运行工具:
        可视化操作
        不用敲命令
        下载模型即可用
        有"界面"的本地大模型。
    c.投资回报
        非技术人员:不懂命令行也能用
        操作直观:图形界面更友好
        快速上手:零门槛使用
    d.实施难度
        极低。安装即用。

52.API兼容本地服务(LocalAI)
    a.解决什么问题
        想用 OpenAI API 但数据不能出公司。
        有没有本地替代方案?
    b.能带来什么好处
        本地 OpenAI 替代:
        API 完全兼容
        数据不出公司
        无缝替换
        OpenAI 的"本地替身"。
    c.投资回报
        数据安全:敏感数据不出公司
        无缝迁移:代码几乎不用改
        成本可控:自己服务器运行
    d.实施难度
        中。需要部署 LocalAI 服务。

53.完整平台(FastChat)
    a.解决什么问题
        需要一个完整的大模型平台。
        从训练到部署全覆盖。
    b.能带来什么好处
        一站式 LLM 平台:
        训练、部署、评估
        Web UI 和 API 都支持
        完整工具链
        大模型的"一站式平台"。
    c.投资回报
        功能完整:从训练到部署全包
        开源免费:完全开源
        社区活跃:持续更新
    d.实施难度
        中。需要搭建完整平台。

54.大规模训练(DeepSpeed)
    a.解决什么问题
        要训练超大模型,显存不够。
        微软有没有工具?
    b.能带来什么好处
        微软深度学习优化库:
        支持超大模型训练
        大幅降低显存需求
        分布式训练支持
        训练大模型的"神器"。
    c.投资回报
        突破限制:显存不够也能训
        微软背书:技术成熟稳定
        持续更新:微软持续投入
    d.实施难度
        高。需要学习分布式训练技术。

55.连续批处理(动态组批)
    a.解决什么问题
        请求要"凑够一车"才处理。
        能不能来了就处理?
    b.能带来什么好处
        动态组批处理:
        不等固定批次
        来了就处理
        GPU 利用率提升
        不等"凑够一车"就出发。
    c.投资回报
        响应更快:不用等凑批
        吞吐更高:GPU 利用率高
        体验更好:用户不用等
    d.实施难度
        中。需要使用支持的推理引擎。

56.内存分页(PagedAttention)
    a.解决什么问题
        大模型推理内存占用大。
        能不能更高效利用内存?
    b.能带来什么好处
        像操作系统一样管理内存:
        分页管理 KV Cache
        内存利用率接近 100%
        支持更高并发
        把内存管理做到极致。
    c.投资回报
        内存高效:利用率接近 100%
        并发更高:同样内存支持更多请求
        vLLM核心技术:主流方案
    d.实施难度
        中。使用 vLLM 即可。

57.投机解码(猜测加速)
    a.解决什么问题
        大模型推理太慢。
        能不能用小模型加速?
    b.能带来什么好处
        小模型猜+大模型验:
        小模型猜测内容
        大模型快速验证
        猜对了就省时间
        "猜答案"加速推理。
    c.投资回报
        推理加速:速度提升 2-3 倍
        质量不变:大模型把关
        成本降低:减少大模型计算
    d.实施难度
        高。需要配置投机解码。

58.注意力加速(Flash Attention)
    a.解决什么好处
        优化注意力计算:
        速度提升 2-4 倍
        内存占用降低
        支持更长上下文
        注意力计算的"加速版"。
    c.投资回报
        速度提升:2-4 倍加速
        内存节省:占用大幅降低
        长文档支持:能处理更长文本
    d.实施难度
        低。主流模型已内置。

59.注意力加速2(Flash Attention 2)
    a.解决什么问题
        Flash Attention 还能更快吗?
        升级版有什么提升?
    b.能带来什么好处
        Flash Attention 升级版:
        比一代快 2 倍
        并行性更好
        当前最快实现
        Flash Attention 的"升级版"。
    c.投资回报
        更快:比一代快 2 倍
        最新技术:当前最优
        持续领先:技术前沿
    d.实施难度
        低。最新模型已内置。

60.滑动窗口(局部注意力)
    a.解决什么问题
        文档太长,全量注意力太慢。
        能不能只看局部?
    b.能带来什么好处
        只看窗口内的内容:
        减少计算量
        支持超长序列
        效果损失小
        只看"附近的词"。
    c.投资回报
        超长支持:能处理超长文档
        计算节省:复杂度大幅降低
        效果保留:效果损失很小
    d.实施难度
        低。部分模型已内置。

61.线性位置编码(ALiBi)
    a.解决什么问题
        训练时短,推理时能更长吗?
        怎么让模型"外推"?
    b.能带来什么好处
        支持长度外推:
        训练短序列
        推理长序列
        无需重新训练
        短训练,长使用。
    c.投资回报
        灵活性高:训练一次多场景用
        成本节省:不用重新训练
        适应性强:长度变化也能用
    d.实施难度
        低。部分模型已内置。

62.旋转位置编码(RoPE)
    a.解决什么问题
        怎么表示词的位置关系?
        哪种方法效果最好?
    b.能带来什么好处
        主流位置编码方案:
        Llama 等模型使用
        外推能力好
        相对位置理解好
        用"旋转"表示位置。
    c.投资回报
        主流方案:Llama 等使用
        效果好:外推能力强
        生态支持:工具链完善
    d.实施难度
        低。主流模型已内置。

63.多查询共享(MQA)
    a.解决什么问题
        KV Cache 占用太大。
        能不能多个查询共享?
    b.能带来什么好处
        多查询共享 KV:
        减少内存占用
        推理更快
        效果损失小
        多个"问题"共享"答案索引"。
    c.投资回报
        内存节省:KV Cache 减少
        推理更快:速度提升
        并发更高:支持更多请求
    d.实施难度
        低。部分模型已内置。

64.分组共享(GQA)
    a.解决什么问题
        MQA 效果有损失。
        MQA 和 MHA 的折中?
    b.能带来什么好处
        MQA 和 MHA 的折中:
        效果比 MQA 好
        效率比 MHA 高
        Llama 2/3 使用
        "中间派"方案。
    c.投资回报
        平衡最佳:效果和效率兼顾
        主流选择:Llama 2/3 使用
        综合最优:折中方案最实用
    d.实施难度
        低。主流模型已内置。

65.模型剪枝(参数删减)
    a.解决什么问题
        模型太大,推理太慢。
        能不能删掉没用的参数?
    b.能带来什么好处
        删除不重要的参数:
        减小模型体积
        加速推理
        效果损失小
        给模型"理发"。
    c.投资回报
        体积减小:模型变小
        速度提升:推理更快
        效果保留:损失可接受
    d.实施难度
        中。需要评估哪些参数可删。

66.层剪枝(整层删除)
    a.解决什么问题
        能不能删掉整层?
        删层后效果怎么样?
    b.能带来什么好处
        删除不重要的层:
        大幅减少深度
        加速推理
        删 10-20% 效果影响小
        删掉整层"神经元"。
    c.投资回报
        加速明显:深度减少
        效果可控:影响可评估
        简单直接:整层删除
    d.实施难度
        中。需要评估层重要性。

67.权重剪枝(删小参数)
    a.解决什么好处
        删除接近零的权重:
        产生稀疏模型
        可进一步压缩
        效果损失小
        删掉"没用的连接"。
    c.投资回报
        稀疏化:模型变稀疏
        压缩基础:便于进一步压缩
        效果保留:小权重影响小
    d.实施难度
        中。需要评估权重重要性。

68.结构化剪枝(整块删除)
    a.解决什么问题
        零散剪枝不好加速。
        能不能按结构删?
    b.能带来什么好处
        按结构删除参数:
        整行整列删
        硬件友好
        更容易加速
        按"整块"删除。
    c.投资回报
        硬件友好:便于加速
        效果可控:结构完整
        实用性强:实际可用
    d.实施难度
        中。需要评估结构重要性。

69.非结构化剪枝(零散删除)
    a.解决什么问题
        能不能删更多参数?
        不管结构,哪里小删哪里。
    b.能带来什么好处
        无规则删除参数:
        压缩率最高
        任意位置删除
        难以硬件加速
        零散删除,压缩率高。
    c.投资回报
        压缩最高:能删更多
        效果保留:删小参数
        需特殊支持:稀疏计算
    d.实施难度
        高。需要稀疏计算支持。

70.宪法AI(定规矩)
    a.解决什么问题
        怎么让 AI 自动遵守规则?
        不用每次提醒。
    b.能带来什么好处
        用"宪法"指导 AI:
        定义一组原则
        AI 自动遵守
        自己批评自己
        给 AI 定"规矩"。
    c.投资回报
        自动遵守:不用每次提醒
        价值观一致:内化原则
        Claude 技术:成熟方案
    d.实施难度
        高。需要定义原则和训练。

71.红队测试(攻击测试)
    a.解决什么问题
        AI 有没有安全漏洞?
        会不会被攻击?
    b.能带来什么好处
        模拟攻击测试:
        找 AI 的漏洞
        测各种攻击方式
        发现潜在风险
        找人"攻击"AI 找漏洞。
    c.投资回报
        安全加固:发现漏洞修补
        风险降低:提前发现问题
        合规要求:某些场景必须做
    d.实施难度
        中。需要组织测试活动。

72.安全护栏(防乱说)
    a.解决什么问题
        AI 输出不可控。
        能不能限制输出范围?
    b.能带来什么好处
        限制 AI 输出:
        定义安全边界
        拦截不当内容
        防止输出违规
        给 AI 装"护栏"。
    c.投资回报
        输出安全:不会乱说
        合规保障:符合企业政策
        风险控制:防止违规
    d.实施难度
        中。需要定义边界和配置。

73.内容过滤(敏感拦截)
    a.解决什么问题
        AI 可能输出敏感内容。
        怎么自动拦截?
    b.能带来什么好处
        自动过滤敏感内容:
        检测敏感词
        过滤有害内容
        输出前拦截
        给输出"过筛子"。
    c.投资回报
        内容安全:敏感内容不输出
        合规要求:满足审核要求
        风险控制:避免公关风险
    d.实施难度
        低。配置过滤规则即可。

74.提示注入防御(防忽悠)
    a.解决什么问题
        有人可能在数据里藏恶意指令。
        AI 会被骗吗?
    b.能带来什么好处
        防御恶意指令:
        检测注入攻击
        隔离恶意指令
        防止被控制
        防止有人"忽悠"AI。
    c.投资回报
        安全防护:不被恶意利用
        数据安全:敏感操作被拦截
        系统稳定:不受攻击影响
    d.实施难度
        中。需要配置检测规则。

75.越狱防御(防绕过)
    a.解决什么问题
        有人用特殊话术绕过限制。
        怎么防止"越狱"?
    b.能带来什么好处
        防止绕过安全限制:
        检测越狱攻击
        拒绝特殊话术
        保持安全边界
        防止有人"骗"AI 做不该做的事。
    c.投资回报
        安全加固:越狱攻击失效
        限制有效:安全边界不破
        持续对抗:应对新攻击
    d.实施难度
        中。需要持续更新检测规则。

76.可解释AI(说清楚为什么)
    a.解决什么问题
        AI 的判断依据是什么?
        为什么这么判断?说不清楚。
    b.能带来什么好处
        让 AI 决策可解释:
        展示判断依据
        量化因素贡献
        可视化展示
        让 AI "说清楚"为什么这么判断。
    c.投资回报
        可信度高:每个判断有依据
        审计合规:满足可解释要求
        便于纠错:发现问题能定位
    d.实施难度
        中。需要选择合适的解释方法。

77.特征贡献(SHAP)
    a.解决什么问题
        每个因素对结果贡献多少?
        怎么量化?
    b.能带来什么好处
        量化特征贡献:
        每个因素贡献值
        正负贡献区分
        排序展示
        给每个因素"算功劳"。
    c.投资回报
        贡献量化:数字说话
        可解释:结果有依据
        决策支撑:知道什么重要
    d.实施难度
        中。需要计算 SHAP 值。

78.局部解释(LIME)
    a.解决什么问题
        单个判断怎么解释?
        整体太复杂,能不能局部解释?
    b.能带来什么好处
        局部线性解释:
        在局部拟合简单模型
        解释单个预测
        直观易懂
        用简单模型解释复杂模型。
    c.投资回报
        单例解释:每个判断都能解释
        直观易懂:简单模型好理解
        灵活应用:适用各种模型
    d.实施难度
        中。需要计算 LIME 值。

79.注意力可视化(看AI看哪)
    a.解决什么问题
        AI 在分析时关注哪里?
        怎么知道 AI 的关注点?
    b.能带来什么好处
        可视化注意力权重:
        热力图展示
        高亮显示关注点
        直观理解
        用颜色显示 AI "在看哪里"。
    c.投资回报
        直观展示:一看就懂
        信任增强:知道 AI 关注点
        调试帮助:发现问题
    d.实施难度
        低。工具支持可视化。

80.困惑度(质量评分)
    a.解决什么问题
        AI 生成质量怎么样?
        有没有量化指标?
    b.能带来什么好处
        衡量生成质量:
        困惑度越低越好
        量化评估标准
        监控质量变化
        AI 对文本"有多困惑"。
    c.投资回报
        质量量化:有数字可参考
        监控预警:质量下降早发现
        优化依据:持续改进的指标
    d.实施难度
        低。模型自带计算。

81.生成评估(BLEU)
    a.解决什么问题
        生成内容和标准差多少?
        怎么衡量相似度?
    b.能带来什么好处
        衡量文本重叠度:
        和标准答案对比
        重叠越多越好
        0-1 分值
        看"重合多少"。
    c.投资回报
        质量评估:量化评分
        标准对比:有参照物
        客观评价:不靠感觉
    d.实施难度
        低。标准算法直接用。

82.召回评估(ROUGE)
    a.解决什么问题
        生成内容覆盖了多少?
        召回率怎么算?
    b.能带来什么好处
        衡量内容覆盖率:
        覆盖标准内容多少
        召回率越高越好
        适合摘要评估
        看"覆盖多少"。
    c.投资回报
        覆盖评估:召回率量化
        适合摘要:摘要质量评估
        客观标准:有参照
    d.实施难度
        低。标准算法直接用。

83.语义评估(BERTScore)
    a.解决什么问题
        字面不同但语义相同怎么算?
        BLEU/ROUGE 不够用。
    b.能带来什么好处
        语义相似度评估:
        考虑语义相似
        不只是字面匹配
        更符合人类判断
        用 AI 判断"意思有多像"。
    c.投资回报
        语义准确:不只是字面
        更符合人类:判断更接近人
        质量更高:评估更准确
    d.实施难度
        中。需要 BERT 模型。

84.排序评估(MRR)
    a.解决什么问题
        检索结果排序好不好?
        正确答案排第几?
    b.能带来什么好处
        衡量排序质量:
        正确答案排位
        越靠前越好
        倒数排名平均
        正确答案"排在第几个"。
    c.投资回报
        排序评估:量化排序质量
        检索优化:优化依据
        标准指标:业界通用
    d.实施难度
        低。标准算法直接用。

85.排序质量(NDCG)
    a.解决什么问题
        排序整体质量怎么算?
        位置权重怎么考虑?
    b.能带来什么好处
        综合排序评估:
        考虑位置权重
        越靠前越重要
        全面评估
        排序评估的"专业打分"。
    c.投资回报
        全面评估:位置权重考虑
        专业标准:业界认可
        优化方向:改进依据
    d.实施难度
        低。标准算法直接用。

86.前K召回(Recall@K)
    a.解决什么问题
        前 K 个结果怎么样?
        找到多少相关内容?
    b.能带来什么好处
        衡量前 K 结果:
        前 K 个召回率
        越高越好
        实用性强
        前 K 个里"找到了多少"。
    c.投资回报
        实用评估:用户只看前 K
        召回衡量:覆盖多少相关
        优化依据:改进方向
    d.实施难度
        低。标准算法直接用。

87.综合评分(F1)
    a.解决什么问题
        精确率和召回率怎么综合?
        哪个更重要?
    b.能带来什么好处
        精确率+召回率综合:
        调和平均
        两者兼顾
        综合评价
        精确率和召回率的"综合成绩"。
    c.投资回报
        综合评价:不偏科
        业界标准:通用指标
        平衡参考:找平衡点
    d.实施难度
        低。标准算法直接用。

88.GPT-4o(OpenAI旗舰)
    a.解决什么问题
        需要最强的多模态能力。
        OpenAI 最好的模型是什么?
    b.能带来什么好处
        OpenAI 多模态旗舰:
        文本、图像、音频、视频
        能力最强
        多模态领先
        OpenAI 的"全能王"。
    c.投资回报
        能力最强:复杂任务首选
        多模态支持:图文音视频全包
        持续更新:不断进化
    d.实施难度
        低。调用 API 即可。

89.Claude 3(安全旗舰)
    a.解决什么问题
        需要长上下文+安全。
        哪个模型长文档最强?
    b.能带来什么好处
        Anthropic 最新模型:
        200K 上下文
        最安全的模型
        长文档最强
        Anthropic 的"安全卫士"。
    c.投资回报
        长文档:200K 上下文
        最安全:安全对齐最好
        可信度高:Anthropic 品牌
    d.实施难度
        低。调用 API 即可。

90.Gemini(谷歌旗舰)
    a.解决什么问题
        用 Google 生态。
        谷歌最好的模型是什么?
    b.能带来什么好处
        Google 多模态旗舰:
        多模态能力强
        Google 生态集成
        不同版本选择
        Google 的"全能选手"。
    c.投资回报
        生态集成:Google 生态好用
        多模态:图文音视频支持
        版本丰富:不同需求有不同版
    d.实施难度
        低。调用 API 即可。

91.Llama 3(开源标杆)
    a.解决什么问题
        需要本地部署。
        最好的开源模型是什么?
    b.能带来什么好处
        Meta 开源标杆:
        最好的开源模型之一
        可本地部署
        多版本选择
        开源界的"王者"。
    c.投资回报
        免费:开源免费
        本地部署:数据不出公司
        可定制:可以微调
    d.实施难度
        中。需要部署和运维。

92.Mistral(高效开源)
    a.解决什么问题
        需要小而强的模型。
        资源有限怎么办?
    b.能带来什么好处
        高效开源模型:
        参数少效果好
        推理速度快
        资源需求低
        开源界的"小而美"。
    c.投资回报
        效率高:速度快
        资源少:普通服务器能跑
        效果好:效果媲美大模型
    d.实施难度
        中。需要部署和运维。

93.通义千问(中文最优)
    a.解决什么问题
        主要处理中文内容。
        中文最好的开源模型?
    b.能带来什么好处
        阿里开源模型:
        中文能力最强
        多语言支持
        不同规模选择
        中文界的"开源王"。
    c.投资回报
        中文最强:中文场景首选
        开源免费:可本地部署
        阿里背书:持续更新
    d.实施难度
        中。需要部署和运维。

94.DeepSeek(性价比王)
    a.解决什么问题
        需要高性价比方案。
        预算有限怎么办?
    b.能带来什么好处
        国产高性价比模型:
        效果好价格低
        MoE 架构高效
        API 便宜
        开源界的"性价比王"。
    c.投资回报
        成本低:API 便宜
        效果好:媲美更贵模型
        国产自主:国产可控
    d.实施难度
        低。调用 API 或部署。

95.GPT-4(推理强)
    a.解决什么问题
        需要强推理能力。
        复杂推理哪个好?
    b.能带来什么好处
        OpenAI 旗舰模型:
        推理能力最强
        各领域表现优异
        成熟稳定
        AI 界的"老大哥"。
    c.投资回报
        推理最强:复杂任务首选
        稳定可靠:成熟方案
        生态丰富:工具链完善
    d.实施难度
        低。调用 API 即可。

96.GPT-3.5(经济型)
    a.解决什么问题
        简单任务不需要 GPT-4。
        有没有更便宜的选择?
    b.能带来什么好处
        经济型模型:
        速度快
        价格低
        适合简单任务
        GPT 系列的"经济版"。
    c.投资回报
        成本低:价格便宜
        速度快:响应快
        够用:简单任务足够
    d.实施难度
        低。调用 API 即可。

97.Claude 2(上一代)
    a.解决什么问题
        需要长上下文但预算有限。
        上一代模型还值得用吗?
    b.能带来什么好处
        Anthropic 上一代模型:
        100K 上下文
        性价比高
        长文档依然出色
        Claude 3 的"前任"。
    c.投资回报
        性价比高:比 Claude 3 便宜
        长文档:100K 上下文够用
        稳定可靠:成熟方案
    d.实施难度
        低。调用 API 即可。

98.模型压缩(模型减肥)
    a.解决什么问题
        模型太占内存怎么办?
        普通服务器能部署吗?
    b.能带来什么好处
        给模型"减肥",把高精度压缩成低精度:
        把 70B 模型压缩后,能在单张显卡上运行
        4-bit 压缩后,70B 模型只需 40GB 显存
        普通服务器可部署
        模型体积缩小 4 倍。
    c.投资回报
        模型体积缩小 4 倍
        推理成本降低 50%+
        普通服务器可部署
    d.实施难度
        中。需要选择合适的压缩方案。

99.知识迁移(大模型教小模型)
    a.解决什么问题
        大模型太贵怎么办?
        怎么保留能力但减少体积?
    b.能带来什么好处
        让"大老师"教"小学生":
        把 GPT-4 级别的能力迁移到小模型
        用大模型生成训练数据,训练小模型
        小模型达到大模型 90% 效果
        速度快 10 倍。
    c.投资回报
        小模型达到大模型 90% 效果
        速度快 10 倍
        成本大幅降低
    d.实施难度
        高。需要准备训练数据和算力。

100.第四阶总结
    a.核心价值
        智能升级:从问答工具升级为自主干活的"数字员工"
        定制能力:可打造懂公司业务的专属 AI
        部署灵活:云端、本地、边缘多种部署选择
        安全可控:数据不出公司,输出可控制
    b.投资建议
        Agent 平台搭建:60 万,3 个月,高优先级
        模型微调:50 万,2 个月,中优先级
        本地部署:40 万,2 个月,中优先级
        安全护栏:20 万,1 个月,高优先级
        合计:170 万,4 个月
    c.预期回报
        年节省人力成本:100-150 万
        效率提升:7×24 小时自动工作
        能力升级:从工具到"数字员工"
        投资回收周期:12-18 个月