File tree Expand file tree Collapse file tree
Expand file tree Collapse file tree Original file line number Diff line number Diff line change 1212
13135 . [ 文字处理] ( ./4文字处理.md )
1414
15- 6 . [ 目标检测] ( ./5目标检测.md )
15+ 6 . [ 目标检测] ( ./5目标检测.md )
16+
17+ 7 . [ GAN] ( ./7GAN.md )
18+
19+ 8 . [ sd] ( ./8sd.md )
20+ 9 . [ agent] ( ./agent.md )
21+ 10 . [ Agent设计模式] ( ./Agent设计模式.md )
Original file line number Diff line number Diff line change 4444- 此模式非常适合需要多样化专业知识或多个不同阶段的复杂问题。
4545
4646## 记忆管理
47+ - 短期记忆(上下文记忆):
48+ - 长期记忆(持久记忆):数据库、知识图谱或向量数据库中
49+ - 长期记忆类型:
50+ - 语义记忆:记住事实 涉及保留特定事实和概念,如用户偏好或领域知识。
51+ - 情景记忆:记住经历 涉及回忆过去事件或行动。
52+ - 程序记忆:记住规则 关于如何执行任务的记忆——Agent 的核心指令和行为,通常包含在其系统提示中。
53+ - 每次与 Agent 交互可视为独特对话线程,Agent 可能需要访问早期数据。
54+ - Session(会话): 独立聊天线程,记录该特定交互的消息和操作(Events),同时存储与该对话相关的临时数据(State)
55+ - State(状态)(session.state): 存储在 Session 中的数据,包含仅与当前活动聊天线程相关的信息
56+ - Memory(记忆): 来自各种过往聊天或外部来源信息的可搜索存储库,作为超出即时对话范围的数据检索资源
57+
58+ ## 学习和适应
59+ - 关键学习机制:
60+ - 强化学习:通过奖励(积极结果)和惩罚(消极结果)在交互中学习最优行为,例如训练游戏角色或机器人。
61+ - 监督学习与无监督学习:分别从带标签示例中学习输入-输出映射,或在未标注数据中发现隐藏模式。
62+ - 基于记忆的学习:回忆过去经验以调整当前行动,增强决策能力。
63+ - 在线学习:持续用新数据更新知识,适应动态环境
64+ - 重要算法:
65+ - 近端策略优化(PPO):通过小幅、谨慎的策略更新(使用“裁剪”机制避免剧烈变化),稳定地改进智能体在连续动作环境中的决策。
66+ - 直接偏好优化(DPO):简化大语言模型与人类偏好的对齐过程,直接利用偏好数据更新模型,无需训练复杂的奖励模型。
67+ - 经验法则:
68+ - 在动态、不确定或需个性化的环境中构建智能体时,集成学习和适应机制至关重要。
69+
70+ ##
71+
Load Diff This file was deleted.
You can’t perform that action at this time.
0 commit comments