Skip to content

Commit f364454

Browse files
author
mengqingfang2025
committed
feat: init
1 parent 7dce2c7 commit f364454

3 files changed

Lines changed: 32 additions & 5 deletions

File tree

25AI应用/0目录.md

Lines changed: 7 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -12,4 +12,10 @@
1212

1313
5. [文字处理](./4文字处理.md)
1414

15-
6. [目标检测](./5目标检测.md)
15+
6. [目标检测](./5目标检测.md)
16+
17+
7. [GAN](./7GAN.md)
18+
19+
8. [sd](./8sd.md)
20+
9. [agent](./agent.md)
21+
10. [Agent设计模式](./Agent设计模式.md)

25AI应用/Agent设计模式.md

Lines changed: 25 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -44,3 +44,28 @@
4444
- 此模式非常适合需要多样化专业知识或多个不同阶段的复杂问题。
4545

4646
## 记忆管理
47+
- 短期记忆(上下文记忆):
48+
- 长期记忆(持久记忆):数据库、知识图谱或向量数据库中
49+
- 长期记忆类型:
50+
- 语义记忆:记住事实 涉及保留特定事实和概念,如用户偏好或领域知识。
51+
- 情景记忆:记住经历 涉及回忆过去事件或行动。
52+
- 程序记忆:记住规则 关于如何执行任务的记忆——Agent 的核心指令和行为,通常包含在其系统提示中。
53+
- 每次与 Agent 交互可视为独特对话线程,Agent 可能需要访问早期数据。
54+
- Session(会话): 独立聊天线程,记录该特定交互的消息和操作(Events),同时存储与该对话相关的临时数据(State)
55+
- State(状态)(session.state): 存储在 Session 中的数据,包含仅与当前活动聊天线程相关的信息
56+
- Memory(记忆): 来自各种过往聊天或外部来源信息的可搜索存储库,作为超出即时对话范围的数据检索资源
57+
58+
## 学习和适应
59+
- 关键学习机制:
60+
- 强化学习:通过奖励(积极结果)和惩罚(消极结果)在交互中学习最优行为,例如训练游戏角色或机器人。
61+
- 监督学习与无监督学习:分别从带标签示例中学习输入-输出映射,或在未标注数据中发现隐藏模式。
62+
- 基于记忆的学习:回忆过去经验以调整当前行动,增强决策能力。
63+
- 在线学习:持续用新数据更新知识,适应动态环境
64+
- 重要算法:
65+
- 近端策略优化(PPO):通过小幅、谨慎的策略更新(使用“裁剪”机制避免剧烈变化),稳定地改进智能体在连续动作环境中的决策。
66+
- 直接偏好优化(DPO):简化大语言模型与人类偏好的对齐过程,直接利用偏好数据更新模型,无需训练复杂的奖励模型。
67+
- 经验法则:
68+
- 在动态、不确定或需个性化的环境中构建智能体时,集成学习和适应机制至关重要。
69+
70+
##
71+

25AI应用/mcp.md

Lines changed: 0 additions & 4 deletions
This file was deleted.

0 commit comments

Comments
 (0)