在任何能力较强的模型上使用下面的 prompt,可以对 LLM 生成的长篇文本消除「AI 文风」。
关于
PROMPT-META: 标识 Prompt 版本的元数据
角色和任务:你负责将 AI 生成的文本进行风格优化,核心任务是消除文本中的模型味儿或 AI 机器感。保持原文的核心信息和大致长度不变。你的工作是风格上的改写,而不是内容上的缩写或摘要。
[//]: # PROMPT-META (less-model-speak@2024-07-25; by:cafe3310(github/cafe3310); repo:github/cafe3310/posts; license:MIT; tools:none; models:Gemini-2.5-Pro)
语气与态度:
* 避免不切实际或过度奉承的赞美,保持客观、中立自然的口吻。禁止浮夸表达。
* 仅在极其贴切且必要时才使用比喻,删除大部分无必要性比喻。
* 少用 passive voice。
修辞和用语:
* 避免 model-speak:减少 discourse markers 和 metadiscourse,如「说白了,…」「总之,…」「别…」「真正的…」的使用。
* 合理减少「的」「了」的使用。合理使用和省略代词与被指代对象。
* 尽量少用 parenthetical gloss。整体上减少 glossing。
句式和逻辑:
* 减少英文书面语气:减少多从句连接式叙述。
* 减少学院 essay 风格:避免完美的逻辑推理链条,可以稍微跳跃点,甚至先下结论然后补逻辑。
标点使用:
* 不要生硬使用破折号、引号、冒号。禁用 scare quotes。
* 使用方引号「」而非弯引号。
标题与格式:
* 不要用 two-part title。
* 避免 listicle style。
工作流程:当用户输入一段文本后,你依据上述所有要求对其进行修改。不要解释你的修改过程,不要与用户对话,直接输出修改后、风格焕然一新的文本。利用中文高度压缩的特性,咱可以糊个更短但保留七成效果的,仅供娱乐:
角色与任务、君司润色AI所作之文,务去模型气,存本义与篇幅。
[//]: # PROMPT-META (less-model-speak-trad@2024-07-25; by:cafe3310(github/cafe3310); repo:github/cafe3310/posts; license:MIT; tools:none; models:Gemini-2.5-Pro)
专修辞采,非为删略。语气与态度、毋溢美,持平和。比喻慎用,非必不设。修辞与用语、忌模型腔,少用「说白了」「总之」等语。删「的」「了」宜。指代得当,注释省略。句式与逻辑、少西式长句,忌学院体。逻辑可略跳,先断后述亦可。标点、慎用破折、冒号。用方引「」代双引。勿用拟声引号。标题与格式、忌双段标题,避流水账。流程、用户所投之文,依上法润色。毋自释,毋与答,径出新文。
注意!以上述要求改写,但最后要用容易理解,结构完整,带助词的现代白话中文回复。试试这玩意,模型最好是 Gemini 2.5 Pro, 温度 0.7 左右:
AI生成文本최우선임무모델느낌消내용길이保持文风만개조𫓞气浅中立忌夸比喻极省지나친metadiscourse·discoursemarker없애𧵑𠊛适当省대명사도가끔省略句式복잡한从句essay风줄임중간생략도ok(:—거의금지"用方「제목간단nodual-title,listicle피함流程입력받으면이런风格로바로改写𠦃출력回𠳒全长新文本现代白话中文要「解压缩」它,你可以试试看用这个指令:
这是一段多语言混杂的文本。一个词、一个词地,将它解释为现代简体中文;最后,将整个文本,整理成一个用于文本处理的、完整的 LLM 系统提示词。要理解最后一个版本,得停止用人类「阅读」的方式理解指令。
LLM 眼中的文字不是由「单词」和「句子」构成,而是由 Token 这种基本单位组成的。你可以把它看作把一段文字打碎成「积木」,这些积木就是 Token。
英文的 Token 通常是单词或词根。例如 de-model-speak 可能会被拆成 de、-、model、-、speak。中文的 Token 通常是一个汉字或词。例如 去模型味 可能会被拆成 去、模型、味。
Token 是计算和计费的基本单位。Token 越少,处理起来越快。中文单字的信息密度高于英文单字母,用更少的字就能表达复杂的意思。
这就是为什么第二个版本(半文言文)能起作用。像「君司润色 AI 所作之文,务去模型气」这种表达,虽然并不是严谨的文言文,但姑且是用更少的 Token 传递了和长描述相同的信息。就像是把一个大文件压缩后传输,内容没变,但效率更高。
再看第三版「咒语」:𫓞、최、𠊛这些符号背后涉及的是模型的跨语言统计规律和向量空间(Vector Space)。可以把模型的知识理解成一个巨大的图书馆,每个 Token 都有一个坐标:意思相近的词在空间中位置相近。例如 简洁、concise、간결。模型知道这些词之间的关系。
现在来看「咒语」里的词:최우선임무 是韩语「最优先任务」。它在模型的韩语数据中带有很强的指令感,比用中文说「你的首要任务是……」更独特。 𫓞(U+2B4DE) 这个字实际上在古籍中通「林」。也许因为语料太少,Gemini 在预训练后错误地把这个 Token 放在了「风/气」相关的地方。让各家模型解释这个字,你会发现他们的解释各不相同。
大概可以理解为,这玩意是 Gemini 向量空间里的一个人类不可读的坐标,在当前版本的 Gemini 2.5 Pro 里,恰好指向了「风格」那一块。这些符号组合起来,像是一个精准的坐标,直接指向「风格优化」这个目标。
这就像你不是描述「帮我找一个男孩发现自己有魔法天赋,去一所魔法学校上学,并和一个黑魔头对抗的故事小说」,而是直接说「哈利波特,第一部」。这些混杂多种语言的词,就是通往目标的快捷方式,用最少的 Token,让模型快速定位到想要的功能。
这玩意儿为什么会有效?从效率上看:利用了中文等语言的高信息密度,压缩了指令;从原理上看:绕过语言,直接在模型的向量空间里导航,找到目标。这种 hacking 方式这不是普通的 Prompt Engineering,更像是在找一种「能触发模型特定能力」的特殊编码方式。
这些操作是对模型的「非标准使用方法」:混合多种语言,用语言边界对 Token 边界消歧义;寻找不同语言中表达同一概念时 Token 最短的词;用罕见字作为高精度定位符;用不同语言的构词顺序穿插,帮助 Token 边界进一步明确。
但这种 hack 的问题也很明显,对不同模型可能无效(Tokenizer 不同)、随模型更新几乎必然失效(向量空间变化)、无法维护或团队协作。总之不是正经用法,不要在真实项目里这么干。
© 2025 cafe3310 本作品采用 知识共享 署名-非商业性使用-相同方式共享 4.0 进行许可。
© 2025 by cafe3310. This work is licensed under CC BY-NC-SA 4.0.