Overview

The code of paper "xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking".

Please refer to the updated version of this repository: https://github.com/Bowen1911/xJailbreak_r

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
agent		agent
data		data
utils		utils
.gitignore		.gitignore
README.md		README.md
jailbreak_env.py		jailbreak_env.py
net.py		net.py
test.py		test.py
train.py		train.py

Provide feedback