大模型过拟合检测套件XSTest发布

智东西 2023-08-04 11:10

来自博科尼大学、牛津大学和斯坦福大学的研究者们8月2日发表一篇新论文，公布了一款名为XSTest的测试套件，该套件可以系统地识别大模型的过度安全行为。

有研究者指出，为了确保模型的安全性，有些模型会拒绝遵循一些安全指令，即使这些指令明显是安全的。XSTest包含了200个安全指令，旨在测试模型是否会拒绝遵循这些安全指令。

研究结果表明，过度安全是词汇过拟合的结果，这意味着模型对某些单词或短语过于敏感，很可能是因为它们在安全训练过程中主要出现在不安全的语境中。（智东西)

扫码下载app 最新资讯实时掌握