大模型过拟合检测套件XSTest发布
来自博科尼大学、牛津大学和斯坦福大学的研究者们8月2日发表一篇新论文,公布了一款名为XSTest的测试套件,该套件可以系统地识别大模型的过度安全行为。
有研究者指出,为了确保模型的安全性,有些模型会拒绝遵循一些安全指令,即使这些指令明显是安全的。XSTest包含了200个安全指令,旨在测试模型是否会拒绝遵循这些安全指令。
研究结果表明,过度安全是词汇过拟合的结果,这意味着模型对某些单词或短语过于敏感,很可能是因为它们在安全训练过程中主要出现在不安全的语境中。(智东西)
