开发者开始用大模型评估大模型性能

智东西 2023-08-04 11:01

据The Information 8月3日报道，为了评估大语言模型性能，一些大模型客户正寻求一种新颖的方法：使用其他大语言模型来评估大语言模型。Arize AI联合创始人兼首席执行官Jason Lopatecki认为，这种方法最适合具有特定正确答案的狭窄任务，例如要求大语言模型对对象进行分类或回答是或否问题。Log10的联合创始人兼首席执行官Arjun Bansal称，开发人员可以可靠地使用一个大语言模型来检测由另一个大语言模型支持的应用程序是否正在生成有问题的内容，例如仇恨言论。

为了提高大语言模型评判另一个模型准确性的能力，微软研究人员建议要求大语言模型“评估者”首先解释得出答案所需的步骤，即思维链提示。

例如，当大语言模型被要求对另一个模型对一篇文章的摘要的准确性进行评分时，大语言模型“评估者”可能会解释说，它首先会阅读原始新闻文章并确定主要主题和要点，然后将查看另一个模型的摘要是否包含相同的关键点，并以清晰且合乎逻辑的顺序解释它们。

这种思维过程为评估者提供了更多的背景和指导来进行评估。但这种方法并不完美，微软的同一项研究表明，大语言模型更倾向于大语言模型生成的内容，而不是人类生成的内容。还有另一个风险。如果大语言模型“评估者”有自己的缺陷或盲点，他们可能无法发现其他模型中的某些错误。目前最好的方法仍然是用其他方法来补充评估大语言模型，即付费或要求人类检查AI应用程序的输出。

扫码下载app 最新资讯实时掌握

上一篇被卖家追着跑，这一波AI商拍真香了？

下一篇大模型过拟合检测套件XSTest发布