AIPress.com.cn报道
3月26日消息,OpenAI最近发布了一套新的AI安全工具,核心目标是帮助开发者在自己的产品里更容易地加入面向青少年的保护机制。背景很现实:AI正在越来越多地进入教育、社交平台和消费类应用,而围绕未成年用户的风险和责任问题,整个行业都在承受越来越大的压力。
这次消息是OpenAI全球事务负责人Chris Lehane在LinkedIn上公开的。他说了一句很抓人的话:"在OpenAI,我们相信AI知道很多,但父母最懂。"这句话背后的意思也很明确:技术可以提供能力,但关于青少年边界和风险的判断,不能只靠模型自己决定。
这次推出的工具,核心是一套基于提示词的安全策略。它们可以和OpenAI的开源权重安全模型gpt-oss-safeguard一起使用,让开发者把原本抽象的安全原则,变成模型可以直接执行的操作规则。既可以用于实时内容过滤,也可以用于对用户生成内容做离线分析。
OpenAI试图解决的是一个很具体但长期被低估的问题:大家都知道青少年AI安全很重要,但真正要把它做进产品的时候,很多团队根本不知道什么叫"有害内容",更不知道怎么把这件事写成一套能稳定执行的规则。结果就是每家公司都从头摸索,安全标准不统一,执行效果也参差不齐。
这套新策略主要覆盖几个风险区域,包括色情内容、暴力内容、有害身材观念、危险挑战、不当角色扮演,以及接触年龄限制商品和服务等。也就是说,它不只关注"看到了什么",也关注"AI会不会进一步影响行为"。
这背后其实反映了行业认知的变化。过去谈内容安全,很多公司主要盯着敏感词、违规图像、仇恨言论这类直观问题。现在OpenAI开始把"危险挑战""过度依赖""排他性关系"这类更偏行为塑造和心理影响的问题也纳入视野。换句话说,AI对青少年的风险,已经不再只是信息层面的,而是关系层面的、行为层面的。
这次政策不是OpenAI关起门来写出来的。公司表示,开发过程中参考了Common Sense Media和everyone.ai等外部机构的意见,重点是让技术实现方式和青少年发展研究相匹配。
而且这些策略是开源发布的。OpenAI希望开发者不仅能直接拿去用,还可以根据自己的产品场景进行调整、补充新的风险定义,或者翻译到不同语言和市场环境中。
Common Sense Media的AI和数字评估负责人Robbie Torney说得很直接:青少年AI安全领域一个最大的空白,就是缺少一套开发者可以直接拿来构建的、清晰且可执行的政策框架。很多团队其实是从零开始。这次这些基于提示词的策略,至少给整个行业提供了一个像样的安全底线。
everyone.ai首席科学家Mathilde Cerioli也提到,像这样的工作之所以重要,是因为它把专家知识转化成了现实系统里能直接落地的指导。而且内容政策只是第一步,未来还要进一步处理模型行为如何长期塑造青少年风险的问题。受这项工作启发,everyone.ai自己也做了一套初步的行为政策,重点关注排他性和过度依赖等风险。
OpenAI把这套工具放在了一个更大的安全框架里看。过去一年,它已经更新了Model Spec,把18岁以下用户的保护要求写了进去,也推出了家长控制、年龄预测系统,以及针对不同国家和地区的青少年安全蓝图。
Lehane强调,真正有效的青少年保护,不应该是产品快上线了再临时加一层过滤,而是从产品设计一开始就内建进去。他的原话是:"强有力的青少年保护,应该在一开始就被构建进去,而不是事后再补上。"
当然,OpenAI自己也承认,这些工具只是起点,不是完整答案。开发者最了解自己产品的具体风险,所以提示词策略只是多层防护体系中的一层,仍然需要和产品设计、监控系统、用户控制机制一起配合使用。
这次安全工具发布的时间点也很微妙。
就在几天前,OpenAI还在高调介绍如何加强Sora视频平台的安全措施,包括面向青少年用户更严格的审核、视频和音频输出过滤、以及针对肖像权和同意机制的控制。结果没过多久,OpenAI就确认关停Sora应用,并终止与迪士尼的合作。
虽然OpenAI没有直接把两件事联系起来,但时间上的前后脚,很难不让人多想。前脚刚强调青少年保护和平台安全,后脚就砍掉了旗下最知名的消费级AI产品之一。这至少说明一点:OpenAI现在对"安全"的表述,已经不只是技术问题,也越来越像一种产品战略和外部叙事的一部分。
(AI普瑞斯编译)
扫码下载app 最新资讯实时掌握
