3月23日,大众点评发布《2025年评价透明度报告》。报告显示,大众点评升级了评价审核流程,首次引入AI智能体辅助人工,全年共处置了2557.2万条违规评价,还有1161万条与AIGC生成内容有关,高强度邀评促评的商户数量下降了42%。
从表面看,这是一次常规治理。但其中首次披露的AIGC生成的违规评价说明,AI时代,本地生活的评价体系正在面临新的变量。

相关资料还提到,点评的AI智能体是以“物理世界信息”为底座,这意味着,其AI计算的素材来源并非“假消息”肆意的网络,而是真实的物理世界,能够有效杜绝AI幻觉问题。
毕竟,本地生活服务的核心是解决用户去哪消费、能不能消费的决策痛点,评价体系则是承载用户信任、支撑决策的核心载体。
过去,评价的价值更多来自真实体验的积累,但在AI可以快速生成内容的情况下,信息本身不再稀缺,反而是哪些内容是真人写的,哪些内容对应真实体验变得更难判断。
一旦评论区中充斥大量结构相似、细节模糊甚至脱离实际的内容,评价作为决策依据的有效性就会被削弱,进而影响用户消费决策。
在这样的背景下,大众点评对于AIGC评价的治理态度,以及AI智能体的首次引入,更接近一次底层能力的修正。它试图解决的,是用户在评价内容与消费现实之间的落差。
一、本地生活AI审核的核心是“校验现实”
AI时代之下,大众点评在25年做了一次调整。
这一调整的核心,是引入AI智能体辅助人工审核,并将原有流程升级为多层结构:从黑产拦截、AI初筛,到人工复核、专家终审,再到争议处置,形成一套“AI+人工”的协同机制。

在这套体系中,AI的作用首先体现在效率上。面对每天海量生成的评价内容,AI可以完成第一轮快速筛查,对明显异常的文本、行为进行标记,大幅降低人工审核的压力。报告显示,99.9%的新增评价能够在提交后的次日完成最终研判。
但更关键的变化,并不在效率,而在审核依据。在判断方式上。不同于理解语义的通用型AI智能体,大众点评的评价审核AI智能体,理解平台上千万商家的线下真实信息。
这极大程度的规避了AI幻觉问题。
他跟普通的AI大模型有什么区别?举个例子,此前315晚会报道中曾提到一款纯虚构的商品,只要十余篇软文,花费几十元,就可以将虚假产品信息成功“投喂”给AI大模型,并在几天内获得推荐,甚至名列前茅。
即便这款产品从来就是子虚乌有。
然而,大众点评的AI,关联的是物理世界真实存在的信息,而非互联网上真假参半的信息。
其校验依赖一套被称为“物理世界信息”的数据底座。平台AI在审核评价时,可以同时调取商户菜单、交易记录、地理位置、用户行为等多维信息,对评论中的关键要素进行逐一比对。
例如,有人在评论里写这家店的烤串很好吃,大众点评系统会去查这家店的菜单。如果这是一家火锅店,根本没有烤串,这条评论就会被标记出来。
类似的核对还有很多。比如用户是否真的到过这家店,可以通过团购核销或订单记录判断;评论发布时的位置,可以和商户位置对比;上传的照片,会和商家的菜品、环境信息做匹配。
这样一来,消费者就不会遇到类似“打开一家评分很高的店,有人夸一道菜很好吃,你翻菜单却找不到的情况”。
二、保护AI时代“真人感”,全年治理AIGC评价1161万
如果说前面解决的是本地生活中的核心问题核验事实,那AIGC治理解决的是另一个问题,如何判断这些评价,是不是人写的。
这在AI时代显得尤为重要,因为“真人感”成了最稀缺的东西。
一条评价即便内容看起来合理,但如果是AI批量生成的,就会缺乏真实体验的细节,表达趋同,甚至只是把公开信息重新拼接了一遍。这类内容一旦规模化出现,会迅速稀释评论区的可参考价值。
正如大众点评公信力负责人所说:“点评的用户可能只发了20个字一张图,但这20个字是他真正打出来的,对你的价值可能高于无限多个低成本,只是刺激多巴胺的、没有人味的AI创作内容,所以大众点评将持续努力做好真人感评论区的建设。
大众点评的《2025评价透明度报告》中,也提到了对于AI生成评价的逐层判断能力。

平台内部AIGC的识别逻辑,大致围绕三个维度展开。
先看文本本身。AI生成内容往往有明显特征,比如结构高度统一、形容词密集、缺少具体细节,或者呈现出“面面俱到但没有重点”的表达。这类内容在模型侧可以被快速筛出。
再看行为模式。比如短时间内连续发布多条评价、账号历史内容高度同质、不同商户下出现类似结构的文本,这些行为都会被标记为异常。
最后才进入最关键的一步:运用AI智能体和人工审核力量,和现实做交叉验证。平台会把评价中的关键信息,拿去和商户的菜单、品类、交易记录、地理位置等数据逐项比对。如果文本描述和真实信息存在偏差,即便文风再自然,也会被识别出来。
对于明显脱离现实的内容,会直接屏蔽;对于存在疑点但不完全虚假的评价,可能采取折叠或降权处理;而那些基于真实体验、只是借助AI润色的内容,则仍然可以被保留。
这或许是当下对于AIGC评价较为合适的处置态度。也就是说,平台并没有把AI当作敌人,而是试图划清一条边界:哪些内容仍然属于真实表达,哪些已经变成信息噪音。
三、用真实数据来验证信息
值得注意的是,以上AI智能体来校验物理世界现实的方式能成立,有一个前提,平台手里必须有足够多线下商家准确真实的数据,而这恰恰需要本地生活平台耗费大量资源维护。
事实是,这已经成为了大众点评守护AI时代稀缺的真实的底气和护城河。
要核查一条评论,你得知道这家店的菜单、营业情况、空间结构,还要有真实的消费记录。否则,所谓对照现实就无从谈起。
资料显示,这些信息,并不是一次性建立起来的。地推团队在补充基础数据,骑手在提供位置和履约信息,团购和到店业务在沉淀消费记录,用户上传的图片和评价也在不断补充细节。平台再把这些数据整理、校验,慢慢形成一张可以被调用的现实信息网络。

有了这张网,审核才有抓手。
这件事还在形成一个循环。数据越准确,审核就越容易;审核越有效,评价就越可信;用户更愿意留下真实内容,数据本身也会继续变多。
也正因为这样,这种能力很难一下子复制出来,它更像是一种长期积累。
同样是商户数据库,如果缺乏长期投入,很难做到覆盖和准确。一旦信息出现偏差或滞后,用户“踩坑”的概率就会上升,AI模型基于这些数据生成的结果,也会进一步放大误差。
在这一基础上,平台逐步形成一种自我强化的结构:数据越准确,审核越有效,评价越可信,用户参与度随之提升,反过来又进一步丰富数据。
结语
在本地生活场景中,信息的价值并不在于数量,而在于是否能够被信任。评价之所以重要,是因为它承载着用户对真实体验的判断,一旦这种对应关系被削弱,平台所提供的决策能力也会随之下降。
当评价能够持续对齐现实,用户获得的是更稳定的决策预期,而平台则在此基础上巩固自身的信任基础。从这个角度看,大众点评的调整并不只是一次审核体系的升级,更像是在强化一项长期能力。在不断变化的线下世界中,持续提供可被验证的信息。
在内容越来越容易生产的阶段,这种能力反而变得更加重要。
扫码下载app 最新资讯实时掌握
