昨日,百度百科发布大数据分析产品“百度数说”,将借助大数据挖掘和自然语言处理等AI能力,推动百科进入数据结构化的2.0时代。该产品一期将从明星垂类切入,从多维度量化明星价值。同时,《百度百科2017娱乐数据报告》也首次曝光。
2006年成立的百度百科正从知识内容沉淀平台转向知识信息创造平台,信息更新、传播速度在变快。目前已收录超过15000万的词条,参与词条编辑的网友超过了630万。
同时,百度百科每天响应4亿人次的点击。其中娱乐词条总量大概25万左右,占百科词条的1.7%。而娱乐词条每天的PV有1亿次,占总词条25%。这个数据表明出的全民娱乐状态,也是让百度数说选择首先从娱乐领域进军的原因之一。
据介绍,“数说”拥有三项核心优势。首先是深度挖掘全网数据,搭建出全面价值评估体系;其次,百度百科联合了多家垂类专业伙伴,确保数据权威性;最后,搭载百度的AI技术,为“数说”的数据采集与分析能力提供支持。
百度百科总经理陈合春表示,目前,大数据更多掌握在BAT大平台手里。此外,数据依靠专业技术能力门槛,“数说”要做的就是帮助企业降低获取大数据的门槛,将利用百度AI能力对全网包括搜索数据、社交数据在内的各行业数据进行全面整合和计算,最终呈现结构化、可视化、直观的数据报告服务于大众人群。
以明星垂类为例,整个大数据计算模型包含了数百维度的计算特征,将首先从专业传记、影响力、粉丝力、舆情形象、上升潜力等多个维度做全面综合评估。每一个维度下面也会评估很多细粒度的指标,综合过去参与的电影、电视剧、音乐作品,网友力、收视率,网民印象等因素最终计算出明星的专业传记。
“数说”将全面整合百度系产品,包括百度搜索、手机百度、百科、知识图谱、新闻、贴吧等等,做全面整合和计算并且开放引进行业权威的数据和评估机构,如艾漫数据、新浪微博、猫眼娱乐、爱奇艺、芒果TV等等,保证数据报告权威。
百度AI能力也不可或缺,“数说”整个项目里面采用了命名实体识别、洞见挖掘、情感分析、自然语言处理等多项人工智能技术,确保大数据计算的精准度。当然,“数说”也将依靠百度的流量优势。
虽然目前,“数说”仅开放明星垂类,明年Q1会逐步开放到影视综合等泛娱乐方向,下半年逐步覆盖其他对大数据有比较强需求的领域。
基于“数说”的分析结果,百度百科还在现场公布了获得2017年度最具粉丝力艺人、最具潜力艺人的明星,分别是易烊千玺和张雪迎。
从标准的 ‘百科全书’,向结构化‘数据简历’跃迁,进入百度所说的2.0时代,同时,“数说”的发布也正证实百度的All in AI的战略在知识体系的进展,以技术、数据实力支撑,引入更多优质合作方,让知识体系更多维、开放,拓宽应用场景,实现与相关产业的深度结合。
