互联网数据乱象:为何数据掺水事件频频发生?
王小波当年在《花剌子模信使问题》一文中写道:中亚古国花剌子模有一古怪的风俗,凡是给君王带来好消息的信使,就会得到提升,给君王带来坏消息的人则会被送去喂老虎。于是将帅出征在外,凡麾下将士有功,就派他们给君王送好消息,以使他们得到提升;有罪,则派去送坏消息,顺便给国王的老虎送去食物。王小波在这里说的是,中国的近现代学者里,做“好消息信使”的人很多,尤其是人文学者。但对应到当下的互联网行业亦然。他们认为,只要杀死带来坏消息的人,坏消息就不复存在。
最近两年,随着互联网行业竞争的加剧与互联网创业热潮涌起,宣传过猛与包装过度的行业数据时有曝出,而基于某一产品领域的一哥之争也让数据乱象不断浮现,第三方数据由于统计口径的问题引发“不服”,导致厂商之间口水战频频开打的现象也屡屡发生。
从正常的逻辑来看,数据不会说话也不会说谎,但如果背后传递数据消息的人将抛出的数据修饰包装过度,往往就会演变成互联网行业的“花剌子模信使”事件。从不说谎的数据到“花刺子模信使”,这背后有哪些原因?
互联网数据自说自话盘点:多数源于竞争加剧或融资困局下的焦虑心态流露
我们从打车行业盘点开始。早在2014,滴滴(当时还名为“嘀嘀打车”)迅速发展,当年年初嘀嘀打车公布了与微信支付合作后的成绩单数据,从2014年1月10日至2月9日,嘀嘀总微信支付订单约为2100万单。然而,在当年的2月7日,北京晨报记者收到腾讯的数据却显示:从1月10日起至今,嘀嘀打车微信支付订单总量突破500万单。
业界质疑其数据:2月7日到2月9日,从500万单增长到2100万单,数据存在太大水分。当时腾讯公关部表示,2月7日发布的数据是从1月10日到1月26日,由于表述方式不够明确,引发了歧义和困惑。而在当时,打车行业涌进来的投资机构越来越多,砸广告、疯狂补贴抬高估值成了打车行业的一个共同的现象。日均订单等数据开始成为投资人衡量打车行业前景的重要指标。
我们再看电商与O2O行业。猫眼去年发布的一份数据显示:2015年7月其电影单月交易额高达22亿。而据国家电影资金办的数据显示,2015年7月中国电影票房高达54.9亿元,46%来自电商票务,约为25.3亿元。这约25.3亿的电商票务市场主要被美团、百度糯米、淘宝、格瓦拉、微信、大众点评等产品所瓜分。
按照猫眼数据显示,如果仅猫眼就占22亿,其它票务电商共计仅有3.3亿。这样一换算,猫眼电影几乎独占九成,有业内人士当时慨叹:这是把百度糯米、淘宝电影、微信、大众点评、时光网、豆瓣网、网票网、格瓦拉和微票儿等电影在线售票平台当成了空气。当然这也与当时竞争环境白热化,财大气粗的BAT强势入局打响补贴战有关,猫眼电影早已感受到巨大压力。
另外在O2O外卖行业也屡有数据说漏嘴的事情发生。去年7月,饿了么联合创始人康嘉透露,蜂鸟日订单量为60-70万单,是饿了么平台一半的交易量,按照这个数据推算,饿了么的实际日订单量为120万至140万单,这显然与饿了么此前宣传的日订单超200万不符。业内分析认为可能是康嘉急于宣传自身的蜂鸟配送系统,一不小心说了实话。
而在这背后,则是自2014年5月拿到大众点评8000万美金投资后,张旭豪的饿了么开启了不断疯狂融资和不断烧钱的旅途,饿了么还在苦苦寻找下一轮融资。对于投资人来说,O2O外卖行业最重要的价值指标无疑就是日订单量与用户数。这是一个需要投资人砸钱输血的游戏,需要依赖靓丽的数据来拉升估值。
因为创业者投资者衡量一个互联网项目,订单量、融资情况以及用户量无疑是硬性考核指标,创业者为了让融资之路顺畅的走下去,配合投资人的偏好有时候也是不得已而为之,这多半源于行业竞争加剧之后的一种焦虑心态的流露。
去年尤为引发业内关注的则是一亩田交易数据疑造假事件。同样在去年的7月下旬,多家媒体发文章称,当时一亩田交易数据存在造假行为。以其“9小时前老板采购了1073741.8235吨洋葱”的交易信息为例,单笔107万吨的洋葱采购量已经超过了洋葱盛产地区西昌每年30万吨的产量。
而一亩田被曝运营数据造假与此前饿了么被质疑6.3亿美元的F轮融资“水分大”,显然都与需要继续融资烧钱息息相关,烧钱模式的创业公司,一旦投资人停止输血,往往就会倒闭,手里有钱才能持续推动外界对其的想象空间,或者成功被巨头收购成为其代理人与战略性的棋子也不失为一种成功。
互联网数据造假的先进性还体现在可以通过先进的代码技术来实现。比如在去年11月,在移动音频领域行业中的蜻蜓FM,被媒体曝光通过使用“普罗米修斯”、“宙斯”两个强行自启代码,在用户手机中后台启动无窗口透明界面,并传给第三方数据统计公司,以此伪造DAU(日活跃用户数)、广告展示量和广告点击量。
后来喜马拉雅FM发布题为《四问蜻蜓FM:关于数据造假,敢不敢正面回应》的官方声明,就蜻蜓FM反编译代码中的 “普罗米修斯”、“宙斯”两大造假代码向其提出质疑。蜻蜓FM当时发文回应,“不管谁在恶意攻击,我们都不惧怕”。这背后则体现了目前移动音频行业背后竞争恶化的状况。
最新的数据存疑的例子还有地图服务的用户数。春节前夕,百度地图在春节期间在湖南卫视投放的广告中,提到了“5亿人都在用的百度地图”的口号, 1个多月以后,高德地图也宣布截止到2016年1月底,高德地图用户数已超过5亿。但是从多数第三方数据机构提供的统计上来看,高德的用户规模、活跃用户数据可能还存有疑问。从国内主流的安卓市场,如基于百度手机助手、应用宝、360手机助手、豌豆荚等多家应用市场的关于百度地图与高德地图的下载量应该可以反映出数据的大致基本面,我们采集了相关的数据来看:应用宝百度地图的下载量是5亿,高德地图是2亿;360手机助手显示的数据是:百度地图:4.62亿,高德地图是3.06亿。而豌豆荚中显示的数据显示则是:百度地图是1.6亿人安装,高德地图是7893万人安装。
各个电子市场虽然用户群体不一,但基本面已经反映出大致的趋势,从各大电子市场的数据显示来看,高德地图5亿用户数的基数缺乏来源口径的支撑。在iOS端,高德虽然是苹果中国地图数据的独家供应商,但苹果的用户与高德地图的用户是不能直接划等号的。更有意思的是,在高德地图宣布“用户数超过5亿”之后,苹果App Store在3月1日更新了高德地图的新版,但在这个版本提供的产品介绍资料里,高德地图仍然标明“3.2亿用户正在使用”。
互联网行业为何被公众质疑数据掺水事件频频发生?
当然,互联网数据自说自话的现象还远不止这些,包括二手车市场与在线旅游市场等诸多案例,笔者在此不一 一例举,其中归根结底是对产品缺乏自信力。
但我们同时看到,互联网数据存疑的案例基本会发生在互联网的热门领域,比如O2O、电商、互联网地图、打车、在线旅游等领域,互联网行业被公众质疑数据掺水事件频频发生,这里面有着多重原因。
首先对于互联网行业的公司而言,它们的业务基础大都都建立在以用户增长速度为基本的盈利模式与估值模式,日活跃用户数与增长速度的快慢可以直接影响到公司融资估值。从传统互联网的最初阶段开始,用户注册数、排名关注度,电商的销售额、订单数、转化率、增长率等数据指标,就成为衡量一家公司业务模式的健康程度与盈利模式的想象空间的基础衡量指标;在移动互联网时代,APP下载量与日活、打开率、存留率、交易量等成为核心指标,它们依赖这些指标来吸引投资,拉广告,创造更高的收购价码。而传统互联网时代,用户注册数,点击率可以交给水军,移动互联网时代,无论是点击率与或者APP排名本身也可以依赖水军或者第三方刷单公司与服务方来做。可以说,互联网企业造假与互联网本身的基因即盈利模式与增长模式也息息相关。这是其一。
其二,部分创业公司需要夸大数据方便融资给投资人想象空间。近年来,互联网创业大潮之下,众多创业投资机构、孵化机构纷纷涌现,互联网领域的创业全民关注生机勃勃。风投与投资机构对互联网领域创业尤为青睐,从创业者角度来看,数据夸大之后,方便其更有利的融资,拉升上市的估值,被巨头收购或者入股,相对来说数据是最有说服力的,这是拿钱有利的筹码。但与此同时,当投资人也陷入到这个游戏之中之后,基于本身的利益需求,方便创始人拉升估值并推动更多融资继续烧钱,也方便自身在利益高点顺利退出,投资人对数据造假也会睁一只眼闭一只眼。因为投资人也是往往或被动或主动的成为数据造假利益链当中的一环。
再次是互联网企业的考核机制。在互联网公司,基础的KPI考核指标均需要运营数据来量化。企业内部的不同团队、甚至一个团队不同成员之间基于各自的利益诉求,一旦达不成需要实现的预期量化目标,就会开始在执行过程中尝试猫腻的手法,比如部门之间、跨部门协作或者与第三方合作方之间均会涉及到彼此共同的KPI指标,在同一利益链上,互成默契对数据修饰与扩大将成为可能。与合作方一起结合第三方数据造假行为开始成为行业内默认的潜规则,数据注水往往也开始发展成为地下产业链的一环。不过前面提到,部分又涉及数据篡改的技术含量。
总而言之,互联网行业数据作假,线下用托,线上则可以用代码等技术并于第三方数据机构以及使用传播稿多线运作,其中少有漏洞,如部分网友所说,这相对体现了互联网的“先进性”。第三方数据机构往往也可能被质疑为权力寻租的工具,比如去年底艾瑞与今日头条的互撕。
还有一种就是巨头之间的对抗赛,百度地图与高德地图的数据之争就属于这种情况。高德地图并入阿里之后一直固守基础功能,并砍掉原有的O2O业务,宣布"专注于地图导航"。然而在2015年6月,高德地图似乎是不愿让百度一骑绝尘将自己甩得太远,也开始切入O2O领域。高德在这一年里在路线主义上反复纠结,团队内部也倍感煎熬。而被收购的互联网公司通过数据修饰大致也有几重意图,首先避免在巨头羽翼与架构中被边缘化,同时可以获取更多资源支持与资金输血,随着在线地图愈加演变成用户级市场上的征战,用户数成为重要流量渠道与O2O入口重要指标,否则难逃在诸多业务架构下的边缘化宿命。
数据造假影响用户认知:影响用户、投资人对企业诚信评估与信任价值
数据造假受害者当然是用户。用户往往也会看企业的数据做出决策,也有着很强的从众心理,比如在电商平台,一旦公布成交规模,往往会影响用户的购物意向,刺激用户转向该平台消费。因此某种程度上,数据影响了用户的判断。当通过用数据不断、日复一日的灌输,消费者也会逐步认同这种认知,这也是洗脑的过程。而造假被揭露之后,必然也会面临系列的业界质疑与投资人对企业的价值的重估,也影响用户对企业诚信评估与信任价值,将促使整个VC圈对于互联网成长企业有更加全面的评判标准。
互联网行业操作数据、影响用户判断让其利益受损的行为时而发生,这也与行业的恶性竞争相关,目前来看,互联网各个领域的格局相对已经固化,新入局者很难出头,人口红利趋于用尽。全行业进入了目标市场相对成熟与有限增长空间争夺战的时候,市场竞争也越来越趋向陷入低水平的重复竞争与数据战。
一旦当个别性的造假演变为集体性的造假,显然不利于整个行业生态的健康运行,也催生了整个行业的泡沫。早前赛富亚洲投资基金首席合伙人阎焱就在一次论坛上吐槽表示,互联网行业中间有大量的泡沫。我们所碰到的情况,就是创业企业在点击率、在用户数转化率等数据方面全面造假,而且造假夸大已经成为中国互联网常态。
避免数据夸大成互联网常态:需中间态的机制来推动数据监测机构与企业达成制衡
关于如何杜绝数据造假,在目前可能是一大行业性的难题。有业内人士认为,让会计师事务所介入到互联网企业的数据服务可能更严谨一些。但无论是会计事务所的介入终究也是服务于企业,其中权力的寻租空间必然极大,所以由企业担任的第三方机构的可靠性与第三方数据机构本质上并没有什么不同。有新的集团介入,必然会有新的服务于数据的产业链出现。
而政府的介入会呢?比如有消息指出,此前北京工商局就通过行政建议书等形式公布第三方商家售假信息,在各电商平台之间建立起针对第三方商家的资质和信用管理体系。因为互联网平台本身缺乏信用认证体系,而许多平台往往存在着多种数据操作手法与模糊的演算规则,在这种规则下,数据迷雾重重真假难辨,某种程度上说,企业数据造假到了互联网公司,本质未变,但只是手段变了。
但第三方尤其是有政府背书的权威第三方的认证是否能真正保持独立真实,也难说,因为缺乏监控与制衡机制,难免会产生灰色地带与权力寻租空间。也有业内人士表示,对于如何判断数据真假,通过综合分发渠道,以某两个渠道来反推他的新增和日活,也是一种相对有效的方式。总的来说,需要一种机制来推动数据监测机构与平台企业达成制衡,也只有第三方数据监控方与平台之间形成的制衡,才有可能监测企业发展过程中的一些真实有效的数据,给用户正确的认知。
互联网行业的“花剌子模信使”:掩饰不了用户对劣质产品最真实的直觉
数据的修饰掩盖不了业务发展本身的规律与产品功底的匮乏,许多VC也已经醒过来。互联网数据造假难保不会推动新一轮泡沫与资本寒冬的助推手,这相对降低了投资者对行业的信任指数。许多投资人捂紧钱包,烧钱逐渐变少,对行业来讲也有益无害,因为泡沫适度有利于行业热度降温,它让行业回归理性让资本非理性热捧的独角兽回归正常估值。数据的故事还可以继续讲,而掺水的运营和财务数据披露被曝光之后的负效应将会持续放大,对业务与品牌带来沉重的打击,并削弱整个公司的信任价值。
很显然,鸵鸟把头埋进沙堆,狮子照样会朝自己扑来,皇帝的新装一旦被戳破,数据游戏带来的则是自欺欺人之后无法掩饰的尴尬与行业公信力的尽失,更重要的是,数据始终掩饰不了用户对劣质产品体验那种最真实的直觉。