10 月 20 日深夜,旅游攻略网站马蜂窝被爆其网站上的 1800 万条点评,是从竞品处用爬虫抄袭得来,以及大量用户其实是僵尸和水军。
这个消息在周末两天迅速发酵,10 月 21 日周日深夜,爆料方「小声北北」和乎睿数据将完整的报告放出,通过大量的截图陈述了马蜂窝的六大「罪状」。
而马蜂窝在 22 日早上终于发布了回应的声明,表示「针对该文中歪曲事实的言论,和已被查证的有组织攻击行为,马蜂窝将采取法律手段维护自身权益」。
马蜂窝哪里被捅了?
乎睿数据的完整报告中,共列举了六项马蜂窝在用户和评论上的造假行为,并且都有相应的截图。
这六项职责分别为:
官方账号为代表的大量账号存在严重侵权,点评板块近九成内容涉嫌抄袭;
官方推广活动奖品奖励多被机器人和内部员工获得;
使用机器人来回复用户,以提高活跃度;
内容发布时间异常,表现为朝九晚五,有双休、午休且不加班;
用户精心编写的内容屡遭利益集团篡改使用;
虚假商业内容充斥推荐系统,用户无法获取有效真实的信息
报告抽取马蜂窝 116 万家餐厅中三分之一作为样本,并设置了一字不差的抄袭才算抄袭、抄袭 150 个不同的大众点评账号作为筛选条件,发现马蜂窝上有 7454 个账号符合条件。
他们还发现,包括官方账号在内的许多马蜂窝用户人均抄袭了数百大众点评用户的评价,还有大量内容来自携程、艺龙,以及国外点评网站 Yelp、Agoda 等。
在官方活动疑似被操控方面,报告抽取了 100 多份官方活动获奖名单,其中有 600 多个是抄袭账号和僵尸空号。
▲ 餐饮点评上,马蜂窝与大众点评的发布时间对比,图片来自:乎睿数据
相当诡异的是,他们将马蜂窝和大众点评的用户内容发布时间进行了对比。在餐饮点评上,大众点评用户的高峰时间是周末,以及午休和下班时间,而马蜂窝则恰恰相反。
这似乎也印证着,马蜂窝上的用户是有组织、被雇佣的水军,并不是自然用户。
还有一张后续放出的趋势图显示,马蜂窝全部用户的餐饮点评趋势,与抄袭账号的趋势几乎一致。如果数据属实,也就是说,那些非自然用户、抄袭用户,基本主导马蜂窝整体的点评内容和质量。
马蜂窝除了自身被指认用户、点评内容造假,不少入驻马蜂窝的商家也被扒了。
报告认为:
马蜂窝有一批商家通过抄袭、拼接等方式做号养号,用洗稿的方式批量制作含有广告的游记、问答和回复,再由大量马甲号人工置顶。这种可谓是以超低成本对平台大量用户打广告的操作。
而商家通过利用水军刷好评,让自己的排名无论以何种方式排序都排在前面。在手机客户端上,用户浏览点评只有综合名次和点评数量两种排序方式,并且不会显示餐厅的评星分数,让用户无法有效获取真实有用的信息。
乎睿数据的爆料主要集中在马蜂窝的点评内容上,马蜂窝在官方声明中回应:
点评内容在马蜂窝整体数据量中仅占比 2.91%,涉嫌虚假点评的账号数量在整体用户中的占比更是微乎其微,马蜂窝已对这部分账号进行清理。自媒体文章所述的马蜂窝用户数量,与事实与第三方机构数量都严重不符。
马蜂窝安身立命的游记也被捅了
马蜂窝的 UGC 内容数据中,游记和攻略占比为 78.91%,这是让马蜂窝被认为是旅游攻略 app,在公众眼里区别于大众点评、携程之类产品的重要特征。
▲ 游记抽样中营销游记的数据情况,图片来自:乎睿数据
乎睿后续爆出的数据显示,他们抓取约 49 万个用户的超过 15 万篇游记,发现其中超过 7% 保留了联系方式,平均被顶次数是普通游记的 364%。这些营销游记很多都是洗稿和篡改后的软文。
马蜂窝在回应声明中表示,他们一直有严厉打击游记和问答中违规广告的行为,
平均每周处理 26000 条违规广告信息,查封 15000 个违规账号
他们认为这次的爆料,是自媒体和乎睿数据将不法商家的违规行为归结于马蜂窝。意思是觉得这是商家的锅,扣我们头上有点冤。
商业数据造假的遮羞布被掀开
在世界杯期间,马蜂窝投放 2 亿给大家放了一个极其洗脑的营销广告,并邀请黄轩作为品牌代言人。不少用户会在马蜂窝上搜寻旅游攻略,也会在上面预定旅游服务。
▲ 世界杯期间的洗脑广告
今年 8 月,马蜂窝宣布计划下一轮融资最高 3 亿美元,公司估值为 20-25 亿美元,即 175 亿人民币。
有业内人士指出,如果这次内容抄袭、数据造假坐实,马蜂窝的估值可能从 175 亿人民币断崖式下跌到 20 亿人民币。
这次的指责,相当于掀开了马蜂窝商业数据造假的遮羞布。让寒冬前夕、正处融资节点的马蜂窝被爆数据造假,这不禁让人怀疑,背后会不会有其竞争对手的推波助澜?
有业内人士认为,2018 年投资界真的是没钱,看那些组队在港股美股上市的科技公司就知道。而此时马蜂窝正值 D 轮融资的关头,他们出让 13% 的股票换取现金,这个出让比例太不正常,除非是企业真心缺钱。是打压独角兽估值,还是有人想要抢夺资本投出的资金?这还不得而知。
▲ 爆料的两篇微信文章,已被标上有争议
经济下行的投融资大环境先放一边。目前的事实是,平台上充斥着大量的虚假数据和抄袭内容,马蜂窝的运营人员不可能没有察觉,那么为何产品经理和技术人员没想过利用技术手段解决呢?
这些商业内容数据造假,究竟是马蜂窝自己所为,还是平台方防不过养号做号的灰产?
乎睿数据更多认为这些账号的内容造假,是马蜂窝自己写脚本利用爬虫技术抓取所为,并且还调用了 Google 翻译的接口。
在互联网世界里,几乎任何新生事物有利可图的网站都会被黑 / 灰产盯上。尤其是在 2015-2016 年期间,马蜂窝进行了大量的推广,用户在平台上刷问答和点评,就可以获得相当于积分的「蜂蜜」。「蜂蜜」可以用来兑换手机、旅游服务等价值不菲的产品。
水军、刷量这些现象基本是互联网行业里公开的秘密,从电商平台到网约车平台,社交平台、内容分发平台,还有视频播放平台,都能找到提供刷量、刷评论服务的供应商。
这些黑产生意,应该是互联网企业追求流量,崇拜增长数据背后的副产品。无论是平台自身所为,还是睁一只眼闭一只眼纵容黑产,这些真真假假的流量和数据成就了平台,也会慢慢地损坏平台。
在马蜂窝发布声明的微博评论区里,包括不少旅行方面的大 V 在内的用户都纷纷留言表示支持马蜂窝。作为一个曾经的马蜂窝用户,曾经在平台上搜寻攻略,也有发布过游记,如今看来,如何归还用户一个清净真实的平台环境,是马蜂窝在寒冬之前必须迈过的一道坎。
题图来自马蜂窝世界杯广告