首页 > 风险防范 > 我为什么要捅马蜂窝?

我为什么要捅马蜂窝?

2018-11-29 21:17:04|浏览量:444|

我为什么要捅马蜂窝?

撰文 /   ©  AI财经社 裘雪琼

编辑 /   ©  王晓玲


UGC平台之间互相抄袭内容,对于业内人士来说本来不算什么秘密,这个周末这个内幕突然被揭开一角。

10月21日,一篇《独家|估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》刷屏网络。

这篇数据分析文章指出,成立于2006年、已获得4轮融资的马蜂窝旅游,2100万条点评中有1800万条是抄袭的。

中午,AI财经社联系马蜂窝公关人员,对方表示“正在搜集证据,会给到大家”。多家媒体得到了类似回复,但截至发稿,马蜂窝方面仍然没有对抄袭做出正面回应。马蜂窝官方微信号和官网微博也都未对此作出澄清。

      

我为什么要捅马蜂窝?

这篇文章于10月20日晚间发布于个人微信账号“小声比比”,其创始人梓泉此前是某家门户网站的新媒体总监。“我不是数据的挖掘者,我只是负责讲故事的人。”他告诉AI财经社。

负责进行数据挖掘的是乎睿数据。

在上述文章的末尾,有一段关于这个团队的官方介绍:“乎睿数据是一支致力于通过技术改善生活的年轻团队。成员毕业或就读于宾大、康奈尔、伊利诺伊香槟分校等高等院校,精通人工智能、自然语言处理、大数据分析等技术,曾在谷歌、脸书等一线企业任职,拥有丰富的研发与领导经验及多项专利,并曾于AAAI、NAACL、ACL等顶级学术会议发表论文,联系邮箱:contact@hooray.ai”。

AI财经社在企查查网站上发现,2018年1月,深圳市乎睿数据有限公司注册成立,法人代表为吴昊。公司注册资本102万元,三个股东——吴昊、费之晔、聂震均持股33.3%。

这篇起底马蜂窝的爆款数据文章是如何诞生的?就此AI财经社对话梓泉。

01 抄袭手段太低级

AI财经社:你们是什么时候,如何发现马蜂窝的点评数据存在造假现象的?

梓泉:是乎睿数据这个团队,大概在4个月以前发现的,因为吃外卖吃坏肚子,去差评反遭诋毁,因此想做一个分辨餐饮点评真实性的模型去参赛,当时他们只是想用马蜂窝的数据做机器训练,但是后来发现,里头的数据有大问题。他们是这周一(10月14日)找到我的。

AI财经社:从发现到决定做这个选题,据你所知,乎睿数据做了哪些调查核实、搜集分析?

梓泉:其实这个数据并不难抓。但马蜂窝的点评板块并不是主打,所以大家都没有注意到。

乎睿数据发现一些数据(有)比较明显的异常。原话是“数据的活跃曲线有很明显的爆发和消失”,文章中我们配上了数据图,可以看到它的用户增长曲线波动不太正常。

随后他们开始做比较全量的查找,发现(马蜂窝)搬运和抄袭的现象非常严重,而且非常拙劣。我们已经把抄袭的标准定得非常严格,间或性抄袭是不算抄袭的。比如我把三条点评拼起来变成一条。

我们不是说,抄袭了一个其他平台点评账号留言,就定性为抄袭。我们是把一个抄袭了150个不同的大众点评账号的马蜂窝账号定为抄袭的。

我为什么要捅马蜂窝?


这是为了避免用户有两个账号,在大众点评发,也在马蜂窝发。但是你如果与150个大众点评账号的内容都……可以认为你是有意的,是吧?

AI财经社:乎睿数据找到你的时候,你一开始觉得可信吗?

梓泉:我当时比较怀疑的是,(抄袭)手段有点拙劣。抄得太业余。我觉得挺意外的。

AI财经社:乎睿数据有没有告诉你,为什么选中马蜂窝数据进行机器训练?

梓泉:没有,只是微信上聊天的时候,他们说当时正好看到了马蜂窝的广告。

AI财经社:那你问了吗?

梓泉:没有。我觉得这个挺make sense的,挺正常的。

AI财经社:你用过马蜂窝平台吗?

梓泉:有啊。OTA类似网站那么多,我个人的使用感觉是没什么非要用马蜂窝的理由。

AI财经社:你和乎睿数据的成员怎么交流的?

梓泉:他们团队有三个人,有一个在休假,没有和我直接接触。我需要什么数据、核实什么问题直接和他们打电话。

这是一个很年轻的团队,成员都是在国外留学回来做数据分析,参加过数据大赛那种。我不是做数据的人,他们对数据生成的解释比我强。

他们的原始报告有70多页,因为写得太详细了,可读性上可能有一些问题。但他们的数据挖掘能力很强、(调查)确实很扎实,而我讲故事能力比较强,我这次就是帮他们把这个故事讲好。

      

我为什么要捅马蜂窝?

AI财经社:你需要和他们核实哪些问题?

梓泉:我和他们沟通的主要是表述。他们的推导逻辑挺复杂的,是先从多少个马蜂窝点评账号抄袭过150个大众点评留言出发的,再把这些抄袭150个以上账号的马蜂窝账号的所有点评加起来,最后除以(马蜂窝官宣的)全部点评数,得出85%的比例。

AI财经社:你求证的,就是推演逻辑、计算公式怎么来的?

梓泉:除了推演逻辑,还有数据来源,以及他们一些图片的截选位置,比如是从哪个主页去找的,我需要证实从我这边能不能复现他们所查到的东西。

AI财经社:那你是怎么构思行文逻辑的?

梓泉:主要是出于传播价值。数据研究报告分为3部分,我总结出来第一篇最有爆点的就是马蜂窝的抄袭行为,而且是明显的以公司为单位、大规模的抄袭行为,这种行为可以当作丑闻来对待,对吧?今晚第二篇文章中,我会提到一些马蜂窝平台上的其他现象。

AI财经社:哪些现象?

梓泉:我晚上的文章会提到,一方面是马蜂窝其它板块,包括游记和问答的水军泛滥问题,我们也会提到一些其他UGC社区。有一个笑话叫:UGC内容,爬取能算偷吗?这不是很常见的事吗?马蜂窝抄袭是一方面,但这篇文章能成为爆款,一个很重要的原因是,它加工得也太低级了。

02 半夜1点被马蜂窝投诉


AI财经社:文章发布后的阅读数据是怎么变化的?

梓泉:昨晚11:40发布的,今天早上8点微信平台到了10万+。现在,微信端的阅读数破100万了吧。

发布时间,我们也是想找一个(马蜂窝)公关来不及上班的时候,(比如)周末晚上。我们周五就(把文章)组织得差不多了。

考虑这篇文章会被马蜂窝回应甚至有起诉风险,我们也是把很多细节表述不断精确化、一一确认后才发布出来,避免在法律上事实上留下把柄。这个东西对人家公司影响很大,如果我们被抓住倒打一耙,也负担不起。

AI财经社:你作为撰写者,哪些措辞你会严谨中立一些?

梓泉:比如标题上,我们没写“马蜂窝”,用的都是比喻,没有很绝对的词汇。文章中间涉及到数据的,都是有东西支撑的,比如截图,包括(提供)数据可视化(图表)让大家能看懂。

AI财经社:读者的反馈中有印象深刻的吗?

梓泉:现在留言有千把条了。大家都比较希望我们去揭一下抖音和小红书。跟马蜂窝有关的留言可以分为三类吧。第一类主要说马蜂窝的游记还不错;第二类说用马蜂窝真的找不到什么真人(账号)。第三类好像都是投资人,对当年投资马蜂窝的机构冷嘲热讽。

      

我为什么要捅马蜂窝?

AI财经社:有一个留言者说,数据造假可能是马蜂窝,也可能是马蜂窝和投资机构合谋。

梓泉:其实我们今晚会写到,类似于商家和用户的一个合谋。马蜂窝在2015年出过一次力度非常大的回馈活动。任何这样大规模的活动,都会带来一个非常大的增长黑客,我们俗称薅羊毛的。

比如说,人家开1万个水军号、留一段言、每点击几下就拿到奖励币,最后让人家把平台的奖励薅光再走人。这种流量没有价值,但是它确实能在短期内推高,(而且)并不是很多公司都反感这种流量。

这相当于一种变相的购买流量吧。2015年马蜂窝点评数量的增长也许是和它的这个奖励有关系的。我们并不能说马蜂窝组织做这样的事情,但肯定是跟它默许、或者没有阻止人家薅它的福利有关系。

我们会以几个具体案例呈现。大家不是说它的游记做的很好吗,但其中,我们会分析存在的问题,尤其是它几个主流的板块,游记、问答。

AI财经社:文章从昨晚发布到现在,马蜂窝团队联系你了吗?

梓泉:把我投诉了,这算联系吗?半夜1点多,马蜂窝通过微信公众平台对我连续进行了2次投诉,说我侵犯他们的商誉,毁谤之类。

AI财经社:利用爬虫软件抄袭点评,在UGC平台很常见,在OTA平台也是吗?

梓泉:我不敢说,因为只做了这一家,其他家的状况,我不敢评论,但灯下黑的情况,我们觉得应该不少。

AI财经社:我查了乎睿数据,在企查查上看到有家深圳乎睿数据的。

梓泉:这个你得联系他们。

AI财经社:已经注册了公司,所以这是一个全职的团队吗?

梓泉:涉及到这家公司运营层面的,我说的没有效力。

      

我为什么要捅马蜂窝?

AI财经社:乎睿数据成员,为什么来找你?你愿意写作发布的原因是什么?

梓泉:我这个账号在科技圈有点名气。而我知道“什么样的新闻有价值”的。这个报告有社会服务性,能有传播度的。

AI财经社:你发布这篇文章,有商业利益吗?

梓泉:没有。


© THE END

本文由AI财经社原创出品,部分图片素材源自视觉中国

本网所发布资讯来源网络,仅属作者个人主观观点,与本网无关。
 

专栏合作

欢迎您浏览龙基金官网,有关资讯合作,投稿或其他疑问请联系 QQ:2698491281

开通专栏