【原】假如马蜂窝用了AI......

新用户8447VjsA 2020-10-20

展开全文

自从2018年8月份足球世界杯刷屏以来，马蜂窝沉寂了一段时间，时隔两月有余，马蜂窝再次火起来了，这次是因为被捅爆料：1800万条点评系造假。

总共才2000万条旅游评论，超过85%造假，如果属实，听说175亿的估值将缩水至20亿！！！

马蜂窝是什么？百度一下，得到百科词条：

马蜂窝是马蜂的蜂房，马蜂的窝是蜜蜂栖息、繁殖、贮存、生活、越冬及其他活动的场所，为蜂箱内部的空脾、蜜脾、粉脾、子脾、蜂路和空间的总称。

如果不是2018年的那场世界杯，很多人都不知道还有一个这样的旅游攻略网站：

旅游之前，先上马蜂窝，靠谱的旅游攻略,精选自由行攻略,自助游分享社区。你对这个世界的好奇，马蜂窝都有答案。

言归正传，这次马蜂窝陷入评论造假旋涡，一篇题为《估值175亿的马蜂窝竟是一座僵尸和水军构成的鬼城？》的文章在网络上刷屏，爆料出蚂蜂窝1800万条涉嫌抄袭大众点评、携程等网站的用户点评信息，顿时间引起了网友们的转载及热议。

在网上一片呼声之中，马蜂窝出了一纸声明，并要起诉造谣者，这似乎让人有点怕怕，如果是真的呢？

且不说真相如何，在大多数人的眼里，马蜂窝评论造假基本是坐实了（可不是小编说的）。

马蜂窝发布声明称，点评内容在马蜂窝整体数据量中仅占比2.91%，涉嫌虚假点评的账号数量在整体用户中的占比更是微乎其微，马蜂窝已对这部分账号进行清理。并表示，“自媒体文章所述的马蜂窝用户数量，与事实和第三方机构数据都严重不符。”马蜂窝称针对该文中歪曲事实的言论，和已被查证的有组织攻击行为，马蜂窝将采取法律手段维护自身权益。

不是号称旅游大数据的新型服务平台呢？”“说好来自上亿用户的真实分享？还挺怕自己去错地方”。而另一边网友们则站在中立角度评价，认为马蜂窝上面的攻略和游记还是很受用的，大数据的运用需要时间的验证。

既然马蜂窝强调了他的大数据，今天我们从工程师技术的角度来说说，马蜂窝运用大数据的升级版：AI了吗？

在这个忽如一夜东风来的潮流下，AI一下子引爆了中国整个互联网，从语音识别AI到人机耦合，从芯片到算法，再到波士顿机器人，无一不透露出AI的繁星点点。而在涉及到评论方面，我们搜索了国内外的资料，最靠谱的应该是AI中的NLP。

NLP：Natural Language Processing：自然语言处理，是人工智能（AI）的一个子领域。

自然语言是人类智慧的结晶，自然语言处理是人工智能中最为困难的问题之一，而对自然语言处理的研究也是充满魅力和挑战的。

理论上，NLP是一种很吸引人的人机交互方式。早期的语言处理系统如SHRDLU，当它们处于一个有限的“积木世界”，运用有限的词汇表会话时，工作得相当好。这使得研究员们对此系统相当乐观，然而，当把这个系统拓展到充满了现实世界的含糊与不确定性的环境中时，他们很快丧失了信心。
由于理解（understanding）自然语言，需要关于外在世界的广泛知识以及运用操作这些知识的能力，自然语言认知，同时也被视为一个人工智能完备（AI-complete）的问题。同时，在自然语言处理中，"理解"的定义也变成一个主要的问题。有关理解定义问题的研究已经引发关注。

其实NLP不是今天或者这几年才开始研究的，早在很多年前Google就开始了NLP实验室和平台建设，2016年上线了开放云处理平台，目前不仅可以处理英语，还可以处理中文等语言。

实际上，NLP是（或者说几乎是）所有信息密集型处理过程的核心。NLP驱动了搜索引擎、虚拟个人助理、系统推荐、现代生物医药研究、智能和商业调查、消费者洞察……

不仅是谷歌，现在的阿里，百度都推出了NLP处理云平台，可见NLP在未来AI中的地位有多重要。

回到我们今天的主题：假如马蜂窝用了AI

第一种前提：哪怕，即使马蜂窝是通过抓取其他网站的评论（其实这是互联网行业公开的秘密，只是或多或少的程度问题），形成了大数据，然后通过BI等手段对这些大数据进行清洗、切片、整理、再重新分类，同时与各旅游景点和人群进行细分，利用NLP再造一个真正的点评世界，完全是可能的。

第二种前提：马蜂窝的数据大部分是自身的，是真实的，而游客的评价是离散的，分片的，只有少数专业的点评才是有条理的。那么利用AI算法及其NLP，可以造出一个更加符合真实情况的比较完美的点评系统。

我们来看看谷歌NLP的一个应用案例，这要感谢那些伟大的工程师们：

2018年10月11日，谷歌人工智能语言研究组发表了一篇论文，立刻引起业界巨大反响。
这篇论文的题目是，《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》。这个题目很直白，一眼望去就能猜得到，这篇文章至少会讲到四大问题中的三个，应用场景、模型、训练数据。

谷歌AI团队新发布BERT模型，BERT在机器阅读理解测试SQuAD1.1中表现出惊人的成绩：全部两个衡量指标上全面超越人类，并且还在11种不同NLP任务中创出最佳成绩。这项工作被认为是NLP领域里程碑式的进步。

这篇论文介绍的模型，BERT，它至少能解决 NLP 诸多任务中的 11 种，包括：

* 淘宝上有很多用户评论，能否把每一条用户转换成评分？-2、-1、0、1、2，其中 -2 是极差，+2 是极好。假如有这样一条用户评语，“买了一件鹿晗同款衬衫，没想到，穿在自己身上，不像小鲜肉，倒像是厨师”，请问这条评语，等同于 -2，还是其它？
* 当用户提问，“两岁的男孩为什么食欲不振”，深度学习是否可以从大量书籍中，自动摘录相关内容，并组织成流畅的语言，回答用户提问？
用同一种模型，解决多种不同任务。这涉及到一个十分激进的猜想：在以往的实践中，我们通常为每种具体任务，单独定制模型。是否存在一种“通用”的语言模型，能够用它来完成多种不同的任务？
BERT 的研究者们，试图证明 Deep Bidirectional Transformers就是这样一种通用的语言模型，它不仅能解决 11 种不同的 NLP 任务，而且在所有任务上的精度，大幅度领先以往其它模型，甚至超越人类。

论文地址：https:///abs/1810.04805

无论哪种前提，殊途同归，如果马蜂窝真的投入了较多的精力在技术上，不至于时隔两个月就形成这么大的反差。看看阿里，从一个被百度腾讯看不起的只会做电商的平台成长为一个技术巨无霸。这很大部分要归功于其对云计算及相关技术的投入研发，十年磨一剑，终成霸主，中国互联网无人能出其右了。

当然，马蜂窝无法与阿里相比，但是，中国互联网已经走入了这样的怪圈，拼命的弄数据，做报表，搞营销，拼估值，找融资......，而技术却一再的荒废。连基于自己的主要核心业务都不去深耕，只是简单的数据堆砌，就美其名曰：大数据。

如果当年马云不投入云计算，可能现在的阿里无法站在世界的舞台，今天他可能只是一个小小的电商平台而已。

假如马蜂窝早点多投入研发，至少在现在也不会这么狼狈，只会通过律师和一纸声明，让消费者云里雾里寻找真相。

结局是：谁也不是赢家，包括消费者。