进一步认识大数据（6）

来自：胡经国图书馆 > 馆藏分类

配色：

字号：大中小

进一步认识大数据（6）

2022-01-30 | 阅：转： | 分享

进一步认识大数据（6）

胡经国

大数据8个观点的分析大数据的信息熵值低

1948年，香农提出了信息熵的概念，可以用于表述信息的价值信息熵值高的言简意赅信息熵值低的冗余拖沓。目前，很多大数据的来源都是一些系统的Log（日志）、图片、视频等。特别是日志系统数据，数据越来越多，越来越大其中大部分是固定模板的数据，区分度差，信息量并没有随着数据的增加而线性增加。另外举个例子，之前我们使用胶卷照片，我们会选择重要的场景，珍惜每一照片，设计好角度和光圈现在有数据相机了，内存近乎无限大了，大家肆无忌惮的自拍，哪怕都是同一个角度，大家照的废片也是一把一把的。同一类型的数据多了，信息熵也就降低了。

链接：信息熵和冗余

1948年，香农提出了信息熵（InformationEntropy）的概念，从而解决了对信息的量化度量问题。所谓信息熵是一个数学上颇为抽象的概念，在这里不妨把信息熵理解成某种特定信息的出现概率。香农第一次用数学语言阐明了概率与信息冗余度的关系。

香农借鉴热力学概念，把信息中排除了冗余后的平均信息量称为信息熵，并给出了计算信息熵的数学表达式。任何信息都存在冗余，冗余大小与信息中每个符号（数字、字母或单词）的出现概率或者说不确定性有关。

多余的重复或啰嗦内容（其中包括信息、语言、代码、结构、服务、软件和硬件等等）都称为冗余（Redundancy）。冗余有两层含义：第一层含义是指多余的不需要的部分；第二层含义是指人为增加的重复部分，其目的是用来对原本的单一部分进行备份，以达到增强其安全性的目的，这在信息通信系统当中有着较为广泛的应用。

大数据应用常见多见于推荐系统，业务流程优化，医疗，性能优化，预测，金融交易等这些业务在传统做法上十分依赖于数据虽然以前不叫大数据，但是也都是数据驱动的业务。数据的规模和种类增多，处理方法的增多，会逐渐提高这些应用的精准性这种提高是逐渐的、一点一滴的，也许是一天两天感觉不来的但是经过多年的持续改进，这种效果会是显而易见的。

举例来说，语音识别起始于60年代，基于小型词汇库在90年代，IBM推出的ViaVoice是语音识别的一个里程碑，基于复杂隐含（隐式）马尔科夫模型HMM）。或者神经网络算法更加成熟，数据也是基于大量词汇库、语料库。新闻联播曾经就是ViaVoice中文版本的重要训练语库。虽然用了更大的语料库，效果有所改进，但是还无法达到实用的程度。在2009年以后，借助于互联网语料库的进一步丰富，数据料的增长远远超过算法的改进程度。语音识别在准确性和实用性上得到很大的提升用户也不断使用语音识别反馈更多的数据。以至于谷歌公司人工智能方面的专家彼得诺维格PeterNorvig）和他的同事在一篇题为《数据的非理性效果》TheUnreasonableEffectivenessofData）的文章中写道：大数据基础上的简单算法比小数据基础上的复杂算法更加有效。。大数据正在一步一步解决一些科技应用难题，例如自动驾驶，人工智能等。

链接：ViaVoice

IBM的ViaVoice是一种通过麦克风输入中文的一种程序。它特别适合电脑初学者。你所需要做的仅仅是对着话筒喊出您要输入的字符，ViaVoice就会自动判断并且帮你输入汉字。

链接：隐含（隐式）马尔科夫模型

隐含马尔科夫模型（HiddenMarkovModel，HMM）是一个统计模型，它用来描述一个含有隐含未知参数的马尔科夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后，利用这些参数来作进一步的分析，例如模式识别。

HMM作为一种统计分析模型，创立于20世纪70年代。在80年代得到了传播和发展，成为信号处理的一个重要方向。现已成功地用于语音识别、行为识别、文字识别以及故障诊断等领域。

大数据不解释因果关系只关心相关性

《大数据时代》一书中定义了大数据的第三个特征：不是因果关系，而是相关关系。例如，沃尔玛通过数据挖掘，发现蛋挞和飓风产品有很多关联性，并且放在一起销售提高销售量。没有人清楚其中的因果关系；当然，也可能有人牵强地解释为“美国人喜欢飓风时期躲在家里吃蛋挞”通过数据我们获得了相关性，但是却不理解其中因果关系。人们知道来自科幻小说《三体》的降维攻击：很多时候我们在二维世界的相关性，是无法在二维世界进行解释因果的也许只有在三维或者多维世界才能够解释因果关系，而这种因果关系无法直接理解，只能归纳成相关关系。

链接：《三体》

《三体》（TheThreeBodyProblem）是刘慈欣创作的系列长篇科幻小说。该作品讲述了地球人类文明和三体文明的信息交流、生死搏杀及两个文明在宇宙中的兴衰历程。

大数据资源公司的最佳变现方式与最有效变现渠道

⑴、最佳变现方式是被收购

很多专业大数据服务公司的发展都不走上市之路注意不包括大数据技术公司因为他们对于变现的能力和可持续性都有很多顾虑他们也面临高风险的用户隐私挑战因此很多大数据资源公司的PR工作远远多于具体落地的数据服务工作。所以，各个专业大数据公司都忙于各种行业洞察报告和排行榜，数据可视化的工作一个比一个炫丽，一个比一个追热点。谈到大数据公司的变现，很多公司会提到数据服务实际上数据服务的市场相对稳定，并没有因为大数据公司的发展而市场膨胀因此数据服务实际上是处于明显的僧多粥少的状态另外老牌的数据公司，例如Nielson等在客户方还是有一定优势。

被收购成为大数据公司变现最佳方式2014年Oracle收购BlueKai获得很多互联网用户数据BlueKai的数据来源于与很多小网站进行数据交换和购买尼尔森公司收购DMP公司eXelate；其中eXelate的数据来源各个合作伙伴的数据它提供了数据共享和交换的平台，创建DMP支持广告优化投放。

⑵、最有效变现渠道是广告和泛征信

既然数据服务不容易攒钱，那么有没有靠谱的变现途径呢？从目前来说，广告和泛征信是两个最有效的变现渠道效果广告的精确投放，品牌广告主需要强烈的数据背书，这些都需要数据服务因此在广告行业专业的DMP公司对于程序化交易是必不可少的。另外，就是征信系统金融的本质是一个套信用系统这就是为什么各大互联网公司都早早进入金融业务。目前很多P2P公司是否能够生存，主要依据就是风险控制，大数据是重要技术支持因此很多P2P会采购大量数据资源以加强自己的征信系统。

链接：征信及征信系统

征信是一个汉语词汇，是指依法采集、整理、保存、加工自然人、法人及其他组织的信用信息，并对外提供信用报告、信用评估、信用信息咨询等信用服务，帮助客户判断、控制信用风险，进行信用管理的活动。

征信系统包括企业信用信息基础数据库和个人信用信息基础数据库。在中国，征信系统一般是指中国人民银行的征信系统。央行征信系统的主要使用者是金融机构。它通过专线与商业银行等金融机构总部相连，并通过商业银行的内联网系统将终端延伸到商业银行分支机构信贷人员的业务柜台。目前，征信系统的信息来源主要是商业银行等金融机构；收录的信息包括企业和个人的基本信息，在金融机构的借款、担保等信贷信息，以及企业主要财务指标。

链接：DMP

DMP（DataManagementPlatform，数据管理平台），是把分散的多方数据进行整合纳入统一的技术平台，并对这些数据进行标准化和细分，让用户可以把这些细分结果推向现有的互动营销环境里的平台。

链接：P2P

P2P（PeertoPeerLending，或Peer-to-Peer），意即个人对个人（伙伴对伙伴），又称为点对点网络借款，是一种互联网金融点对点借贷平台；一种借助互联网、移动互联网技术的网络信贷平台以及相关理财行为和金融服务；一种将小额资金聚集起来借贷给有资金需求人群的一种民间小额借贷模式。它属于互联网金融（ITFIN）产品的一种，属于民间小额借贷。

大数据是对用户隐私的汲取

大数据正在结合智能设备的普及而迅速增长例如摄像头，手机，智能穿戴设等。其中，大量用户隐私数据被收集例如用户地址、交易数据、搜索数据、用户地理位置信息、用户脉搏，用户联系人列表等等。这些都是用户的个人数据各大数据公司都改善服务为借口，获得用户的授权，而进行用户隐私的汲取。

也有一种声音，这些数据是为了让用户享受到更好的服务。这里面也很多逻辑问题。首先，服务商提供更好的服务，并不代表可以收集用户的隐私数据其次，很多公司不提供不收集用户隐私数据的服务的选项这让很多用户无法选择禁止用户隐私数据收集这是一种利用市场地位的垄断和霸王条款而后，所有数据公司没有提供数据清理功能去删除用户所有的历史数据。这意味着，用户的隐私数据一旦被收集，可以被无限次无范围滥用。用户数据无法通过定价来进行交易

大数据采集公司都有数据变现需求。对于数据采集公司来说，虽然能做一些数据分析和预测，但是这些分析服务的费用较少在成为顶级咨询公司之前很难持续公司的正常运作，只能继续烧钱或者被收购。对于数据采集公司来说，很多人认为数据可以在公开公正公平的数据市场中变现不少市面上的DMP都提供了一些数据交易平台，希望数据项商品安全公平交易.。原因有以下几个：大数据的价值无法用价格来衡量同一份数据对于不同客户价值不同，不同拷贝后价值也不同。数据定价太低，卖方有注水动机如果定价太高，买家也难以接受，而且数据报价都是暗拍的。

⑵、用户数据交易是玩火自焚

在各种大数据的应用中，用户的个人数据在很多场景中是最有价值的这些数据一旦流入市场或者黑市，社会后果将不堪设想而且数据泄露者还面临法律风险因此数据交易无法在公开的数据交易市场进行。一些脱敏技术可以让数据难以反追查但是脱敏技术的尺度把握却是在人的手上它很容易引入各种法律风险。

链接：数据脱敏技术

数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形，以实现敏感隐私数据的可靠保护。它是数据库安全技术之一。在涉及客户安全数据或者一些商业性敏感数据的情况下，在不违反系统规则条件下，对真实数据进行改造并提供测试使用，如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。

数据库安全技术主要包括：数据库漏扫、数据库加密、数据库防火墙、数据脱敏、数据库安全审计系统。数据库安全风险包括：拖库、刷库、撞库。

大数据的价值是“真水无香”

现在，让人觉得不懂大数据是一种羞耻。都想做大数据，而且是非大数据机器学习不做这是大趋势大数据可以挖掘出很多价值，帮助业务增长。

对于在工作中搞大数据技术的人士每天通过脚本处理成千上万的数据每天辛苦地处理各种数据格式，数据清洗，数据加工，数据分类聚类好不容易生成一些数据洞察结果，也需要用一大堆脚本和数据进行二次验证，包括精准率召回率。这是一种辛苦而且需要自己挖掘乐趣的工作。

确实，在一种新的数据洞察或大数据应用出来的时候，确实对于产品的提升很有帮助为了保持保护这种提升，需要不断对数据进行清理，提高其及时性这种数据的维护工作慢慢会变成大数据工作者的很大一部分工作。这个过程有点像一个系统的完善性维护工作，占了软件开发的很大一部分工作。这部分数据价值对于产品竞争力的提升也会渐渐平淡，投入产出比越来越低。但是这些完善性维护工作却不能停止。一旦停止，对于业务会带来负增长因此这种维护性的工作会变越来辛苦。在这个时候业务对于数据的来就像人们对白开水的需求一样平时觉得“真水无香”，没有味道，但是缺少马上就感到“口渴，甚至渴死”。

目前很多行业的峰会都沾上了大数据的“光环”以前的“站长大会”变成自媒体大数据峰会以前的“互联网运营大会”变成大数据运营峰会以前的“软件研发大会”也加入了一个大数据分会场。这是一个大数据“横飞”的世界，一不小心你就参与其中了。

人们参加大数据会议，有很多人是慕名而来努力将自己的工作和大数据挂上钩搞数据分析的说自己分析的是大数据搞技术的说自己运用了大数据技术搞应用的说自己大数据驱动了业务。最后，谁也不知道大数据是什么好像和数据之间没有太多本质的区别，只是多了一个大字而已。

6

献花(0)

(本文系胡经国图书...原创)

类似文章 更多

发表评论：