共 77 篇文章 |
|
『 Spark 』2. spark 基本概念解析。而spark项目组为了让RDD能handle更多的问题,又规定RDD应该是只读的,分区记录的一种数据集合中。而正因为RDD满足了这么多特性,所以spark把RDD叫做Resilient Distributed Datasets,中文叫做弹性分布式数据集。很多文章都是先讲RDD的定义,概念,再来说RDD的特性。我觉得其实也可以倒过来,通过RDD的特性反... 阅431 转2 评0 公众公开 16-04-05 18:24 |
【PPT干货】指尖上的新年——2016春节大数据报告。第一财经商业数据中心(CBNData)联合蚂蚁金服共同发布《指尖上的新年——2016春节生活方式数据报告》,通过对4亿多实名用户在春节期间登录支付宝使用各项生活服务情况的分析,第一次用数据的方式为我们解开互联网时代,年,这个中国人心中共同的牵挂,正在发生怎样的嬗变。长按二维码识别,即可... 阅65 转1 评0 公众公开 16-02-16 23:18 |
干货:你与年薪百万程序员之间只差这4个习惯!但一个优秀的程序员总是会使用一款源码版本管理工具来管理自己的代码。也可以利用“有道云协作”轻松建立一个完备的团队内部Wiki,用它原生支持的Markdown编辑器来写内部交流文档,不仅支持版本对照,还能让知识和经验灵活的在内外部流动和分享。但是互联网行业里,程序员没办法要求不懂代码的产品... 阅478 转4 评0 公众公开 16-01-23 00:57 |
二、 关于Apache Spark.scala> val rdd=sc.parallelize(List(“Spark is awesome”,”It is fun”)) scala> val fm=rdd.flatMap(str=>str.split(“ “)) scala> fm.collect() Result: Array[String] = Array(Spark, is, awesome, It, is, fun)Scala> val rdd1=sc.parallelize(List(‘A’,’B’)) scala> val rdd2=sc.paralle... 阅111 转0 评0 公众公开 16-01-14 08:58 |
[干货]《云计算综合标准化体系建设指南》解读 周平 工信部电子标准院。在第五届中国云计算标准和应用大会暨《云计算综合标准化体系建设指南》及相关标准宣贯会上,工业和信息化部电子工业标准化研究院周平主任做《云计算综合标准化体系建设指南》及相关标准解读。现场ppt分享如下:PDF版下载网址 中国电子技术标准化研究院:www.cesi.cn. 阅147 转1 评0 公众公开 15-12-20 21:16 |
Apache Spark大数据分析入门(一)动手实验Apache Spark的最好方式是使用交互式Shell命令行,Spark目前有Python Shell和Scala Shell两种交互式命令行。对textFile RDD中的数据进行过滤操作,返回所有包含“Spark”关键字的行,操作完成后会返回一个新的RDD,操作完成后可以对返回的RDD的行进行计数。RDD[String] =值得注意的是,Spark还存在键... 阅21 转0 评0 公众公开 15-12-02 22:16 |
Apache Spark大数据分析入门(一)动手实验Apache Spark的最好方式是使用交互式Shell命令行,Spark目前有Python Shell和Scala Shell两种交互式命令行。对textFile RDD中的数据进行过滤操作,返回所有包含“Spark”关键字的行,操作完成后会返回一个新的RDD,操作完成后可以对返回的RDD的行进行计数。RDD[String] =值得注意的是,Spark还存在键... 阅75 转0 评0 公众公开 15-12-02 20:51 |
通过可视化来了解你的Spark应用程序。【编者按】在''Spark 1.4:SparkR发布,钨丝计划锋芒初露''一文中,我们有简单地介绍了1.4版本给Spark注入的新特性,在各个组件的介绍中也提到了新UI给用户带来的便捷。而在最新版本的Spark 1.4中,我们很高兴地宣布,一个新的因素被注入到Spark UI——数据可视化。对比更接近物理实体层面... 阅8 转0 评0 公众公开 15-12-02 20:40 |
在每个Spark Worker节点上,都部署了一个Tachyon Worker,Spark Worker通过Tachyon Client访问Tachyon进行数据读写。所有的Tachyon Worker都被Tachyon Master所管理,Tachyon Master通过Tachyon Worker定时发出的心跳来判断Worker是否已经崩溃以及每个Worker剩余的内存空间量。Tachyon Client也会通过Worker Client部件跟Tachyon Worker交互, ... 阅36 转0 评0 公众公开 15-12-02 20:38 |
Spark 1.4:SparkR发布,钨丝计划锋芒初露。6月11日(美国时间),Spark 1.4版本正式发布,在Spark Core、Spark Streaming、Spark SQL(DataFrame)、Spark ML/MLlib等升级之外,新版本更加入了科学家们望眼欲穿的SparkR组件。在更易用的API之外,SparkR从Spark的紧密整合中继承了诸多好处。Spark Core、Spark Streaming、Spark SQL、Spark ML/... 阅60 转0 评0 公众公开 15-12-02 20:38 |