分享

木舟| 数据与大数据知识概括 | 《信息技术》(2021版)二次学习微视频001

 木舟u2497sll0j 2021-12-03

信息技术(新教材)第一章知识概括


(建议在WIFI环境下观看)

(必修1)第一章:数据与大数据

在《信息技术》课程中,教材围绕学科四个大概念展开,分别是数据、算法、信息系统和信息社会,这从我们两册教材的各章节标题中有很清晰的体现。我们今天主要就必修一第一章的知识进行简单的概括。

我们首先需要理清几个概念:

数据是对事物描述的记录,它基于客观事实,一般可由观察得到。一般来说,数据经过处理,可能会产生信息。而大量信息,经过结构化处理,可以转化为知识。当我们掌握了一定量的知识,对这些知识进行深入理解、内化,可以形成我们个人的智慧。

也可以这样理解:数据是抽象的内容,在独立时没有意义。信息是经过处理的数据,挖掘出了数据中隐含的意义。而知识是经过人为的解读和个人经验充实的信息。智慧是个体知识内化后产生的辨析、判断、发明创造能力。

为了便于大家理解,我们做一个不太恰当的类比。比如这里我们看到的两列数据,如果不知道它们是汉字的机内码,那么它没有意义,可以类比为数据。如果我们通过某种工具软件,可以知道它们分别代表了汉字“慎”和“独”在计算机内存储时的状态,那这时也就可以看作信息。将“慎”和“独”两个字组成词“慎独”,如果我们经过学习和解读,可以知道这个词最早出自《礼记》,是中国儒家知识分子修身养性的一种方法,并且被很多历史名人作为自己的座右铭,那么其实就可以看作是知识了。同时,经过对这个词的深入理解、内化,让慎独所蕴含的标准作为个人生活、学习的行为准则,并身体力行,其实可以看作个人具备了这样的智慧。

当然,以上类比可能不太确切,特别是最底层关于数据的类比,这两行二进制代码作为汉字的机内码,本身就是已经处理过的数据,和我们教材所讲的数据的概念不太一样,这一点还是需要大家注意。

我们的课程名称是《信息技术》,可以简单理解为处理信息的技术,所以我们还要重点了解信息的概念和特征。

信息学奠基人香农认为“信息是能够用来消除不确定性的东西”。关于这个概念,看起来有点抽象,我们可以简单理解为:如果我们确定要做某件事,当我们没有任何信息的时候,这个事情成功与否的概率很低,也就是不确定性很高,当我们对于这件事拥有了一定的信息,可能成功的概率就会提升,也就是说消除了不确定性。同时,关于信息的概念,信息管理专家霍顿认为:信息是为了满足用户决策的需要而经过加工处理的数据。

了解了信息的概念,我们还要知道信息具备这样的特征。一是“信息可以传播和存储”,比如我们手机拍了一张照片,这张照片中的信息就可以保存在手机里,如果我们通过微信发给自己的朋友,就实现了信息的传播;二是“信息的价值是相对的”。对于同一条信息,会因为持有者需求、使用目的的不同而呈现出不同的价值;三是“信息可以被共享。”物质、能源和信息是当今社会人类生活的三个主要资源,和物质与能源相比,信息的共享性特征非常明显,正如萧伯纳曾说过:“如果你有一个苹果,我有一个苹果,彼此交换,我们每个人仍然只有一个苹果。”这表明物质是不能共享的。但是“如果你有一种思想,我有一种思想,彼此交换,我们每个人就有了两种思想,甚至多于两种思想。”这其实很好的体现了信息的共享性。四是“信息具有时效性。”在不同的时间点上,同样的信息所体现的价值可能是不同的,甚至差距很大。

在前面霍顿关于信息的定义中,我们看到,信息是经过加工处理的数据。其实从古至今,人们一直在处理信息,只是到了近现代,随着计算机及附属设备的出现,人们处理信息的能力得到了极大的提升,我们当前所说的信息技术,主要是指这个方面。但是,这里有一个前提,也就是让计算机帮助我们处理信息,必须将以文字、图片、声音、视频等可视的信息(载体)数字化。

计算机作为一种电子设备,由于构造的关系,它们只“认识”二进制数,所以信息的数字化就是将各种形式的信息转化为二进制数形式的过程,也叫信息的编码。

字符、汉字、图片、声音、视频等这些信息的载体在计算机内部都是以二进制数的形式存在的。

日常生活中,十进制数是我们最常用的一种进位计数制,通过对十进制数的分析,我们需要明确几个概念:数码:表示某种进位计数制的一组符号。基数:所使用的数码个数。位权:数码在不同数位上的倍率值。我们举两个例子一起看一下位权。

如十进制数7879,里面有两个7,但它们的意义是不同,从右向左数,第二个位置上的7,代表的是70,也就是7*10的1次方,第四个位置上的7,代表的是7000,也就是7*10的3次方。二进制数1010,也有两个1,从右向左数,第二个位置上的1,代表的是1*2的1次方,第四个位置上的1,代表的是1*2的3次方。这里的10的几次方以及2的几次方,就是进位计数制不同数位上的位权。

虽然计算机内部存储信息时用的都是二进制数,但是由于二进制数表示时一般数位会很长,为了解决这个矛盾,人们又引入了十六进制数,十六进制数有16个基本的数码,分别是0-9,以及ABCDEF,这里要注意他们分别对应的数值。

同时我们还要知道,在计算机存储信息时,只能是二进制数,十六进制数并不是一种真实的存在,只是因为它们和二进制数相互转换时更方便。

接下来,我们了解数制转换。

“其它”进制转换为十进制,基本方法是“乘权相加”。

比如10011B转换为十进制数,2FH转换为十进制数。

“十”进制转换为“其它”进制,基本方法是“除N逆序取余”,我们以35D转换为二进制数和十六进制数为例。

“二”转“十六”,基本方法: 把二进制数从右向左按4位一组划分,每组用一位十六进制数表示。我们以1 1 1 0 0 1 1 0 1 0 0 1 0 B转换为二进制数为例。

“十六”转“二”,基本方法:把十六进制数从右向左按每一位十六进制数转化为4位的二进制数,按顺序排列即可。注意:除了左边第一位,后面不足四位的必须用“0”补足四位,并且不能省略。我们以2 A 3 H转换为二进制数为例。

其实在客观世界中,我们所感知的实际信息,它们的变化是连续的,通常称为“模拟量”,而把实际的物理量用和它对应的数值表示,是不连续的、离散的,我们称为数字量。信息数字化的过程也可以称为是“模拟量”到“数字量”的过程,一般需要三个步骤:采样、量化和编码

西方字符,字符数量少,数字、英文大小写字母及各类特殊符号,共计128种,所以用7位二进制数来进行编码。这种编码方法,称为ASCII码。一个西方字符,用7位二进制数编码,存储时最高位用“0”补足,占用一个字节。二进制数位,是最小的存储单位,简写为bit;字节,是最基本存储单位,写为Byte,简写为大写的B;也就是说,一个字节等于8个二进制数位,比字节更大的存储单位还有KB\MB\GB\TB等,它们之间的倍率都是1024,也就是2的10次方。

同学们看这张ASCII码表,可以发现阿拉伯数字以及西方字符,他们都是按照顺序排列的。阿拉伯字符和英文字符,它们的ASCII码是按照顺序排列的,顺序后移一位,ASCII码增加1;后移n位,增加n。同时还可以发现,从这张表的左上角到右下角,ASCII码的值是在逐渐变大的的,在这个表中,越是向后,ASCII码值越大。所以,就整体来看,“小写字母>大写字母>阿拉伯数字”的ASCII码

其实,字符的编码经历了一系列的标准化过程。

上个世纪60年代,ASCII码解决了西方字符在计算机中的处理和存储的问题。之后,中国大陆地区的汉字编码也经历了多种标准,我们现在最常使用的是GB18030-2005,它支持多种字节的汉字编码,大部分采用双字节。当然,在输入时:有音码、形码,在输出时,可以通过点阵、矢量等方式。随着互联网的全球化进程,世界各个国家都有自己的编码方案,在一定程度上还是可能产生冲突,所以就出现了Unicode编码,它统一了不同语言的编码。又简称统一码或万国码。常用的编码方案有:UTF-8,UTF-16,UTF-32。

可以这样说,计算机中一切信息都用二进制数表示,字符编码是信息处理的基础。在对它们进行编码的过程中,经历了一系列的标准化。

标准化并不是信息技术所独有的思想方法,只是随着社会的发展,信息科技影响着社会生活的方方面面,信息技术标准既是建设信息化基础设施、开发信息系统的依据,也是信息系统之间互联互通、彼此兼容的保证。

声波作为一种模拟量,在对它数字化的过程中,经过采样和量化、编码,在计算机中,未经压缩的WAV文件的容量计算方式是:(采样频率×量化位数×声道)×时间/8,这里的除以8是因为一个字节相当于8个二进制数位,同时还要注意:声道一般只有两种:单声道数值为1;双声道数值为2;立体声属于双声道;时间的单位,必须转换为:秒。

图像作为我们常见的一种信息载体,未经压缩的BMP位图图像的容量计算方法是:分辨率×位数/8,黑白图像的量化位数为1位;彩色图像的量化位数一般为24位,同时还要区分“多少色”和“位”,比如看到说某图像为256色,则为8位,这是因为256等于2的8次方。

接下来我们看看压缩技术。

数据能够压缩,前提是因为数据存在冗余度。比如这两个文档数据,前一个是一篇《丑小鸭》的完整文档,后一篇文档都由一个“小”字组成,我们就可以认为后一篇文档数据冗余度高;同理,对于这两幅图片,第一张背景单一,大部分为蓝色,后一张背景复杂,我们可以认为第一张图像的数据冗余度高。一般而言,数据冗余度高的文件,在相同的数据压缩技术下,其被压缩率也高。

数据压缩,分为无损压缩有损压缩两类,其中无损压缩是指压缩之后数据可以完全恢复原样。它适合所有各类型的文件,常常要借助WINRAR或WINZIP等软件实现。而有损压缩技术压缩之后数据不能完全恢复原样,它一般适用于声音、图像、视频等文件。像文档和程序等文件是不能使用有损压缩的。

对于有损压缩,图像和声音的常见格式我们也需要了解。图像文件的未压缩格式是BMP,典型有损压缩格式是JPG,声音文件的未压缩格式是WAV,典型有损压缩格式是MP3,视频文件的未压缩格式是AVI,典型压缩格式是MPG,当然对于这三类文件,还有一些常见的有损压缩格式如图。

最近几年来,人工智能、大数据是热词,相信大家都听说过,也有人说我们已经进入了大数据时代,大数据已经成为社会的一项重要资源。一般来说,大数据具备这样几个特征,一是数据规模大;二是数据类型多,数据来源、格式多元,多维度数据增加;三是处理速度快,这里主要是指计算机等工具计算能力的提升,处理结构化的海量数据速度快。四是价值密度低

当今时代,通过对大数据分析,可以更好的为我们的学习、生活提供帮助。一般来说,大数据处理有四个步骤,分别是数据采集,目前,我们可以通过很多方式采集数据,传感器、射频识别技术以及社交网络媒体等都可以获得各种类型的海量数据;二是数据预处理,对于采集到的原始数据,可能存在缺失、遗漏以及逻辑错误等,需要进行预处理。三是数据分析,我们可以根据使用数据的目的,对数据进行可视化处理等,比如这张图上是我们学校近年来美术高考成绩的分数分布情况,可以帮助大家更好的认识和规划自己的学习生活;四是数据挖掘应用,比如这是某地区出租车用车情况热点分布图,对于用户和出租车司机都有很好的借鉴作用。

工欲善其事,必先利其器。信息技术的发展日新月异,我们要想在这个时代更好的生存,学习、掌握一些信息技术基本知识是很有必要的,让这些知识内化为自己的智慧,成为最好的自己,相信大家都是最棒的。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多