分享

一个语言学博士读《数学之美》

 由狭渐广 2019-09-21

雅静

高中之后再没学过数学,高考语文130分、数学不及格,每次有焦虑的事做梦都是考数学……这就是文科生与数学的“旷世情缘”,并且发誓此生不来往,来世不复见!

所以当我必须要读这本《数学之美》的时候,内心确实是:臣妾做不到啊!

但是,结果是,我不但认真读完了这三百页的书,而且划了重点,并且想要大力推荐给我的文科朋友们。

我准备从以下两个角度推销一下这本书:

一、 我学到了什么

1. 文字和语言与数学的关系

“数字、文字和自然语言一样,都是信息的载体,它们之间原本有着天然的联系。语言和数学的产生都是为了同一个目的——记录和传播信息。”

第一个例子:象形文字

埃及象形文字产生之后,数量从500增加到5000左右,但是随着文明的进步,信息量的增加,文字的数量并没有再增加,因为没有人能够学会和记住那么多字。汉字也是一样。于是就有了概念的第一次概括和归类。

比如,汉字中“日”本意是太阳,但又同时是太阳从升起到落山再到升起的时间周期,也就是一天。

古埃及的象形文字中,读音相同的词可能用同一个符号记录。

以上这种概念的聚类,原理就类似于今天的自然语言处理或者机器学习的聚类。

第二个例子:罗塞塔石碑

1798年,拿破仑的远征军来到埃及,一个中尉在一个叫罗塞塔的地方发现了一块破碎的古埃及石碑,上面有三种语言:埃及象形文字、埃及的拼音文字和古希腊文。他交给了随行的科学家马塞尔,马塞尔拓下了石碑上的文字带回法国。21年后,法国语言学家商博良破解了石碑上的古埃及象形文字(他第一个理解到,一直被认为是用形表义的埃及象形文,原来也是具有表音作用的,这个重大发现之后成为解读所有埃及象形文的关键线索)。

罗塞塔石碑

罗塞塔石碑有两个指导意义:

(1) 信息的冗余是信息安全的保障。只要一份保存下来信息就不会丢失(这对信道编码有指导意义);

(2) 双语或多语的对照语料对翻译至关重要,它是从事机器翻译研究的基础。

这两个例子都说明了文字和语言与数学的关系,即它们都是为了记录和传播信息出现的。

2.十进制(顺便说一下二进制)

十进制就是因为我们掰指头数数,有十个手指头,数不过来就进位了。也有人数完手指头再数脚趾头,然后进位的,也就是二十进制,就是玛雅文明。

古印度人发明了包括0在内的10个阿拉伯数字(是阿拉伯人传入欧洲的)。阿拉伯数字的产生就标志着数字和文字的分离,这在客观上让自然语言的研究和数学在几千年里没有重合的轨迹,而且越走越远。

所以我们文科生很久很久都可以不学数学了。

顺便说一下一直没明白的二进制。

世界上最简单的计数方法,只有两个数字:0和1。除了计数之外,还可以表示逻辑的“是”与“非”。这里有个词叫做“布尔代数”,一个叫布尔的中学数学老师提出的。

运算的元素只有两个:1(TRUE,真)和0(FALSE,假)。基本的运算只有“与”(AND)、“或”(OR)和 “非”(NOT)三种。可以用以下真值表:

AND运算的两个元素有一个是0,则结果为0.

OR运算的两个元素只要有一个是1,则运算结果总是1。

NOT运算把1变成0,把0变成1。

这有什么用?

搜索引擎之所以能在零点零几秒内找到成千上万的搜索结果,秘诀就是建立了索引。

最简单的索引结构是用一个很长的二进制数表示一个关键字是否出现在每篇文献中。有多少篇文献,就有多少位数,每一位对应一篇文章,1代表相应的文献有这个关键字,0代表没有。

比如关键字“原子能”对应的二进制数是0100100011000001……,假定“应用”对应的二进制数是0010100110000001……,那么要找到同时包含“原子能”和“应用”的文献时,只要将这两个二进制数进行布尔运算AND。

3.本书剩下的内容

只有我们了解文字和语言与数学的关系、明白了二进制,才有可能再接下去读剩下的内容,包括:

自然语言处理——从规则到统计

统计语言模型

谈谈分词

隐含马尔可夫模型

信息的度量和作用

图论和网络爬虫

PageRank——Google的民主表决式网页排名技术

如何确定网页和查询的相关性

有限状态机和动态规划——地图与本地搜索的核心技术

Google AK-47的设计者——阿米特·辛格博士

余弦定理和新闻的分类

等等,等等。

这些听上去很难懂的理论和概念,基本上在我眼里可以概括为:一个计算机系统,用二进制的语言,做信息编码和解码的事情。

开始的时候,学术界对人工智能和自然语言理解的普遍认识是:要让机器完成翻译或者语音识别等只有人类才能做的事情,就必须先让计算机理解自然语言,而做到这一点就必须让计算机拥有类似我们人类这样的智能。

这叫做“鸟飞派”,看看鸟怎么飞,就模仿鸟造飞机。

事实证明,计算机并不理解人类语言,它们全都靠数学,更准确地说,是靠统计。

而这些数学公式就不在我的阅读(主要是理解)范围了。

二、 我想到了什么

1.牛顿说:真理在形式上从来是简单的,而不是复杂和含混的。

就像布尔代数非常简单,只有两个数字三个运算,但是对数学和计算机发展的意义重大。它给了我们一个看待世界的全新视角,开创了今天的数字化时代。

就像Google AK-47:简单、有效、可靠性好而且容易读懂。

2.什么叫做互联网思维

我不知道什么叫做互联网思维,但是读了这本书,我知道很多事情都变了。

从前我认为,人一生最大的成功是被认可。努力出人头地,被父母认可;努力做贤妻良母,被丈夫认可;努力工作,被领导认可;努力做人,被这个社会认可。

可是我不快乐。越被认可越不快乐,因为活的不由自己。

如今我只想被我自己认可。

从前遇到困难,首先出现的是各种情绪,生气、忧虑、烦躁,如今遇到问题首先想到的是怎么解决,三到四个方案,依次尝试然后找到最佳方案。

从前害怕孤独,如今只想,天地那么大,不懂的事情那么多,为什么不用短暂的人生做一番事呢?

3.一件事情有用与否并不取决于当下

还是像布尔代数,在它被提出的八十多年里没有什么像样的应用,直到1938年香农在他的硕士论文中指出用布尔代数来实现开关电路,才使得布尔代数成为数字电路的基础。最后人们用一个个开关电路最终“搭出”电子计算机。

就像余弦定理,我们学它的时候不知何时能用上,但是2002年夏,Google推出了自己的“新闻”服务。这些新闻是由计算机整理、分类和聚合各个新闻网站的内容,一切都是自动生成的。这个技术的核心就是新闻的自动分类,用的原理就是余弦定理。

比如这本《数学之美》,你怎么就能确定它一定读来无用呢?

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多