本文内容选自加拿大约克大学数学统计系终身教授王晓刚于近期在清华大数据“技术·前沿”系列讲座所做的题为《统计学概论和医疗临床大数据分析》的演讲。
王晓刚:任正非曾说人工智能就是统计学。我们一般对统计的认知有两个层面。第一个层面,很多人认为统计是一个非常容易的事情,就是数数。比如统计门诊接待了多少病人,其中有多少人是高血压。但是统计的另外一个层面,或者叫统计学,其实它有更深层的含义。
统计学和人工智能也有很大的联系。在国外,人工智能逐渐步入理性阶段。在AlphaGo出现之后,人们认为人工智能无所不能,当跳进无数坑之后发现虽然不是什么都能干但挺有用。一个很典型的例子,就是很多有名的项目说得很好,到最后没办法实现。 国外发现人工智能的问题有时候不在于算法而在于概念不清,界定不对,维度不高。当维度根本不够高的时候,无论机器有多强,无论算法有多好,都算不精准。有些人说他们算得精准因为他们只会想哪些case我算得准,算不准的就不说了。而维度不高的原因,大部分是在收集数据之前没有对问题进行透彻的分析,收集数据时也没有下太多功夫。
以前做人工智能的人认为敏感性越高越好,但他们没有考虑医疗费用的维度,如果发病率是10%,特异性是70%,也就是说这个人没有病的准确率是70%,那意味着90%没病当中的人,其中30%有误报,这样会把20%的人吓到医院里,造成医院拥堵,淹没真正需要救治的人。此时算法的敏感性越高,造成的问题越多。 过去很多文章说的准确度其实都是敏感度。以前很多号称高敏感度的其实并不可靠。因为是有一定的“作弊”嫌疑。比如有一个模型,调参一定是用模型的数据。再用这个调完的参数模型,反回来预测那些数据,一般来说效果不会差。所以现在深度学习要么特别管用,要么特别不管用。
但是对于统计学,还要关注什么样的数据支撑你的问题、采集数据的方式及数据的整理;如何处理缺失数据、高噪声数据和违反常理的数据;数据挖掘的时候,如何选取有效维度,如何判定噪声;模型建立后,模型的适用范围和优缺点都要考虑。 以统计的观点,所有的模型都是错误的,因为会有数据采集的偏差、维度的缺失以及性能刻画不足,但并不影响使用,只要知道模型有缺陷就好。还有就是要多和医生交流,不断迭代模型。 中国的文化博大精深,下面从道和术的角度讲讲统计。你要有战术,也要有战略。宏观和局部都要有考虑,或者说是维度和度量的使用是不是正确。要尽可能包含所有维度,选取合适的度量标准。
但如果按人群细分,会得到不一样的结果。比如逛商场的时间和年龄的关系,假设女性年龄越大,逛商场时间越长,男性年龄越大,逛商场时间越短,这两条线是交叉的。如果你做线性回归并不显著,因为根本就不是一类人,如果你做两条线,你会发现特别显著。
我基本上就讲这么多,希望大家能对统计学有了一个初步的了解,谢谢大家。 后台私信回复“191207”获取本文演讲完整PPT 编辑:黄继彦 校对:王欣 — 完 — |
|