发文章
发文工具
撰写
网文摘手
文档
视频
思维导图
随笔
相册
原创同步助手
其他工具
图片转文字
文件清理
AI助手
留言交流
今天我继续给大家介绍与血液检测相关的数学模型和理论:如何运用数学的方法,用最少的成本(检验次数和时间),在大量的血液样本中准确地检验出哪些是阴性的(好的),哪些是阳性的(坏的)。
前三次我先后讲了三个模型,概率模型:假设事先已经知道所需检测的个样本中有个是阳性的,其中;组合模型:假设事先已经知道所需检测的个样本中有个是阳性的,其中;竞争模型:事先既不知道也不知道。同时介绍了相应的三个理论结果,在什么情况下,组合检测法需要的检测次数比逐一检测法需要的检测次数少。
今天我给大家介绍容错模型:在检测过程中(由于操作或者仪器等因素)会出现错误:对一个没有坏样本的样本组做检测,结果显示阳性(有坏样本),或者对一个有坏样本的样本组做检测,结果却显示阴性(没有坏样本)。
我们是如何能判断出所做过的检测(结果)是有错误呢?一方面,当我们根据完成的检测结果推理出,某个样本(组)应该是阳性的,同时它又应该是阴性的,从而导致了矛盾的结论,我们就判断出已完成的一些检测中必然出现了错误,只不过还无法确定哪些检测出现了差错,哪些没有(比如,对同一个样本做过两次检测,一次显示阳性,另一次显示阴性)。另一方面,根据已完成的检测结果,我们推断出了每一个样本是阳性的或者是阴性的,也没有发现矛盾,但是我们并不能肯定已完成的检测(结果)都是正确的(比如,当对一个样本仅做了一次检测,结果显示阳性;此时无法判断检测结果是否正确)。
在容错模型下,我们又该如何快速并准确无误地检测出所有的坏样本呢?大家很容易想到的重复检测法:按照已有的检测方法做检测,针对每一个待检测样本(组)重复多次检测,如果结果不一致,那么说明检测出现了错误;可以想象,假如每次检测出现错误的概率很小,或者做次检测出现错误的次数不超过,重复检测法是可以准确无误地检测出所有的坏样本。
重复检测法的效率又如何呢?是否会做很多次不必要的检测呢?我先给大家讲一个与此相关的趣题。1976年著名数学家 S. M. Ulam(S. M. 乌拉姆,1909 - 1984)[1]在其自传中提出了一个猜数问题:
首先,回答者在1至1,000,000(小于)中选定一个自然数为。然后,提问者通过向其不断提问,并从得到的回答中猜出的值。比如,提问者可以采用二分策略,首先问“ 是不是在1至500,000之间?”若他得到的回答为“是”,则他可继续问:“是不是在1至250,000之间?”;若他得到的回答为“否”,则他可继续问:“是不是在250,001至375,000之间?”,等等。显然,提问者最多问20个问题,就能猜出的值。当然,提问者也可以问“是不是1”,“是不是2”,等等,这样一个数一个数地猜,他至少需要问999,999个问题才能确保猜出的值。现在,如果允许回答者说一次或者二次谎,那么提问者至少需要问多少个问题才能确定的值呢?
为了讨论简单起见,我们仅允许回答者说谎最多一次。此时,可以采用重复提问法:每一个问题问两次,如果两次回答是一致的(表示没有说谎),那么继续提下面的问题;如果两次回答不一致(表示已经说过谎,提问者以后就不能再说谎了),那么同样的问题再问第三次,就得到了正确的回答,然后继续提下面的问题。如此下去,提问者最多问次问题就可以猜出的值。提问者能不能用更少的问题还能猜出的值呢?
1984年J. Spencer [2]对这个问题进行了研究。在其论证中,他允许回答者采用魔鬼策略:回答者在提问者开始提问前并不一定需要选定某一个数为,实际他只需根据提问者的问题给出回答,使得至少存在一个数,若最初选定这个数时,所有回答除最多一个回答以外都是保持一致的(也就是他最多可能说谎一次)。(实际上,回答者采用魔鬼策略是违反了猜数问题的规则,但是提问者无法判断回答者是否采用了这个策略。)
J. Spencer [2]考虑了一个小例子:(小于)。下面的两个图给出了在提问者与回答者之间进行的11轮问答过程。注意,当回答者对提问者的第⑤个问题给出了“Yes”的回答以后,提问者马上就会发现第⑤个问题和第①个问题的回答中有一个是谎话,只是无法确定哪一个是谎话。不过,提问者能够确认回答者所选定的小于等于100且大于等于46。因而,他只要用二分搜索法就可以再用6个问题最终确定。
现在介绍一下J. Spencer [2]是如何研究:提个问题是否可以确保猜出的值(即使回答者可以说谎一次)?。他引进了一个有序数组,其中表示回答者选择的数,其中,表示回答者在第几个问题说谎,其中(表示未说谎)。每当回答者针对提问者的一个问题给出“Yes”或者“No”回答以后,便将的可能情形分为两个不相交的集合,Yes-集和No-集,分别含有一些可能情形。如果Yes -集包含的可能情形多于No-集,那么回答者就会(贪婪地)选择回答“Yes”,否则回答“No”。
在上面的例子中,。提问者先后问了第①个和第②个问题,回答者分别给出“No”和“Yes”的回答。当提问者问第③个问题以后,回答者会做出如下分析:
在总共325种可能情形中,Yes -集有171种可能情形,No-集有154种可能情形。回答者会(贪婪地)选择回答“Yes”。实际上,提问者的策略就是要选择这样一个问题,其产生的Yes-集和No-集各自含有的可能情形尽可能一样多。可以验证:若提问者第③个问题改为问:“Is ?”,则相应产生的Yes-集和No-集所含有的可能情形分别为163和162。因而,问“Is ?”比问“Is ?”要更好。
J. Spencer [2]利用魔鬼策略和权函数法,证明提问者只要问不超过26个问题就可以猜出的值,且24个问题是不够的,但他留下了一个疑问,用25个问题可以吗?1987年A. Pelc [3]通过更加精细的研究,最终证明了25个问题是可以的,从而彻底解决了乌拉姆的猜数问题。
至此,大家不难看出,乌拉姆的猜数问题实际上可以视为容错模型下的组合检测问题的一个非常特殊的情形:样本个数是1,000,000,回答者事先选定一个值为,也就是第个样本是惟一的坏样本;提问者的针对一组数提一个问题相当于对相应的样本组做一次检测,回答者的回答“是”或“否”表示相应的检测结果是“阳性”或“阴性”(样本组中“含有”或“不含有”坏样本);回答者说谎相当于检测错误。
最后小结一下我这四次讲的模型和结果:如何用尽可能少的组合检测,在大量的血液样本中准确地检测出所有的坏样本。我介绍的方法基本都属于序贯方法:每次检测哪些样本组,要依赖以前的检测及其结果。一个序贯方法如果需要做次检测才能检测出所有的坏样本,而每次检测需要时间的话,整个检测过程就可能需要时间。如果想缩短时间,那么除了尽可能地减少检测次数,还有一个方法就是在时间内同时(并行地)检测若干(而不是一个)样本组。下一次我就给大家介绍这种非序贯方法。
来自: 阿里山图书馆 > 《中科院数学所》
0条评论
发表
请遵守用户 评论公约
数学无处不在——血液检测的数学模型和理论(最终篇)
数学无处不在——血液检测的数学模型和理论(最终篇)不难发现,尽管非序贯方法用的检测次数不会少于序贯方法,但是完成全部测试所需用...
新教材与新的教学方法探索
新教材与新的教学方法探索。这样,学生已具有什么技能、缺乏什么技能、这些技能的缺乏又是如何影响学生的学习和知识迁移的......教师可以从他们出声的想法中得到所要的足够信息,从而可以有的放矢地设...
Python数据分析最基础的教程!适合想学数据分析小白的你阅读!
4. 基于模型检测。这种方法一般会构建一个概率分布模型,并计算对象符合该模型的概率,把具有低概率的对象视为异常点。如果模型是回归时...
调查问卷设计中询问客观问题的七项原则 | 精选回顾
问题里的某些词句,不同的回答者可能有不同的理解,为了避免这一问题,对于可能引起疑问的词句应明确说明其含义。一个好的问题应该只有...
360问答如果回答者回答了提问者的问题,而提问者把回答者的回答屏蔽了 那别人会看到屏蔽了的回答吗?那被...
如果回答一旦屏蔽别人是看不到的这是一,二被屏蔽者当然知道,系统会自动提示,要求回答者改进自己,但是回答者可以进行申诉,如果申述成功将会得到解除,三屏蔽者对于回答者的不尊重,我认为只要回答...
干货!21个必知数据科学面试题和答案
21个必知数据科学面试题和答案。图13.对于高数据和宽数据不同的方法,与表示稀疏筛查确切数据简化,by Jieping Ye。EVT的状态,如果你从...
初中数学,像小学年龄问题,以为能猜出答案么?没逻辑必有漏洞!
没逻辑必有漏洞!初中数学,像小学年龄问题,以为能猜出答案么?没逻辑必有漏洞!
讲真,你应该了解的机器学习40年发展史
1997:AdaBoost算法[7]AdaBoost算法在机器视觉领域的目标检测问题上取得了成功,典型的代表是人脸检测问题。2012年Hinton小组发明的深度...
数学无处不在——血液检测的数学模型和理论
数学无处不在——血液检测的数学模型和理论。应用实践和理论分析都表明,当大量的待检测样本中坏的样本不是很多时,比如,高考考生体检...
微信扫码,在手机上查看选中内容