我们还是会去排队看医生,医疗资源到现在依然很紧张,这最根本的原因是什么?
我们认为是跨界人才的缺乏。
根据麦肯锡的调研报告:目前,平均年薪为35万的大数据工程师的人才缺口是150万。人才缺失直接影响了底层训练数据的缺失。大部分医疗智能公司受困于如何能拿到海量的、经过准确标注的数据,它是这个行业目前来说最大的一个瓶颈。
同样那些目前我们认为已经取得一定突破的智能行业,比如说图像分类、语音识别、机器翻译,它们也是经过了海量数据积累,再加上算法创新才形成了我们今天所看到的智能结果,而且还只是初步的智能。
以谷歌翻译为例,谷歌在做机器翻译时也专门组织了一支团队。这个专业团队是由大量语言学家和程序员共同组成的,专门解决数据标注和专业模型的问题。
元典现在也是在做同样的事情,致力于法律数据的标注和专业模型的搭建。
在最初加入华宇元典的时候,我拜访了包括微软亚洲研究院、Watson中国团队在内的许多技术科学家。我向他们描述了我所憧憬的法律智能的未来后,科学家们谨慎地摇了摇头:如果想要实现这一步,必须有一批程序员具备相当程度的法律知识才能够最终实现,而这并不是单纯的懂计算模型的人或者单纯拥有法律知识的人能够解决的。
但是,我们并没有放弃我们的梦想。
在法律智能这件事上,若说在过去的一年多里有什么是元典最值得分享的经验,那就是:如果没有一个完美的人,我们就去找两个方向上最好的人,让他们融合在一个团队做一件事情——从最初的9个人到现在的120个人,元典全部是这样的研发团队。
我们的法律团队里目前有全国审判业务专家、全国十佳公诉人,有一线法学院最优秀的一批毕业生;此外还有华宇集团从业十年以上的技术科学家和专业的行业数据团队。这两拨人融合在一起,法律人去学习计算机知识、参与代码和模型的编写;计算机专业的毕业生去学习法律知识、从了解审级的规定和区别开始…… 我们想在这样的积累下,为这个行业做一些小小的尝试:让机器去习得法律认知能力,去打破行业内部、行业与行业之间的应用数据壁垒。
我们来看一个真实的例子。今年我有幸在阿里云栖大会上也分享了这个例子:这是一个事实(见下图)。这个事实从法律视角可能构成什么样的法律纠纷?这是我在今年校招上特别喜欢用的一个问题。它充分检测了各个学校法学院毕业生的社会常识。很多法学院毕业生看第一眼就会说构成危险驾驶罪。我说OK,没问题,还有吗?

当我们把这段事实输入到智能系统的时候,系统对历史数据的学习会告诉我们,它最有可能构成的当然是危险驾驶,但同样它还可能构成责任保险合同纠纷和财产损失保险合同纠纷。
我在法学院的校招上听到过很多学生告诉我说可能构成财产纠纷,也可能构成侵权责任纠纷。
我说同学你的回答从法理上没有问题,但你可能没有买过车。
这就是系统机器学习从历史探究中分析出来的。它怎么用?无论是作为新市场的挖掘还是作为后面更多功能的触发,该场景的想象空间是很大的。

在案由判断之后,我们还可以把事实中的量刑情节进行自动识别,去寻找在法律评价维度上最相近的案例,去告诉人们这个案子最有可能判处的刑罚结果是什么。如果你想看到它的分析过程也没有问题——系统支持从全国到省市县某一个法院的数据分析。系统会告诉你全国有多少例案件与你相似,而你的案例与他人的案例所需要关注内容的异同是什么。


我们不替代人类法官进行裁判,我们只是希望一切都有客观的依据;就像KK上午分享的那样,让人类和机器“协同”起来。
这样的分析维度还可以细化到法官的层面。系统可以告诉你这个法官处理这类案件中上诉率、二审发回率、他常采信的证据、他的裁判观点、他关注的争议焦点等等。系统还可以同步把学者观点碎片化后根据前面的事实进行准确推送。