2020网信自主创新调研报告-数据安全

kaller_cui 2021-05-27

展开全文

2020网信自主创新调研报告

专家委员

主任：倪光南

副主任：严明、霍炜、胡伟武、窦强

委员（按拼音排序）：曹冬、陈晓桦、邓小四、杜胜、杜跃进、冯燕春、冯裕才、郭守祥、韩乃平、胡红升、黄志刚、姜海舟、李斌、李璐瑶、梁育刚、刘龙庚、刘闻欢、刘毅、陆宝华、罗东平、潘凤岩、唐彬、汤学军、田俊峰、肖新光、杨纪文、翟起滨、张焕国、张强、张彦、张宇翔、张岳公、赵波、赵战生、郑静清、祝国邦

数

据

安

全

01 数据安全技术在
多个领域取得长足进步

“十三五”期间，受益于互联网核心技术的快速演进、数据经济的蓬勃发展以及政策因素的导向作用，国内在数据安全领域有了长足进步。国内数据安全厂商在传统产品领域将更多的新技术与原有产品进行融合，数据安全产品和服务在各领域的应用程度逐渐升高，数据安全市场逐步走向成熟。目前，数据安全产品和服务的主要用户为政府、电信、金融等行业客户，其他行业的数据安全产品使用率还比较低。

多项传统数据安全技术
实现赶超

国内厂商在数据安全技术领域不断取得进步，部分达到甚至超越国际水平。安恒信息、中安星云、绿盟、世平信息等国内厂商开始将大数据技术应用于数据监控和审计产品中，使得大规模审计数据的存储查询性能得以成倍提升。华途、天融信、绿盟、微智信业等国内厂商将人工智能技术应用于数据安全保护，在数据分类分级、自动编排、事件剧本等领域实现了自动化响应与处理，大大提高了数据的自主化、智能化安全管理水平。同时，用户行为分析技术开始应用于数据保护，配合纵深防御技术，分析用户、设备、应用程序的日常行为，实现数据流动过程中的可视、可监、可控、可管。

国内首创数据协同安全技术

数据要素的流通应在保证安全的前提下进行。在传统的基于原始数据所有权的交易模式下，数据在共享过程中存在着确权、失控、隐私泄露等风险，数据协同共享难以落地。为保证在安全可控的前提下实现数据的协同应用，长城网际、中安星云、观安信息等创立了基于数据使用权的“数据可用不可见”或“数据可用不可得”的安全协同共享模式，避免数据使用方直接接触原始数据，提高计算过程中的数据安全，确保敏感数据不泄露。

数据安全评估与
监管技术日趋成熟

随着数据本身及其附加的价值越来越高，数据在其全生命周期中面临的问题和风险也越来越严重。为了支撑监管部门履行职责，国内众多从事数据安全业务的厂商开展了数据安全评估与监管技术的研究，先后推出了数据安全风险评估系统、数据资产梳理系统、数据安全监管平台等。

02 场景化对数据安全提出
新的需求

云数据安全

在业务平台持续迁入云端的大背景下，由云计算和大数据产生的业务需求引发了更多的数据安全风险，云数据安全将成为未来数据安全产业新的爆发点。相关厂商在保护企业内部数据安全方面已经有几十年的经验，但是在保护云数据安全方面的技术和产品还比较少。国外以评估、授权、建设为监管抓手实施云计算安全监管，已经形成了 CipherCloud、FocePoint 等行业内的领先企业。国内在云数据安全领域相对落后，目前主要以审计、访问控制、认证授权为主。为应对日益增长的云数据安全需求，国内厂商将云数据标识技术、大规模数据存储加密技术、隐私保护技术等作为研究的焦点。

人工智能数据安全

人工智能发展迅速，但少有企业关注其中的数据安全问题。首先，人工智能本身面临数据安全问题。如在运行时数据异常导致的智能决策系统异常、黑客窃取模型后对训练数据进行逆向还原、开源的学习框架导致系统数据泄露、训练数据污染导致模型错误进而影响决策等。其次，人工智能的应用导致数据安全风险。如个人数据过度采集产生隐私泄露、因数据生成模型产生的偏见决策、数据的深度挖掘和分析产生的数据资源滥用、通过深度伪造数据影响决策系统。再次，人工智能对数据安全治理提出了新的挑战。如数据权属问题、数据跨境违规风险等。

随着人工智能技术的快速发展，未来将可能产生更多的数据安全风险。当前国内外针对人工智能数据安全的防护技术集中在基于隐私的机器学习技术，以及针对各种恶意攻击的防御技术和数据保护技术。而更多人工智能数据安全支撑技术需要继续突破，如：数据偏见检测技术、数据生产技术、迁移学习、数据投毒防御技术、人工智能数据安全风险评估工具、测评工具等。

大数据安全

目前，开源大数据平台套件的安全机制存在不足，表现为以下几个方面：一是身份认证。开源大数据平台多采用简单机制和 Kerberos 机制。简单机制只能避免内部人员误操作，基于 Kerberos 的认证方式对于系统外部可以实现强安全认证，但其基于操作系统用户的认证机制无法支持各组件之间的身份认证。二是访问控制。开源大数据平台各组件多采用不同的访问控制机制，包括基于权限、基于角色、基于标签和基于操作系统的访问控制等难以针对每个用户实施精细化、细粒度访问控制。三是安全审计。开源大数据平台组件众多，统一安全审计存在困难，需要借助日志审计平台从集群中各节点采集审计日志，进行集中存储、清洗和分析。四是大数据环境下的密钥管理。

因此，应统一管理安全策略、安全审计、安全运维，解决目前开源大数据平台集中安全策略配置和管理繁杂的问题。身份认证方面，通过集中身份管理和单点登录等方式，简化认证机制；访问控制方面，通过统一管理角色和授权，降低集群管理的难度，通过基于角色或标签（结合数据分类分级标签）的访问控制策略，实现对数据访问的细粒度管控。加密和密钥管理方面，提供灵活的加密策略，实现对 Hive、HBase 的表或字段加密，同时要加强密钥的管理。

03 加大技术创新和
应用推广，应对场景化需求

面对上述需求，数据安全厂商在未来五年需要重点关注以下技术领域，在实现技术突破的基础上使相关产品和解决方案达到实用化程度，加大应用推广力度有针对性的解决场景化需求。

数据安全标识技术

在云计算、大数据、人工智能等场景下，数据自身的安全控制机制将成为关注重点。在对数据自身安全控制过程中，如何安全有效地对数据进行属性标注与识别是一项基础而又关键的工作。传统的数据安全标识技术只采用平面式标识，不能满足当前的业务需求。数据安全标识技术是一种基于密码技术的高安全、高可信和高可用的数据属性标注与识别技术。该技术在不破坏数据可用性，不影响数据正常使用的情况下，对数据进行安全属性标记，为数据全生命周期安全管控提供支撑与保障。其价值主要体现在以下几个方面：首先，基于元数据和数据标识实现安全增强控制，将成为未来数据自身访问控制技术发展的新方向；其次，基于数据标识能够实现大数据的规范化管理、质量管控；第三，基于标识的数据整合与发现能够有效应对大数据时代数据融合的需求；最后，基于标识语义的索引结构，能够支撑数据快速检索及复杂查询类型实现。

知识图谱技术

内容识别技术最早应用于数据防泄漏系统，用于识别需要保护的数据。传统的基于规则匹配、机器学习的内容识别技术已经不能适应当前大规模的数据应用。知识图谱技术的出现能够解决数据分类分级过度依赖于人工标注和无法解决无标签文本分类的情况。知识图谱的架构包括自身的逻辑结构，以及构建知识图谱所采用的技术结构。知识图谱能够提供从“关系”的角度去分析问题的能力，在分析的过程中利用正向反馈的先验知识，使模型更加智能化。

数据轨迹可视化技术

随着数据应用的不断扩展，数据交互越来越多，对于数据的使用监管要求也越来越严格。传统的数据监控与审计系统难以满足数据与应用紧密贴合场景下的应用关联审计，数据轨迹的可视化技术将成为数据安全流转的重要支撑。传统的数据轨迹可视化技术通过在数据、终端、网络、业务之间建立关联关系，从时间戳、会话等维度勾勒出数据流转轨迹，并进行可视化展示。然而，由于各个系统之间时间戳不一致、会话时间差异等原因，数据轨迹不能够准确反映出真实数据流向。因此，如何通过新技术的应用处理数据轨迹可视化面临的技术问题，将成为未来各厂商研究的重点。

基于大数据技术的
存储计算分析

数据安全监控与审计技术将面临着审计数据量大、审计数据复杂度高、前段审计记录查询响应要求越来越高等问题，传统的审计数据存储技术已经不能满足需要。因此，基于 Hadoop 大数据平台技术，利用大数据平台的大规模分布式文件、分布式数据库对数据安全监控与审计进行架构提升，成为当下急需要解决的问题。

数据安全风险评估体系

目前常用的威胁建模技术是 STRIDE 模型。此方法由 Loren Kohnfelder 和 Praerit Garg 提出，被微软安全工程和通信小组应用。其理论可追溯到Abdulaziz Alkussayer 和 William H. Allen 提出的“一种基于场景的软件体系结构安全评估框架”，适用于在多种业务场景下，将架构评审、风险分析、安全模式等不同的要素集成到一个统一的框架中。在 STRIDE 威胁建模分析的基础上，结合数据资产价值及其所处环境的脆弱性，通过定量风险分析、定性风险分析手段，经科学的风险计算，得出当前业务及其数据所面临的安全风险等级。

面向切面数据加密技术

现有的数据加密技术主要有数据库加密、应用层加密、文件层加密、网关层加密等，在性能上难以支撑未来大数据、云计算、人工智能技术的广泛应用。因此，数据加密存储一直是数据安全领域的老大难问题。面向切面数据加密技术，通过将安全组件与业务从技术上解耦实现能力融合交织，在避免开发和改造应用的基础上实现细粒度业务数据保护，将数据加密从传统“外挂式”升级为“内嵌式”，能够有效提升加密数据的访问性能。

隐私计算技术

数据流通不畅已成为制约我国大数据产业发展的重要问题。数据拥有者出于数据安全的顾虑而不愿共享数据，使得不同机构间难以利用对方的数据进行联合分析或建模。为解决这一问题，隐私计算技术最有可能成为实现这一突破的关键。