首页 大数据 正文

构筑信任基石:数据可信流通中的标签标识

大数据 2025-01-23 28

近年来,我国数字经济快速发展,如何确保数据的安全性、合规性及可信性成为行业亟需解决的关键问题,对数据的可信流通提出了更高要求。因此,开发与数据可信流通环境要求相适配的关键技术,是当前研究工作的重中之重。

本期,我们将介绍用于提升数据空间资源交互能力的数据标签标识技术,以期为读者和相关领域的研究提供更全面的视角。

数据可信流通中的标签标识技术

2024年11月21日,国家数据局印发了《可信数据空间发展行动计划(2024-2028年)》(以下简称“《计划》”)。《计划》承接2024年9月30日发布的行政法规《网络数据安全管理条例》第二十九条提出的“国家鼓励网络数据处理者使用数据标签标识等技术和产品,提高重要数据安全管理水平”的要求,提出了通过“引导数据可信空间运营者提供数据标识与数据目录标识”,提高可信数据空间资源交互能力的愿景。

官方重要文件对“数据标签标识”的密集推荐,引发了社会各界对其技术原理和应用的广泛关注。

一、标签标识的内涵

那么什么是标签标识呢?通常而言,标签是一种用于记录标记对象属性、活动等相关信息的辅助信息块标识则是用于区分不同标记主体的唯一标志。二者名称相近,引入的目的都是为了提高对标记主体的管理效率,但二者侧重方面大有不同。前者能够将与标记主体相关的各类杂乱的非结构化信息进行有效整合组织,这有助于提高对标记对象的管理效率,并帮助人们挖掘标记主体不同方面信息间的隐含连接;后者则能够提供一种用于识别和追踪特定实体的机制,这有助于简化标记主体的搜索过程,提高对标记主体的处理效率。

标签标识在计算机领域也存在广泛应用,其引入的最初目的是满足对数据知悉范围的控制需求。标签标识能够将描述文件安全特性与文件本身绑定,为文件访问控制的实现提供必要的安全信息。世界各国研究人员对标签标识技术做了大量探索。例如:1991年11月,美国国防部发布《网络协议安全选项》(RFC1108-IPSO)。该文件明确要求互联网协议控制信息需要包含实际的安全标识位,并定义了两类国防部安全选项。1993年5月,施乐公司发布《网络安全标志框架》(RFC1457),该框架定义了安全标志、完整性标志和敏感性标志三类标志,并给出了标志的绑定方法以及标志在OSI网络模型中的应用。标签标识也广泛应用于我国各项工作,最为人们所熟知的便是国家保密工作中的密级标识,该标识对文件密级、保密期限、定密责任人、保护状态等内容作出定义。

二、数据标签标识技术体系组成

数据标签标识技术体系架构通常包括标签标识结构与运行机制标签标识智能化生成以及标签标识可靠传输三个层面。

(一)结构与运行机制

“标签标识结构与运行机制”重点解决多元数据治理场景下数据标签标识结构、标签标识编码体系和标签标识体系全生命周期运行机制问题,具体可进一步划分为可兼容的多层级网络数据标签标识体系、多层级网络数据标签标识运行机制、语义化网络数据标签标识编码技术、网络数据标签标识全生命周期管理技术、网络数据标签标识解析的数据行为表征技术和数据标签标识运行态势感知和评估技术。

(二)标签标识智能化生成

“标签标识智能化生成”重点解决数据特征的智能化规约和标签标识快速智能化生成问题。具体可进一步划分为标签标识知识规约技术、数据标签标识扩展技术、多源异构行业数据标签关联技术、多源异构行业数据特征智能化提取技术、数据属性关联的标签标识智能化生成技术和数据资源多维特征与安全属性的标签标识快速标记技术。

(三)标签标识可靠传输

“标签标识的可靠传输”用于解决大规模数据流动场景下标签标识传输过程中可能存在的损毁与数据隐私保护问题。具体可进一步划分为兼容隐私的数据标签标识混淆传输技术,标签标识分片加密传输技术,网络传输状态感知技术,以及低开销的数据标签标识冗余可靠传输技术。

三、数据标签标识体系构建的要点

一是在数据标签标识体系结构与运行机制方面,需要根据数据具体流通场景构建高效、安全、灵活的数据标签标识体系,解决数据治理过程中存在的多方主体需求差异、数据标签标准不统一及跨域协同管理难题。特别是,针对大规模数据流转需求,研究可兼容的多层级数据标签标识体系,建立数据标签标识跨域协同管理方法,通过实现多维标签空间进行数据特征的高效管理,解决大规模异构数据在流转过程中的标签归属、路径追溯、安全合规等问题。

二是在数据标签标识智能化生成技术方面,需要结合数据应用上下文、类型和关联关系,设计智能化解析算法,实现数据从非结构化格式到多维特征的高效提取。应根据行业数据特点,建立行业属性与数据标签的归约模型,通过降维技术优化标签生成过程,提高标签生成的准确率与效率。同时,要通过构建轻量级的标签标识重构规则,结合安全属性、多维特征复杂度和数据应用的实时性需求,开发标准化的并行处理技术。

三是在数据标签标识可靠传输方面,需要采用基于国密算法的分段加密传输技术,结合多路径调度的动态路由方式进行传输,避免单一路径可能被监听或攻击的情形。应构建数据标签标识传输可靠性动态评估模型,综合网络状态描述关键指标,动态优化传输路径选择。同时,需要研究传输路径链式标记嵌入机制,形成完整的操作链条,为数据传输的审计和溯源提供支持。

四、数据标签标识技术的应用

可以根据数据标签标识进一步开发以下两方面技术应用,以满足数据可信空间的能力要求。

一是数据传输一致性校验与内容安全性核查:构建数据一致性校验模型,分析影响数据传输一致性的因素与影响机理。明确所有数据校验点,实现数据校验内容与数据校验点之间的映射并提出校验指标。利用模型驱动的标签标识与数据一致性校验方法,从数据传输和语义两个维度完成数据一致性校验。使用多节点共识的数据脱标纠错方法,在多节点共识的基础上对错误数据重新定标。根据业务需求构建数据内容安全性核查模型,明确数据安全性核查的范围,形成内容安全核查清单。

二是数据处理合规性检测:通过权限管理技术,进行数据访问控制和授权管理,只有授权方能够查看和使用相关数据,确保数据的最小集传输原则得到遵守。动态识别数据流中的敏感数据,自动发现异常数据流并进行标记,并与检查策略中配置的元数据定义检测规则进行比较,确保整个数据流转过程透明可控。通过传输日志和审计管理技术,确保每次数据交互都能够追溯,阻止非授权的数据访问行为,实时发现、纠正和追责不合规数据传输。

五、数据标签标识在构建可信数据空间中的作用

当前,我国数据总体呈现多源异构、量大分散的特点。随着我国信息化数字化进程的不断推进,各个行业快速产生生产运维、经营管理、实时状态等各种类别的数据,且数据体量急剧扩张;同时,由于数据生命周期较长,且各环节中的数据处理活动往往需要多个主体参与,这些给我国数据治理带来了巨大挑战。为充分释放数据要素价值,激发全社会内生动力和创新活力,解决数据在流动过程中出现的“流通追溯”“类型甄别”“合规验证”难题,我国提出了可信数据空间建设战略,要求数据可信空间具有“构建数据可信管控”“提高数据资源交互”“强化数据价值共创”三项能力,并要求开展可信数据空间相关核心技术攻关。

数据标签标识技术能够很好地满足数据可信空间的能力需求。一方面,标识作为为数据资源分配的全局唯一标识符,能够准确地描述数据治理对象,这提高了数据管控的可靠性与效率;另一方面,由于标签记录了包括数据属主、数据处理者、处理活动、流转路径等方面的信息,这些信息能够为数据流通追溯、类型甄别和合规检验等治理活动提供直接依据。

结语

数据的可信流通对促进我国高质量发展,培育更多新质生产力至关重要,而进一步开展对数据标签标识的研究是保障数据可信流通的关键。

只有不断发展科学的数据治理理论,突破数据治理中的技术难题,才能使我国在博弈日益激烈的国际环境下更加从容的应对来自各方的挑战,构画更加美好的明天。

责任编辑:单博深

审核校对:小贝

声明:本文来自数据要素可信流通研究中心,版权归作者所有。文章内容仅代表作者独立观点,不代表极速破译立场,转载目的在于传递更多信息。如有侵权,请联系 jisupoyi@163.com。

Gartner 2024访问管理魔力象限发布:领导者不变,无中国厂商
« 上一篇 2025-01-23
Google Gemini AI安全评估技术解析
下一篇 » 2025-01-23

文章评论