首页 AI 正文

AI时代的数据安全平台，一场以数据为中心的革命

AI 2025-01-23 27

数据安全格局正在发生重大变革，且已达到一个转折点，这一变化由数据激增、GenAI的崛起以及数据合规法规日益严格所驱动。传统的基于网络的安全措施已不足以应对当前挑战，因为数据本身已成为新的边界，这要求安全策略向以数据为中心的方向转变。

组织面临着众多挑战，包括数据泄露、合规处罚以及数据本身的动态特性，其他紧迫问题还包括 GenAI 的复杂性、网络弹性和数据蔓延。为了应对这些挑战，一套全面的数据安全方案必须涵盖数据发现、分类、治理、数据保护、监控、响应和恢复。

我提出了一个观点，即网络安全的下一个重大机遇将集中在数据及其周边领域上，因为数据是每个组织的核心资产。我与 Cyera 合作完成了报告的后半部分，利用其平台作为案例研究，展示数据安全领域的变革及其平台是如何体现这一趋势的。此外，该研究基于广泛的数据安全市场调研，与多位安全从业者深入交流（包括多位首席数据官、领导者和安全负责人），以撰写本报告。

数据安全是网络安全领域下一个趋势的顶峰

如果网络安全的历史可以作为未来的指引，那么其指向性很可能会是数据安全。我们希望通过评估10亿美元+营收（或预计在未来12个月内接近这一目标）的公司来衡量“下一个重大趋势”的成功。这些公司采用纵深安全防护方法，该方法是许多安全领导者普遍使用的框架。如下时间轴展示了从网络安全到现代数据安全的演进过程：

边界安全（1990年代）：互联网早期的风险催生了 Checkpoint 和 Juniper Networks 等安全厂商，它们致力于保护企业边界安全。
网络安全（2000年代）：这一时期催生了以防火墙为核心的公司，如 Palo Alto Networks 和 Zscaler 等。
邮件安全（2005）：随后我们看到 Proofpoint 和 Microsoft Security 等公司的崛起，专注于保护邮件安全。
主机（端点）安全（2010年代）：随着 McAfee、Symantec、TrendMicro、Sophos 的初步成功，以及最终 Crowdstrike 的崛起，我们看到了操作系统和端点安全重要性逐渐凸显。
身份安全（2015 年）：SaaS 应用的崛起催生了对身份安全控制的需求，以确定正确的用户及其对企业资源的访问权限。我们看到Okta 和 CyberArk的崛起。
云&应用安全（2020 年代）：云安全一直存在却不温不火，疫情却推动了其复兴，Wiz 的成功标志着这一时代的到来。
数据安全（2024 年？）这使我们不禁要问，为什么现在还没有一个市值十亿美元的数据安全平台？

全面数据安全平台的必要性

在不断变化的网络安全格局中，数据安全是最大的挑战。尽管数据是最关键的资产，但往往缺乏足够的保护措施。第三方解决方案、云环境、SaaS 和AI的普及，使数据分散在各个动态位置，包括混合云和多云系统；再加上员工、承包商和合作伙伴的广泛访问，进一步造成可见性和控制方面的复杂性。随着组织越来越多地采用以数据为核心的云计算和AI驱动架构，安全策略必须发生根本性的转变。传统的数据安全解决方案已无法满足需求，现代数据环境的动态特性要求采取实时、适应性强的安全措施。是时候建立一个全面、整体的数据安全平台来应对这些不断变化的挑战了。

关于本研究报告

本报告深度探讨了数据安全领域，提供了全面数据安全方案的基本要素，包括数据发现、分类、保护和销毁。报告还强调了AI/ML的作用以及传统技术转型在数据安全转型中的过渡。此外，报告还概述了竞争格局，并展示了数据安全平台 Cyera 如何通过其整体解决方案应对这些挑战。最后，本报告为那些致力于应对数据安全复杂性并保护其最宝贵的资产——数据的企业提供了宝贵的知识。

关键建议

安全领导者正在优先考虑数据安全项目作为新一年的优先事项。根据 YL Venture 基于 Forrester 的《数据安全现状》（2024 年 7 月）的调查，83% 的企业目前使用终端DLP，但仅有 13% 的企业在云端全面部署了数据安全能力。这一差距再加上日益增长的隐私和合规性需求，使得下一代 DLP 解决方案成为未来安全战略的关键组成部分。
根据对 218 多名CISO的调查，进入 2025 年，企业将优先把数据安全（包括 DLP）纳入预算计划。数据表明DLP 回归了，近一半的数据安全项目涉及DLP。在AI为数据分类带来新机遇的上下文下，这一长期存在的市场似乎又有了蓬勃发展的机会。虽然DSPM作为一个单独的类别似乎正在减少，但私钥管理、数据仓库和标记化等项目在讨论中逐渐浮现。
Gartner 将围绕 GenAI 的数据安全确定为 2025 年的第一大网络安全趋势，而第四大趋势则凸显了组织向网络韧性转型的愿望日益强烈。根据Cybersecurity insiders和 Cyera 的研究，75% 的企业计划在未来 12 个月内采用 DSPM 解决方案
目前组织在管理和使用数据方面都面临着挑战。企业内部缺乏跨职能协作，数据分散在企业的方方面面，使得识别并制定一套有效的跨职能策略变得极为困难。
每家公司都需要制定数据安全策略，以满足以数据为中心的世界的需求。与网络安全历史上的其他类别相比，数据安全的解决方案最少。这为数据安全带来了打造下一个十亿美元级网络安全公司的巨大机遇。
根据我的研究，下一个数据安全平台将建立在强大的数据发现和分类（DSPM），以及围绕DLP为核心基础的全面数据保护机制之上，从而为企业中其他数据相关解决方案提供支持。
Muji 在 hypergrowth 网站上发表了一篇题为《网络韧性全景》的完整分析文章，深度探讨了网络韧性与数据保护之间的交叉领域，以及 CrowdStrike、Palo Alto 和 Zscaler 等网络安全 CNAPP 供应商。
本报告旨在对数据安全生态系统进行详细分析，并与 Cyera 合作，以展示 Cyera 等公司如何引领下一代数据安全平台。

证据：数据安全收购和投资激增，表明数据争夺战愈演愈烈

最大的网络安全公司一直在进行军备竞赛，试图通过快速收购公司来确保数据这一核心资产的安全。数据安全投资和收购活动的不断增加凸显了对高效数据保护解决方案日益增长的需求。DSPM 市场经历了显著增长，融资和并购交易总额已经超过了 10 亿美元。例如，Tenable 最近收购了 Eureka Security ，这表明数据安全正成为其传统漏洞管理解决方案之外的一个关键关注领域。

大型网络安全公司的重大收购进一步支持了这一趋势。例如：

Palo Alto Networks 收购 Dig Security
CrowdStrike 收购 Flow
Rubrik 收购 Laminar
Proofpoint 收购 Normalyze（2024）
Netskope 收购 Dasera（2024）
Tenable 收购 Eureka（2024）
Cyera 收购了 Trail Security (2024)，并以 30 亿美元的估值获得了 3 亿美元融资。

我在 LinkedIn 上的一篇文章中详细介绍了这些收购的情况：

根据 Altitude Cyber 的数据，交易量也在不断上升，仅 2024 年就有 114 笔交易，总金额近 26 亿美元。自 2020 年以来，共有 576 笔交易，融资总额达 99 亿美元，这说明数据安全在网络安全解决方案的持续发展中发挥着至关重要的作用。此外，风险投资对数据安全公司的投入也非常可观，整个赛道共筹集了超过 5 亿美元的资金。这些备受瞩目的交易反映了更广泛的行业趋势，即成熟的网络安全公司正在加大对数据安全的投资力度。数据安全市场持续增长，预计未来几年还会进一步扩展。

在数据安全中定义数据及其上下文

首先必须定义数据及其相关上下文。数据可以有多种形式，包括敏感信息、机密数据、加密算法和AI模型。本报告的重点是敏感业务数据，其表现形式多种多样。

结构化数据：以数据库、电子表格和表格等预定义格式存储的数据。例如CRM系统中的客户记录或HR系统中的员工数据。
非结构化数据集：不遵循预定格式的数据，如电子邮件、文档、社交媒体帖子、图像、视频和聊天记录。这可能包括内部沟通线程、客户支持票据和演示文件。

这些数据存储在哪里？

这些数据集通常存储在数据库、SaaS、云和网页中。

在这些位置中，数据在网络安全数据的形式多种多样，每种形式都带来了独特的安全挑战，需要量身定制保护措施。

静态数据：是指存储在服务器或云存储等静态位置的信息。它们通常通过加密、访问控制和数据分类来确保安全，以防止未经授权的访问或篡改。
传输中的数据：在网络中传输，通过安全通信协议如 TLS/SSL 和 VPN 进行保护，以防止在传输过程中被拦截或篡改。
使用中的数据：由应用程序或用户主动处理，需要运行时加密和端点检测，以防止内存驻留攻击。

可见性仍是一个挑战

然而，许多企业目前面临的最大挑战是这些数据分散在多个位置。超过 48% 的信息安全专业人员无法看到 SaaS 环境中的数据，这凸显了保护云数据安全的复杂性。83%的受访者认为，缺乏数据可见性会削弱他们的安全态势，这凸显了数据可见性在有效保护中的关键作用。

对于那些知道其数据存储位置的企业来说，超过 39% 的企业仍报告有大量数据存储在本地服务器，30% 的企业则报告数据存储在 SaaS 环境中，这表明了数据在企业中的分散性。

上下文至关重要

由于企业拥有不同类型的数据，数据可见性必须考虑其相关上下文。企业拥有不同形式的数据，如敏感数据和受监管的数据（例如 PII、PHI 或财务记录），以确保合规性并避免法律后果。但它们也有其他类型的数据，包括从网络流量或用户活动中产生的行为数据和观察数据，用于支撑异常检测、威胁情报或其他业务目的。因此，企业需要了解每种数据的来龙去脉。他们需要知道

数据是否可识别（无论是否为 PII）
与数据相关的角色，以及适当的访问控制
地域性（了解与数据相关的每个地区的监管要求）
获取元数据的能力至关重要，因为每个数据集都是独一无二的

所有这些因素都凸显了对更好的数据安全解决方案的需求。

企业当前面临的挑战与数据安全的驱动力

主要有7个关键驱动力推动着对数据安全的关注：

数据泄露的数量：重大数据泄露事件已对 23andMe、AT&T、Ticketmaster、戴尔和美国运通等大型公司造成影响。企业投资 DSPM 解决方案的一个主要原因是防范潜在的数据泄露（20%），其次是促进 GenAI 技术的部署（13%）。企业的重点是了解其敏感数据的存储位置，并对数据存储的内容进行分类，以采取积极措施防止潜在的数据泄漏和丢失。

网络韧性&从数据泄露中恢复：由于停机、管理分散、知识产权损失和声誉受损，企业面临着巨大的经济损失。事实上，仅在过去一年中，就有 53% 的组织报告经历过敏感信息的重大损失。戴尔、美国运通、美国银行和 23andMe 等公司发生的重大数据泄露事件，凸显了数据安全故障带来的实际成本。根据 IBM 的年度《数据泄露成本报告》，2024 年全球数据泄露的平均成本将达到 488 万美元，比去年增长 10%。
从数据泄露中恢复——勒索软件费用：超过 80% 受数据泄露影响的企业选择支付勒索费用，2023 年的勒索总额达 11 亿美元。
GenAI的采用使问题变得更加复杂：随着企业努力保持竞争力，数据已成为至关重要的资产。GenAI 中的数据整合增加了对大模型所用数据进行定位和分类的需求，以防止敏感信息无意中被纳入这些模型并泄露出去。模型开发通常涉及开源和闭源模型以及大量测试，导致一些企业运行超过 100 种不同的模型。这种复杂性导致很难识别所有模型的安全漏洞，从而导致 40% 以上的公司遇到与AI模型相关的隐私或安全问题。AI助手的兴起促使更多的 SaaS 系统要求访问企业数据。64%的公司表示在采用GenAI方面感到有压力，84%的公司认为网络安全是采用AI的主要障碍。
数据是全球增长最快的资源。数据量迅速扩大，导致云数据蔓延及相关风险：数据是企业内增长最快的资产之一，但这种增长往往会导致数据蔓延，即数据在多个系统中重复存储。这给数据管理带来了巨大挑战，因为不同的数据源会导致可见性缺乏。随着公司对多云环境和 SaaS 平台的采用，管理数据蔓延变得越来越复杂。随着数据的增长，由于访问控制不当、端口不安全和备份管理不当，云资源变得更加脆弱。值得注意的是，99% 的云身份 "权限过大"，80% 的数据泄露事件涉及存储在云中的数据，这凸显了数据管理和监督所带来的风险。

每天产生约 4.02 亿TB的数据。今年将产生约 147 ZB（1 ZB = 10^9 TB）的数据。预计2025 年将产生 181 ZB数据。四年前，平均每家公司使用 100 个 SaaS 应用程序，而这一数字现在已超过 3000。

罚款和合规处罚：HIPAA、GDPR、CCPA、DORA、LGPD 和 PIPEDA 等合规要求最为突出。目前有 137 个国家颁布了数据保护法规，其中最著名的是 GDPR 和 CCPA，预计隐私法规只会继续加强，尤其是最近提出的《美国隐私权法案》（American Privacy Rights Act）背景下。
合规框架和敏感数据管理：组织往往不知道自己拥有哪些敏感信息，也不知道这些信息存储在哪里，这阻碍了他们采取适当的措施进行保护。仅有 4% 的企业为敏感信息配备了专用存储设备。

全面数据安全方案

公司制定数据安全计划后，应实施以下措施：

数据发现、分类和清单：

数据安全的基本步骤包括三个关键部分：

发现：这一初始步骤包括系统地识别和定位整个组织环境中的所有数据资产。
分类：这一过程包括根据数据的敏感性和重要性对数据进行分类和标记，以便应用适当的安全控制。
数据清单：这包括维护结构化和非结构化数据的综合目录，以确保全面的可见性和控制。

数据保护：

数据保护和溯源：现代DLP系统与CASB集成，可提供全面的保护。这些系统可以监控数据流动、检测敏感信息，并防止所有环境中的未经授权访问或数据外流——无论数据是处于静态、使用中还是传输中。
加密和数据安全：包括数据脱敏、加密、标记化和哈希在内的多层保护，可确保敏感信息即使被访问也不会泄露。这些技术可将敏感数据转换为不可读的格式，同时保持其功能性。
身份和访问管理：强大的访问控制结合了用户权限管理、行为分析和持续监控。该框架遵循最小特权原则：

数据访问治理 = 数据源 + 权限 + 许可 + 执行措施
风险评估 + 洞察/工作流 = 修复措施

安全监控与响应：通过事件分流、持续监控以及与安全信息和事件管理（SIEM）系统集成，进行全面的事件响应，确保快速检测和响应潜在的数据安全事件。

数据删除、备份和恢复

在勒索软件成为当代最大攻击之一的时代，强大的备份和恢复系统比以往任何时候都更加重要。企业必须实施全面的备份策略，定期测试恢复程序可确保业务连续性，并帮助企业在发生潜在事件或数据泄露后迅速恢复运营。
企业应开发安全的备份存储并实施冗余存储系统，确保适当的访问控制和加密。其次，企业应拥有一个处置协议，实施安全删除方法。
随着AI的兴起，数据处理变得越来越复杂，需要仔细考虑监管合规性和道德影响。在删除数据时，企业必须确保在所有系统中彻底删除数据，包括AI训练数据集、缓存版本和备份副本。

围绕数据发现、保护和恢复为基础的框架，为企业中许多其他数据应用场景奠定了基础。企业的首要任务包括在将数据用于AI模型（尤其是GenAI/LLM）之前确保数据安全。企业的其他重点领域涉及支持隐私、治理、风险与合规（GRC）。该领域强调正确处理、处理和存储个人及敏感数据，以确保个人权利和隐私得到保护，并符合监管框架。

企业数据安全生命周期管理

数据安全态势管理 (DSPM)

Data Discovery 数据发现
Data Classification 数据分类
Data Governance 数据治理

Data Protection 数据保护

Data Loss Prevention (DLP)
Data encryption and masking数据加密和脱敏
Data monitoring and response数据监测和响应

Data Recovery and Destruction数据恢复和销毁

Data backup and recovery 数据备份和恢复
Data deletion 数据删除

高级数据发现

在当今复杂的企业环境中，敏感数据往往分散在不同的存储库中，包括云服务、本地系统和第三方应用程序。第一步是发现数据存储的位置，并为所有企业数据建立一个集中位置。如果没有发现，数据安全保护工作就会受到影响，因此这一步是建立强大安全态势的基础。

识别所有数据存储：从结构化数据库到云存储中的非结构化文件，DSPM 都能发现可能被忽视的存储库。DSPM需要能够在以下环境中发现数据：

块存储
对象存储
托管云数据库
托管云数据仓库
自托管嵌入式数据库
隔离的私有云环境中的数据存储
本地数据存储（私有数据中心）

映射数据关系：通过分析元数据和访问模式，DSPM 可以揭示数据如何在系统间流动，使企业能够识别关键的暴露点。全面的数据发现使企业能够识别可能未得到适当保护的敏感数据，如存储在配置不当的云存储桶或权限过高的共享文件夹中的数据。准确的数据发现有助于遵守 GDPR、CCPA 和 HIPAA 等监管要求。通过维护最新的敏感数据清单，企业可以在审计期间证明合规性，避免高额罚款。

数据分类

为遵守法规而进行数据分类的最终目的是确保企业的敏感数据得到准确识别、分类和管理，并与适用的法律、法规和行业标准保持一致。51% 的运营商会根据 DSPM 供应商的分类效能来评估其能力。

正确的分类有助于应用适当的安全控制来保护敏感数据，如个人身份信息 (PII)、受保护健康信息 (PHI) 或财务记录。它可确保符合 GDPR、HIPAA、CCPA、PCI DSS 等法律的具体要求。

管理监管机构：它为监管机构验证敏感数据是否得到正确管理提供了明确而系统的方法，因此，企业可以最大限度地降低违规风险，避免代价高额罚款，并最大限度减少潜在数据泄露的影响。
支持数据访问和保留政策：数据分类使企业能够实施基于角色的访问控制，确保只有获得授权的人员才能访问敏感数据。它还有助于管理数据保留政策，确保遵守规定，明确特定类型的数据必须保留多长时间或何时必须删除。

传统数据分类

传统的数据分类方法主要是根据敏感性对数据进行人工定义和分类。这些旧方法的主要特点包括：

实施周期长：传统的数据管理方法存在缺陷。根据企业战略集团（ESG）的数据，在对 1000 多名高管进行调查后，他们发现 DSPM 的部署通常需要 4-6 个月，而时间表计划为 3 个月。
基于规则的系统：依赖于静态模式，如关键词、regex（正则表达式）或预定义规则。例如，正则表达式可以将 "Jordan" 标记为敏感信息，但无法辨别它指的是一个人、一个国家还是一个品牌。这种对上下文视而不见的方法经常会导致误报，削弱了它们在复杂数据环境中的可靠性。
手动数据标签：假定业务团队了解他们的数据，并对数据进行手动标签敏感性。事实证明，这种模式在数据蔓延和动态工作流程猖獗的环境中是站不住脚的，因为敏感数据可能存在于多个孤岛生态系统中。
静态检测算法：静态检测方法如精确数据匹配（EDM）和文件指纹识别，是人工标注（侧重于识别与预定义数据模式的精确匹配）的重大进步。这些方法虽然对结构化数据有效，但对非结构化或半结构化数据效率低、成本高。

这些解决方案面临的挑战是误报率高和缺乏上下文理解。它们是资源密集型且耗时的流程，不适合现代的大规模环境。它们也无法适应新的数据类型或不断变化的业务需求。此外，传统方法耗费大量资源，往往需要数周或数月才能完成对大型存储库的扫描，从而在数据安全方面留下严重隐患。

随着人工智能和大语言模型（LLMs）的出现，数据分类的现代方法变得更加智能和灵活。

AI驱动的模型本身具有自适应能力，能够理解上下文。LLMs在各种数据集上经过训练，可以分析复杂的非结构化数据格式，如电子邮件、报告和混合半结构化文件。这种适应性可以检测到传统系统经常忽略的敏感数据类型。

以 "Jordan "为例

Jordan是一个国家
Jordan是一个受欢迎的品牌
Jordan是一个射击品牌

改进分类的最佳方法是利用上下文数据，让AI知道使用这些数据的上下文信息。

AI有其自身的局限性，如测量困难、缺乏特异性、幻觉（虚假信息风险）以及控制和一致性问题。此外，即使使用 OpenAI的AI，成本也仍然很高，这意味着分类工作需要更高的复杂性。Cyera 等公司结合正则表达式、NLP、统计验证和AI提升现代分类方法。Cyera 使用的分类引擎具有高召回率模型（清除垃圾数据）+ 高精度模型 + 上下文，已证明其分类准确率超过90%，远高于竞争对手。

上下文和元数据：

AI模型可评估数据周围的元数据和使用上下文，从而实现更精细的分类。例如，区分客户的电话号码和员工的电话号码，可以为每种类型的数据制定不同的安全协议。现代系统利用元数据（如地理位置、合规框架和数据角色）丰富分类结果，从而实现更精细的策略执行。

客户目标：

最好的AI分类引擎会不断学习并适应独特的数据环境。除内容级检测外，文件级分类还需考虑整个文件的特征，从而识别财务报告或知识产权等敏感文件。
通过减少误报和扩大安全工作规模，基于AI的系统增强了对数据的理解，最大限度地减少人工操作，降低安全漏洞，并提供见解和建议。

数据访问治理

利用核心身份安全协议和数据访问治理（DAG）是现代数据安全的关键组成部分，使企业能够规模化实施最小访问权限的同时，保持对数据活动的全面可见性。DAG 的核心是将几个关键要素结合在一起：数据源、授权、许可和执行措施，所有这些要素共同作用，构建一个强大的访问控制框架。DAG 的基础在于其访问控制策略，这些策略决定了谁可以访问特定数据集，以及在什么情况下可以访问。

数据与身份安全

身份和数据一直相互关联，就像一枚硬币的两面。然而多年来，企业主要关注身份方面。虽然最小权限访问和零信任框架等以身份为导向的方法很有效，但如果没有这些方法所要保护的数据的可见性和上下文，这些方法往往会有所欠缺。例如，我们通常知道谁可以访问什么，但却不知道如何使用这些访问权限，甚至不知道这些访问权限是否必要。这一缺陷使得敏感数据——目前增长最快的攻击面——暴露无遗，尤其是在内部威胁、合规风险和第三方访问等领域。

通过将身份上下文与数据洞察相结合，企业可以统一理解谁和什么与敏感信息进行了交互，从而揭示以前无法回答的问题。这种共生关系可实现细粒度访问控制、更强的风险管理和更丰富的安全态势。例如，通过了解从应用程序到系统再到用户的数据流，可以洞察数据蔓延、潜在滥用和保护机制的薄弱环节。同样，跟踪非人类身份和外部访问可揭示与第三方集成相关的关键风险。数据安全既需要建立新的解决方案，也需要与身份安全供应商进行强有力的集成。为了有效实施，DAG 必须与现有的安全基础设施集成，包括单点登录 (SSO) 和身份提供商 (IdP)。

数据保护

数据保护有三个组成部分：

Data Loss Prevention (DLP)
数据加密和脱敏
数据监测和响应

Data Loss Prevention (DLP)

DLP 解决方案的核心目标是确保只有经授权的系统或用户才能传输敏感数据，从而防止未经授权的数据传输和泄漏。它们旨在监控和阻止违反策略的数据流动。DLP 安装在端点、云端、电子邮件、SaaS（CASB）上，也可能在 Web、AI 模型和 API 上安装了某种形式的 DLP。

传统 DLP

Symantec 和 McAfee 打造了第一代 DLP 解决方案。这些传统的 DLP 方案依赖于僵化、基于规则和沉重的代理系统，难以适应现代数据环境。它们的手动规则创建方式带来了巨大的挑战，例如：

准确性差，误报率高：由于分类错误，这些系统产生的误报率高达 90%，给事件响应团队带来了许多不必要的告警。
理解力有限：缺乏上下文感知意味着系统无法区分合法业务活动和实际威胁。
部署复杂：基于代理的模型需要数年才能实施，且执行策略的运营开销巨大。此外，端点、电子邮件和网络之间的检测存在碎片化和时间延迟，造成了策略不一致和安全问题。

传统的 DLP 解决方案缺乏在当今动态环境中保护敏感数据所需的灵活性、准确性和效率。这些缺陷清楚地表明，我们需要更先进、更集成的解决方案。

现代 DLP

现代AI驱动的 DLP 解决方案利用无代理技术，结合先进的AI、实时执行以及无缝集成，构建了一个动态的自适应框架。这些解决方案能有效保护所有环境中的敏感数据，满足当今复杂数据环境的需求。以下是基于 Trail DLP 解决方案（现已被 Cyera 收购）的现代 DLP 示例。

Trail DLP

DSPM 分类引擎：传统的 DLP 解决方案缺乏来自 DSPM 系统的上下文支持，而现代的解决方案（如 Cyera 使用的解决方案）则将 DSPM 与 DLP 集成，以增强检测能力，从而显著降低误报率。Cyera 的无代理 DLP 可支持实时检测并提供主动告警。AI驱动的 DLP 可以实时分析数据流动，在未经授权的传输发生之前加以阻止。
无agent模式：现代 DLP 解决方案可快速部署，并使用 API与现有工具集成，无需安装大量agent。
异常检测：行为分析可检测异常的用户或系统活动，为潜在的违规行为提供预警。
自调整策略：AI根据实际数据不断完善 DLP 策略，通过自我学习和反馈循环，减少误报并逐步提高准确性。

AI驱动的 DLP 的未来在于与 DSPM 解决方案结合：

Cyera 收购 Trail Security 就是这一动态的完美诠释。如前所述，通过将 DSPM 标记的数据与 GenAI 驱动的 DLP 引擎相结合，如今的 DLP 解决方案已远远超过 20 年前。所有这一切都得益于更多的数据，从而实现更准确的检测，因为使用更多已发现和已分类的数据可以提高检测流动数据的准确性。

利用 DSPM/AI 构建 DLP 可以更轻松地为 DLP 引擎创建检测规则和逻辑。最后，所有这一切都提高了静态数据、流动数据、数据来源的可见性，并确定了所有数据流动点。因此，现在组织能够更好地利用增强的DLP来防止内部威胁，如知识产权、客户数据或意外处理不当。他们可以通过大模型更好地防止AI数据的使用和无意的敏感数据泄露，并防止与第三方过度共享。

数据加密和脱敏

数据加密是数据安全的另一个重要方面。它涉及使用各种技术来保护敏感信息在传输和存储过程中免受未经授权的访问。加密可确保即使数据在未经适当授权的情况下被拦截或访问，如果没有正确的解密密钥，数据也无法读取。有些企业会对数据进行某种形式的哈希处理。在本文中，我们将重点介绍这两种方法：

数据加密：加密是企业使用的一种关键方法。它通过加密、标记化和脱敏等技术混淆数据，同时管理加密密钥。全面的加密策略可以帮助企业遵守法规，并在数据被泄露时充当最后一道防线。敏感数据应始终进行某种形式的加密，但传统加密会使数据难以使用。公司可以考虑采用令牌化（信用卡网络使用的一种重要工具）、格式保留加密和同态加密（可在加密数据上进行机器学习）等技术。例如，Skyflow 正在构建这种架构的一个新部分——数据隐私库，一个敏感数据的集中控制点——以确保数据不会在公司系统中蔓延。
数据脱敏：通常是通过基于 ABAC 等策略的动态数据屏蔽来隐藏敏感数据，防止未经授权的用户访问。它越来越多地作为核心控制措施，用于启用数据提供和访问，并且在面向数据受众（如首席数据官和分析官）的解决方案中得到了广泛应用。

监控与响应

数据保护的第三个关键要素是确保公司在检测到数据时拥有良好的监控控制，以便有效响应事件。根据网络安全内部人员的数据，43%的专业人士在部署数据安全解决方案时优先考虑实时数据监控和数据事件警报。

我们知道，攻击者可以绕过安全控制，因此数据安全平台必须包含强大的监控功能，以检测风险用户行为并验证数据加密和访问控制是否得当。关键解决方案的一些核心协议包括：

告警管理：数据安全平台需要与 SIEM、工单系统（JIRA、ServiceNow）、电子邮件解决方案（Gmail、Outlook）和即时通讯工具（Slack、Microsoft Teams）集成，以确保实时检测到威胁时能快速发出通知。
监控功能：这些功能包括文件完整性监控、第三方风险监控 (TPRM) 和数据库篡改检测。这些解决方案需要数据映射和数据血缘能力，以跟踪整个系统中的数据流动。
用户活动监控和行为分析：其中应包括实时威胁识别功能，以检测潜在威胁。

数据安全平台应能够检测数据泄露并支持即时取证事件响应。一旦发生数据泄露，解决方案必须通过监控和映射功能提供全面的数据点，以便进行彻查。

此外，组织应保持一个程序，确保其关键数据得到备份并准备恢复。这些解决方案必须支持审计要求。在发生勒索软件攻击时，如果攻击者获得了信息，组织应能够迅速恢复其关键数据，以恢复业务运营。

数据恢复和销毁

有效安全计划的最后阶段是确保公司拥有强大的数据备份、恢复和删除不应使用数据的能力。企业经常要面对数据过于臃肿的问题，主要表现在三个方面：

容易受到恶意攻击者和内部威胁的数据
容易使企业面临数据隐私罚款的数据
数据冗余，导致存储成本过高

因此，数据安全平台应能支持数据清理和数据销毁，以确保敏感数据或过时数据被不可逆地删除，避免留下任何可被利用的残余信息。数据清理可解决冗余、过时或无关（ROT）数据的积累问题，这些数据会不必要地增加组织的攻击面。我们看到，GDPR、CCPA 和 HIPAA 等新的合规要求要求企业在不再需要时安全删除个人或敏感数据。不遵守规定会导致巨额罚款。因此，DSPM 解决方案应能进行数据清理，确保符合 "被遗忘权" 和其他数据删除要求。

此外，DSPM 工具应能识别包含过期、冗余或敏感信息的数据存储库，从而自动发出清理或销毁告警。此外，清理和去除旧的或未使用的数据可以降低存储成本和计算开销，特别是在云环境中。

最后，企业必须有强大的系统来定位和检索整个环境中的个人数据，以响应 DSAR（数据主体访问请求），即个人在特定情况下（如不再需要处理时）请求删除其个人数据（或副本）。根据新法规，这些要求必须及时完成（根据 GDPR，通常在 30 天内完成）。

数据备份

数据备份和恢复是此策略的重要组成部分。DSPM 平台需要与数据备份公司集成并协调工作，以确保数据得到妥善备份。这样做的目的是为数据丢失、外泄和运营中断提供重要保障。一旦发生数据泄露，企业需要一种恢复运营的方式。备份系统可创建不可更改的数据副本，确保勒索软件攻击无法加密或删除备份。Cohesity 和 Rubrik 等公司使用不可变存储和快照链来防止对备份文件进行未经授权的更改。这些解决方案有助于在发生硬件故障、泄露或灾难时实现业务连续性和灾难恢复（BCDR）。这些备份解决方案提供审计跟踪、保留策略和数据加密，以满足合规性要求。

数据安全平台竞争格局

在过去的四年里，数据安全市场生态系统迅速发展壮大，涌现出了上述不同类别的众多供应商。有的厂商通过收购进入市场，有的厂商则从头开始构建自己的解决方案，参与市场竞争。规模较大的安全厂商收购了许多在过去几年中建立起来的 DSPM 厂商。Altitude Cyber 数据集显示，在数据安全及相关市场类别中，我们已看到价值超过 100 亿美元的投资和 500 多次融资活动。

竞争格局大致可分为以下几类：深入覆盖以下基础设施领域（需要指出的是，供应商在某一领域的优势并不意味着他们不覆盖其他领域）：

私有化：Varonis、Rubrik（Laminar）、BigID
云：Cyera、Wiz、Prisma Cloud
SaaS：Microsoft Purview (M365)、Netskope、Salesforce（Own）
数据传输：Crowdstrike、Zscaler、Soveren
原生解决方案：Satori、Privacera、Sentra、Concentric AI、Securiti 是目前市场上的几家独立供应商

市场图中列出了许多供应商。需要说明的是，其中一些供应商已将其产品扩展到多个数据领域。

其中许多供应商的安全控制涵盖 DSPM（发现和分类）、DLP（保护数据的访问方式、数据内容及其传输过程中的加密）以及数据备份。

在 10 多家公司被大型平台收购之后，Cyera 已成为在上述大多数领域获得资金最多、发展最快且独立的整体解决方案。因此，本报告的其余部分将侧重于以现有平台为案例，解释大部分理论概念。

Cyera

Cyera由Yotam Segev和Tamar Bar-Ilan于2021年创立，现已迅速崛起为为数不多的独立数据安全平台之一，旨在为数据资产提供全面的可见性、控制和保护，无论其所处何处。根据与CISO和领先企业的讨论，Cyera在市场上所有数据安全平台中经历了最显著的增长和吸引力。以下是一些亮点：

在数据安全市场中，相比于同规模的公司，他们拥有最高的估值。
他们已经筹集了超过 7 亿+美元的资金。
他们在全球拥有 200 多家客户。
他们的收入增长了 4.6 倍。

公司的核心价值主张是帮助企业在从发现到销毁的整个生命周期内确保数据安全。

Cyera 的理念：构建智能数据安全大脑的魔方模型

Cyera 正在构建一套解决方案，它首先会与您现有的所有安全工具（如 EDR、网络安全、SaaS 安全等）集成，以发现分散在不同位置的数据。一旦提供了全面的可见性，他们就会应用其分类引擎来了解整个企业的数据上下文。然后应用AI引擎来推导上下文、风险并实施控制，从而构建一个贯穿整个企业堆栈的“统一大脑”。通过利用对数据的核心理解，这个“数据安全”平台能够将洞察传递给其他解决方案。

Cyera的竞争优势

毫无疑问，Cyera 的竞争对手包括 Varonis 和 BigID 等老牌企业，以及 Laminar 和 Dig Security 等新兴创业公司。Cyera 能够将数据发现、分类和风险缓解整合到一个平台中，这使其具备了竞争优势。根据我的广泛研究，与市场上的其他公司相比，Cyera 具有几个关键的竞争优势：

卓越的数据分类

Cyera 在敏感医疗数据分类方面的准确率高达 85-99%，在敏感数据识别方面的总体准确率为 92%，比起行业标准的 50% 有了显著提高，这充分体现了 Cyera 高超的数据分类能力。该公司利用先进的技术，包括用于信用卡数据验证的 Luhn 校验算法，实现了如此高的准确率。从技术角度来看，Cyera 凭借其针对内部环境的无代理解决方案脱颖而出，超越了 Stealthbits 等传统工具，同时还提供了比 Wiz 等竞争对手更强大的DSPM技术。

Cyera 刚刚达到了一个里程碑，即成功分类了 1 EB（1000PB）的Snowflake数据，并实现了超过 95% 的数据分类精确率，这相当于全球沙粒的总数。他们发现了 1 万亿条存在风险的敏感记录。

他们实现这一目标的一个重要方法是使用 Cyera 先进的AI系统，该系统可自动识别新的分类并提供上下文（可识别性、安全性、角色、地理位置）。他们将自然语言处理、机器学习、统计验证和正则表达式结合在一起，从而实现了这一目标，因此它具有复合和强化的优势，使他们能够长期在竞争中占据显著优势。

这些模型在海量数据上进行了预训练，以构建强大的、开箱即用的数据分类器来识别常见的数据类型，如信用卡、SSN 等。

更重要的是，Cyera 的模型能够自动学习每个客户独有的新分类，这一点至关重要。这是通过生产运行期间的客户特定数据实现的，即员工 ID、产品 CKU、批号、索赔号等都是自动学习过程的一部分。随着模型的不断适应，准确性也越来越高。在 Cyera 分类的数据中，有 40-70% 是客户独有的，这一点至关重要。

他们不断训练自己的分类引擎。这些模型通过分析数据库元数据、文件内容和其他上下文信息对数据进行分类。它们确保只有在大量训练数据支持下的高精度分类才会在平台中呈现，从而最大限度地减少误报。类似的概念还有 GraphRAG 系统如何通过使用上下文来增强搜索功能。Cyera 将同样的理念应用于 DSPM。

分类速度

Cyera 解决方案的另一个关键因素是其对海量数据进行分类的速度。在上述案例研究中，他们能够对 1000 PB 的数据进行分类。

一位拥有 28.5 TB Snowflake 数据的客户在下午 3:00 部署了 Cyera，以扫描其环境中的敏感数据。到第二天早上 8 点，Cyera 已完全扫描了环境，识别出 16 亿条有风险的敏感记录，并将其映射到 GDPR、HIPAA 和 PCI DSS 等全球合规框架。

以前可能需要数月才能完成的这一过程，Cyera 在不到一天的时间内就完成了，使安全团队能够迅速获得可操作的见解，并将重点放在降低风险和创新上，而不是数据分类上。以 Snowflake 为例，数据的快速增长导致敏感云记录呈指数级增长，使得这种快速高效的数据扫描变得越来越必要。网络安全一直缺乏管理如此大量敏感数据的工具，使许多组织面临更高的数据泄露、合规性问题和暴露风险。

构建数据大脑

在市场地位方面，Cyera 通过其专注的方法确立了自己的领先地位，强调其解决方案的速度和有效性。该公司的表现一直优于 Laminar（Rubrik）等竞争对手，后者的发展因收购相关的延迟而受阻。此外，与 Wiz 有限的业务范围相比，Cyera 在数据安全领域的覆盖面更广，这帮助他们在大多数竞争激烈的销售周期中获得了交易，进一步巩固了他们在市场中的地位。

Cyera 正在以DSPM和DLP为支柱，构建一个数据安全平台，该平台全部由 GenAI 提供支持，并由 GenAI 驱动企业内的所有其他安全计划。

其中最关键的一点是，Cyera 将自己定位为 "数据大脑"，将关键见解传递给其他关键技术，如安全服务边缘服务 (SSE)、CSPM（即 Wiz）、SIEM、备份与恢复、端点安全、Snowflake、DevOps Security (Armor Code) 甚至 Microsoft Purview 等。

目前，还没有其他公司将这种深度的 DSPM（发现、分类和整体态势）与数据丢失防护相结合。Cyera 的 DLP（已收购 Trail）利用 DSPM 的洞察和AI为现有的 DLP 策略（来自 Purview、Zscaler 和其他公司）生成建议，使其更加准确。它还能阻止敏感数据外流。

基础支柱是DSPM（覆盖IaaS、SaaS、DBaaS和本地部署）。然后将数据与身份进行映射（这对于零信任数据访问至关重要），评估服务（数据风险以及数据泄露准备），并利用DSPM与AI驱动的数据丢失预防相结合。未来，Cyera计划开发一个专注于风险的产品模块，解决组织的隐私问题。

Cyera的平台

Cyera 正在构建一个涵盖从发现到销毁的整个数据安全生命周期的解决方案。

发现与分类：Cyera的解决方案已证明能够实时准确地发现和分类企业中的数据。它通过识别上下文风险，如过度访问权限或配置错误的存储桶，来治理数据访问和使用。Cyera构建了一个涵盖发现与分类的解决方案作为基础，并实现了基于身份的数据访问控制，允许组织监控员工如何与特定数据集进行交互。
由 DLP 驱动的发现、检测和响应 (DDR)：Cyera 的解决方案建立在我前面提到的所有安全控制基础上，允许企业监控谁可以访问哪些数据，以及内部是如何利用这些数据的。最近对 Trail Security 的收购增强了他们的保护能力，并将在来年进一步发展。Cyera 提供的无代理解决方案可在分散的 DLP 系统中提供统一的视图。它利用AI为 DLP 策略提供更好的信息，并改进现有解决方案。通过实时检测和协调，Cyera 将 DLP 的覆盖范围扩展到更多的端点和应用，提供详细的线路和数据流洞察。事实证明，他们的平台可以帮助企业有效应对数据泄露，在监管部门介入时提供泄露范围审计。此外，该平台还能增强修复工作流、识别漏洞和评估风险。
以身份为中心的数据安全：Cyera的身份安全方法通过解决数据和身份管理相互交织的挑战，重新定义了数据保护。通过将上下文数据洞察力与身份属性相统一，Cyera 为企业提供了对敏感数据的可见性和控制力。在我看来，Cyera 采用了一种全新的、亟需的方法来解决数据安全领域的最大挑战之一：以一种有意义的方式将身份与数据联系起来。多年来，我们在很大程度上依赖于身份驱动的决策，比如最小权限访问，但往往缺乏数据本身的完整上下文。Cyera 将数据可见性与身份上下文统一起来，使我们有可能回答那些关键的、悬而未决的问题，如谁真正有权访问敏感信息、如何使用这些信息以及风险所在。令我印象深刻的是，Cyera 不仅仅解决合规性或内部威胁问题。它使企业能够真正了解其跨应用、系统和用户的数据流，从而在提高安全性的同时推动创新。无论是识别超权限访问、确保第三方访问安全，还是应对庞大的数据环境，Cyera 的解决方案都能提供大多数工具所无法提供的清晰度。这正是未来安全所需要的全面、数据第一的思维方式。

结束语

总之，数据安全格局正在发生巨变。数据的指数级增长，加上GenAI的兴起和日益严格的监管环境，使得传统的以网络为中心的安全已经过时。现在，数据本身就是边界，需要一个以数据为中心的安全策略。

本报告揭示了企业面临的多方面挑战：数据泄露、网络韧性、GenAI 的复杂性、数据蔓延、合规处罚以及数据的动态性。随着数据隐私法律和合规要求的不断增加，企业正努力维持合规性并避免高额罚款。面对这些挑战，有必要制定一项全面的数据安全策略，其中包括发现、分类、治理和保护，以及强大的监控、响应和销毁能力。

先进技术，如AI驱动的分类和无代理DLP，已不再是奢侈品，而是有效数据安全的必需品。随着数据的不断增长和演变，组织将优先考虑强大、全面的数据安全措施，并选择最能保护其最宝贵资产的平台，确保长期的韧性。未来的安全将聚焦于数据源——不仅是为了业务的竞争优势，也是为了保护公司免受网络攻击。

原文链接：

https://softwareanalyst.substack.com/p/data-security-platforms-the-new-frontier

Google Gemini AI安全评估技术解析

« 上一篇 2025-01-23

知名车企漏洞：只需车牌号，就能远程监控劫持数百万辆车

下一篇 » 2025-01-24

文章评论

取消回复

AI时代的数据安全平台，一场以数据为中心的革命

文章评论

jisupoyi

最近发表

美军“Open DAGIR”推行半年成果显著，未来将聚焦人工智能基础设施

世界网络空间安全领域2024年度十大进展

2024年认知领域十大新兴机构

“美中人工智能脱钩”法案，能通过吗？

意大利下架中国人工智能应用DeepSeek

OpenAI GPT-4o获绝密云环境使用许可

突发！DeepSeek遭大规模恶意攻击

盘点：2024年认知领域十大战略文件

ChatGPT Operator让过去企业数据安全的努力付之一炬

未来安全通信范式转变？欧企将开发地球静止轨道量子密钥分发系统

标签列表

热门阅读

AI时代的数据安全平台，一场以数据为中心的革命

相关推荐

随机推荐

文章评论

jisupoyi

最近发表

标签列表

热门阅读