主要原因是,在混合云模型(这意味着将预设基础设施与托管在Amazon Web Services、Azure或GCP等公共云中的资源配对的云设置)中,与所有数据都在一个环境中时相比,企业将有更多的数据供应商、工具和协议。
例如,可能有一些数据存在于预处理Windows和Linux服务器上的本地文件系统中。同时,企业还可以在公司网络上运行的NFS或SMB文件共享中托管一些数据。同时,企业使用基于云的对象存储服务,如AWS S3或Azure Blob存储。企业可能会在组合中启动其他存储解决方案,例如NetApp。
在这样的场景中,每个存储供应商或协议不仅涉及不同的存储位置,还需要一套完全独立的工具来识别、管理、备份和保护数据。例如,在Linux文件系统上保护数据需要使用Unix工具来设置文件权限,而在Windows上,需要使用一组单独的文件系统访问控制。对于基于云的数据,可以使用云供应商的访问管理框架,如AWS IAM等。
归根结底,确定数据的存储位置需要企业在拥有混合云策略时兼顾一套不同的工具。企业必须浏览各种数据孤岛,并掌握许多协议和平台,以保护数据安全并执行治理策略。
1、更好的混合云数据管理方法
在混合云中,我们无法消除数据的竖井性质,这是与生俱来的。
然而,企业可以采取措施,简化混合云中存在的各种竖井中的数据处理方式。
通过积极主动和全面地发现、保护和管理数据,这样不仅可以提高混合云管理的效率,还可以最大限度地降低不一致和疏忽的风险,例如将敏感数据留在不安全的位置。在这方面,有四种关键做法需要遵循。
1)实现完全的数据可见性。首先,只需通过创建全局数据索引来了解自身拥有哪些数据。毕竟,如果不知道数据存在于哪里,也不知道它依赖于哪些协议或平台,则无法非常有效地管理数据。
建立一个数据索引来识别混合环境中各种资产中的所有数据,可以确保管理者随时知道数据的位置。
一些存储供应商只能为其存储平台编制索引。这是专有的,仅限于该竖井,因此IT需要手动集成索引以及存储在云中的任何数据。
2)构建准确性。实现更好的混合云数据管理的第二步是确保数据索引不断更新。企业的数据架构很可能不断变化。例如,可以在混合环境中将数据从一个位置移动到另一个位置,或引入新型数据服务。
至关重要的是,企业的数据索引要保持灵活性和可扩展性,以便它能够在发生这些变化时反映这些变化。企业的索引需要支持新的数据格式、存储位置、协议等,以便它能够持续适应自身业务。
3)根据规则和政策运作,努力部署可操作的数据管理策略。可操作的策略不仅允许企业管理者查看数据存在的位置,还允许使用声明式方法主动管理数据。换句话说,企业应该能够编写策略,根据其定义的属性定义数据管理方式,然后在混合环境中自动执行这些策略。
为了说明这在实践中意味着什么,请考虑一个需要在一段时间后删除特定类型的数据(如前员工或前客户数据)以满足合规要求的组织。
组织可以采取声明性方法,编写策略,说“当数据被标记为(在此处插入属性)时,请在一年后将其删除”,而不是试图满足该规则——这意味着外出并查找数据,然后手动删除它。然后,该规则将在整个环境中持续执行。无论数据确切存储在哪里或哪个协议管理数据,都将根据组织定义的治理规则进行处置。
4)保持良好的用户体验。最好的混合云数据管理实践应该对承载数据的应用程序和服务是不可见的。
换句话说,他们应该能够执行数据治理规则,而不会中断用户访问和/或工作负载的运作方式。即使它们四处移动数据、修改访问控制等,也不应该减慢性能或导致应用程序错误。
2、复杂的云,简单的数据治理
当企业接受这四项原则时,将获得一个跨混合云内不同边界的数据管理和治理流程。
企业的数据“管理员”——即审计师、合规官员、安全工程师和其他负责安全、管理数据的利益相关者——能够自动发现和分类所有数据,然后通过一致的策略对其进行管理。
他们还可以执行企业需要的任何数据保留和处置策略,即使这些需求因云中的不同数据存储、服务和协议而有所不同。
3、结论
不可否认,混合云架构使数据管理本质上更加复杂。然而,通过正确的方法,无论云环境中存在多少数据竖井、工具或协议,都可以以确保效率和一致性的方式管理这种复杂性。
因此,与其让混合云限制企业自身可以对数据做什么,不如以一种允许企业构建其想要的复杂且不影响其有效管理数据的能力的方式进行数据管理。《linux就该这么学》不错的linux自学书籍