众所周知,非结构化数据很难管理。然而,当组织的非结构化数据资产超过PB阈值时,控制数据集将带来一系列新的挑战。
大多数传统的网络连接存储(NAS)系统难以管理100 TB的非结构化数据集,并且管理多个PB的数据超出了它们的能力。当前网络连接存储系统的局限性导致许多信息技术专业人员相信唯一的答案将是对象存储系统。问题是,尽管可以扩展对象存储以满足容量需求,但性能可能不足。
IT专业人员在尝试寻找支持PB级非结构化数据集的存储基础架构时面临的挑战之一是,必须将需求作为一个整体来考虑,因为所有元素都需要协同工作。
采用全闪存存储不切实际
不可否认,闪存的成本在过去五到六年间大幅下降,但机械硬盘的存储成本仍然非常低。与此同时,对非结构化数据的性能要求在过去几年里才增加。现代非结构化数据存储系统需要非常快速地处理元数据和实际数据。尽管一些全闪存供应商声称对性能的需求优于对容量的需求,但在PB环境中使用PB或更多闪存介质是不切实际的。
现代非结构化数据存储系统需要智能地使用闪存和机械硬盘进行存储,并根据需要在两个存储层之间自动移动数据。这些系统可以从较低的闪存成本中获益,以增加闪存容量并减少缓存丢失的影响。但是他们也需要使用机械硬盘来控制成本。现代非结构化数据存储系统还需要云存储来实现长期归档和工作负载可移植性。
元数据必须扩展
另一个要求是元数据必须扩展以跟上非结构化数据集的增长。管理元数据尤其重要,因为许多非结构化数据工作负载现在正在处理数百万甚至数十亿个文件。当然,每个文件都会生成元数据。大多数文件系统供应商报告说,高达80%的输入输出是元数据。在许多情况下,由于元数据瓶颈,原始网络连接存储(NAS)和文件系统达到了扩展限制。即使当前系统在技术上可以提供更多容量,客户仍然需要购买另一个存储系统。
文件系统还应该利用闪存来应对PB级非结构化数据集带来的元数据挑战。当写入或修改数据时,文件系统应该提取关于文件的元数据,并将其存储在闪存的单独区域中。将元数据存储在闪存中不仅可以快速访问元数据请求(同样,80%的输入输出都是元数据),还可以隔离该输入输出,从而减少实际数据路径的繁忙程度。
容量必须扩展
为了应对PB级元数据挑战,网络连接存储(NAS)或文件系统可以提供比上一代存储解决方案更多的容量,这意味着需要扩展文件系统。它通过群集称为节点的商品服务器来完成扩展。每个节点都有闪存和硬盘的内部存储容量,并将存储分配给全局存储池。当组织需要更多容量时,它会添加另一个节点来为全局池存储提供容量。
洞察力就是力量
另一个先决条件是数据洞察。鉴于文件的数量及其消耗的容量,信息技术团队需要尽可能多地了解数据集。问题是大多数文件系统在添加事实后会添加自己的见解,因此它们必须逐个文件地手动扫描文件系统才能访问这些见解。这些扫描需要很长时间,尤其是在文件系统中,那里有数百万(有时数十亿)个文件系统。
信息技术部门需要实时可行的数据来监控系统性能和容量利用率。这些团队需要立即确定失控的进程是否正在消耗所有文件系统的可用输入输出。实时分析要求从一开始就将该功能内置到文件系统中,而不是以后再添加。如果文件系统将元数据从实际数据中分离出来并存储在闪存介质中,文件系统的分析功能可以立即获得数据并为组织提供实时答案。
PB级非结构化数据环境不同于基于TB的环境。与传统的非结构化数据工作负载相比,其用例倾向于创建并需要访问更多的文件。存储容量通常超过1PB,许多组织的存储容量在几十PB的范围内。考虑到人工智能和机器学习的兴起,以及对数字媒体的新需求,对文件系统的需求将会增加。
现代非结构化数据存储解决方案需要全面应对这些挑战。出于各种原因,许多组织需要使用闪存,而不放弃机械硬盘的成本节约潜力。同时,这些系统需要提供对数据的洞察,以便信息技术部门能够有效地管理它们。
极牛网精选文章《对PB级非结构化数据的要求》文中所述为作者独立观点,不代表极牛网立场。如有侵权请联系删除。如若转载请注明出处:https://geeknb.com/3655.html