如今,人们存储了比以往更多的数据,这是由于正在产生更多数据,或者因为不断发展的存储技术让人们可以存储更多的数据。
无论是在本地存储还是在云存储数据,都有可能比以往更快地增加总存储量。当涉及到存储量时,在以往,对容量升级要求中会看到数十TB的增长,而如今经常看到PB级的存储要求或更多。
人们真的需要更多的数据来保持竞争力吗?应该是。那么是否能够负担起这么庞大的存储库?似乎可以。然而,这些问题引发了一个更基本的“鸡与蛋”问题:人们存储更多的数据是因为正在产生更多的数据,还是因为不断发展的存储技术可以让人们存储这么多数据?
数据存储经济学
从定价的角度来看,这个问题变成了推动存储设备价格的因素,这是否增加了对数据存储或更多存储供应的需求?当人们问这种问题时,他们需要知道谁真正了解基本的供求曲线,并考虑供应方的答案。人们倾向于把需求侧解释作为解释存储价格波动最直接的方法。这可能是假设存储供应是一个远程常量,同时展望数据存储需求可能的变化。
但是,如果存储量是恒定的,考虑到海量的数据增长,那么存储的价格应该非常昂贵。数据的大规模存储将受到存储器价格(低可用性)的限制。这是多年前的情况。传统的IT应用环境如今难以适应容量有限的存储基础设施,而这些存储基础设施已经不能满足不断增长的需求。
如今,数据容量正在快速增长,但存储设备价格不断下降(每单位存储容量)。毫无疑问,存储设备供应增长速度快于数据存储需求。有些存储技术带来了巨大供应优势,例如共享云存储,以及摩尔定律和Hadoop分布式文件系统等集群式开源文件系统等集群的存储容量,这使得大容量存储设备降低了成本,因此,尽管在数据存储需求方面大幅增长,但存储产品的价格却不断下降。
无尽的数据存储
当企业采用热门的新存储技术时,倾向于采用闪存和非易失性快速存储器等主要存储技术。GB字节的主存储设备的相对价值已经大大提高。人们还要考虑到闪存存储技术对存储容量的影响,而不仅仅是性能。如果闪存存储设备能够以传统存储设备十分之一的时间内提供给工作负载,相当于可以在同一时间内为10个类似的工作负载提供服务,从而提供有效地将其存储速度提高10倍。
但是,不要低估二次存储中发生的主要变化。离线档案已经联机,并按需提供大数据流,可以保持所有老化数据的可访问性和实用性。用户可以使用混合对象存储来版本化、备份和恢复企业的整个文件系统。与过去的数据保护目标不同,这些目标可以直接向受众提供企业所有珍贵的文件,使用全局命名空间,并执行每个对象的安全策略。
人们也看到分析技术逐渐融入存储设备中。IT架构师正试图利用将存储技术融合到计算堆栈中所获得的优势。对于存储人员来说,同样值得关注的趋势是让计算能力更接近存储堆栈。
存储方法正在兴起,它将支持和处理更接近数据存储位置的计算功能,而不是将数据从存储区传送到某个远程处理单元。随着数据集的增长,人们将看到更多的本地存储的应用。这是大数据处理的基本原则。一些存储产品可以托管本地虚拟机和容器化应用程序,甚至可以处理远程提交的“lambda”函数,就像在函数式编程中传递匿名函数一样。
开始进行本地存储处理的重点可能首先在于性能。但通过大规模有效地应用分析的方式,计算存储为日益增长的实时应用程序开辟了新的途径,以利用收集和处理更高容量的数据。例如,未来物联网(IoT)中所有物联网设备都将生成有用的数据。如果能够在首次记录时利用物联网数据,将最终再次存储更多的数据。
存储行业人士对存储方面的“鸡与蛋问题”的回答是,当人们学习从数据中挖掘更多价值时,希望产生和存储更多数据。因此,首先需要做的是,人们能够在更大的规模和更快的速度上应用更有效的分析,以获得更细粒度的数据。
精明的存储设备厂商不仅仅是帮助企业管理更大的数据量,而且还将其设备部署到存储系统中,以帮助开发所有数据。非结构化数据搜索、大数据分析、在线活动归档、流式数据服务,以及全局名称空间只是当今高级存储产品中少数的数据挖掘功能。
这意味着存储专家仍然面临着一项具有挑战性的工作。他们需要确保足够合适的存储服务来满足数据存储的需求。此外,由于存储不再是被动地存储,而是一个活跃的融合平台,他们必须提供并调整存储策略,才能充分利用其中包含的数据。