在数字时代下,每家企业都面临着一场变革,这也使企业产生了比以往更多的数据。随着数据规模的指数增长,存储数据的载体,数据的处理技术,数据的使用的方式方法都在不断地演进。企业用户对数据价值的预期也不断增加。因此企业用户期望通过数据能快速带来商业价值。
不过,随着大量数据的涌入,企业应该如何应对?Cloudera相信数据骤增将让企业有机会更快、更好地作出业务决策。
日前,Cloudera推出使用NVIDIA GPU加速Apache Spark 3.0软件的Cloudera Data Platform(CDP)。最新版本的Cloudera Data Platform采用通过NVIDIA技术加速的Spark 3.0,能够帮助操作团队实现8倍性能提升,从而成功运行一项原本不可能完成的工作。
作为业界首个企业数据云,Cloudera Data Platform集成化数据平台可以帮助企业在向云迁移的过程中,更好地管理和保护数据。
Cloudera相信数据骤增将让企业有机会更快、更好地作出业务决策。以NVIDIA GPU计算功能支撑的Cloudera Data Platform可以利用近乎无限数量和种类的数据,支持企业加快决策速度。
我们都知道,一直以来,CPU都无法通过有效扩展适应工作任务,继续采用CPU进行工作负载,就要牺牲速度或增加成本才能完成处理的需求。
不过,GPU并行处理已成为加速海量数据分析和ETL管道,进而驱动这些工作负载的关键。数据中心通过大规模横向扩展这些功能支持复杂的数据分析项目。
通过与NVIDIA的合作帮助Cloudera能够在集群中驾驭GPU,当出现此类技术进步时,需要一段时间来认识它们的力量并开发可以使用它们的应用。
最终,结合Cloudera在大数据领域丰富的经验,Cloudera Data Platform与NVIDIA RAPIDS和AI相结合,令使用Apache Spark的企业能够以前所未有的速度获得业务洞察。
如何应用
这是一个来自美国国税局团队的案例。
作为一名数据科学家,Deborah Tylor的任务是整理美国国家税务局超过300 TB的数据库,寻找可能有助于识别身份盗窃和其他欺诈行为的规律。但即使她让一大批CPU服务器工作了一整夜,也无法完成这项数据整理工作。
Cloudera的解决方案工程师Nasheb Ismaily询问Tikekar的团队是否需要使用自带GPU加速Apache Spark 3.0软件的Cloudera Data Platform(CDP)。
对软件进行快速测试后,在没有修改任何代码的情况下,Tylor在这项工作中的许多步骤就立即加快了5倍,但有几个部分仍然滞后。
Ismaily召集了NVIDIA数据科学家团队来检查代码的核心内容。他们很快就发现一些数据结构非常糟糕的任务仍在CPU上运行。于是他们编写了代码来处理这些工作并将其插入Spark的RAPIDS软件接口中。RAPIDS是一个在GPU上运行数据分析的开放资源库。
Tylor又进行了一次测试,结果发现一切都能在分布式Spark集群的GPU上顺利运行,而且速度提升非常明显。她在一个四节点的集群上运行了整个程序。
美国国税局研究和应用分析与统计部门技术主管Joe Ansaldi表示:“通过Cloudera和NVIDIA的这一技术整合,我们能够利用以数据为依据的洞察来推动关键任务用例。”
该团队计划把其成功经验运用在数据准备,也就是数据分析中的提取/转换/加载(ETL)方面的工作上。下一步重大计划是加速各类AI推理工作。
Tikekar表示:“与Cloudera和NVIDIA的这一合作帮助我们能够在集群中驾驭GPU。当出现此类技术进步时,需要一段时间来认识它们的力量并开发可以使用它们的应用,所以Deborah Tylor确实为我们制定了新的路线图——她是整件事中的主角。”
具体而言,该团队接下来致力于通过建立大型深度学习神经网络来进行自然语言处理和分析。
Cloudera合作的案例表明,NVIDIA将通过GPU加速来推动更多在数据分析、AI等领域中计算需求。
写在最后
由NVIDIA技术支撑的Cloudera Data Platform,可以让企业在不更改任何代码的情况下,无缝加速Spark 3.0等关键应用的数据分析。而这些突破将为企业提供数据实时分析能力,为需求不断变化的客户提供相应的智能化水平。
来源:天极网