Discuz! Board

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 101|回复: 0

您认为在不久的将来 Hadoop 技能差距会发生什么?

[复制链接]

1

主题

1

帖子

5

积分

新手上路

Rank: 1

积分
5
发表于 2023-12-19 12:29:26 | 显示全部楼层 |阅读模式
如今每个人都想要流媒体。真的有必要进行流式大数据处理吗?设置起来有多复杂?当组织想要摆脱批处理而支持流处理时,他们是否遗漏了一些重要的东西?

我不确定——我很难想象实时数据已经变得这么大。变得重 电话号码清单 要的一件事是同时访问实时和历史数据,以更好地了解情况:例如,在比较广告收入时,将现在发生的情况与一小时或一周前的情况进行比较。

我怀疑是否有可能摆脱批处理而采用实时处理,因为批处理本质上更高效。一些浅层分析可以实时完成,而更深层次的分析将留给离线批处理,特别是因为它可能需要处理比实时处理更多的数据。

您能给我们介绍一下ImpalaToGo以及创建它的原因吗?它与 Presto、Vertica 和 Redshift 有什么不同?

ImpalaToGo 是 Cloudera Impala 的一个分支,因此它也是一个 SQL 引擎。它让用户可以享受 Impala 的引擎性能,而无需管理整个 Hadoop 堆栈。 ImpalaToGo 与其他大规模并行处理 (MPP) 数据库的不同之处在于针对云进行了优化。其他数据库使用本地驱动器作为主存储,而 ImpalaToGo 使用 Amazon S3 作为主存储并使用本地驱动器进行缓存。根据查询的不同,这可以将性能提高 3-15 倍。

作为 Hadoop 顾问,

一方面,MapReduce和HDFS已经被业界同化。另一方面,一些新技术,如 Spark 和 Tez,其内部比 MapReduce 更复杂,这使得故障排除和微调变得更加困难。因此,我预计技能差距不会缩小太多。



云目前存在哪些问题?

就大数据而言,我看到了将数据存储在一个地方(例如 Amazon S3)并在另一个地方(例如 EC2)进行处理的固有问题。它违背了大数据处理的主要原则之一:将代码引入数据,而不是将数据引入代码。我希望 HGST 开放以太网存储架构和 ZeroVM 等技术能够帮助解决这个问题——它们不是将所有数据拉到计算层,而是在对象存储中运行代码。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|DiscuzX

GMT+8, 2026-1-14 07:37 , Processed in 0.040317 second(s), 18 queries .

Powered by Discuz! DISCUZ_VERSION

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表