Hadoop

飞起来的大象-Hadoop从离线到在线

时代在变迁，市场在变化，周边的软硬件环境也突飞猛进般的发展，同时企业的业务需求也不断升级，从规模到成本都有较高的要求，这刺激Hadoop生态圈的变革。据AMR研究显示，到2020年Hadoop将拥有502亿美元市场。如此多金诱惑下，各大解决方案提供商对Hadoop生态圈的发力可谓是越来越快，顺应潮流

腾讯大数据

2018-01-26

0

16

浅谈开源大数据平台的演变

一说到开源大数据处理平台，就不得不说此领域的开山鼻祖Hadoop，它是GFS和MapReduce的开源实现。虽然在此之前有很多类似的分布式存储和计算平台，但真正能实现工业级应用、降低使用门槛、带动业界大规模部署的就是Hadoop。得益于MapReduce框架的易用性和容错性，以及同时包含存储系统

腾讯大数据

2018-01-26

0

15

相比Hadoop,如何看待Spark技术?

之前看Spark的评价，几乎一致表示，Spark是小数据集上处理复杂迭代的交互系统，并不擅长大数据集，也没有稳定性。但是最近的风评已经变化，尤其是14年10月他们完成了Peta sort的实验，这标志着Spark越来越接近替代Hadoop MapReduce了。 **Sort和Shuffle是Map

腾讯大数据

2018-01-26

0

14

后Hadoop时代的大数据架构

提到大数据分析平台，不得不说Hadoop系统，Hadoop到现在也超过10年的历史了，很多东西发生了变化，版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平台时代，这不是说不用Hadoop，而是像NoSQL （Not Only SQL）那样，有其他的选型补充。背景篇 Ha

腾讯大数据

2018-01-26

0

19

TDW千台Spark千亿节点对相似度计算

相似度计算在信息检索、数据挖掘等领域有着广泛的应用，是目前推荐引擎中的重要组成部分。随着互联网用户数目和内容的爆炸性增长，对大规模数据进行相似度计算的需求变得日益强烈。在传统的MapReduce框架下进行相似度计算会引入大量的网络开销，导致性能低下。我们借助于Spark对内存计算的支持以及图划分

腾讯大数据

2018-01-26

0

33

HadoopDoctor——TDW MapReduce诊断系统

前言 TDW是基于Hadoop生态圈研发的大数据处理平台，MapReduce计算引擎在TDW平台中承担了所有的离线数据计算，是TDW最重要的底层支撑平台之一。在TDW 平台中，除了MR程序会生成MapReduce作业外，被广泛应用的Hive、tPig等计算框架最终也会把查询语言翻译成MapRed

腾讯大数据

2018-01-26

0

25

鹅厂上万节点大规模集群的跨城自动迁移（下）

注：本篇内容来自”腾讯技术工程官方号“，公众号ID：tegwzx 前言 TDW 是腾讯内部最大的离线处理平台，也是国内最大的 HADOOP 集群之一。在运营这么大集群的时候，运营面临各种各样的难题，在解决这些难题的过程中，团队提炼出来的一个运营理念，用两句话去描述。用建模的思路去解决运

腾讯技术工程官方号

2017-06-06

0

24

1
2