Category: Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算…

Posted in Hadoop

Hadoop MapReduce: 图的三角形计数

问题描述 一个社交网络可以看做是一张图(离散数学中…

Continue Reading
Posted in Hadoop

安装Hive 1.2.1到Ubuntu 16.04教程

前言 本文继安装Hadoop 2.7.2伪分布模式…

Continue Reading
Posted in Hadoop

安装HBase 1.1.5伪分布模式到Ubuntu 16.04教程

前言 本文继安装Hadoop 2.7.2伪分布模式…

Continue Reading
Posted in Hadoop

Hadoop MapReduce: 带词频属性的文档倒排索引

问题描述 倒排索引(英语:Inverted ind…

Continue Reading
Posted in Hadoop

Hadoop: Intellij结合Maven本地运行和调试MapReduce程序 (无需搭载Hadoop和HDFS环境)

Hadoop: Run and Debug Had…

Continue Reading
Posted in Hadoop

Hadoop Maven出现java.lang.VerifyError: Bad type on operand stack的解决方法

Hadoop: how to resolve ja…

Continue Reading