五分钟轻松了解Hbase面向列的存储

[置顶] 五分钟轻松了解Hbase面向列的存储

说明:从严格的列式存储的定义来看,Hbase并不属于列式存储,有人称它为面向列的存储,请各位看官注意这一点。 行式存储 传统的数据库是关...

OpenTSDB/HBase的调优过程整理

[置顶] OpenTSDB/HBase的调优过程整理

背景 过年前,寂寞哥给我三台机器,说搞个新的openTSDB集群。机器硬件是8核16G内存、3个146G磁盘做数据盘。 我说这太抠了,寂寞哥说之前的TS...

亿级 ELK 日志平台构建部署实践

[置顶] 亿级 ELK 日志平台构建部署实践

本篇主要讲工作中的真实经历,我们怎么打造亿级日志平台,同时手把手教大家建立起这样一套亿级 ELK 系统。日志平台具体发展历程可以参考上篇 「从 ELK 到...

HBase数据压缩编码探索

[置顶] HBase数据压缩编码探索

摘要: 本文主要介绍了hbase对数据压缩,编码的支持,以及云hbase在社区基础上对数据压缩率和访问速度上了进行的改进。前言你可曾遇到这种需求,...

Ambari2.7.3 和HDP3.1.0搭建Hadoop集群

[置顶] Ambari2.7.3 和HDP3.1.0搭建Hadoop集群

一、环境及软件准备 1、集群规划...

Ambari2.6.2 HDP2.6.5 大数据集群搭建

[置顶] Ambari2.6.2 HDP2.6.5 大数据集群搭建

Ambari 2.6.2 中 HDFS-2.7.3 YARN-2.7.3 HIVE-1.2.1 HBASE-1.1.2 ZOOKEEPER-3.4.6 SP...

hadoop-2.7.7 HA完全分布式集群部署详解

[置顶] hadoop-2.7.7 HA完全分布式集群部署详解

1.Hadoop HA简介及工作原理Hadoop NameNode官方开始支持HA集群默认是从2.0开始,之前的版本均是不支持NameNode HA的高可用...

可怕的黑暗料理之暗黑谷歌搜索神器

[置顶] 可怕的黑暗料理之暗黑谷歌搜索神器

1.暗黑谷歌的由来 有这么一款搜索引擎,它一刻不停的在寻找着所有和互联网关联的PLC、摄像头、红绿灯、打印机、路由器、交换机、服务器、数据库等等各种软硬件...

Oracle12c跨平台迁移之linux至windows

[置顶] Oracle12c跨平台迁移之linux至windows

近期应朋友邀请协助处理一起oracle数据库跨平台迁移的项目,需求为迁移centos 7.2 linux的oracle12.2数据库至windo...

大数据及Hadoop的概述

大数据及Hadoop的概述

一、大数据存储和计算的各种框架即工具   1.存储:HDFS:分布式文件系统         Hbase:分布式数据库系统       &n...

什么是大数据?初步认识大数据(2)

什么是大数据?初步认识大数据(2)

企业数据资产   有了大数据的光环,有了从数据中挖掘商业价值的方法和工具之后,那些原本存放在服务器上平淡无奇的陈年旧数一夜之间身价倍增。按照世界经济论坛报...

我的Spark SQL单元测试实践

我的Spark SQL单元测试实践

最近加入一个Spark项目,作为临时的开发人员协助进行开发工作。该项目中不存在测试的概念,开发人员按需求进行编码工作后,直接向生产系统部署,再由需求的提出者...

hadoop安装

hadoop安装

Linux环境步骤:(root用户密码为123456) 1. 使用useradd hadoop添加用户 2. 使用passwd hadoop设置用户密码,密...

什么是大数据?初步认识大数据(1)

什么是大数据?初步认识大数据(1)

大数据是什么?   首先提一个问题:“大数据"是一项专门的技术吗?有的人可能会以为大数据是一项专门的技术,其实不是。“大数据"这三个字只是一门市场语言(M...

MIT-6.824 lab1-MapReduce

MIT-6.824 lab1-MapReduce

概述 本lab将用go完成一个MapReduce框架,完成后将大大加深对MapReduce的理解。 Part I: Map/Reduce input a...

cloudera manager 安装配置

cloudera manager 安装配置

前面cloudera manager 环境准备和安装我参考的是: https://blog.csdn.net/m0_38017084/article/de...

ES 09 - 定制Elasticsearch的分词器(自定义分词策略)

ES 09 - 定制Elasticsearch的分词器(自定义分词策略)

目录 1 索引的分析 1.1 分析器的组成 1.2 倒排索引的核心原理-normalization 2 ES的...

spark上的一些常用命令(一)

spark上的一些常用命令(一)

1. 加速跑 spark-sql --name uername --num-executors 21 --driver-memory 8G --exec...

GoldData学习实例-采集官网新闻数据

GoldData学习实例-采集官网新闻数据

概述   在本节中,我们将讲述抓取政府官网地方新闻。并将抓取的新闻数据融入到以下两张数据表news_site和news中。 news_s...

数据挖掘算法——Apriori算法

数据挖掘算法——Apriori算法

Apriori算法  首先,Apriori算法是关联规则挖掘中很基础也很经典的一个算法。 转载来自:链接:https://www.ji...

新入坑大数据的小白有困惑

新入坑大数据的小白有困惑

希望各位前辈、大佬能给与一些指点,万分感谢!!!!!! 我是刚入职大数据工作的小白,对大数据的相关知识只能算是有了一个简单的了解,也找了一份大数据的工作(...

User Login