应用场景

应用场景

hbase namespace ACL授权后仍然,无法create table

回复

有问必答paulsenzou 发起了问题 • 1 人关注 • 0 个回复 • 71 次浏览 • 2018-07-23 14:30 • 来自相关话题

hbase生产环境都适合哪些应用场景?

有问必答hmaster 回复了问题 • 3 人关注 • 3 个回复 • 567 次浏览 • 2018-07-13 23:56 • 来自相关话题

使用TableSnapshotInputFormat读取快照的过程中有用到TableSnapshotScanner么?

有问必答openinx 回复了问题 • 2 人关注 • 1 个回复 • 94 次浏览 • 2018-07-09 15:02 • 来自相关话题

请问hbase的0.94、0.98、1.0、1.2、2.0版本之间的区别是什么?

回复

有问必答bupt_lxc 发起了问题 • 1 人关注 • 0 个回复 • 115 次浏览 • 2018-07-07 16:56 • 来自相关话题

【融360招聘】大数据架构师

回复

招聘应聘xiangqiao 发起了问题 • 1 人关注 • 0 个回复 • 150 次浏览 • 2018-06-29 16:28 • 来自相关话题

HBaseConWest2018演讲 - HBase Practice In XiaoMi

文章分享openinx 发表了文章 • 0 个评论 • 199 次浏览 • 2018-06-19 09:33 • 来自相关话题

HBaseConWest2018 于6.18日在美国加州圣何塞举办,本次会议由Hortonworks承办。每年去美国硅谷参加HBaseConWest已经算是小米HBase团队的惯例了,一方面小米团队在HBase社区的影响力有目共睹,目前已经培养了7位HBase Committer,其中有2位HBase PMC;另外一方面,小米内部也很乐意对外去分享公司一年所做的工作,相当于把一年的工作(包括内部的实践以及社区贡献)做一个年度总结分享给大家。 
 
所以,2018年我们也很积极的提交了演讲议题(HBase Practice In XiaoMi),并花了很多精力整理总结,内部还做过3次英文试讲。但遗憾的是,今年中美关系比较紧张,美国签证没有如期办下来。按照组内历年的经验,一般提前一个月左右办理签证,能很顺利办下来。今年我们在5.14日去大使馆面试申请签证,被要求填写补充材料,在5.16拿到承办方的visa letter并提交补充材料之后,一直到现在签证尚未发放。本想没办法去现场的话,就只能把我们这个议题提交到8.17日的HBaseConAsia去讲。写邮件跟组委会沟通,组委会之前把我们talk的优先级放的比较高,也比较喜欢我们演讲内容,所以后面就想让我们做一个远程分享。为了以防万一设备异常之类的,就先让我们准备一个视频,有任何异常的话,直接放视频也不慌。于是,我们就录了一个,发现视频效果还行(主要是可以做剪辑,哈哈),就跟组委会说,现场干脆直接用视频好了,有任何疑问的话,远程答疑就好。 
 
于是,最后在HBaseConWest2018上看到的就是以下PPT和视频了。演讲内容主要分两部分,第一部分小米内部实践,由我的同事田竞云来分享,第二部分复制功能改进,由我来分享。 
 
1. PPT 
2. 视频地址 
 
总体来说,没有机会去HBaseConWest2018现场分享这个事情,个人还是挺遗憾的。之前Hortonworks的Ted Yu和Pinterest的TianYing获知我们要去美国分享,都很积极的约了我们聚会,最后也只能取消。原定的去美国一些其他行程,也只得取消。有一点值得欣慰的是,在组委会和我们的共同努力下,总算是有机会把小米过去一年做的一些工作整理并呈现给大家,包括美国HBase社区的朋友们。感谢组委会和社区,也感谢铎神和小豪在试讲中提出的很多宝贵建议。
  查看全部

HBaseConWest2018 于6.18日在美国加州圣何塞举办,本次会议由Hortonworks承办。每年去美国硅谷参加HBaseConWest已经算是小米HBase团队的惯例了,一方面小米团队在HBase社区的影响力有目共睹,目前已经培养了7位HBase Committer,其中有2位HBase PMC;另外一方面,小米内部也很乐意对外去分享公司一年所做的工作,相当于把一年的工作(包括内部的实践以及社区贡献)做一个年度总结分享给大家。 
 
所以,2018年我们也很积极的提交了演讲议题(HBase Practice In XiaoMi),并花了很多精力整理总结,内部还做过3次英文试讲。但遗憾的是,今年中美关系比较紧张,美国签证没有如期办下来。按照组内历年的经验,一般提前一个月左右办理签证,能很顺利办下来。今年我们在5.14日去大使馆面试申请签证,被要求填写补充材料,在5.16拿到承办方的visa letter并提交补充材料之后,一直到现在签证尚未发放。本想没办法去现场的话,就只能把我们这个议题提交到8.17日的HBaseConAsia去讲。写邮件跟组委会沟通,组委会之前把我们talk的优先级放的比较高,也比较喜欢我们演讲内容,所以后面就想让我们做一个远程分享。为了以防万一设备异常之类的,就先让我们准备一个视频,有任何异常的话,直接放视频也不慌。于是,我们就录了一个,发现视频效果还行(主要是可以做剪辑,哈哈),就跟组委会说,现场干脆直接用视频好了,有任何疑问的话,远程答疑就好。 
 
于是,最后在HBaseConWest2018上看到的就是以下PPT和视频了。演讲内容主要分两部分,第一部分小米内部实践,由我的同事田竞云来分享,第二部分复制功能改进,由我来分享。 
 
1. PPT 
2. 视频地址 
 
总体来说,没有机会去HBaseConWest2018现场分享这个事情,个人还是挺遗憾的。之前Hortonworks的Ted Yu和Pinterest的TianYing获知我们要去美国分享,都很积极的约了我们聚会,最后也只能取消。原定的去美国一些其他行程,也只得取消。有一点值得欣慰的是,在组委会和我们的共同努力下,总算是有机会把小米过去一年做的一些工作整理并呈现给大家,包括美国HBase社区的朋友们。感谢组委会和社区,也感谢铎神和小豪在试讲中提出的很多宝贵建议。
 

CFP: HBaseConAsia 2018演讲议题征集

文章分享openinx 发表了文章 • 0 个评论 • 149 次浏览 • 2018-06-15 10:16 • 来自相关话题

 
EasyChair Link: https://easychair.org/cfp/hbaseconasia-2018?track=215839 

HBaseCon是由HBase社区举办的活动。Apache HBase是Hadoop生态圈内的一个分布式数据库实现,提供了对大数据的实时随机读写能力。欢迎所有的HBase开发者,贡献者,运维人员还有普通使用者来HBaseCon分享你的观点,经验以及使用案例,互相学习,共同进步。

HBaseConAsia是在亚洲举办的HBaseCon。今年的会议将在中国北京举办,由阿里巴巴主办,参会者无须缴纳任何费用。

组委会期望的演讲主题包括但不限于案例分享,HBase的改进和开发,集群管理和运维方面的最佳实践以及对HBase未来的展望。我们欢迎任何可以帮助大家在生产环境中更好的使用HBase方面的主题,也欢迎基于HBase之上的一些有趣的开发、应用、云端/内部集群部署以及周边生态项目相关的主题。

我们希望演讲摘要和PPT使用英文,演讲语言可以使用中文或者英文。

接收演讲主题摘要的截止日期是2018年6月17号。2018年6月30号会公布演讲者名单。
 
议题
 
主要包括如下三个议题
开发及运维: 包括但不限于HBase源码开发(新特性,改进等)、线上运维和调优等主 生态和解决方案: 包括但不限于基于HBase之上构建的开源项目(OpenTSDB/GeoMesa/Kylin等)以及解决方案(云服务)等主 应用: 基于HBase构建的,云上或者自建机房环境中的应用案, 我们希望提交的议题中包含HBase相关的设计及问题解决,而不只是单纯的案例分享
 
项目委员会
 
李钰, 阿里巴巴 (Chair)沈春辉, 阿里巴巴张铎, 小米毕杰山, 华为蔡嘉平, 亦思科技Andrew Purtell, SalesforceAnoop Sam John, IntelMichael Stack, Cloudera
 
场地

中国,北京市朝阳区鼓楼外大街19号,北京歌华开元大酒店
 
联系我们

如果您遇到任何问题,或者有意向成为赞助商,请发邮件给liyu@apache.org
 
  查看全部
 
EasyChair Link: https://easychair.org/cfp/hbaseconasia-2018?track=215839 

HBaseCon是由HBase社区举办的活动。Apache HBase是Hadoop生态圈内的一个分布式数据库实现,提供了对大数据的实时随机读写能力。欢迎所有的HBase开发者,贡献者,运维人员还有普通使用者来HBaseCon分享你的观点,经验以及使用案例,互相学习,共同进步。

HBaseConAsia是在亚洲举办的HBaseCon。今年的会议将在中国北京举办,由阿里巴巴主办,参会者无须缴纳任何费用。

组委会期望的演讲主题包括但不限于案例分享,HBase的改进和开发,集群管理和运维方面的最佳实践以及对HBase未来的展望。我们欢迎任何可以帮助大家在生产环境中更好的使用HBase方面的主题,也欢迎基于HBase之上的一些有趣的开发、应用、云端/内部集群部署以及周边生态项目相关的主题。

我们希望演讲摘要和PPT使用英文,演讲语言可以使用中文或者英文。

接收演讲主题摘要的截止日期是2018年6月17号。2018年6月30号会公布演讲者名单。
 
议题
 
主要包括如下三个议题
  • 开发及运维: 包括但不限于HBase源码开发(新特性,改进等)、线上运维和调优等主 
  • 生态和解决方案: 包括但不限于基于HBase之上构建的开源项目(OpenTSDB/GeoMesa/Kylin等)以及解决方案(云服务)等主 
  • 应用: 基于HBase构建的,云上或者自建机房环境中的应用案, 我们希望提交的议题中包含HBase相关的设计及问题解决,而不只是单纯的案例分享

 
项目委员会
 
  • 李钰, 阿里巴巴 (Chair)
  • 沈春辉, 阿里巴巴
  • 张铎, 小米
  • 毕杰山, 华为
  • 蔡嘉平, 亦思科技
  • Andrew Purtell, Salesforce
  • Anoop Sam John, Intel
  • Michael Stack, Cloudera

 
场地

中国,北京市朝阳区鼓楼外大街19号,北京歌华开元大酒店
 
联系我们

如果您遇到任何问题,或者有意向成为赞助商,请发邮件给liyu@apache.org
 
 

使用hbase快照跨集群复制表经常失败

有问必答smartZY 回复了问题 • 2 人关注 • 1 个回复 • 117 次浏览 • 2018-06-14 16:29 • 来自相关话题

有没有好用的Hbase的Web查询客户端?

有问必答Aaron 回复了问题 • 2 人关注 • 2 个回复 • 149 次浏览 • 2018-06-14 09:56 • 来自相关话题

Hbase 的列有没有多少个的限制呢

有问必答Aaron 回复了问题 • 3 人关注 • 2 个回复 • 383 次浏览 • 2018-06-07 12:37 • 来自相关话题

条新动态, 点击查看
libis

libis 回答了问题 • 2017-06-07 20:30 • 3 个回复 不感兴趣

hbase生产环境都适合哪些应用场景?

赞同来自:

hbase目前有很多的应用场景可以使用,最常见的有消息存储类(facebook的messenger,网易的易信,米聊等),历史订单类(阿里等),推荐系统,实时流存储(阿里双11大屏等),监控数据存储,图数据库底层存储,kylin底层存储等等。目前在几乎所有互联... 显示全部 »
hbase目前有很多的应用场景可以使用,最常见的有消息存储类(facebook的messenger,网易的易信,米聊等),历史订单类(阿里等),推荐系统,实时流存储(阿里双11大屏等),监控数据存储,图数据库底层存储,kylin底层存储等等。目前在几乎所有互联网公司都有使用,比如阿里、小米、华为、腾讯、网易、京东等等。

【融360招聘】大数据架构师

回复

招聘应聘xiangqiao 发起了问题 • 1 人关注 • 0 个回复 • 150 次浏览 • 2018-06-29 16:28 • 来自相关话题

HBaseCon Asia 2017将于8月4日在深圳举办

文章分享openinx 发表了文章 • 0 个评论 • 639 次浏览 • 2017-06-07 19:44 • 来自相关话题

 
 HBaseCon Asia 2017大会报名已正式开放。HBaseCon Asia 2017是第一届在亚洲举办的HBase技术大会,大会将在中国深圳举办,华为是本次大会的主办方。

如果您想作为普通的参会者参加此会,欢迎您通过如下链接报名(本次大会无需任何门票费用):  http://hbaseconasia.eventbrite.com

如果您想成为演讲者,欢迎您通过如下链接申报您的演讲主题内容:  https://easychair.org/cfp/HBaseConAsia2017

会议细节:https://www.eventbrite.com/e/h ... 46159
 
会议安排如下:






  查看全部
hbasecon2015noyear.eps_.png

 
 HBaseCon Asia 2017大会报名已正式开放。HBaseCon Asia 2017是第一届在亚洲举办的HBase技术大会,大会将在中国深圳举办,华为是本次大会的主办方。

如果您想作为普通的参会者参加此会,欢迎您通过如下链接报名(本次大会无需任何门票费用):  http://hbaseconasia.eventbrite.com

如果您想成为演讲者,欢迎您通过如下链接申报您的演讲主题内容:  https://easychair.org/cfp/HBaseConAsia2017

会议细节:https://www.eventbrite.com/e/h ... 46159
 
会议安排如下:
hbasecon.png



 

hbase生产环境都适合哪些应用场景?

回复

有问必答hmaster 回复了问题 • 3 人关注 • 3 个回复 • 567 次浏览 • 2018-07-13 23:56 • 来自相关话题

scan时需要过滤很多条件,用SingleColumnValueFilter效率很慢,有什么好方案?

回复

有问必答chunzi 发起了问题 • 1 人关注 • 0 个回复 • 286 次浏览 • 2017-06-15 18:48 • 来自相关话题

HBaseConAsia2017 PPT解读(下)

文章分享openinx 发表了文章 • 0 个评论 • 442 次浏览 • 2017-08-14 10:06 • 来自相关话题

作者: 范欣欣  http://hbasefly.com

接上文: HBaseConAsia2017 PPT解读(上)

 HBaseConAsia技术峰会在深圳坂田华为圆满结束,本人有幸作为分享嘉宾参与了峰会分享并与各位大佬一起探讨交流HBase的未来发展。据个人了解,HBase在国内各大技术公司的使用是很普遍的,包括BAT、小米、华为、网易、京东、携程、新浪、知乎等等吧,很多朋友也私底下表示后续还有很多业务在尝试着将大量历史数据搬到HBase上来。这在以前是不可想象的。HBase之前在国内的发展是比较低调的,大家很少能够在网上看到相关的系统性介绍,以至于生产线上出现了很多问题也不知道如何解决。这次大会第一次真正意义上将国际/国内研究HBase、使用HBase的同学聚到了一起,交流分享HBase在生产线上的应用场景、实践经验,探讨HBase在未来版本中的核心改进。在不远的将来,HBase还会以更加立体的姿态出现在大家面前,包括阿里云、华为云在内的国内云计算提供商都会在接下来重点提供HBase云服务,真正意义上为更多公司提供专业的HBase运维技术服务与支持。

这篇文章笔者会就峰会分会场track2内的多个talk进行一个简单的梳理,将核心内容整理出一个概要,对某个talk有兴趣的同学可以下载具体的PPT进行详细浏览:

HBase Synchronous Replication

阿里同学介绍了HBase在复制层面所作的一些工作,首先介绍了阿里内部针对HBase异步复制做的一些优化工作,包括并发复制、利用空闲计算资源减少复制热点、在线配置更改等。接着重点介绍了阿里在同步复制上做的工作,同步复制意味着在主集群发生宕机的情况下用户切换到从集群后能够保证数据不丢失。speaker提到阿里内部大部分业务都能够接受异步复制,但还有那么一小撮业务希望提供更加严格意义上的数据同步。同步复制主题主要从如下3个方面进行了说明:

1. 同步复制在技术上的实现思路:核心理念是在异步复制基础上在从集群上增加了一个remotelog,主集群在数据写入的时候不仅需要写入本地hlog,还需要将数据写入remotelog。接着讨论了remotelog的基本格式、删除时机等细节。

2. 探讨多种异常场景:
(1)主集群宕掉的情况下,首先禁用remotelog,再通过回放remotelog使得从集群的数据和主集群一致,最后将业务切到从集群。
(2)主集群宕掉起来之后,先禁掉主集群上的所有读写,不允许请求进来。开启remotelog,并等待从集群到主集群的异步复制延迟小于10s,此时禁掉从集群上的所有读写,不允许从集群上有读写发生。主集群等待从集群异步复制完成,完成之后将业务切到主集群并开启主集群读写能力。
(3)从集群宕掉的情况下,同步复制将会退化为异步复制。

3. 对比讨论同步复制技术与异步复制技术在性能、一致性、资源使用等方面的差异。总体来看,同步复制在实现主从数据严格一致的情况仅会导致写性能下降2%,不过带宽资源相比异步复制使用了两倍。

HBase: Recent Improvement And Practice At Alibaba
这个talk也来自alibaba,主要分三个部分对阿里内部使用HBase进行了介绍。第一部分介绍了HBase在阿里内部的典型使用场景,包括双十一大屏实时数据处理存储以及蚂蚁金服实时风控体系使用HBase进行在线查询以及离线存储等。
第二部分主要介绍了两个核心改进点,其一是基于主从异步复制的Data Range Copy,功能类似于CopyTable以及snapshot,主要用于机房搬迁、历史数据迁移等。不同于snapshot的是,完全分布式操作,不需要开启MR,用户可以指定range进行迁移。其二是Dual Service,基于主从异步复制实现降低读取延时毛刺,HBase一个很大的问题是因为GC、HDFS等原因不能充分保证99%读延迟,Dual Service会先让读请求落到主集群,如果在一定时间内没有返回再将请求发往从集群。通过这种方式,HBase读请求的毛刺率(延迟超过50ms的读请求占总请求比例)可以由0.047%降低到0.0017%
第三部分介绍了两个基于Phoenix的特性,其一是阿里内部对SQL的使用以及对Phoenix的部分改造,speaker首先讲解了Phoenix的架构以及Phoenix和原生HBase API的性能对比,结果显示Phoenix的性能相比HBase API差2~3倍,接着分析了性能损耗的几个原因以及针对性优化,比如将单个Scan做成并行Scan,改造完成之后Phoenix性能基本和原生HBase API性能相差不多。其二是介绍了基于Phoenix的全局索引,重点分享了全局索引的工作原理,以及索引在更新异常情况下引起的一致性问题以及两种可行的解决方案。

Ecosystems built with HBase and CloudTable service at Huawei

华为同学分三个主题介绍了基于HBase打造的大数据生态组件(CTBase、Tagram)以及CloudTable服务。
1. CTBase是基于HBase实现的一个结构化存储系统,支持强schema管理、全局索引、跨表join查询、在线DDL更新等核心特性。这个组件类似于MegaStore、Spanner、F1、Kudu等,满足结构化数据存储管理服务。后期将会在全文索引、OLAP以及双活集群等多个方向上有所探索。

2. Tagram是基于HBase实现的一个分布式bitmap索引,主要用于低基数字段的有效存储以及部分ad-hot查询支持。作者主要就Tagram的应用场景、框架设计、数据模型进行了深入分析介绍。并结合具体事例给出了如何使用Tagram对查询进行优化,最后还针对Tagram的性能给出了性能测试数据。

3. CloudTable是HBase在华为云上的一种包装,华为内部对HBase内核进行了大量的改造用来适应云上的环境,包括在HBase安全性、易维护性、低成本等各个方面都投入了很大的成本。作者首先介绍了CloudTable在硬件层面对IO进行的优化策略,接着介绍了如何将Compaction下压到HDFS层面以减小HBase层面的负载,最后分享了CloudTable如何使用replication实现4个9的高可用性

Large scale data near-line loading method and architecture
来自FiberHome的同学介绍了如何将读写在进程级别进行分离来优化集群中读写之间的相互影响。talk中提到因为HBase在读写路径中会共享很多资源,因此大吞吐量的数据写入会严重影响数据的读取性能,因此有必要将HBase的读写路径拆分成两个独立的进程。

talk中提到HBase读进程就是RegionServer进程,即用户读请求依然发送给RegionServer进程。并将写请求发送给一个称为WriterServer的进程,这个进程是对RegionServer进程的一定改造,主要是瘦身,将很多不必要的功能进行了裁剪。WriteServer主要负责批量数据写入,并将数据写成HFile文件之后通知RegionServer进程使用bulkload进行加载,供用户读取。因此整个过程有一定的读延迟。

HBase在hulu的使用和实践
该talk主要介绍了HBase在hulu内部的使用和实践情况。hulu内部HBase集群规模在200台左右,数据规模在700TB。主要使用场景为用户画像系统、日志存储系统、订单信息存储系统以及OpenTSDB等。第二部分speaker主要介绍了hulu内部两种核心使用场景下使用HBase的经验。第一种场景是用户画像系统,介绍了HBase在用户画像系统中扮演的核心作用以及在使用过程中遇到的RegionSize相关问题以及snapshot相关问题。第二种场景是订单信息存储系统,并介绍了订单存储系统中如何使用replication实现数据灾备、如何使用replica技术实现服务高可用,并对RPC QUEUE的实践设置经验进行分享。

HBase at JD

京东使用HBase无论是集群规模还是业务规模都是相当庞大的,根据分享数据,京东内部有30多个HBase集群,3000+台服务器,600多个业务,服务于很多非常有名的核心业务,比如订单系统、罗盘系统(商家、供应商)、个性化推荐系统、商品评论系统、金融白条、风控系统等等,可谓对HBase是重度依赖。
speaker分别对部分核心应用场景进行了比较细粒度的介绍,包括业务概括、存储数据量大小、业务表数量以及在线读写QPS等核心指标。接着就京东内部在使用HBase过程中一些核心的实践经验进行了分享,包括使用RSGroup实现业务之间的隔离、业务差异化配置管理、资源弹性管理,使用内部鉴权系统进一步保障HBase的安全性、使用Replication实现系统高可用、系统参数调优策略、监控报警运维实践、HBase版本升级实践等

Apache HBase At Netease

笔者主要介绍了网易内部使用HBase的一些实践经验,整体来说比较偏细节。首先笔者介绍了HBase在网易内部的使用规模,不得不说,HBase在网易内部的业务正处于急剧扩张期,包括考拉、云音乐在内的很多业务都不断的将很多在线业务迁移到HBase上来。第二部分笔者简单从Linux系统、Scheme设置、GC优化等多个层面就一些比较重要的调优点进行了分享,希望大家能够更好的使用HBase而少走弯路。接着分享了网易在RPC多队列管理、表级别Metrics管理以及倒排索引等几个方面所作的尝试。

Building Online HBase Cluster of Zhihu Based on Kubernetes
知乎同学分享了基于Kubernetes构建HBase集群的主题。使用Kubernete构建HBase这个方向在第二天的圆桌会议上也成为包括stack在内的各个PMC大佬比较关心的话题,可见必然是以后的一个发展重点。speaker首先对Kubernete进行了简单的介绍,接下来对如何使用Kubernete对HBase集群进行管理进行了详细的说明,包括容器的配置、RegionServer参数设置、网络设置等。最后分享了试用Kubernete管理HBase集群带来的有效收益:更容易的运维、更有效的隔离以及更简单的管理。 查看全部
作者: 范欣欣  http://hbasefly.com

接上文: HBaseConAsia2017 PPT解读(上)

 HBaseConAsia技术峰会在深圳坂田华为圆满结束,本人有幸作为分享嘉宾参与了峰会分享并与各位大佬一起探讨交流HBase的未来发展。据个人了解,HBase在国内各大技术公司的使用是很普遍的,包括BAT、小米、华为、网易、京东、携程、新浪、知乎等等吧,很多朋友也私底下表示后续还有很多业务在尝试着将大量历史数据搬到HBase上来。这在以前是不可想象的。HBase之前在国内的发展是比较低调的,大家很少能够在网上看到相关的系统性介绍,以至于生产线上出现了很多问题也不知道如何解决。这次大会第一次真正意义上将国际/国内研究HBase、使用HBase的同学聚到了一起,交流分享HBase在生产线上的应用场景、实践经验,探讨HBase在未来版本中的核心改进。在不远的将来,HBase还会以更加立体的姿态出现在大家面前,包括阿里云、华为云在内的国内云计算提供商都会在接下来重点提供HBase云服务,真正意义上为更多公司提供专业的HBase运维技术服务与支持。

这篇文章笔者会就峰会分会场track2内的多个talk进行一个简单的梳理,将核心内容整理出一个概要,对某个talk有兴趣的同学可以下载具体的PPT进行详细浏览:

HBase Synchronous Replication

阿里同学介绍了HBase在复制层面所作的一些工作,首先介绍了阿里内部针对HBase异步复制做的一些优化工作,包括并发复制、利用空闲计算资源减少复制热点、在线配置更改等。接着重点介绍了阿里在同步复制上做的工作,同步复制意味着在主集群发生宕机的情况下用户切换到从集群后能够保证数据不丢失。speaker提到阿里内部大部分业务都能够接受异步复制,但还有那么一小撮业务希望提供更加严格意义上的数据同步。同步复制主题主要从如下3个方面进行了说明:

1. 同步复制在技术上的实现思路:核心理念是在异步复制基础上在从集群上增加了一个remotelog,主集群在数据写入的时候不仅需要写入本地hlog,还需要将数据写入remotelog。接着讨论了remotelog的基本格式、删除时机等细节。

2. 探讨多种异常场景:
(1)主集群宕掉的情况下,首先禁用remotelog,再通过回放remotelog使得从集群的数据和主集群一致,最后将业务切到从集群。
(2)主集群宕掉起来之后,先禁掉主集群上的所有读写,不允许请求进来。开启remotelog,并等待从集群到主集群的异步复制延迟小于10s,此时禁掉从集群上的所有读写,不允许从集群上有读写发生。主集群等待从集群异步复制完成,完成之后将业务切到主集群并开启主集群读写能力。
(3)从集群宕掉的情况下,同步复制将会退化为异步复制。

3. 对比讨论同步复制技术与异步复制技术在性能、一致性、资源使用等方面的差异。总体来看,同步复制在实现主从数据严格一致的情况仅会导致写性能下降2%,不过带宽资源相比异步复制使用了两倍。

HBase: Recent Improvement And Practice At Alibaba
这个talk也来自alibaba,主要分三个部分对阿里内部使用HBase进行了介绍。第一部分介绍了HBase在阿里内部的典型使用场景,包括双十一大屏实时数据处理存储以及蚂蚁金服实时风控体系使用HBase进行在线查询以及离线存储等。
第二部分主要介绍了两个核心改进点,其一是基于主从异步复制的Data Range Copy,功能类似于CopyTable以及snapshot,主要用于机房搬迁、历史数据迁移等。不同于snapshot的是,完全分布式操作,不需要开启MR,用户可以指定range进行迁移。其二是Dual Service,基于主从异步复制实现降低读取延时毛刺,HBase一个很大的问题是因为GC、HDFS等原因不能充分保证99%读延迟,Dual Service会先让读请求落到主集群,如果在一定时间内没有返回再将请求发往从集群。通过这种方式,HBase读请求的毛刺率(延迟超过50ms的读请求占总请求比例)可以由0.047%降低到0.0017%
第三部分介绍了两个基于Phoenix的特性,其一是阿里内部对SQL的使用以及对Phoenix的部分改造,speaker首先讲解了Phoenix的架构以及Phoenix和原生HBase API的性能对比,结果显示Phoenix的性能相比HBase API差2~3倍,接着分析了性能损耗的几个原因以及针对性优化,比如将单个Scan做成并行Scan,改造完成之后Phoenix性能基本和原生HBase API性能相差不多。其二是介绍了基于Phoenix的全局索引,重点分享了全局索引的工作原理,以及索引在更新异常情况下引起的一致性问题以及两种可行的解决方案。

Ecosystems built with HBase and CloudTable service at Huawei

华为同学分三个主题介绍了基于HBase打造的大数据生态组件(CTBase、Tagram)以及CloudTable服务。
1. CTBase是基于HBase实现的一个结构化存储系统,支持强schema管理、全局索引、跨表join查询、在线DDL更新等核心特性。这个组件类似于MegaStore、Spanner、F1、Kudu等,满足结构化数据存储管理服务。后期将会在全文索引、OLAP以及双活集群等多个方向上有所探索。

2. Tagram是基于HBase实现的一个分布式bitmap索引,主要用于低基数字段的有效存储以及部分ad-hot查询支持。作者主要就Tagram的应用场景、框架设计、数据模型进行了深入分析介绍。并结合具体事例给出了如何使用Tagram对查询进行优化,最后还针对Tagram的性能给出了性能测试数据。

3. CloudTable是HBase在华为云上的一种包装,华为内部对HBase内核进行了大量的改造用来适应云上的环境,包括在HBase安全性、易维护性、低成本等各个方面都投入了很大的成本。作者首先介绍了CloudTable在硬件层面对IO进行的优化策略,接着介绍了如何将Compaction下压到HDFS层面以减小HBase层面的负载,最后分享了CloudTable如何使用replication实现4个9的高可用性

Large scale data near-line loading method and architecture
来自FiberHome的同学介绍了如何将读写在进程级别进行分离来优化集群中读写之间的相互影响。talk中提到因为HBase在读写路径中会共享很多资源,因此大吞吐量的数据写入会严重影响数据的读取性能,因此有必要将HBase的读写路径拆分成两个独立的进程。

talk中提到HBase读进程就是RegionServer进程,即用户读请求依然发送给RegionServer进程。并将写请求发送给一个称为WriterServer的进程,这个进程是对RegionServer进程的一定改造,主要是瘦身,将很多不必要的功能进行了裁剪。WriteServer主要负责批量数据写入,并将数据写成HFile文件之后通知RegionServer进程使用bulkload进行加载,供用户读取。因此整个过程有一定的读延迟。

HBase在hulu的使用和实践
该talk主要介绍了HBase在hulu内部的使用和实践情况。hulu内部HBase集群规模在200台左右,数据规模在700TB。主要使用场景为用户画像系统、日志存储系统、订单信息存储系统以及OpenTSDB等。第二部分speaker主要介绍了hulu内部两种核心使用场景下使用HBase的经验。第一种场景是用户画像系统,介绍了HBase在用户画像系统中扮演的核心作用以及在使用过程中遇到的RegionSize相关问题以及snapshot相关问题。第二种场景是订单信息存储系统,并介绍了订单存储系统中如何使用replication实现数据灾备、如何使用replica技术实现服务高可用,并对RPC QUEUE的实践设置经验进行分享。

HBase at JD

京东使用HBase无论是集群规模还是业务规模都是相当庞大的,根据分享数据,京东内部有30多个HBase集群,3000+台服务器,600多个业务,服务于很多非常有名的核心业务,比如订单系统、罗盘系统(商家、供应商)、个性化推荐系统、商品评论系统、金融白条、风控系统等等,可谓对HBase是重度依赖。
speaker分别对部分核心应用场景进行了比较细粒度的介绍,包括业务概括、存储数据量大小、业务表数量以及在线读写QPS等核心指标。接着就京东内部在使用HBase过程中一些核心的实践经验进行了分享,包括使用RSGroup实现业务之间的隔离、业务差异化配置管理、资源弹性管理,使用内部鉴权系统进一步保障HBase的安全性、使用Replication实现系统高可用、系统参数调优策略、监控报警运维实践、HBase版本升级实践等

Apache HBase At Netease

笔者主要介绍了网易内部使用HBase的一些实践经验,整体来说比较偏细节。首先笔者介绍了HBase在网易内部的使用规模,不得不说,HBase在网易内部的业务正处于急剧扩张期,包括考拉、云音乐在内的很多业务都不断的将很多在线业务迁移到HBase上来。第二部分笔者简单从Linux系统、Scheme设置、GC优化等多个层面就一些比较重要的调优点进行了分享,希望大家能够更好的使用HBase而少走弯路。接着分享了网易在RPC多队列管理、表级别Metrics管理以及倒排索引等几个方面所作的尝试。

Building Online HBase Cluster of Zhihu Based on Kubernetes
知乎同学分享了基于Kubernetes构建HBase集群的主题。使用Kubernete构建HBase这个方向在第二天的圆桌会议上也成为包括stack在内的各个PMC大佬比较关心的话题,可见必然是以后的一个发展重点。speaker首先对Kubernete进行了简单的介绍,接下来对如何使用Kubernete对HBase集群进行管理进行了详细的说明,包括容器的配置、RegionServer参数设置、网络设置等。最后分享了试用Kubernete管理HBase集群带来的有效收益:更容易的运维、更有效的隔离以及更简单的管理。