一个月,像淘宝一样玩转HBase--在AWS云上试玩Trafodion攻略

 

有没有免费开源项目,不仅提供天然的HBase,而且将大型数据库功能打包好,能让一个中小型的互联网或大数据项目,迅速启动,两个月之内,靠几个懂SQL和Java的工程师,就能运营得像模像样?这就是ApacheTrafodion(孵化)。...





HBase是继SPARK后的又一Hadoop新贵。 在Facebook、淘宝等巨头的背书支持下,赢得了大量开发团队的追随、分享和野火燎原般的成功。以淘宝为例,2011年之前,其大多数后端持久化存储是在MySQL上。Memcached+主从读写分离+分库分表,很长一段时间都满足了业务需求。

而关系型数据库固定的Schema和关联结构,大大地制约了扩展性,难以面对随时到来的大数据爆炸--很难预测引爆点从哪个内部应用开始,有多大规模,何时到来。因此淘宝当年的要求是:

1.

重要业务模块都具备10-100TB级的海量存储,每日调用次数1亿-100亿;

2.

水平线性扩展!!!一旦某业务暴增,必须能很快扩容;

3.

数据一致性严防死守!!并发性、吞吐量、响应延时,一个不能少;

4.

大量系统都依赖实时日志查询,因此日志必须禁得起频繁写和随机多系统并发查询;

5.

Schema多变。更新属性、加个列,对互联网用户体验来讲,都是家常便饭;

6.

方便使用、有良好清晰语义的接口;

内存数据库,如MongoDB等受内存映射文件大小限制无法支持几十TB,且数据一致性差,因此淘宝果断选择了HBase。HDFS的天然数据冗余和海量服务能力;HBase数据一致性的保障;上百台的集群扩展能力;LSM-Tree由内存保存增量修改,批量写入磁盘,所带来的优秀写入性能;Region动态切分和移动,透

明自动地替代MySQL的人工分表和负载均衡;Schemaless结构简直就是为电商业务的日益更新而度身定制的。

到2014年,阿里的在线存储系统形成了MySQL、OceanBase和HBase并存,支持在线1000+,离线3000+,超过200个集群的规模。

HBase虽然设计极为精良周到,但使用起来也很挑战开发者能力,颇为复杂。对阿里习惯了JAVA和手工实现各种大型数据库机制的团队来讲,问题不大,但对于普通开发团队而言,需要自己实现二级索引、周到缜密的Rowkey设计、跨行跨表的事务一致性、生产级的高可用性和实时故障切换,高并发的增删查改、应对无法修改的HFile…最优秀的开发团队也得踏踏实实干起码一两年。

有没有免费的开源项目,不仅提供天然的HBase, 而且将上述功能打包好,能让一个中小型的互联网或大数据项目,迅速启动,两个月之内,靠几个懂SQL和Java的工程师,就能运营得像模像样?

这就是Apache Trafodion (孵化)。

惠普将浸润20多年的大型数据库技术,包括海量并发SQL引擎、混合负载的优化、高可用性、事务一致性和各种方便可靠的增删查改OLTP+OLAP的代码贡献出来,整合在HBase上,即Apache Trafodion孵化开源项目。开发者只需要SQL和少许Java即可像关系型数据库一样玩转大数据,透明地坐享NoSQL带来的种种性能和大数据便利。

前身为惠普IT和惠普Lab全球大数据研发部的易鲸捷,在美国硅谷、上海和北京,为全球开发者提供开源Apache Trafodion(孵化)和商业版EsgynDB的技术服务,欢迎致电021-5082 2117或info@esgyn.cn

特大利好:AWS搞活动,在AWS上部署Trafodion Sandbox,一小时仅需1块钱! 让你在玩HBASE的路上领先一步。

  1. 创建AWS账号:http://aws.amazon.com/cn/
  2. 访问Trafodion Sandbox 镜像页面,如下图: https://aws.amazon.com/marketplace/pp/B018RBMFG0/ref=srh_res_product_titleie=UTF8&sr=0-2&qid=1449018738053点击“continue”开始一键部署。如果你的账号第一次部署Trafodion镜像,会提示要求先订阅,根据提示订阅即可。
  3. 进入一键部署界面如下图:


a. Region:中国用户可以选择东京节点,获得最佳访问速度。

b. EC2 instance type: 选择默认类型即可,8GB内存,每小时费用只需要$0.18

c. Security group: 保留默认配置即可,默认会开放24400端口供DCS web页面使用,开放22端口供ssh远程登录。

d. Keypair: 如果之前没有创建过密钥对,需要手动创建一个。点击上图中的连接进入控制台,输入密钥名称即可创建。

注意:务必将该密钥妥善保存至本地,后面ssh需要用它来登录

创建成功之后再次回到该页面,则会看到之前你创建的密钥,选择即可。

5. 到此全部配置完毕,点击“Launch with 1 click”开始部署,此时实例已经在运行。你将看到如下信息,点击“AWS Management Console”进入控制台:



6. 登录实例。

a.

进入实例面板查看已经启动并运行的实例信息:

b. 本地使用ssh终端通过之前步骤保存的密钥文件登录实例,IP为实例所分配到公网IP,可在上图的实例面板中查看。对于Trafodion Sandbox,ssh登录用户名为centos。

c. Ssh登录成功后,可以用以下命令切换到Trafodion用户,并开始使用:

sudo -u traf_dev -i

sqcheck

trafci

更多信息可参考:

https://esgyn.com/getting-started/aws/

这是我们第一次将Sandbox部署在云上,肯定还有很多不足和缺陷,欢迎致电

021-5082 2117或info@esgyn.cn 分享您的感受、批评和建议。此Sandbox仅用来熟悉通过Trafodion和SQL,实施和访问HBase、HIVE、HDFS的功能特点,在未经优化前,不应做性能等测试。

更多开发文档,请访问Trafodion.apache.org,和易鲸捷官网www.esgyn.cn

点击“阅读原文”可查询详细AWS免费套餐试用情况。

关于EsgynDB2.0



面对海量数据,各种技术层出不穷,但新的挑战来了: 过于简单的SQL支持,让复杂一点的查询难以实现,而欠缺OLTP的支撑机制,一个网络连接错误都能破坏数据。 苦不堪言的开发者又开始回忆美好的SQL时代。 就不能有一个支持复杂SQL,又能兼顾海量、高并发、实时和准确性的数据库吗?





EsgynDB大数据库源于惠普等推动的Apache Trafodion开源数据库。底层由Hadoop确保海量数据的分布式存储和线性扩展,上层有广泛支持SQL和事务型处理的引擎,真正将OLAP和OLTP统一在Hadoop平台上,既能高速处理复杂的分析、报表等任务,更能实时可靠地完成核心业务数据的高并发增删查改。

这款数据库经历了20年多年的创新,超过3亿美金的投资, 拥有多项专利,拥有多项技术优势。(www.esgyn.cn)

Apache Trafodion来自HP实验室和HP IT,是Apache的一个开源孵化项目,基于Apache V2.0。 由惠普实验室和惠普IT共同合作发起, 致力于 用同一个SQL-On-Hadoop平台,上百万个节点,几百个数据中心,同时进行万亿行数据的交易事务和分析报表, 并确保全球数据的读写一致、实时和可靠。

“Trafodion”(在威尔士语中意为交易,发音为 “Tra-vod-eee-on”),集合了两大研究群体的成就: 数据库引擎 和SQL。将优秀的查询优化执行、海量存储、线性拓展、容错、数据一致性和多种大型数据库工具,渐渐整合、完善。 继承了Hadoop的可扩展性、弹性和灵活性,并加入了交易事务的一致性保障使核心业务、BI、数据仓库等都能在一套 全球分布的集群上共同运行。

请访问开源社区:trafodion.apache.org

联系方式:

上海易鲸捷信息技术有限公司

+86 21 5082 2117

info@esgyn.cn

www.esgyn.cn


    关注 EsgynDB大数据库


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册