`
sunasheng
  • 浏览: 118875 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论
文章列表
该博客已经完全转移到http://sunhs.me   中并增加更多新的技术内容(hadoop为   主),欢迎访问!
该博客已经完全转移到http://sunhs.me   中并增加更多新的技术内容(hadoop为     主),欢迎访问!   1.hive-site.xml中增加配置 <property> <name>hive.hwi.listen.host</name> <value>0.0.0.0</value> <description>this is the host address the hive web interface will listen on</descr ...
该博客已经完全转移到http://sunhs.me   中并增加更多新的技术内容(hadoop为     主),欢迎访问! 1, hive 命令行模式,直接输入hive目录/bin/hive的执行程序,或者输入 hive –service cli        用于linux平台命令行查询,查询语句基本跟mysql查询语句类似 2, hive  web界面的启动方式,hive --service hwi         用于通过浏览器来访问hive,感觉没多大用途 3, hive  远程服务 (端口号10000) 启动方式  hive --service hiveserv ...
该博客已经完全转移到http://sunhs.me   中并增加更多新的技术内容(hadoop为   主),欢迎访问! 1.列裁剪     查询时我只关心用到的那几个列。     需要设置:hive.optimize.cp = true 2.分区裁剪     查询过程中减少不必要的分区。
hive配置:        hive> set mapred.job.tarcker = 127.0.0.0:50030;        hive> set mapred.reduce.tasks=100;        hive> set -v;                                           查看当前设定的所有信息设定本地模式:        hive> set mapred.job.tracker=local;        hive> set hive.exec.mode.local.auto = flase;      ...
Reducer数目最佳值的设定reducer slots的总数 = 集群中的总的节点数*每个节点有多少个slotsReducer数目的最佳值和reducer slots的数目有关,通常情况下让Reducers的数目略小于reducer slots的数目在设置Reducer的数目的时候也要考虑Mapper的数量,如果Reducer的数量大于Mapper的数量的话,那么就会造成在执行的过程中多出的Reducer不会工作,造成资源的浪费
用户定制PartitionerPartition:完成Map节点数据的中间结果向Reduce节点的分区处理在MapReduce程序中,Partitioner决定Map节点的输出将被分区到那个Reduce节点上去,MapReduce提供的默认的Partitioner是HashPartitioner他根据每条数据记录的主键值进行Hash操作,获取一个非负整数的Hash码,然后用当前作业的Reduce数进行取模运算,此时决定记录将被分到哪个Reduce节点上去定制Partitioner可以继承HashPartitioner,然后重载getPartition()方法,在该方法中用新的主键值进一步调用Ha ...
该博客已经完全转移到http://sunhs.me   中并增加更多新的技术内容(hadoop为     主),欢迎访问!   mapreduce中用户自定义数据类型hadoop内置的数据类型:BooleanWritableByteWritableDoubleWritableFloatWritable
package mapredue.wordcount; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOut ...
HBase的安装   1.单击模式的安装 <1>解压  tar -zxvf hbase-*.tar.gz <2>编辑HBASE_HOME/conf/hbase-env.sh     其中设置JAVA_HOME  export JAVA_HOME =  <3>编辑HBASE_HOME  /conf/hbase-site.xml   设置属性hbase.rootdir <configuration> <propert ...
HBase基本的shell操作   0.进入hbase的shellhbase下bin/hbase shell 出现一下消息表示进入成功HBase Shell; enter 'help<RETURN>' for list of supported commands.Type "exit<RETURN>" to leave the HBase ShellVersion 0.95.1-hadoop1, rUnknown, Thu Jun  6 08:30:30 CEST 2013hbase(main):001:0> 通过命令status可以查看h ...
关系数据库的连接和访问1.从数据库中输入数据DBInputFormat提供从数据库读取数据的格式DBRecordReader提供读取数据记录的接口Hadoop允许直接从数据库读取数据,但是这样的话频繁读取会大大加重数据库的负载,所以一般不建议这样 ...
该博客已经完全转移到http://sunhs.me   中并增加更多新的技术内容(hadoop为   主),欢迎访问! package test; import java.io.IOException; import java.util.HashMap; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.client.Put; import org.apac ...
package test; import java.util.Map; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.hadoop.hbase.HTableDescriptor; import org.apache.hadoop.hbase.client.HBaseAdmin; import org ...
HBase的逻辑模型和物理模型逻辑模型 行键是数据行在表中的唯一标识,并作为检索记录的主键。在HBase中访问表的方式有三种:1.通过单个行键访问2.给定行键额范围访问3.全表扫描表中的列定义为:<family>:<qualifier>(<列族>:<限定符>)HBase提供了两种数据版本的回收方式:1.对每个数据单元只存储指定个数的最新单元2.保存最近一段时间内的版本元素由行键 列 时间戳唯一确定,元素中的数据以字节码的形式存储,没有类型之分物理模型
Global site tag (gtag.js) - Google Analytics