大数据——hadoop1.2.1+hbase0.94.11+nutch2.2.1+elasticsearch0.90.5安装配置攻略(中集)
2015-01-20 21:30
525 查看
hadoop1.2.1+hbase0.94.11+nutch2.2.1+elasticsearch0.90.5配置详见安装配置攻略(上集)
接下来具体实现单机伪分布式爬取!
一 首先启动hadoop(配置完成可在任意目录下。也可在hadoop目录下)
二 启动hbase(配置完成可在任意目录下。也可在hadoop目录下)开启hbase之前,先查看/etc/hosts中主机对应的IP是否是机器此时的IP,每一次重启机器IP地址会变化,不修改IP会出现Hmaster节点无法启动(我在这里卡了很久)
启动hbase
$ hadoop dfs -ls查看hadoop中的文件,也可访问localhost:50070(50030)hadoop页面。
执行完成后,可以在hbase里面看到“webpage”这个表
分别执行以下命令
执行完成后,可以去hbase里面scan一下webpage表,应该已经有了百行以上的结果,命令如下:
bin/nutch elasticindex <cluster name> -all
如果没有修改过es的配置文件,这里<cluster name>默认应该是 elasticsearch
7、利用curl进行查询
elasticsearch-head是一个elasticsearch的集群管理工具,它是完全由html5编写的独立网页程序,你可以通过插件把它集成到es
插件安装方法1:
1.elasticsearch/bin/plugin -install mobz/elasticsearch-head
2.运行es
3.打开http://localhost:9200/_plugin/head/
插件安装方法2:
1.https://github.com/mobz/elasticsearch-head下载zip 解压
2.建立elasticsearch-1.0.0\plugins\head\_site文件
3.将解压后的elasticsearch-head-master文件夹下的文件copy到_site
4.运行es
5.打开http://localhost:9200/_plugin/head/
在地址栏输入es服务器的ip地址和端口点connect就可以连接到集群。下面是连接后的视图。这是主界面,在这里可以看到es集群的基本信息
参考链接:http://blog.csdn.net/july_2/article/details/24481935
接下来具体实现单机伪分布式爬取!
一 首先启动hadoop(配置完成可在任意目录下。也可在hadoop目录下)
<span style="font-size:14px;"> $ start-all.sh $ jps <!--查看hadoop启动的进程--> </span>
二 启动hbase(配置完成可在任意目录下。也可在hadoop目录下)开启hbase之前,先查看/etc/hosts中主机对应的IP是否是机器此时的IP,每一次重启机器IP地址会变化,不修改IP会出现Hmaster节点无法启动(我在这里卡了很久)
<span style="font-size:14px;"> $ sudo gedit /etc/hosts </span>打开文档,用ifconfig命令查看此时机器的IP,并修改hosts中的主机IP
启动hbase
<span style="font-size:14px;"><span style="font-size:14px;"> $ start-hbase.sh $ jps查看进程结点,有9个则启动成功。 <span style="background-color: rgb(51, 204, 0);"> 2032 NameNode 13764 HQuorumPeer 29069 Jps 2630 JobTracker 2280 DataNode 13889 HMaster 2535 SecondaryNameNode 2904 TaskTracker 14180 HRegionServer</span> </span> 少一个则需要查找相应的错误!
<strong>三 简单体验一下抓取和检索的过程</strong> 1、建立一个目录urls 2、在urls目录里写一个种子文件,命名为url,里面随便写个页面丰富的网址例如http://blog.tianya.cn/ 3、将该目录放到hadoop的hdfs上 $ hadoop dfs -put url url1
$ hadoop dfs -ls查看hadoop中的文件,也可访问localhost:50070(50030)hadoop页面。
</pre><p></p><span style="font-size:14px;"></span><pre name="code" class="html"> 4、执行nutch inject,向hbase注入抓取种子页(进入deploy文件) <pre name="code" class="html"><span style="font-size:14px;">deploy$ bin/nutch inject url1</span>
执行完成后,可以在hbase里面看到“webpage”这个表
分别执行以下命令
<span style="font-size:14px;"> bin/nutch generate -topN 10 bin/nutch fetch -all bin/nutch parse -all bin/nutch updatedb </span>
执行完成后,可以去hbase里面scan一下webpage表,应该已经有了百行以上的结果,命令如下:
<span style="font-size:14px;"> $/home/hadoop/hbase-0.94.11/bin/hbase shell <span style="background-color: rgb(51, 255, 51);"> <span style="background-color: rgb(51, 204, 0);"> HBase Shell; enter 'help<RETURN>' for list of supported commands. Type "exit<RETURN>" to leave the HBase Shell Version 0.90.4, r1150278, Sun Jul 24 15:53:29 PDT 2011 hbase(main):001:0> list TABLE webpage 1 row(s) in 0.5270 seconds</span> </span> <span style="font-size:14px;">6、为elasticsearch建立索引</span>运行elasticsearch启动elasticsearch服务
bin/nutch elasticindex <cluster name> -all
如果没有修改过es的配置文件,这里<cluster name>默认应该是 elasticsearch
7、利用curl进行查询
elasticsearch-head是一个elasticsearch的集群管理工具,它是完全由html5编写的独立网页程序,你可以通过插件把它集成到es
插件安装方法1:
1.elasticsearch/bin/plugin -install mobz/elasticsearch-head
2.运行es
3.打开http://localhost:9200/_plugin/head/
插件安装方法2:
1.https://github.com/mobz/elasticsearch-head下载zip 解压
2.建立elasticsearch-1.0.0\plugins\head\_site文件
3.将解压后的elasticsearch-head-master文件夹下的文件copy到_site
4.运行es
5.打开http://localhost:9200/_plugin/head/
在地址栏输入es服务器的ip地址和端口点connect就可以连接到集群。下面是连接后的视图。这是主界面,在这里可以看到es集群的基本信息
参考链接:http://blog.csdn.net/july_2/article/details/24481935
相关文章推荐
- hadoop1.2.1+hbase0.94.11+nutch2.2.1+elasticsearch0.90.5安装配置攻略
- 大数据——hadoop1.2.1+hbase0.94.11+nutch2.2.1+elasticsearch0.90.5安装配置(上集)
- hadoop1.2.1+hbase0.90.4+nutch2.2.1+elasticsearch0.90.5配置(伪分布式)
- CentOS安装配置Hadoop 1.2.1(伪分布模式)
- Hadoop1.2.1集群安装配置笔记
- 谁说他们版本不兼容——hadoop1.2.1+hbase0.94.11+nutch2.2.1+el
- 测试hadoop-1.2.1是否成功安装和配置
- Ubuntu下 Hadoop 1.2.1 配置安装 - 大T的专栏 - 博客频道 - CSDN.NE
- Ubuntu下 Hadoop 1.2.1 配置安装
- 大数据笔记13:Hadoop安装之Hadoop的配置安装
- 一、Hadoop单机版standalone的安装与配置(Hadoop1.2.1,CentOS6.5)
- Ubuntu下 Hadoop 1.2.1 配置安装
- Ubuntu下 Hadoop 1.2.1 配置安装
- 轻松搭建hadoop1.2.1集群前奏--虚拟机安装与配置
- Ubuntu下 Hadoop 1.2.1 配置安装 - 大T的专栏 - 博客频道 - CSDN.NE
- Hadoop1.2.1安装笔记3:hadoop配置
- 安装配置hadoop1.2.1
- hadoop1.2.1安装配置
- hadoop的安装配置 大数据
- CentOS6.5+hadoop1.2.1安装配置测试记录