163java
About 48 results
  1. nutch搏斗之一

    http://yuhai-china.iteye.com/blog/355723
    2009年03月26日 - 问题描述: 在用nutch1.0做generate 包括5亿url的crawldb时,它默认按照64M分块,分成777个map task,在运行的后期出现 Could not find taskTracker/jobcache/job_200903231519_0017/attempt_200903231519_001
  2. nutch累积式抓取

    http://a280606790.iteye.com/blog/810809
    2010年11月13日 -   最近在网上查了好多关于nutch增量式抓取的脚本,但是我觉得和nutch文档中所定义的增量式抓取有出入。应该算是累积式抓取。 好了,首先说一下 背景 :前一段时间搭建好nutch环境后,接下来的工作就是在怎么样 在服务器上进行累积式抓取,即在本地建立大型的索引数据库(有些问章提到分布式数据库,我不太明白)。那么毫无
  3. Nutch-0.9源代码:NutchConfiguration类

    http://billy.iteye.com/blog/396148
    2009年05月26日 - 出处: http://hi.baidu.com/shirdrn/blog/item/a4934f116b575018b8127b72.html org.apache.nutch.util.NutchConfiguration类是Nutch爬虫的配置类,其中包括爬虫的初始化配置和运行时配置。说到NutchConfigur
  4. nutch 高亮,返红

    http://nhy520.iteye.com/blog/393872
    2009年05月23日 - 从网上搜索到的让nutch高亮的例子总是不行,读了源码,自己改了,也行. 1修改类:org.apache.nutch.searcher.Summary;   public String toHtml(boolean encode) {     Fragment fragment = null;     StringBu
  5. nutch 更新url.txt无法执行新的抓取

    http://zha-zi.iteye.com/blog/647594
    2010年04月19日 - nutch在使用中经常会修改url.txt中要抓取的目标网站,但是我们在二次开发的时候经常发现url但是仍然在抓取丢的配置网站,后来发现是索引文件夹得问题,在每次从新抓取的时候切忌要删掉索引文件夹,如果不删除目前我们发现会出现两个方面的问题 1:修改url从新抓取的时候不会根据新的url抓取,依然是抓取上次配置的url
  6. nutch 乱码 解决方案

    http://eryk.iteye.com/blog/703289
    2010年07月01日 - nutch对中文的支持还不完善,需要修改tomcat 文件夹下 conf/server.xml文件  [root@localhost tomcat]#vi conf/server.xml     增加两句,修改为 <Connector port="8080"     maxThreads="150" minSpareT
  7. 在eclipse里跑nutch RunNutchInEclipse1.0

    http://jiajun.iteye.com/blog/612023
    2010年03月10日 - http://wiki.apache.org/nutch/RunNutchInEclipse1.0
  8. Nutch

    http://xuganggogo.iteye.com/blog/325830
    2009年02月09日 - 1,下载Nutch0.9   2,到下面两个页面去下载两个jar文件,他们分别是: http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-mp3/lib/ http://nutch.cvs.sourceforge.net/nutch/nutch/sr
  9. Nutch-1.1异常信息:No agents listed in 'http.agent.name' property

    http://hpjianhua.iteye.com/blog/870436
    2011年01月13日 - Nutch1.1异常信息如下: Fetcher: No agents listed in 'http.agent.name' property. Exception in thread &quot;main&quot; java.lang.IllegalArgumentException: Fetcher: No a
  10. Eclipse编译Nutch1.4

    http://zhengzhuangjie.iteye.com/blog/1545148
    2012年05月30日 - 官方安装方法:http://wiki.apache.org/nutch/RunNutchInEclipse   本文参考:http://zettadata.blogspot.com/2011/12/eclipsenutch.html   1、在Eclipse中安装subclipse 1.6,如果安装subclipse