Nutch:24時間クロール
Crawl.main()をループで呼ぶと25周した後のGeneratorで何故かOutOfMemoryする。
topNがいくつであっても多分同じ。
topN=100程度だと1時間くらいでエラー出ちゃうから、topN=1000にして放置。
時間設定を24時間にしてみたけど、最後まで動いてたみたい。
topN=1000にしてあっても、必ずしも1000個の文書を取ってくるわけではなくて、最大1000という事らしい。
24時間実行でループが20周。
取得した文書数は数えるの面倒だから数えてないけど、条件にマッチしてきちんと抜き出せた文書が8234個。
これだけあれば一応それなりの実験は出来そうかな?