Nutch:24時間クロール

Crawl.main()をループで呼ぶと25周した後のGeneratorで何故かOutOfMemoryする。
topNがいくつであっても多分同じ。

topN=100程度だと1時間くらいでエラー出ちゃうから、topN=1000にして放置。
時間設定を24時間にしてみたけど、最後まで動いてたみたい。

topN=1000にしてあっても、必ずしも1000個の文書を取ってくるわけではなくて、最大1000という事らしい。

24時間実行でループが20周。
取得した文書数は数えるの面倒だから数えてないけど、条件にマッチしてきちんと抜き出せた文書が8234個。

これだけあれば一応それなりの実験は出来そうかな?