2009-08-01から1ヶ月間の記事一覧

OutOfMemoryError: PermGen space

環境変数「JAVA_OPTS」に -XX:MaxPermSize=1024mこんなのを追加すれば解決?

Nutch:SegmentReader -dumpでの文字化け問題

cygwinとかコマンドプロンプトでクロールしたデータをEclipseでまとめてSegmentReaderのdumpを実行すると、出力されたデータが文字化けする。デフォルトエンコーディングが問題みたい。dumpを実行するクラスで 右クリック>リソース>テキスト・ファイル・エ…

Nutch:特定の文字列が続くURLをクロール対象外にする

Nutchのcrawl-urlfilter.txtを弄ることでクロールさせるURLを正規表現で指定できるんだけれど、許可指定しているURLに含まれる一部のURLを許可しないという事が出来ないみたい。例えば、crawl-urlfilter.txtに +^http://test\.co\.jp/ -^http://test\.co\.jp…

Solr:SolrでWebアプリ開発したい

Solrはどうやって使えば良いんだろう。Solrを使えばLuceneの面倒な検索とかをいちいちjavaで書かなくても、GETとかでリクエスト飛ばせば結果が帰ってくるってことで良いのかな?ということは、Solrをとりあえず起動させておいて、それに対して別のWebアプリ…

Nutch:修正したソースをコマンド実行に反映させる

Eclipseならソースを修正して実行ボタン押せば普通に動くけど、コマンドで実行させる場合はちょっとした作業が必要。修正したソースは全て ./src/フォルダ内に入っているものとする。nutchのバージョンは1.0。 ant nutchフォルダで $antすると、buildフォル…

Nutch:OutOfMemoryの続き2

もう普通にcygwinでtopNを大きくしてループさせればいい気がしてきた。 Eclipseだとエラー出るけどcygwinなら問題ないし。 ただ、クロールして自動で文章抽出からインデックスまで繋げたりするのが出来ない。 とは言ってもクロールがまともに出来ないんじゃ…

Nutch:OutOfMemoryの続き

confの「io.sort.mb」の値が100だと、1周目のInjectorでエラー。 60だと、1周目のcrawlDBあたりでエラー。 55だと、2、3周のどっかでエラー。 30だと、25周くらいでエラー。 10だと、43周くらいでエラー。とりあえず減らせば長く持つんだけど、根本的な解決…