2009-08-14から1日間の記事一覧
Nutchのcrawl-urlfilter.txtを弄ることでクロールさせるURLを正規表現で指定できるんだけれど、許可指定しているURLに含まれる一部のURLを許可しないという事が出来ないみたい。例えば、crawl-urlfilter.txtに +^http://test\.co\.jp/ -^http://test\.co\.jp…
Nutchのcrawl-urlfilter.txtを弄ることでクロールさせるURLを正規表現で指定できるんだけれど、許可指定しているURLに含まれる一部のURLを許可しないという事が出来ないみたい。例えば、crawl-urlfilter.txtに +^http://test\.co\.jp/ -^http://test\.co\.jp…