Nutch:URLフィルター系のメモ

URLに?とか#とか含まれていると上手くいかない。
フィルターとかで弾かれてるのかな。

automaton-urlfilter.txt

# skip URLs containing certain characters as probable queries, etc.
-.*[?*!@=].*
↓
-.*[*!@=].*

crawl-urlfilter.txt

# skip URLs containing certain characters as probable queries, etc.
-[?*!@=]
↓
-[*!@=]

regrex-urlfilter.txt

# skip URLs containing certain characters as probable queries, etc.
-[?*!@=]
↓
-[*!@=]

?はスキップしないようにしてみる。

regrex-normalize.xml

<!-- removes interpage href anchors such as site.com#location -->
<regex>
  <pattern>#.*?(\?|&amp;|$)</pattern>
  <substitution>$1</substitution>
</regex>
↓
<regex>
  <pattern>([^/])#.*?(\?|&amp;|$)</pattern>
  <substitution>$1$2</substitution>
</regex>

/の直後に来る#はリムーブしないようにしてみる。

結果

上手くいかず。
この件はとりあえず保留で。