Nutch:URLフィルター系のメモ
URLに?とか#とか含まれていると上手くいかない。
フィルターとかで弾かれてるのかな。
automaton-urlfilter.txt
# skip URLs containing certain characters as probable queries, etc. -.*[?*!@=].* ↓ -.*[*!@=].*
crawl-urlfilter.txt
# skip URLs containing certain characters as probable queries, etc. -[?*!@=] ↓ -[*!@=]
regrex-urlfilter.txt
# skip URLs containing certain characters as probable queries, etc. -[?*!@=] ↓ -[*!@=]
?はスキップしないようにしてみる。
regrex-normalize.xml
<!-- removes interpage href anchors such as site.com#location --> <regex> <pattern>#.*?(\?|&|$)</pattern> <substitution>$1</substitution> </regex> ↓ <regex> <pattern>([^/])#.*?(\?|&|$)</pattern> <substitution>$1$2</substitution> </regex>
/の直後に来る#はリムーブしないようにしてみる。
結果
上手くいかず。
この件はとりあえず保留で。