2009-07-03から1日間の記事一覧
Nutch*1メモ。SegmentReaderでcontentデータをdumpすると、UTF-8以外の文字コードが文字化けする。SegmentReader実行時の引数はこんな感じ。 -dump crawl/segments/[0-9]{14} crawl/segments/[0-9]{14}/dumped_text -nofetch -noparsetext -noparse -nogener…
Nutch*1メモ。SegmentReaderでcontentデータをdumpすると、UTF-8以外の文字コードが文字化けする。SegmentReader実行時の引数はこんな感じ。 -dump crawl/segments/[0-9]{14} crawl/segments/[0-9]{14}/dumped_text -nofetch -noparsetext -noparse -nogener…