Nutch:contentデータの文字化け対策

Nutch*1メモ。SegmentReaderでcontentデータをdumpすると、UTF-8以外の文字コードが文字化けする。SegmentReader実行時の引数はこんな感じ。 -dump crawl/segments/[0-9]{14} crawl/segments/[0-9]{14}/dumped_text -nofetch -noparsetext -noparse -nogener…

はてダはじめました。

Blogに書いてもどうしようもないようなメモを書く目的ではてダを使ってみようと思います。はてな記法って便利なのかな? 試しに使ってみる。 引用記法 ここに引用文章でも書けばいいのかな。 スーパーpre記法 試しに適当なソースを貼ってみる。 <a href="http://www.hatena.ne.jp/"><img src="/images/hatena-simple_de.gif" alt="Hatena::" title="Hatena::" id="logo-hatena" width="65" height="17"></a><a href="/"></a>