予想以上にたまる。

2日弱で15キーワード、37919 tweet、0.5 GB でした。 Disk は、クローリングタスク用のドキュメントが、何回もupdateをしているので、その分だけ履歴がたまっていっているためにディスクを消費していたので、コンパクション!と唱えてやることで50MBぐらいまで減らせましたが。ただ、コンパクションだと履歴がとんじゃうので、FAILしたときだけ別ドキュメントにログをとっておく、などの対策が必要かも(スタックトレースなどのテキストのログは別途フラットファイルとっているのですが)。

それと、tweet の出力は日付毎とか時間後ととかにまとめないと、みられるもんじゃないですね、と当たり前のことを当たり前に気がついたので、その辺を実装中。