どうすれば「既知の情報」を探し出せるか(Next Today)

Next today（P2Ptoday横田さんのblog）から、個人の情報蓄積・管理に関する一連のエントリが面白かったのでご紹介。ちょうど最近気になっていたことについて書かれていたので、少しコメントを追加しておきます。

「自分用Blog」ツールは無いものか…
http://blog.livedoor.jp/kozai22/archives/208277.html

個人的にはこのような「他人に読ませるのが目的のBlog」だけでなくとも、「自分のためのBlog」があっても良いと思う。例えば、自分の見たページのURLと内容を自動的に記録し、その「ログ」を閲覧するようなページだ。これならば、様々なWebページを見るだけで自動的にBlogが更新される。

僕も最近似たようなこと（バカさ加減隠蔽ツール (1) (2) (3) ）を考えていたので、ちょっとコメントを書いたりしました。僕のネタの方は、検索エンジンのための「ログ」として使うというのとはちょっと違いますけど、方向性としては似ている気がしたので。

ただ、これは僕のサイトも含めた話なんですけど、自分のためのサイトって果たして公開するべきなのか、どこまで他の人に有益なら公開すべきなのか、ってのはちょっとよく分からないところですよねえ……。いや、別にはてなアンテナにケンカ売ってるわけじゃないですよ。

で、残りのエントリでは横田さんが情報収集と検索をどうやっているか書かれています。

どうすれば「既知の情報」を探し出せるか（３つの情報と溜める技術）
http://blog.livedoor.jp/kozai22/archives/208296.html

過去に取得した情報は溜めるだけ溜めて、手動で整理しようなんて考えずに検索で探せ、という主張はもっともだと思います。こういう風に溜めていくデータに自分の感想などのメタデータを付けられれば、将来的に検索だけでなくてYukonみたいな見せ方もできるようになったりして面白そうだなぁ……とか。

どうすれば「既知の情報」を探し出せるか（時間がかかりすぎる私の情報整理・検索方法）
http://blog.livedoor.jp/kozai22/archives/208306.html

主な情報検索ツール
http://blog.livedoor.jp/kozai22/archives/208310.html

私の情報整理のやり方は、まずブラウザに登録されているIT系のニュースサイトを順番に閲覧し、気になった記事のテキスト文章とその記事のURLをコピーして保存する。その後「RSSリーダ」「はてなアンテナ」「WWWC」「Google News Alert」に登録してあるサイトの中から、面白そうな記事をピックアップしてやはりページのテキストとURLを保存する。つまり、とにかく面白そうな記事があったら記事の全文とURLを保存している。（ちなみにP2P todayの更新はこれと平行して行っており、P2Pと関連技術のニュースは記事のタイトルとURLだけを抜き出したものを別に作成している。）
これらの作業を行うと、平日の場合１日で平均50本〜70程度の記事が保存される。これを、「一時保存フォルダ」に３日〜７日程度置いておき、最後にこれらのファイルを「年」ごとに作成したフォルダにまとめて放り込んでおく。「情報の整理」は基本的にこの時点で終わりになる。

毎日こんなことやってるなんて……。僕には絶対無理です_|￣|○　それと、Web上の情報を再利用しようと思ったら、やっぱりちゃんとテキスト文書だけ保存するとかしないとダメなんですね。HTMLのまま保存するならともかく、そのHTML→テキスト変換の自動化はかなり難しそうです。有名どころのニュースサイトに限定するなら、テンプレートを用意して記事だけ抜き出すとか出来そうですけど……。うーん。

検索については、ある程度まで記事が増えるまで自然言語検索は必要なさそうという話が、なるほどなぁという感じでした。個人的にはまだ今のところそれほど情報もたまってないんで、当分howmのgrep機能でやっていけそうです。

（2004/03/09追記）
Next Todayの移転（exblog→Livedoor blog）に伴って、引用元のリンク先を修正しました。

.。oO(……JavaScriptをOnにしないと見えない、とか書いちゃったからかなぁ)

旧・無印吉澤

昔はてなダイアリーに書いていた記事のアーカイブです

どうすれば「既知の情報」を探し出せるか(Next Today)