メインサイト
 アイマス動画発掘サイト『ニコマスchガイド』

ニコニコ動画のアイドルマスター動画を独自のジャンルとキーワードで検索できる総合カタログサイトです。ログイン不要の再生にも対応。
ニコマス急上昇ワード

設置方法
NEW ENTRIES
CATEGORIES
拍手ボタンによるおススメ
ARCHIVES
LINKS
Calendar
Sun Mon Tue Wed Thu Fri Sat
   1234
567891011
12131415161718
19202122232425
2627282930  
<< November 2017 >>
PROFILE
OTHERS
 
ニコニコ動画にある”アイドルマスター”タグ付き動画に付けられたコメントを集計・加工してできた色々(powered by ニコマスchガイド)

<< 今週のニコマスまとめ〜8月第1週 | main | ニコマスサーチ8/14全データ更新 >>
データクラスタリングツール'bayon'でタグを使って動画分類
fujisawaさんが作成されたデータクラスタリングツールbayonの使い方解説と、作成したニコマス動画検索サイト「登録タグdeニコマスおすすめ[http://nicomas.main.jp/tagde/]」の紹介です。

まだ結果の評価とかもちゃんとできていないんですが取りあえずUP。


◆スライド:bayon.pdf
◆作成したファイルの詰め合わせ:bayon.zip
ニコニコ動画のデータはAOI-CATの日記「ニコニコ動画「○○」タグ付き全動画情報データベース公開」で配布されているデータを使わせていただきました。
いつもありがとうございます。
これのお陰もあって、これだけの分量で全工程を説明することができました。

他に使用したものやお役立ちリンクなど;
−CentOS5[http://ftp.riken.jp/Linux/centos/5.2/os/i386/images/](CDブートでネットワークインストールする場合。「CentOS ネットワークインストール」とかでググってください)
−googletest[http://code.google.com/p/googletest/]
−google-sparsehash[http://code.google.com/p/google-sparsehash/]
−VMware Player[http://www.vmware.com/jp/download/player/](「VMware Player 2.5 centos イメージ」でググるとか)
−Lightview[http://www.nickstakenburg.com/projects/lightview/](ライセンスの関係で含まれていません)
−Manpage of GAWK[http://www.linux.or.jp/JM/html/GNU_gawk/man1/gawk.1.html]


さて、ロリポブログの仕様のせいで丸々書き直す羽目に陥ってまして、何を書いたか分からなくなってます。

今回は技術解説が主になっていますが、自分自身のテーマは技術の習得ではなく動画紹介サイトの制作で、これは変わっていません。
ただ、ここのところずっとデータ解析ばかりで一向に思い描いているサイトの制作に入れない状況で、そのイライラの息抜きに作成しました。


bayon[http://code.google.com/p/bayon/]の紹介が中心だったので、出来上がったサイトはあまり実用的でないですかね。


制作途中にきてれぅ.tv[http://kiterew.tv/]というサイトがタグを使ってクラスタを作成しているのを知りましたので、ちょっと紹介。

精度はきてれぅ.tvの方が圧倒的に高いですね。
人力だとこういうものが作れて、一方で機械で無いとできないものもあって。
色々な方向性、色々なアプローチがあると思います。


この解説で検索サイトが増えたらいいなとも思っているんですが。

web拍手 by FC2他の人にもおすすめの記事だと思ったら押してください。左の記事ランクに反映されます。私信の送信にも使えます。
制作後記的なこと

SQL文にDISTINCTを付けなかったばかりに結果が2000万行以上になってしまって5時間以上時間を無駄にしたりしました。

あと、テキスト整形に問題があってちょっとややこしいことになりました。
今回は分量の都合もあって処理をなるべく簡素にしましたが、実際にはUNICODE正規化などをした方がいいみたいですね。
一部変換漏れがあって、たぶん空白と認識されたりされなかったりという文字がタグに混じってるせいだと思うんですが、結果出力には影響がなかったみたいなので対応保留にしてます。

AWK+PHP+Perl+Linuxシェルコマンドという構成ですが、これはニコマスサーチでも同じです。
それぞれ得意・不得意があるので、なるべく簡単に処理できる方法を選択しています。


サイトのデザインについては今回はこだわらずに今までのものを流用しました。
おまけに時間を掛け過ぎてもなんなので。

検索結果が多過ぎてパフォーマンスに支障を来たした部分はカットで対応してます。
普通は次のページとか作るものだと思います。手抜きです。

検索を単純化するために最初に10万行くらいデータを読み込むので・・・やばいです。
どうだろう?ページが表示されてからはさくさくな気がする。反応を待ちたい。


これが何かの役に立てば幸いです。


しかしプログラムに言葉の意味を理解させるのはとても困難なことですね。
めげそうですが、コンテンツマッチングを実現させるためにあらゆる手を尽くしていこうと思います。
| 技術情報 | 07:45 | comments(1) | trackbacks(0) |
きてれぅ.tvの乗月と申します。
ご紹介&コメントありがとうございました。

良作なのに日の目を見ない作品にアクセスできるサイトにできたら
いいなぁと思いながら制作をしているので
色々な方向性色々なアプローチの検索サイトが増えたら
素敵ですね。

こちらこそ今後ともよろしくおねがいします。
| 乗月 | 2009/08/13 8:05 PM |









http://blog.nicomas.main.jp/trackback/1459655