メインサイト
 アイマス動画発掘サイト『ニコマスchガイド』

ニコニコ動画のアイドルマスター動画を独自のジャンルとキーワードで検索できる総合カタログサイトです。ログイン不要の再生にも対応。
ニコマス急上昇ワード

設置方法
NEW ENTRIES
CATEGORIES
拍手ボタンによるおススメ
ARCHIVES
LINKS
Calendar
Sun Mon Tue Wed Thu Fri Sat
   1234
567891011
12131415161718
19202122232425
2627282930  
<< November 2017 >>
PROFILE
OTHERS
 
ニコニコ動画にある”アイドルマスター”タグ付き動画に付けられたコメントを集計・加工してできた色々(powered by ニコマスchガイド)

<< 今週のニコマスまとめ〜11年1月第2週 | main | 今週のニコマスまとめ〜11年1月第3週 >>
【制作後記1】2010年のアイマス動画「○○」と言えばこの動画!【集計方法】
JUGEMテーマ:コンピュータ


まだ完成していないのに制作後記とは・・・。
そのあたりは次回以降に譲るとして、ここではポイント集計の手法について一通り説明しておきます。

もっとも、技術的な説明は2008年にこのブログで時折書いていましたので、”技術情報”カテゴリとかを漁ってもらえば愚痴と共に何か書いてあるんですけども。
で、2009年以降はそういった部分での進展がほとんどなかったので記事も追加されてこなかったというわけ。

2008年当時のシステムを使いつつ、2009年前半はデータの強化、2009年後半〜2010年前半はコンテンツの強化をしてきました。
そんなわけで今回説明する内容は若干うろ覚えです。

ですが、前年の制作後記にアクセスが多かったのもこういった説明を期待してのことだと思いますし、ここ最近露出が増えた割に説明はせずにきたので、整理して書いておこうと思います。


ちなみになんで説明を入れていないのかについては、簡単に説明できるものではないからです。
かなり未知の部分が多い技術なので、必要となる前提知識を皆さん持ち合わせていないため(システム構築初期の自分もそうでした)、理解してもらおうと思ったら長々と説明しなくてはいけません。
そうしてしまうと動画の趣旨と外れてしまうからですね。


比較的皆さんに馴染みのあるイメージとしては、検索エンジンの順位付けと同じ技術を基礎にしています。
ここ最近はpagerankやリンク相関など、サイトの重要度が掲載順位に影響してくるので目立ちませんが、基本的には検索した単語とページ内の文章の一致度が表示順位を決める重要な要素です。
そうでなければどんな言葉で検索しても有名サイトが上位を独占するはずですが、そうはなっていないはずです。

ここで「一致度」という言葉(専門用語ではありません)を使いましたが、この計算方法が肝心です。
と言うか、これの算出方法が検索エンジンの良し悪しを決めています。

web拍手 by FC2他の人にもおすすめの記事だと思ったら押してください。左の記事ランクに反映されます。私信の送信にも使えます。
単純に単語の出現回数をカウントするだけでは文章量(ニコニコ動画ではコメント数)が多いほど有利になってしまいます。

そこで出てくる概念が「重み付け」です。
その代表的な手法である「TF-IDF法」は検索エンジン対策でも出てくる用語なので聞いたことがある方もいるかもしれません。
ニコマスchガイドが採用しているソフトウェア、汎用連想計算エンジンGETAもTF-IDF法をサポートしています。

TF-IDF法 | 住太陽の「SEO 検索エンジン最適化」 TF-IDF法 | 住太陽の「SEO 検索エンジン最適化」

さて、TF-IDF法については理解したでしょうか。
この考え方(重み付け)が順位(ポイント)計算の基礎になります。

これで個々の単語について、全体(ニコマスchガイドではダウンロードした全コメント内)と、単体(その動画内)でポイント(=数値情報)を与える事が出来ました。

ただしGETAではTF-IDF法よりも適した計算式が用意されていて、ニコマスchガイドでもそれを使っています。
その説明がされていた論文があったんですが1時間探しても見付けられませんでした。

↑見付かりました(2011/2/9)。実際にシステム構築で論文とか参考にするには仕事含めても初めてだった。
http://geta.ex.nii.ac.jp/pdf/itx2002.pdf
2.2.3項より抜粋
実験の結果、一般の検索システムでよく使用されるtf*idf法よりも、Singhalの方法の方が優れていることが確認できた。


それでは次に進みます。

ここからはどうやってポイントを付けているかということになります。
ここでGETAを使って作ったツールの処理を初公開。

例えば”感動”で検索した場合。

図1 キーワード検索結果
図1 キーワード検索結果

素の状態では”感動”という単語が含まれる動画(TF=1477動画)をその動画内での”感動”の重要度(左に出ている小数点以下の数字)が高い順にリストアップします。
これは「ニコマスワンダーホイール」で使っています。

ただしこれだと”感動”と同じ意味の言葉、例えば”感動した”や”涙腺崩壊”などが含まれていてもポイント計算からは無視されてしまいます。
これでは漏れが大きすぎます。

そこで関連語抽出を使います。
考え方としては、リストアップされた”感動”という単語が含まれる動画(TF=1477動画)の中で重要度の高い順番にキーワードを表示します。

図2 関連語リスト
図2 関連語リスト

ここで言う重要度は、先ほどから説明している通り、単純な出現回数(図2の4列目)ではなく、そのキーワードがコメントされた「全動画での出現回数と1477動画中での出現回数」の割合(図2の6列目)が関係します。

ただし図2を見てもらうと6列目の順番では並んでいません。
つまり更に別の指標で関連キーワードの順位を決定していると言う事です。

どのような指標を使うかは何十回もパラメーターを変えてキーワードを変えて検証して、自分が最も確からしいと思う物を採用します。
何故ならその結果が人間の感覚として正しいかどうかは人間でしか判断できないからです。

これがこの技術の難しいところでもあり面白いところでもあり。
そのため、例えこの技術の専門家であってもすぐにニコマスchガイドに匹敵するものが作れるわけではないです。

図3 動画再検索結果
図3 動画再検索結果

図3に出ている動画のリストは、その上にリストアップされている全てのキーワードでOR検索した結果です。
これでもだいぶうまくいってますが、ここからは人手でノイズを取り除いていきます。

そうしてピックアップしたキーワードをOR検索した結果を採用しています。


これらのキーワードを全て同じ1ポイントとして扱うか、重要度により差を付けるかなど更にパラメーターを調整して、最終的な結果を導きます。


以上がポイント算出の根拠になります。

実際には使われている頻度が少なすぎるキーワードを除いたり、スパムを除いたり、色んな処理の組み合わせが必要です。
その中で最も重要なのはコメントの文章をキーワード化する処理で、これを”形態素解析”と言います。

”形態素解析”はPart4で紹介した『おとといキマスター』にも出てきて、”おっ?!”と思ったんですが、形態素解析の精度はある程度確保できていればそれ以上精度が高くなっても結果にはそれほど影響してきません。
あれは演出として分かりやすく「形態素解析の精度を97%にして・・・」と表現しているのであって、実際には今説明したような計算を経た最終的な分類精度によって優秀さを判断します。

ただしその判断は人手によります。
どの方法が最適という答えは無いです。
正しいかどうかの判断は機械ではできません。

そのためには膨大な時間を必要とします。
その中にはニコマス動画をどれだけ見ているか、も含まれます。
動画の内容を把握していなければリストアップされた動画が結果として正しいか判断できませんから。

そんなことを2008年〜2009年の前半にやってました。

2010年は忙しくてあまり動画が見れていなかったのですが、それでもこのようなカタログ動画が作れるのはコンピューターシステムのお陰です。


いただいた広告のメッセージで”アイマスへの愛を感じます”というものがあって、身に余る言葉だとは思うのですが、しかし、確かに愛が無ければここまで出来なかったのかなと。
技術だけあっても良い物はできなくて、逆に言えば技術は無くても愛があれば良い物はできるんだと。

そしてニコマスchガイドが”すごい動画”・”注目を集めた動画”ではなくこのようなピックアップ方法を取っているのも、そういう部分を評価したいからだという思いを、改めて強くしました。
| 技術情報 | 14:21 | comments(0) | trackbacks(0) |









http://blog.nicomas.main.jp/trackback/1626997