メインサイト
 アイマス動画発掘サイト『ニコマスchガイド』

ニコニコ動画のアイドルマスター動画を独自のジャンルとキーワードで検索できる総合カタログサイトです。ログイン不要の再生にも対応。
ニコマス急上昇ワード

設置方法
NEW ENTRIES
CATEGORIES
拍手ボタンによるおススメ
ARCHIVES
LINKS
Calendar
Sun Mon Tue Wed Thu Fri Sat
   1234
567891011
12131415161718
19202122232425
262728293031 
<< March 2017 >>
PROFILE
OTHERS
 
ニコニコ動画にある”アイドルマスター”タグ付き動画に付けられたコメントを集計・加工してできた色々(powered by ニコマスchガイド)

<< キーワード検索実験中 | main | ニコマスサーチ(β)スタート >>
キーワード作成のまとめ
たまにはブログタイトルらしいこともやっておかないと。


本当にやりたかったことは、カテゴリ分けなんです。
で、これまで○○カタログっていう形でいくつか紹介したんですが、どうもうまくいかなかったと。
例えば、「ダンス」っていうキーワードだと2055件になってしまって、それだといくら精度が高くても意味がないと。
あと、機械的に処理できないっていうので、以前”キーワード検索は無理でした”というタイトルでブログを書きました。


結局発想を逆転させて、1つのカテゴリで結果が100件未満になるまでAND検索させることにしました。

そのお陰で、どの単語がカテゴリとして適切かを判断する手間なしに、ヒット件数の多い順でキーワードをリストアップする方法を取れました。


そんなわけで、現在の集計データでもっとも多くの動画に出てくる単語が最初のページに表示されています。(本当に一番多い単語は”W”です。実際には名詞だけに絞り込みをしたりしています)


自分もおととい初めてこの結果を見たのですが、キャラクター名は全員出ているし、単語としては良く見る言葉ですね。
唯一Pで入っているのが「みんくP」。これはUPしている動画の数を考えれば納得ですね。(一番多くの動画で言及されているPということ。8/7データ更新により消えてしまいました)


登録タグとの一番の違いは、キャラクター名の別名も出てきているということ。
あずさ・・・あずさ、あずささん
伊織・・・いおりん、伊織
雪歩・・・ゆきぽ、雪歩
律子・・・りっちゃん、リッチャン、律子、律っちゃん
亜美、真美・・・とかち、亜美、真美
春香・・・閣下、春香、春香さん
これは、もし類義語エンジンが作れれば統合されます。
もちろん、それぞれのキーワードで結果は違っているのですが。


現状のカテゴリ分けのカバー率を書いていませんでした。
現在ニコマスサーチの対象動画は43,021本。
今回のカテゴリ数は11,849カテゴリで、カテゴリ分けされた動画は36,197本、カバー率84%です。


逆に言うと16%の動画がもれてしまっていて、その中には例えば「【アイマス】仮面ライダー春火(前編)【響鬼】」もあります。
件数の多いキーワードだけでの限界がこのレベルということですかね。
ヒットしなかった動画のキーワード分析も加えて改良していく予定です。


ここからはもう少し具体的に見ていきます。

web拍手 by FC2他の人にもおすすめの記事だと思ったら押してください。左の記事ランクに反映されます。私信の送信にも使えます。
例えば、P名はトップキーワードでは「みんくP」しか出てきませんでしたが、「雪歩」を選べば主に雪歩専門のPである「FFTQ氏」・「TAKAP」・「わかむらP」の名前が出てくるので、そのような探し方ができるのが一つ。

あと、登録タグではカテゴリ分けされていないグループを探すのも良いと思います。
例えば、「絵」→「プロ」と選べば、評価の高い絵師の動画を中心に表示することができますし、笑える動画も「ひで」→「腹筋」、「カオス」→「腹筋」、「おま」→「腹筋」と、それぞれ違ったタイプのグループを表示することができます。(もちろん同じ動画が出てくる率は高くなりますが)


つまり、探し方にもコツがいりますね。連想ゲームみたいな。
「競馬」というキーワードは、トップキーワードの「主」の下にあります。
prestarやアイマスRADIO関係は、もちろん「ミンゴス」や「春香」→「中村先生」、「閣下」→「中村先生」で出てきます。

他にも、”このキーワードとこのキーワードが関連しているのか!”という発見があって面白いですね。


最後にキーワードのつけ方なのですが、自動タグ付けエンジンというのをかませているので、単純に「検索キーワード=視聴者コメントに出てくる単語」ではありません。
連想計算エンジンの機能を使って、類似する動画からキーワードをタグ付けするようになっています。
これによってより動画内容を反映したカテゴリわけができるようになっています。

どういうことかと言うと、「HAPPYBIRTHDAY」とコメントされていれば、「誕生日」とコメントされていなくても、類似した言葉として「誕生日」がタグ付けされている(場合がある)ということです。

逆にP名などは、他人の作品なのに有名なP名がタグ付けされてしまうことはありますが、それは動画(正確に言えばそれに付けられたコメント)の内容が類似しているためなので、問題ないかなと思います。
そもそもP名で検索したいのであれば登録タグ検索があるので、ニコマスサーチではそのような正確性は必要ないと考えています。


キーワード数は26,586ワード、カテゴリわけ処理の前に絞込みを行って9,248ワードにしています。
ちなみにコメント集計時点での総単語数は、最新データでは31万7915語にもなっています。

はっきりいってこの単語すべてでキーワード検索できるようにしても意味はないと思います。
それが私がキーワード検索や集計前の元データ提供をしていない理由になります。

この途方もない数字で一時はカテゴリわけは無理かと思われたのですが、前述の理由で11,849カテゴリにまとめることができました。

まだ表示等おかしかったり、選択したキーワードが表示できていなかったりと色々あるので、それら解決したらキーワード一覧等も公開できるかと思います。
| 技術情報 | 23:58 | comments(0) | trackbacks(0) |









http://blog.nicomas.main.jp/trackback/1167838