メインサイト
 アイマス動画発掘サイト『ニコマスchガイド』

ニコニコ動画のアイドルマスター動画を独自のジャンルとキーワードで検索できる総合カタログサイトです。ログイン不要の再生にも対応。
ニコマス急上昇ワード

設置方法
NEW ENTRIES
CATEGORIES
拍手ボタンによるおススメ
ARCHIVES
LINKS
Calendar
Sun Mon Tue Wed Thu Fri Sat
  12345
6789101112
13141516171819
20212223242526
2728293031  
<< August 2017 >>
PROFILE
OTHERS
 
ニコニコ動画にある”アイドルマスター”タグ付き動画に付けられたコメントを集計・加工してできた色々(powered by ニコマスchガイド)

艦これは良く知らないけれど"word2vec"でアイマスのアイドルを検索してみたよ
元ネタはこれです。



自分はpythonを使っていないので、サンプルコードが動くようになるまで2〜3時間掛かってしまい、1度実行するのにも時間が掛かるので、今日は765プロのアイドルの名前単体で検索した結果を載せるだけです。

元データはたまたま最近ダウンロードしていた、2ちゃんねるのアイドルマスターミリオンライブスレPart1〜560を使わせてもらいました。

結果の見方ですが、検索したアイドルと似た文章が見付かった単語が、近い順に出ています。
s() ・・・ 検索した単語
rank ・・・ 近い順
word ・・・ 近い単語
score ・・・ 近さ(一致=1.0)

もう少し簡単に説明すると、文章中の検索した単語を、検索結果の単語と置き換えても通じる順、となります。

例文:「春香 は、かわいい」 → 「風花 は、かわいい」

s(['春香'])
rank word score
1 風花 0.636098
2 ドロシー 0.600477
3 このみ 0.569431
4 田中 0.565158
5 ニセレブ 0.557306
6 豊川 0.550058
7 二階堂 0.549951
8 高山 0.543377
9 小鳥 0.54194
10 音無 0.537906

s(['はるるん'])
rank word score
1 律っちゃん 0.586169
2 バサバサ 0.573658
3 閣下 0.544117
4 望月 0.522755
5 ちひゃー 0.511385
6 馬場さん 0.509967
7 三枚目 0.508508
8 むちぽよさん 0.493561
9 ファインダー 0.492265
10 ツバッティー 0.484343

s(['千早'])
rank word score
1 伊織 0.59276
2 響 0.574238
3 美希 0.55654
4 いおりん 0.546686
5 雪歩 0.54499
6 貴音 0.533863
7 バカンス 0.510677
8 やよい 0.504319
9 春香 0.502192
10 百合子 0.487325

s(['やよい'])
rank word score
1 雪歩 0.6654
2 貴音 0.642723
3 美希 0.629257
4 律子 0.627897
5 ウェスタン 0.621783
6 響 0.618709
7 ウエスタン 0.616295
8 伊織 0.601346
9 パジャマ 0.598891
10 あずささん 0.594647

s(['貴音'])
rank word score
1 雪歩 0.658273
2 響 0.655431
3 伊織 0.646378
4 やよい 0.642723
5 律子 0.626117
6 あずさ 0.618757
7 お姫ちん 0.615124
8 美希 0.581352
9 真 0.576042
10 ウエスタン 0.543595

s(['響'])
rank word score
1 貴音 0.655431
2 真 0.634353
3 雪歩 0.630271
4 やよい 0.618709
5 あずささん 0.594627
6 りっちゃん 0.576542
7 千早 0.574238
8 美希 0.564739
9 伊織 0.554456
10 律子 0.53318

s(['あずささん'])
rank word score
1 りっちゃん 0.620941
2 のり子 0.604554
3 やよい 0.594647
4 響 0.594627
5 エレナ 0.591062
6 マイディアヴァンパイア 0.569636
7 ウェスタン 0.562833
8 律子 0.560317
9 パジャマ 0.551356
10 花嫁 0.549249

s(['あずさ'])
rank word score
1 美也 0.651949
2 貴音 0.618757
3 むちぽよ 0.612412
4 パジャマ 0.591332
5 伊織 0.586891
6 たかね 0.580903
7 律子 0.579874
8 ウエスタン 0.579651
9 次女 0.568254
10 むちぽよさん 0.559955

s(['亜美'])
rank word score
1 センセー 0.665599
2 真美 0.609987
3 ミツバチ 0.5894
4 チャーム 0.584604
5 蜂 0.540773
6 りっちゃん 0.53729
7 雪歩 0.513839
8 やよい 0.503886
9 律子 0.479379
10 伊織 0.471708

s(['真美'])
rank word score
1 亜美 0.609987
2 ハンマー 0.560278
3 雪歩 0.556388
4 ミツバチ 0.509887
5 真 0.495367
6 響 0.485974
7 センセー 0.485688
8 マイハマン 0.47495
9 のり子 0.467379
10 美奈子 0.466468

s(['雪歩'])
rank word score
1 美希 0.677067
2 やよい 0.6654
3 貴音 0.658273
4 律子 0.63436
5 響 0.630271
6 りっちゃん 0.621445
7 真 0.591292
8 パジャマ 0.58188
9 クリスマス 0.565724
10 真美 0.556388

s(['律子'])
rank word score
1 りっちゃん 0.657489
2 雪歩 0.63436
3 やよい 0.627897
4 貴音 0.626117
5 伊織 0.616615
6 美希 0.612413
7 あずさ 0.579874
8 あずささん 0.560317
9 紗代子 0.552277
10 巨乳艦隊 0.546614

s(['律っちゃん'])
rank word score
1 はるるん 0.586169
2 ゆきぽ 0.547782
3 覚醒千早 0.545332
4 むちぽよさん 0.536536
5 りっちゃん 0.536266
6 バサバサ 0.529424
7 望月 0.523488
8 羅刹 0.519295
9 マカベー 0.515369
10 ウエディング 0.514486

s(['りっちゃん'])
rank word score
1 律子 0.657488
2 雪歩 0.621445
3 あずささん 0.620941
4 紗代子 0.577115
5 響 0.576542
6 待望 0.553467
7 センセー 0.550702
8 巨乳艦隊 0.546001
9 亜美 0.53729
10 律っちゃん 0.536266

s(['真'])
rank word score
1 昴 0.68024
2 響 0.634353
3 雪歩 0.591292
4 貴音 0.576042
5 やよい 0.575114
6 のり子 0.554182
7 伊織 0.54221
8 タキシード 0.522116
9 野球 0.510123
10 ジュリア 0.505183

s(['美希'])
rank word score
1 雪歩 0.677066
2 やよい 0.629257
3 律子 0.612413
4 貴音 0.581352
5 伊織 0.580695
6 響 0.564739
7 千早 0.55654
8 ウェスタン 0.521679
9 ウエスタン 0.506984
10 春香 0.501594

s(['ミキ'])
rank word score
1 RQ 0.598092
2 オリエンタル 0.478271
3 美希 0.474064
4 ステップアップガチャ 0.440311
5 美樹 0.423712
6 高山 0.417266
7 ハニー 0.413051
8 みき 0.413007
9 律子 0.406124
10 ウェスタン 0.399243

s(['伊織'])
rank word score
1 貴音 0.646378
2 律子 0.616615
3 やよい 0.601346
4 千早 0.59276
5 あずさ 0.586891
6 美希 0.580695
7 いおりん 0.569386
8 響 0.554456
9 雪歩 0.553557
10 真 0.54221

s(['いおりん'])
rank word score
1 伊織 0.569386
2 千早 0.546686
3 なおなお 0.523182
4 奈緒 0.522446
5 ひなた 0.483107
6 亜利沙 0.460966
7 百合子 0.457888
8 雪歩 0.453418
9 お姫ちん 0.449844
10 のり子 0.444189

s(['プロデューサー'])
rank word score
1 私 0.586455
2 あなた 0.561326
3 わたし 0.522558
4 お兄ちゃん 0.518624
5 アタシ 0.51807
6 ファミリー 0.512912
7 FINDYOURWIND 0.507611
8 ワタ 0.504692
9 提督 0.501446
10 父 0.499305



この、"word2vec"というプログラムは、同じ行に現れた単語をベクトル化して、そのベクトルが近い単語を、近い順に返してくれるものみたいです。(←詳細説明をまだ読んでないので間違ってるかも)

ただ、これが”最新手法”という言葉で紹介されているのは、検索する時に『複数の単語のベクトルを合成(または除外)したものでも検索できる』という部分のようです。

今回はそれをしていないので、その特徴を全く生かせていません。

その内追加データと結果の所感を書くつもりです。


自分が普段使用している汎用連想計算エンジン(以下GETA)も、単語の集合をベクトルに置き換えて計算するプログラムです。

自分は"word2vec"についてまだ全くわかっていないので、二つのプログラムのデータの取り扱いが同じ考え方なのかどうか分かっていません。

こちらについても、もう少し分かったら続きを書きます。
 

web拍手 by FC2他の人にもおすすめの記事だと思ったら押してください。左の記事ランクに反映されます。私信の送信にも使えます。
| 技術情報 | 00:04 | comments(0) | trackbacks(0) |
【制作後記1】2010年のアイマス動画「○○」と言えばこの動画!【集計方法】
JUGEMテーマ:コンピュータ


まだ完成していないのに制作後記とは・・・。
そのあたりは次回以降に譲るとして、ここではポイント集計の手法について一通り説明しておきます。

もっとも、技術的な説明は2008年にこのブログで時折書いていましたので、”技術情報”カテゴリとかを漁ってもらえば愚痴と共に何か書いてあるんですけども。
で、2009年以降はそういった部分での進展がほとんどなかったので記事も追加されてこなかったというわけ。

2008年当時のシステムを使いつつ、2009年前半はデータの強化、2009年後半〜2010年前半はコンテンツの強化をしてきました。
そんなわけで今回説明する内容は若干うろ覚えです。

ですが、前年の制作後記にアクセスが多かったのもこういった説明を期待してのことだと思いますし、ここ最近露出が増えた割に説明はせずにきたので、整理して書いておこうと思います。


ちなみになんで説明を入れていないのかについては、簡単に説明できるものではないからです。
かなり未知の部分が多い技術なので、必要となる前提知識を皆さん持ち合わせていないため(システム構築初期の自分もそうでした)、理解してもらおうと思ったら長々と説明しなくてはいけません。
そうしてしまうと動画の趣旨と外れてしまうからですね。


比較的皆さんに馴染みのあるイメージとしては、検索エンジンの順位付けと同じ技術を基礎にしています。
ここ最近はpagerankやリンク相関など、サイトの重要度が掲載順位に影響してくるので目立ちませんが、基本的には検索した単語とページ内の文章の一致度が表示順位を決める重要な要素です。
そうでなければどんな言葉で検索しても有名サイトが上位を独占するはずですが、そうはなっていないはずです。

ここで「一致度」という言葉(専門用語ではありません)を使いましたが、この計算方法が肝心です。
と言うか、これの算出方法が検索エンジンの良し悪しを決めています。

web拍手 by FC2他の人にもおすすめの記事だと思ったら押してください。左の記事ランクに反映されます。私信の送信にも使えます。
続きを読む >>
| 技術情報 | 14:21 | comments(0) | trackbacks(0) |
ニコニコ動画のマイリストコメント抽出例


この動画を作った時にマイリストコメントを取得した方法を書いておきます。

ニコニコ動画の公開マイリスト検索(/openlist/sm****)は、AND検索もOR検索もNOT検索もできるっぽい - 超自己満足プログラミング ニコニコ動画の公開マイリスト検索(/openlist/sm****)は、AND検索もOR検索もNOT検索もできるっぽい - 超自己満足プログラミング

マイリストの一覧取得はこちらの情報を参考にさせていただきました。


.泪ぅ螢好箸琉賤を取得(最後のpageは必要なだけ増やす)
http://www.nicovideo.jp/openlist/sm8116732+OR+sm5623069+OR+sm8143857+OR+sm6858873+OR+sm7358788+OR+sm5681358+OR+sm5575802+OR+sm7655902+OR+sm8338855?sort=c&order=d&page=1

⊆萋世靴HTMLからマイリストのRSSURLを作成(Linuxの場合)
cat * | grep "mylist/[0-9]*¥">" | sed 's/.*¥(mylist¥/[0-9]*¥)">¥(.*¥)<¥/a>.*/http:¥/¥/www.nicovideo.jp¥/¥1?rss=2.0/' > mylisturl.txt

mylisturl.txtのRSSをダウンロード(ニコニコ動画へのログイン不要)

げ宍のperlスクリプトを使って取得したRSSフィードから必要な動画のコメントを抽出(要XML::RSSモジュール)
ls | perl rss.pl

そんな感じです。
ブログのレイアウトが盛大に崩れてますが、そんな感じです。

web拍手 by FC2他の人にもおすすめの記事だと思ったら押してください。左の記事ランクに反映されます。私信の送信にも使えます。
続きを読む >>
| 技術情報 | 22:15 | comments(0) | trackbacks(0) |
データクラスタリングツール'bayon'でタグを使って動画分類
fujisawaさんが作成されたデータクラスタリングツールbayonの使い方解説と、作成したニコマス動画検索サイト「登録タグdeニコマスおすすめ[http://nicomas.main.jp/tagde/]」の紹介です。

まだ結果の評価とかもちゃんとできていないんですが取りあえずUP。


◆スライド:bayon.pdf
◆作成したファイルの詰め合わせ:bayon.zip
ニコニコ動画のデータはAOI-CATの日記「ニコニコ動画「○○」タグ付き全動画情報データベース公開」で配布されているデータを使わせていただきました。
いつもありがとうございます。
これのお陰もあって、これだけの分量で全工程を説明することができました。

他に使用したものやお役立ちリンクなど;
−CentOS5[http://ftp.riken.jp/Linux/centos/5.2/os/i386/images/](CDブートでネットワークインストールする場合。「CentOS ネットワークインストール」とかでググってください)
−googletest[http://code.google.com/p/googletest/]
−google-sparsehash[http://code.google.com/p/google-sparsehash/]
−VMware Player[http://www.vmware.com/jp/download/player/](「VMware Player 2.5 centos イメージ」でググるとか)
−Lightview[http://www.nickstakenburg.com/projects/lightview/](ライセンスの関係で含まれていません)
−Manpage of GAWK[http://www.linux.or.jp/JM/html/GNU_gawk/man1/gawk.1.html]


さて、ロリポブログの仕様のせいで丸々書き直す羽目に陥ってまして、何を書いたか分からなくなってます。

今回は技術解説が主になっていますが、自分自身のテーマは技術の習得ではなく動画紹介サイトの制作で、これは変わっていません。
ただ、ここのところずっとデータ解析ばかりで一向に思い描いているサイトの制作に入れない状況で、そのイライラの息抜きに作成しました。


bayon[http://code.google.com/p/bayon/]の紹介が中心だったので、出来上がったサイトはあまり実用的でないですかね。


制作途中にきてれぅ.tv[http://kiterew.tv/]というサイトがタグを使ってクラスタを作成しているのを知りましたので、ちょっと紹介。

精度はきてれぅ.tvの方が圧倒的に高いですね。
人力だとこういうものが作れて、一方で機械で無いとできないものもあって。
色々な方向性、色々なアプローチがあると思います。


この解説で検索サイトが増えたらいいなとも思っているんですが。

web拍手 by FC2他の人にもおすすめの記事だと思ったら押してください。左の記事ランクに反映されます。私信の送信にも使えます。
続きを読む >>
| 技術情報 | 07:45 | comments(1) | trackbacks(0) |
Lingua::JA::Categorizeを試してみた
このブログをテキストデータ解析の参考のためにチェックしている人がいるとは思えないんですが、予定が余りに遅れていて今年中に解説を作成できそうにないので、気が向いたときに技術情報も書いてみようと思います。

現在自動カテゴリ分類に行き詰っているんですが、その過程でPerlモジュールLingua::JA::Categorizeを使ってみたのでそのメモ。
使おうと思ったらLingua::JA::Categorizeの情報があまりに少なかったので。

ダウンロードたけし(寅年)の日記
2008-11-24 「日本語テキストを分類するベイジアンフィルタ」を簡単につくる
http://d.hatena.ne.jp/download_takeshi/20081124/1227539934



自分の環境(CentOS 5)では、READMEのインストール方法で環境は整ったものの、サンプルのコードそのままでは動かなかったのでいくつか修正してあります。
他にmecabがインストール済みである必要があります。

以下のプログラムソースの使い方は、ファイル名のみで実行すると初期学習データを生成し、パラメータとして、改行で区切った解析対象のテキストファイルのファイル名リストを記述したファイル名を与えてやると文書の分類を行います。

結果は以下のようになります。

$ ./category.pl filelist.txt
nm2676413 ミステリー 三国志 野球 0.474341649025257
nm2731793 ミステリー 三国志 野球 0.474341649025257
nm2773972 ミステリー 三国志 野球 0.474341649025257
nm3248741 ミステリー 三国志 野球 0.474341649025257
nm3674729 ミステリー 三国志 野球 0.474341649025257

見ての通りうまくいってません。


単語データセットが悪いのか文書が悪いのか分かりませんが、作成者さんのブログにも書いてある通り、個々のコメントの羅列であるニコニコ動画のコメント解析ではまともな精度に達しないだろうと判断して不採用に。

でも補正的な学習っていうフェーズがあったんですね。

現在はなんちゃってシソーラスの作成を試行中。
それがうまくいかなかったらもう一度トライしてみようかな。

web拍手 by FC2他の人にもおすすめの記事だと思ったら押してください。左の記事ランクに反映されます。私信の送信にも使えます。
続きを読む >>
| 技術情報 | 18:35 | comments(0) | trackbacks(0) |
キーワード作成のまとめ
たまにはブログタイトルらしいこともやっておかないと。


本当にやりたかったことは、カテゴリ分けなんです。
で、これまで○○カタログっていう形でいくつか紹介したんですが、どうもうまくいかなかったと。
例えば、「ダンス」っていうキーワードだと2055件になってしまって、それだといくら精度が高くても意味がないと。
あと、機械的に処理できないっていうので、以前”キーワード検索は無理でした”というタイトルでブログを書きました。


結局発想を逆転させて、1つのカテゴリで結果が100件未満になるまでAND検索させることにしました。

そのお陰で、どの単語がカテゴリとして適切かを判断する手間なしに、ヒット件数の多い順でキーワードをリストアップする方法を取れました。


そんなわけで、現在の集計データでもっとも多くの動画に出てくる単語が最初のページに表示されています。(本当に一番多い単語は”W”です。実際には名詞だけに絞り込みをしたりしています)


自分もおととい初めてこの結果を見たのですが、キャラクター名は全員出ているし、単語としては良く見る言葉ですね。
唯一Pで入っているのが「みんくP」。これはUPしている動画の数を考えれば納得ですね。(一番多くの動画で言及されているPということ。8/7データ更新により消えてしまいました)


登録タグとの一番の違いは、キャラクター名の別名も出てきているということ。
あずさ・・・あずさ、あずささん
伊織・・・いおりん、伊織
雪歩・・・ゆきぽ、雪歩
律子・・・りっちゃん、リッチャン、律子、律っちゃん
亜美、真美・・・とかち、亜美、真美
春香・・・閣下、春香、春香さん
これは、もし類義語エンジンが作れれば統合されます。
もちろん、それぞれのキーワードで結果は違っているのですが。


現状のカテゴリ分けのカバー率を書いていませんでした。
現在ニコマスサーチの対象動画は43,021本。
今回のカテゴリ数は11,849カテゴリで、カテゴリ分けされた動画は36,197本、カバー率84%です。


逆に言うと16%の動画がもれてしまっていて、その中には例えば「【アイマス】仮面ライダー春火(前編)【響鬼】」もあります。
件数の多いキーワードだけでの限界がこのレベルということですかね。
ヒットしなかった動画のキーワード分析も加えて改良していく予定です。


ここからはもう少し具体的に見ていきます。

web拍手 by FC2他の人にもおすすめの記事だと思ったら押してください。左の記事ランクに反映されます。私信の送信にも使えます。
続きを読む >>
| 技術情報 | 23:58 | comments(0) | trackbacks(0) |
アイマスキャラ成分解析ネタ解説&生データ
dwango.co.jpのチェック早っ! てゆーかすいません。1アカウントで細々とやってるので許してください。

「コメントで見るニコマス動画」における成分解析って何なのよ?っていうお話。

元データはニコニコ動画にアップされている”アイドルマスター”タグ付き動画(34333動画)の最新1000コメント(もちろんコメント数が1000未満の動画もたくさんあります)です。
そして、対象動画はAOI-CATさんが配布されている「アイドルマスター全動画情報データベース nicomas080510.7z(sm3251593まで)」に含まれている動画です。

そのデータをあれこれやってできたのがこれまでの成分解析というやつです。


実際あれです。コメントを元データにして、そんなちゃんとしたデータなんて出てきっこないんです。
打ち間違いもあれば、動画と関係のないコメントもあれば、etc.etc...

だから、成分解析にしました。それくらいの精度ってことです。

今採用しているこの手の解析手法っていうのは傾向を見るのに使うのが正しいと思うわけですよね。
生データ見てもらえば分かると思いますが、出力結果は結構変です。
それを適当に間引いたりとかしながら、’らしい’データにしたわけですけれども。

でも、恣意的にデータをいじったりはしていないんです。だから、傾向としては載せた内容で大体あってます。
ただ、どうしてもデータ漏れとかありますのでね。
まあ、その辺は生データと見比べてコメントでもしていただければいいかなと。

web拍手 by FC2他の人にもおすすめの記事だと思ったら押してください。左の記事ランクに反映されます。私信の送信にも使えます。
続きを読む >>
| 技術情報 | 23:31 | comments(0) | trackbacks(0) |
「アイドルマスター全動画データベース」のご紹介
今日は分析用データを入手するのに使わせてもらっている「アイドルマスター全動画データベース」の作成者の方に紹介の了解をいただいたので、使い方とか。

具体的に含まれている情報は大体次のような内容。

動画ID
タイトル
投稿者メッセージ
投稿時刻
動画の長さ
再生回数
コメント数
マイリスト数
タグ名


今回、やっぱりP名は必要だなと思ってタグ情報を使ってみました。

web拍手 by FC2他の人にもおすすめの記事だと思ったら押してください。左の記事ランクに反映されます。私信の送信にも使えます。
続きを読む >>
| 技術情報 | 23:14 | comments(0) | trackbacks(0) |
ニコニコ動画からダウンロードしたコメントファイルを見やすくするファイル
今日は周辺ツールの作成をガリガリやってたので、その成果の一つを載せておきます。
本当はこんなところじゃなくてまとめwikiにでも投稿しようと思ったんですが、こういった情報を載せる著名なサイトがなかったので。

comment.xsl ←表示されたら「名前を付けて保存」

nicoplayerとかでコメントをダウンロードすると、xmlという拡張子のファイルができて、これがえらく見づらいです。
nicoplayerとかで保存したxmlファイルを右クリックして”編集”で開いて、最初にある
<?xml version="1.0" encoding="UTF-8"?>

の後に
<?xml-stylesheet type="text/xsl" href="comment.xsl"?>

を書き加えてファイルを保存して、xmlファイルをダブルクリックして開くと、表形式で表示されるようになります。

表示をカスタマイズしたい人はXSLまたはXSLTを勉強してみてください。


PHPで使う場合>>

web拍手 by FC2他の人にもおすすめの記事だと思ったら押してください。左の記事ランクに反映されます。私信の送信にも使えます。
続きを読む >>
| 技術情報 | 23:25 | comments(0) | trackbacks(0) |