メインサイト
 アイマス動画発掘サイト『ニコマスchガイド』

ニコニコ動画のアイドルマスター動画を独自のジャンルとキーワードで検索できる総合カタログサイトです。ログイン不要の再生にも対応。
ニコマス急上昇ワード

設置方法
NEW ENTRIES
CATEGORIES
拍手ボタンによるおススメ
ARCHIVES
LINKS
Calendar
Sun Mon Tue Wed Thu Fri Sat
 123456
78910111213
14151617181920
21222324252627
28293031   
<< May 2017 >>
PROFILE
OTHERS
 
ニコニコ動画にある”アイドルマスター”タグ付き動画に付けられたコメントを集計・加工してできた色々(powered by ニコマスchガイド)

<< 萩原雪歩を成分解析してみた | main | 星井美希を成分解析してみた >>
「アイドルマスター全動画データベース」のご紹介
今日は分析用データを入手するのに使わせてもらっている「アイドルマスター全動画データベース」の作成者の方に紹介の了解をいただいたので、使い方とか。

具体的に含まれている情報は大体次のような内容。

動画ID
タイトル
投稿者メッセージ
投稿時刻
動画の長さ
再生回数
コメント数
マイリスト数
タグ名


今回、やっぱりP名は必要だなと思ってタグ情報を使ってみました。

web拍手 by FC2他の人にもおすすめの記事だと思ったら押してください。左の記事ランクに反映されます。私信の送信にも使えます。
配布されているデータは nicomas.sqlite っていうファイルなんですが、このファイルが扱えるSQLiteを自分は今回初めて使いました。
PerlでちょっとしたDB使いたかった時はDBD::Fileモジュールを使ってCSVをSQLでアクセスしたりしたもんですが、PHPならSQLiteが推奨ということらしく。

でもって自分の開発環境はLinuxで構築しているので、WindowsでSQLiteを使う方法は調べてもいません。
VMWare使って無理やりWindows XPのメインマシンでCentOS5を動かして扱ってるくらいなので。


それはともかくタグ名の一覧をファイルに書き出すのはこんな感じで。

echo "select distinct(tag_name) from tag order by tag_name;" | sqlite3 nicomas.sqlite > tag.txt

ほんでもって、今回作りたかったP名のリストを作るために、最後が P で終わってるタグ名だけに絞り込んでみる。

grep "P$" taglist.txt > Plist.txt

この状態で3000以上あるので(4月19日版のデータです)、
   「方向性がおかしいP」みたいなP名じゃないもの、
   「箱と一緒に壊れた影山P」みたいな枕詞のついたもの、
   「すいぎんP+タミフルP+ボストンP」みたいな合作用のもの、
   「新陰マス10話⇔最終話OP」のような無関係なもの、
を消していきます。

でもニコマスのP名は「ななななななーP」とか「大自然P」とか、判断の微妙なのも結構あるので、完全には分類できないですね。
他に別名なんかもあるので・・・ムニョムニョ

ちなみに枕詞が目立ったPは、

雅紀P
whoP
影山P
しーなP
みんくP
ちんこうP
ありすえP
時雨P

あたりの皆さんでしょうか。
特に雅紀Pのいじられ度合いは異常。

その他、表記の揺れを吸収するために英数を半角大文字で統一して作ったリストを置いておきます。
ちなみに2199タグ。違ったのが混じってるにしても2000前後はP名がある計算たらーっ

Plist.txt

英数部分はあんまり削除してないので、「VIP」とか「J-POP」とか残っちゃってますけど。
あと、先に書いたように英数を半角大文字に変換したので、ジルコンPが「ZrP」じゃなくて「ZRP」になってたりしますので。

指摘はコメントで受け付けてます。
| 技術情報 | 23:14 | comments(0) | trackbacks(0) |









http://blog.nicomas.main.jp/trackback/1105336