どせいたんさき。

ナスダヨー

「はてなスター」取得数のログをとってみた

目的

I wanna be a Hateb Star [suspended] が盛りあがったときにスター取得数の時間変換とか追いかけたらおもしろいことわからないかな?とふと思いついたので自分の「はてなスター」取得数のログをとってみることにした.


手法

下記のスクリプトcrontab に登録して 1 時間毎に実行した.

データ

ログをとりはじめたのは 2014-09-05 15:00 (思いついた日)でこのエントリで使ったのは 2014-10-18 23:00 までの「はてなスター」取得数.星の色は区別していない.


横軸にログを取りはじめてからの時間,縦軸にログを取りはじめてからの「はてなスター」取得数を示した.

f:id:xr0038:20141019003105p:plain
概ねコンスタントに増え続けている.データを取りはじめてから 600 時間後くらいにグラフがジャンプしているのは下記のブコメのせい.
xr0038 - 『御嶽山リポート「硫黄のような臭いが・・・」 東大教…』 へのコメント

あえて硫黄!(硫化水素)ガスであると!

2014/09/30 18:34 にブックマーク

期間内のスター増分を経過時間で割った「はてなスター風速」の推移はこんな感じ.上記ツイートの影響をまだ引きずっている.その影響を差し引くと毎時 1.2 スターくらいをコンスタントに取得しているっぽい.

f:id:xr0038:20141019004118p:plain


時間あたりの「はてなスター」取得数のヒストグラム

f:id:xr0038:20141019004401p:plain


横軸に時刻を,縦軸にその時刻に取得した「はてなスター」取得数の平均をプロット.

f:id:xr0038:20141019004626p:plain
灰色のバーは各時刻でヒストグラムを作ったときの 25% 点と 75% 点の位置を表現している.

お昼過ぎと夜にかけてスター取得数が増えている.僕のブックマーク周期に関係するのであまり強くは言えないけど,おおむねはてなーの活動パターンを表しているのではないだろうか? 21 時にぴょこんと立っているピークは例のツイートの影響に引きづられた結果.


曜日ごとの「はてなスター」取得数の平均.灰色のバーは上に同じ.

f:id:xr0038:20141019005203p:plain
週末に取得数がちょっと減っているような気がするが本当だろうか?

平日と土日で分けて取得数のヒストグラムを描いてみるとこうなる.

f:id:xr0038:20141019005403p:plain
2 つのヒストグラム有意な差があるかどうかを調べたい.二標本 KS 検定を使ってみる.まずは規格化した累積確率密度分布を作成する.
f:id:xr0038:20141019005631p:plain
2 つの確率密度分布の差の最大値を $D$ とする.サンプル数をそれぞれ $n_1$, $n_2$ とする.サンプル数が十分に大きければ以下で定義される値 $\chi^2$ は自由度 2 の $\chi^2$-分布で近似できる.
\[
\chi^2 = 4D^2\frac{n_1 n_2}{n_1 + n_2}.
\]
$D=0.168$, $n_1 = 312$ (土日), $n_2 = 729$ (平日) なので計算すると $\chi^2 \sim 24.7$ となる.自由度 2 からはかなり離れているので平日と土日のヒストグラムには違いがあると考えても良さそう.原因については「土日ははてなーの活動が活発ではない」のと「僕のブックマーク数が少ない(僕の活動が少ない)」が合わさっているのではないかと思う.僕のはてブ数も合わせて調べれば何か傾向が出るかもしれない(やるつもりはない).

おわりに

はてなスター」の API は現在の総スター取得数くらいしか取得できないのであまりおもしろくない.「はてなスターレポート」みたいにどのブックマークに誰から星をもらったのかがわかるとおもしろそうではある.現在利用可能な情報でおもしろいネタが思いついたらまた何か調べてみたい.