たぶん大丈夫なブログ

しょうもない考察や雑記を述べていきます。

散布図と回帰分析で見るB'zのシングルCD売上 ――90年代ミリオンセールスアーティストを代表して

目次




はじめに

CDの売上が全体的に落ちこんでいる昨今。しかし今から20年以上前の1990年代は、人気アーティストのCD売上がミリオンヒットを記録するのは当たり前の時代でした。そのような時代では、お気に入りのアーティストが新曲をリリースしていない週であってもランキングをチェックしていた方は多いはずです。
ところで当時、CD売上のランキングを見ていて、こう思ったことはないでしょうか?

「あのアーティストの今回のシングルCDの初動売上(発売初週の売上)は80万枚だったから、2週目にはミリオンヒットになるだろうな」
「最近、あのミュージシャンのCDの累計売上は50万枚程度で推移しているから、今回だと初週のCD売上は大体30万枚で、2週目から徐々に売上が下がっていくのではなかろうか」

ここまで具体的な数字を思い浮かべることはなくても、「初動売上が好調だと、トータルでもヒットと言えるほどのCD売上になると予想できる」「最近のCD売上の推移から、最終的なCD売上が何となく想像できる」といった方もいるのではないでしょうか?

この記事では、90年代にミリオンヒットを何度も出し、2000年代に入ってもミュージックシーンの第一線で活躍し続けるアーティスト B'z を例として、彼らのシングルCD売上を予想したり、彼らがこれまで辿ってきた歴史を幾つかの年代に分けてその特徴について述べてみようかと思います。
その目的を果たすために、記事のタイトルにも書いてあるようにB'zのシングルCD売上を散布図として表示したり、回帰分析にかけてみるという訳です。


f:id:tabunsakatsu:20180312221443j:plain
(写真1)B'zの二人――ギタリスト・松本孝弘、ボーカリスト稲葉浩志。写真は「B'z Official Website|BIOGRAPHY」より引用。



回帰分析とは?

そもそも「散布図回帰分析とは何なのか?」という所から始めましょう。散布図に関しては後で紹介する図を実際に見てもらった方が早いので、ここでは回帰分析について説明していきます。コトバンクに掲載されていたデジタル大辞泉の解説が簡潔にまとまっていたので引用します。

ある変数が他の変数とどのような相関関係にあるのかを推定する統計学的手法の一。
原因となる変数x(説明変数)と、結果となる変数y(目的変数または被説明変数)の間に、回帰式y=ax+bと表される関係があるとすると、x、yの観測値から最小二乗法を用いてa、bが求められる。この回帰式をもとに将来予測や要因分析を行う。

回帰分析(かいきぶんせき)とは - コトバンクより引用。

……概念的説明だけではイメージしにくいですね。とは言え、こうした定義の紹介を欠かすことはできません。
この記事の内容に沿った具体例を示してみます。

「B'zのシングルCDの初動売上から、累計売上を推定することはできないだろうか?」

これが、今回行う回帰分析の目的です。上記デジタル大辞泉の解説と照らし合わせれば、
「(B'zのシングルCDの)初動売上」が「変数x(説明変数)」
であり、
「(B'zのシングルCDの)累計売上」が「変数y(目的変数)」
となります。
もう少し噛み砕いて説明すれば、とあるシングルCDの初動売上が仮に20万枚だったときには累計売上は一体何枚になるのだろうか、その答えを予測する式(回帰式)を求め、分析を行うのが回帰分析だと言えます。

正直、統計解析に関しては初心者もいいところでまともに解説をこなす力量もなく、いずれボロが出てしまいかねないので、早速具体的な数字を見ていくことにしましょう。


CD売上を棒グラフで表してみる

そもそもB'zのシングルCDの売上はどのように推移してきたのか、それを把握しないことには散布図を作成したり回帰分析を行ったりしてもデータの解釈することができません。そこでこの章では、B'zのシングルCDの初動売上・累計売上を概観していきます。

今回使用するB'zのシングルCDのデータは、初動売上は「B’z 売り上げデータ & 初動売り上げ | easygo.jp」より、累計売上は「B'z - アーティスト別シングル売上補完 @ ウィキ - アットウィキ」より拝借しました。B'zクラスのアーティストだとCDの売上についてまとめたサイトも多いのですが、オリコンチャートの集計単位(2002年12月2日付で1枚単位に変更、それ以前は10枚単位*1)に合わせた形で記録しているサイトはそう多くないため、上記のデータを使用しました。

さて、B'zのシングルCDの初動・累計売上データ(2018年3月現在)を棒グラフとして表示すると(図1)のようになります。青が初動売上、オレンジ色が累計売上を示しています。単位は(枚)です。売上の具体的な数字を表形式で見たい方は、上に挙げたサイトを直接参照してください。
なお、1st、2ndシングルは初動・累計のCD売上がどちらも計上されていないため、3rdシングルからの記載となっています。


f:id:tabunsakatsu:20180221143520p:plain
(図1)B'zのシングルCDの初動・累計売上データ(2018年3月現在)の棒グラフ。3rdシングル「LADY-GO-ROUND」から53rdシングル「声明 / Still Alive」までの51作を1つの図に収めているので字が細かくなっています。図をクリックすると拡大します。


この棒グラフだけでも色々な情報が読み取れます。B'zのシングルCDの売上推移を時系列に沿って辿ってみましょう。

①1990年5月発売の4thシングル「BE THERE」が30万枚を超えるスマッシュヒットを記録。その後、1990年10月発売の7thシングル「愛しい人よ Good Night・・・」まで初動売上は10万枚弱、累計売上は30万~40万枚の辺りを推移します。
この頃のB'zのシングルCDセールスを本記事ではブレイク期と呼ぶことにします。



(動画1)1990年6月発売、5thシングル「太陽のKomachi Angel」のMV(short ver.)。B'zのシングルCDの連続首位記録はこの楽曲から。


②1991年3月発売の8thシングル「LADY NAVIGATION」が初動売上20万枚超、累計売上100万枚超の大ヒット。シングルCDのミリオンヒットは1996年5月発売の20thシングル「Real Thing Shakes」まで、13作途切れることなく続きます。
この頃のB'zのシングルCDセールスを本記事ではミリオンヒット期と呼ぶことにします。



(動画2)1995年7月発売、17thシングル「love me, I love you」のMV(short ver.)。札幌の街を歩く稲葉さんがひたすらハイテンションで楽しそうです。ポップでゴージャスな雰囲気がお気に入りの一曲。


③1997年3月発売の21stシングル「FIREBALL」から1999年6月発売の26thシングル「ギリギリchop」までの時期は、累計売上が100万枚をわずかに20枚上回った1997年7月発売の22ndシングル「Calling」を除いて、セールスがミリオンを下回ることが多くなります。2000年2月発売の27thシングル「今夜月の見える丘に」では累計売上が100万枚を突破しますが、これがB'z最後のミリオンヒットとなっています(2018年2月現在)。
この頃のB'zのシングルCDセールスを本記事ではポスト・ミリオンヒット期と呼ぶことにします。



(動画3)1998年4月発売、24thシングル「さまよえる蒼い弾丸」のMV(short ver.)。この楽曲を聴くとシャーマンキングに登場したBoZ「さまよえる蒼い霊魂」というパロディを思い出します。


④2000年5月発売の28thシングル「May」から2003年3月発売の34thシングル「IT’S SHOWTIME!!」にかけては、間に「ultra soul」(31stシングル、2001月3月発売)の大ヒット*2を挟みつつも、CDセールス的には減少傾向を示しています。
この頃のB'zのシングルCDセールスを本記事では衰退期*3と呼ぶことにします。



(動画4)2001年3月発売、31stシングル「ultra soul」のMV(short ver.)。2001年世界水泳選手権大会公式テーマソング。自分がB'zを初めて意識することになったのは恐らくこの楽曲。


⑤2003年7月発売の35thシングル「野性のENERGY」から2006年6月発売の42ndシングル「SPLASH!」にかけては、累計売上が20万~30万枚の間を行き来しています。ミリオンヒット期と比較してCDセールス的には落ち込んだものの、それは売上傾向が落ち着いてきたことの裏返しでもあります。
この頃のB'zのシングルCDセールスを本記事では安定期と呼ぶことにします。



(動画5)2005年3月発売、38thシングル「愛のバクダン」のMV(short ver.)。バクダン(爆弾)にちなんだのか、MVが撮影されたスタジオも火花があちこちで散っていて熱そう。


⑥2007年5月発売の43rdシングル「永遠の翼」から2017年6月発売の53rdシングル「声明 / Still Alive」(2018年3月現在の最新シングル)までは、間に「イチブトゼンブ/DIVE」(46thシングル、2009月8月発売)の大ヒットを挟みつつも、累計売上は15万枚から20万枚前後の値で推移しています。
この頃のB'zのシングルCDセールスを本記事では円熟期と呼ぶことにします。



(動画6)2007年10月発売、44thシングル「SUPER LOVE SONG」のMV(short ver.)。このシングルの翌年(2008年)に発売されたベストアルバム「B'z The Best "ULTRA Pleasure"」に早速収録された印象が強い楽曲。


B'zのシングルCDの累計売上を概観すると、ブレイク期(30万~40万枚)⇒ミリオンヒット期(100万~200万枚)⇒ポスト・ミリオンヒット期(70万~100万枚)⇒衰退期(70万枚→40万枚)⇒安定期(20万~30万枚)⇒円熟期(15万枚~20万枚)という経緯を辿ってきたと言えます。


CD売上を散布図で表してみる

さて、前置きが長くなってしまいましたが、今度はB'zのシングルCDの初動売上と累計売上を散布図で示してみたいと思います(図2)。
棒グラフではどちらの売上も縦軸方向に積み上げて表現していましたが、散布図では縦軸に累計売上、横軸に初動売上を取ります。単位はどちらも(枚)です。そして点一つ一つがシングルCDの売上を示しています。


f:id:tabunsakatsu:20180311134756p:plain
(図2)B'zのシングルCDの初動・累計売上データ(2018年3月現在)の散布図。図をクリックすると拡大します。


左下から右上にかけて、点が帯状(直線状)に並んでいるのが確認できるかと思います。これは何を意味しているのでしょうか。
初動売上が高いシングルCDほど累計売上も高くなる、反対に初動売上が低ければ累計売上も低くなるという大まかな傾向が読み取れます。つまり、初動売上と累計売上には「相関関係」があるということです。
このように、2点の要素(この場合では、初動売上と累計売上)を視覚的に確認しやすいのが散布図の強みです。


CD売上を回帰分析にかけてみる

B'zのシングルCD売上を散布図にして表示することで、初動売上と累計売上には相関が見られるということを念頭に置いた上で、実際に回帰分析へと取り掛かりしょう。

(図2)中に確認できる帯状に並んだ点を1本の直線で集約したものを回帰直線、回帰直線の数式を回帰式と呼びます。Excelの機能を使うことで、作成した散布図に回帰直線や回帰式を簡単に表示することができます(図3)。


f:id:tabunsakatsu:20180311134813p:plain
(図3)B'zのシングルCDの初動・累計売上データ(2018年3月現在)の散布図、回帰直線および回帰式。図をクリックすると拡大します。


(図3)を見ると、赤い点線で示された回帰直線に沿って点が帯状に並んでいるのが確認できると思います。正確には、最小二乗法によって最適な回帰直線が引かれているのですが、その辺りの細かい説明は他のサイト*4に任せて次に進みましょう。


この回帰直線の回帰式は、(図3)の右下に記載されている通り、 y = 1.9877x - 10434 となります。ただし、y が累計売上、x が初動売上の枚数です。
つまり、この回帰式の x にB'zのシングルCDの初動売上の数字を入れると、累計売上が予測できるという訳です。仮に初動売上が10万枚として累計売上を試算してみると188336枚、初動売上が「LOVE PHANTOM」の記録(951140枚)を超える100万枚だとすると累計売上はダブルミリオンに迫る1977266枚となります。


……ここまでの分析で万事解決となれば楽なのですが、実はこれで終わりにするのは少しまずいです。回帰分析をするにあたって、以下の3点――相関係数、決定係数、検定――を確認しておかなくてはなりません。きちんと説明すると面倒くさい何万字あっても足りないので、最低限の内容だけ押さえておきます。


まず相関係数ですが、これは「あるデータの動きがもう一つのデータの動きと関係性を持っているかどうか*5」を表す指標です。
相関係数は -1 から 1 までの値を取り、(図2)のように一方の値が高くなればもう一方の値も高くなる右上がりの散布図であれば正の相関、反対に右下がりの散布図であれば負の相関があると言えます。また、相関係数が 1 あるいは -1 に近づくほど強い相関関係、0 に近づくほど弱い相関関係であると言えます。

さて、B'zのシングルCDの初動売上と累計売上の相関係数も求めておきましょう。ExcelのCORREL関数でも求められますが、この後に決定係数を確認したり検定を行ったりすることも鑑みて、アドインの「分析ツール」*6を使用して回帰分析を行っていきます。

Excel上で回帰分析を実行した際のスクリーンショットが(図4)です。


f:id:tabunsakatsu:20180227004046p:plain
(図4)Excelのアドイン「分析ツール」より、回帰分析を実行した際のスクリーンショット。図をクリックすると拡大します。


(図4)内に赤丸で囲まれている数字が幾つか確認できると思うのですが、その中のに注目してください。
この数字が相関係数です。今回の回帰分析においては、相関係数は 0.894501 でした。0.9 に近い値となる場合、一般的には強い正の相関があると見なされます。
つまり、B'zのシングルCDの初動売上と累計売上の間には、強い相関関係が認められるということです。


次に決定係数についてですが、これは「独立変数(説明変数)が従属変数(被説明変数)のどれくらいを説明できるかを表す値*7」です。
決定係数は 0 から 1 までの値を取ります。この値が高いほど、回帰式の当てはまりがよいと解釈されます。

今度は(図4)のに注目してください。
この数字が決定係数です。(図3)の右下に書かれている R² と同じ値です。今回の回帰分析においては、決定係数は 0.800275 でした。
つまり、B'zのシングルCDの累計売上は、初動売上によって約8割が説明されるということを意味しています。


最後に検定についてですが、これには見るべきポイントが複数存在します。今回は2点に絞って紹介します。

まず(図4)のに注目してください。
この値は、「1つの説明変数(B'zのシングルCDの初動売上、図中ではX値1)が、目的変数(累計売上)に影響を与えないとする(つまり、回帰係数が0となる)帰無仮説が採択される確率」を示しています。
この説明だと少し分かりにくいので言い換えると、「の値が、設定した有意水準(一般的には5%か1%)よりも下回っていれば、1つの説明変数の回帰係数が0となる帰無仮説を棄却して、この回帰係数が目的変数に影響を与えていると見なす」ということになります。
……本当であれば「帰無仮説」や「有意水準」といった用語についてきちんと理解した上で検定を行うべきなのですが、この記事を読む際にはの値が 0.05 あるいは 0.01 を下回っていれば、その説明変数には意味がある(有意水準を満たす)」という理解で大丈夫です。

実際にの値を見てみると、「9.15E-19」と表示されています。これは「9.15×(10の-19乗)」を示しているので、実際の数字は「0.000000000000000000915」となります(0の数を間違えていないか不安になる数字です)。
明らかにこの数値は 0.05 や 0.01 を下回っているので有意水準1%を満たしており、検定の結果、統計学的に有意であると言えます。

さて今度は(図4)のに注目してください。
この値は、「全ての説明変数が、目的変数に影響を与えないとする帰無仮説が採択される確率」を示しています。つまり、回帰式全体の検定を行うわけです。
今回は、目的変数(累計売上)に対して説明変数(初動売上)が1つだけの単回帰分析だったのでの値が等しくなっていますが、説明変数が複数存在する場合(例えば、初動売上だけでなく「CD発売から2週目の売上」も説明変数として加えることが可能*8)は重回帰分析となり、は X値2、X値3……と説明変数の数だけ増えていきます。回帰分析の種類によって特に見るべきポイントも変わってくるということです。


これで回帰分析の検討は一通り終わりました。まとめると以下のようになります。

B'zの3rdシングルから53rdシングルまでのCD初動売上と累計売上には、相関係数 0.894501 、決定係数 0.800275 の高い相関関係があり、回帰式は y = 1.9877x - 10434 (ただし、y が累計売上、x が初動売上の枚数)。検定の結果、1%水準で有意。


相関係数や決定係数の確認や検定をしていなかった先ほどとは異なり、これで終わりにしても問題はないのですが、それだと少し味気ないです。せっかくデータがあるのでいじり倒してみます。


散布図の点を時系列に沿って結んでみる

これまでに示した散布図ではどの点がどのシングルに該当するのか全く分からない状態でした。その理由の一つとして、散布図のそれぞれの点に時間に関する情報(この場合、シングルCDの発売順序や発売日時などの情報)が加えられていなかったことが挙げられます。

そこで、Excelの散布図の機能「平滑線とマーカー」を使用して、シングルCDのそれぞれの点を発売順で結んでみます(図5)。さらに、判読の邪魔にならない程度に、散布図の点に代表的なシングルの名前を書き加えます。
こうすることで、どの点がどのシングルCDなのか分かりやすくなります。


f:id:tabunsakatsu:20180311134842p:plain
(図5)B'zのシングルCDの初動・累計売上データ(2018年3月現在)の散布図と平滑線、回帰直線および回帰式。全部のシングルにラベルを付けると見づらくなってしまうので、代表的なシングルの名前のみ図中に記載しています。図をクリックすると拡大します。


「判読の邪魔にならない程度に」とは言ったもののごちゃごちゃして若干見づらいですが、(図1)で確認したシングルCDの売上の推移が、(図5)の散布図上で再現されていることが分かります。

この(図5)に記載されているシングルと対応させつつ、次の(図6)を見てください。


f:id:tabunsakatsu:20180311134853p:plain
(図6)B'zのシングルCDの初動・累計売上データ(2018年3月現在)の散布図と平滑線とその分類、回帰直線および回帰式。図をクリックすると拡大します。


(図6)は、散布図上に表示されたB'zのシングルCD売上を5つの時期に分類したものです*9。(図1)の区分とは完全に対応していませんが、散布図ではこの分類が視覚的に分かりやすいので採用しています。
図中の A に該当するのがスマッシュヒット期、B C に該当するのがミリオンヒット期、D に該当するのがポスト・ミリオンヒット期と衰退期、E に該当するのが安定期と円熟期のシングル郡になります。

(図6)の A や B、C に該当するシングル(スマッシュヒット期やミリオンヒット期のもの)は、赤で示された回帰線の上側で散らばって分布しています。
一方、D や E といったポスト・ミリオンヒット期以降のシングルの大半は、回帰線の下側で直線状に分布しています。

これらの傾向はどのように解釈すればよいのでしょうか。
鍵となるワードは、B'zの新規ファン固定ファンロングヒットそして初動売上率です。次の章ではこれらを踏まえて検討していきます。


初動売上率から見る、B'zの固定ファンとロングヒット

A や B、C にカテゴライズされたシングルは、どうして回帰線の上側に散らばって分布しているのでしょうか。
これは、累計売上に対する初動売上の割合、つまり「初動売上÷累計売上」の値が低いことに起因しています。なお、この割合をこの記事では初動売上率と呼ぶことにします。

B'zの3rdシングルから53rdシングルまでの初動売上率を示したものが(図7)です。


f:id:tabunsakatsu:20180311151943p:plain
(図7)B'zのシングルCDの初動売上率(累計売上に対する初動売上の割合)。3rdシングル「LADY-GO-ROUND」から53rdシングル「声明 / Still Alive」までの51作を1つの図に収めているので字が細かくなっています。図をクリックすると拡大します。


(図7)を見ると、スマッシュヒット期のシングルの初動売上率が軒並み低い傾向が読み取れます。
また、ミリオンヒット期のシングルの初動売上率も全て60%以下であり、70%を概ね超えている衰退期や80%近い安定期、円熟期のシングルの初動売上率と比較して相対的に低い傾向を示しています。

これについては以下のような説明が可能です。


シングルCDが売れ始めたスマッシュヒット期は、B'zが新規のファンを獲得し始めていた時期だと言えます。そのため、これらの時期に発売されたB'zのシングルCDを初週にすぐ購入した熱心なB'zファンの割合は、安定期や円熟期にCDを購入した人の中での固定ファンの割合と比較して相対的に低かったと思われます。

また、スマッシュヒット期やミリオンヒット期の初め((図6)の B の時期)はB'zというアーティストの人気が徐々に広まっていく時期でもあり、じわじわとロングヒットした結果、初動売上率が低くなったと考えられます。
4thシングル「BE THERE」や5thシングル「太陽のKomachi Angel」、8th「LADY NAVIGATION」は約1年間チャートインしており、これらの初動売上率はそれぞれ9%、11%、18%と極めて低い値です。

さらに、1990年代中頃~後半や2000年代と比較して、1990年代初頭という時代はシングルCDがロングヒットしやすかったという背景も影響していると思われます。
とある楽曲が口コミや有線から徐々に人気に火が付いて、長期間売れ続けた結果、トータルで見ると大ヒットになるという流れは1970年代や80年代には多く見られました。90年代初頭はその名残があったというわけです。


1990年代中頃のミリオンヒット期のシングルCDに関しては、初動売上率は30%台から50%台の間を推移しています。
この頃のB'zは一定の固定ファンを抱えつつも、新規ファンを取り込んでミリオンヒットを重ねていたと想像できます。

また、1990年代という時代は、特に熱心なファンでなくとも大量のCDを購入していたCDバブルの時代であったことを忘れてはなりません。
ブームとなっていたカラオケの練習用として、A面のインストが収録されているシングルCDの需要が高かったことは想像に難くないです。また当時の8cmシングルCDは、初回限定盤に付属するDVDなどの特典がほとんどなかったこともあり安価だったため購入されやすかったという理由も考えられます。


1990年代末期の衰退期のB'zのシングルCDの初動売上率は60%を超えることが珍しくなくなります。
2000年代中頃の安定期の初動売上率は70%前後、2000年代後半の円熟期以降は70%を優に超え80%に近くなる場合が大半です。
この初動売上率の高さは、新規ファンの大規模な取り込みが行われなくなり、特に熱心なファンではない層のCDの購入が落ち着いた結果、CD購入者の中での固定ファン率が高くなったことに起因すると思われます。基本的に6割から8割程度の固定ファンがCDの売上に貢献するという構図です。

(図7)を見ると、そのような傾向とは外れており目を引くシングルが2つあります。
2005月8月発売の39thシングル「OCEAN」と、2009月8月発売の46thシングル「イチブトゼンブ/DIVE」です。初動売上率はそれぞれ52%、48%です。(図5)において、同時期((図6)の E の時期に該当)の他のシングルは軒並み回帰線の下側に直線状に固まって分布している中、「OCEAN」と「イチブトゼンブ/DIVE」は飛び出して回帰線付近に位置しています。
(図1)を見ると、この2つのシングルの累計売上はそれぞれ約51万枚、約38万枚と、同時期の他のシングルと比較して特に高い値を示しているのが分かります。
これらのシングルCDに共通する特徴として、①ドラマタイアップ②年間チャートトップ10入り、そして③ロングヒットの3点が挙げられます。
「OCEAN」以前のB'zのシングルのドラマタイアップは、2000年2月発売の27thシングル「今夜月の見える丘に」です。このシングルの累計売上も、同時期((図6)の D の時期、ポスト・ミリオンヒット期に該当)の他のシングルと比較して特に高い値を示しています。
ここから導き出される結論としては、「2000年代以降、ドラマタイアップされたB'zのシングルCDは、固定ファン以外の人にも広く認知、購入されたことでロングヒットとなり、年間チャートにトップ10入りするほど累計売上を大きく伸ばした」という一連の流れです。その裏返しとして、上記の2シングルの初動売上率は低くなったのです。そう、初動売上率はロングヒットの指標であると言えます。
ドラマタイアップとCD売上の関係性と言えば、1990年代のトレンディドラマとシングルCDのミリオンヒットが真っ先に思い浮かびますが、その余波は2000年代に入っても続いていたのだと解釈できます。


B'zのCD売上が大きい理由について振り返ってみると、アーティストやその楽曲の魅力もさることながら、ロングヒットが生まれやすかった1990年代初頭にデビュー、ブレイクし、B'z以外のアーティストを含め数多くのミリオンヒットが生まれた1990年代を通してヒットを重ね、層の厚い固定ファンを獲得してきたという、時代の波に上手く乗った構造上の要因も考えられるのです。


より精度の高い回帰式を作ってみる

さて、これらの結果を踏まえて、最後の目的を果たしたいと思います。
その目的とは、「2018年現在においても通用する、より精度の高い回帰式を作る」というものです。

(図6)を見ると、D から E にかけての時期(衰退期~安定期~円熟期に概ね該当)のシングルCDは、B'zの固定ファンの多さも相まって、例外も一部ありますが比較的直線状に固まっているのが分かります。
この時期のシングルCDを対象に分析すれば回帰式の精度はより高くなり、2018年3月以降に発売されるB'zのシングルCDの累計売上の予測も精度が上がるはずです。

では、詳細な過程は省略して、以下に結論を述べます。

1996年5月発売の20thシングル「Real Thing Shakes」から2017年6月発売の53rdシングル「声明 / Still Alive」までの、B'zのシングルCD初動売上と累計売上には、相関係数 0.979234 、決定係数 0.958898 の極めて高い相関関係があり、回帰式は y = 1.83515x - 80140.1 (ただし、y が累計売上、x が初動売上の枚数)。検定の結果、1%水準で有意。

無事、B'zのほぼ全てのシングルCDを対象にした回帰分析よりも精度の高い結果が得られました。
修正された回帰式を用いて、仮に初動売上が10万枚として累計売上を試算してみると103375枚、初動売上が100万枚だとすると累計売上は1755010枚となります。前回試算した数字よりも下方修正されていることが分かります。

長年に渡って支持され続けてきたアーティストが辿るCD売上の推移は何段階にも分けられます。総じて分析することで全体的な傾向を読み取ることもできますし、今回のようにデータを切り取ることで分析目的により合致した結果を出すこともできるのです。


おわりに

今回B'zを分析対象として選んだ理由の一つは、20年以上にわたって高頻度にシングルを出し続けており、そしてコンスタントに売れ続けている点が挙げられます。サンプル数とCD売上が多く、回帰分析を行う上で最適のデータだったということです。ひいては広く人気があり、話題を共有しやすいという点も挙げられるでしょう。

B'zに関しての自分の立ち位置は、シングルの楽曲は過半数は把握しているものの、オリジナルアルバム収録の楽曲についてはほとんど知らないという、ベストアルバムを聞きかじった程度のものでした。それでも今回の分析を通して、あくまで表面的ではありますが、B'zというアーティストが辿ってきた歴史についての知識を深めることができたと思っています。

この記事の内容をさらに発展させるとすれば、本文中にも書いているように「初動売上」だけではなく「CD発売から2週目の売上」を含めた重回帰分析、あるいはオリジナルアルバムの初動売上と累計売上の回帰分析が考えられます。実行がいつになるかは未定ですが……。


なお、この記事を執筆するきっかけになったのは、劇場版プリキュアの興行収入を回帰分析する下のブログ記事です。

prehyou2015.hatenablog.com

この記事のお陰で、以前から興味を持っていたアーティストのCDセールスについて、(初歩の初歩ではありますが)統計学的に考察を深めるきっかけができました。心から感謝しております。


そして、この記事を書き始めたのは2016年の11月頃だったのですが、紆余曲折あり公開は1年後の2018年3月となってしまいました……。
前回の記事を投稿してからのブランクがギリギリ1年に達しなかったこのタイミングで滑り込めたことに安堵しつつ、筆をおくこととします。

ここまでお読みいただき、ありがとうございました。

*1:オリコンチャートの集計単位の詳細については、オリコンチャート - Wikipedia「集計方法の変移」を参照。

*2:大ヒットしたという印象が強い「ultra soul」ですが、実は累計売上は90万枚弱でありミリオンには達していません。

*3:「衰退期」という命名は誤解を招きかねませんが、あくまでシングルCDの累計売上の推移に由来するものであり、アーティストの魅力自体には何ら関係はありません。もっと上手い呼称が思いつけばそれに越したことはないのですが……。

*4:ネット上で最小二乗法について説明しているサイトは幾つかありますが、「最小二乗法の意味と計算方法 - 回帰直線の求め方」は、視覚的に分かりやすい散布図での説明を加えつつも計算過程を省略せずに段階を踏んで説明しているので、この記事で紹介しておきます。

*5:加藤久和 著『高校生からの統計入門』より引用。

*6:Excelのアドイン「分析ツール」の導入については、Office サポート「Excel で分析ツールを読み込む - Office サポート」を参照。

*7:決定係数 - Wikipedia」より引用。

*8:ただし、「B'zのシングルCDの累計売上」という目的変数に対して、「初動売上」「CD発売から2週目の売上」という2つの説明変数を加えて回帰分析を行う場合に気をつけなければならない点として、「多重共線性」の問題があります。多重共線性とは、説明変数間の相関が高い場合に重回帰分析の結果が歪められてしまうことを指し、「初動売上」と「CD発売から2週目の売上」の間には高めの相関があると考えられるからです。詳細については、「回帰分析」のサイトの一番最後の項目を参照してください。

*9:実際に(図6)を分類する際、B'zのシングルCDの初動売上と累計売上の間に相関があるため、マハラノビス距離を採用してクラスター分析を行うのが理想です(詳細については「クラスター分析の手法①(概要) | データ分析基礎知識 」を参照)。そこでフリーの統計解析ソフトである R を使用してみたのですが、力量不足によりユークリッド距離でのクラスター分析から抜け出せず、その先に進むことができませんでした。そのため(図6)は恣意的な分類に基づいています。R でマハラノビス距離でのクラスター分析を行う方法は現在模索中です……。