seegeのまとめサイト

もっと早く教えてくれよって思った内容を書いていきたいと思います。

AI 美空ひばりが紅白で歌う

永遠の歌姫である、美空ひばりさんが他界されたのが平成元年ということなので、30年が過ぎたということなんですね。30年?本当に?って感じるくらい、短く感じます。

没後、30年ということから、歌声と姿を蘇らせるというプロジェクトを立ち上げ人工知能(AI)により、美空ひばりさんの歌声を学習させ再現させるというものです。

f:id:seege:20200101121757p:plain

今回のプロジェクトでは新曲ということで、作詞は、名曲「川の流れのように」の作詞も行った秋元康氏、作曲は、佐藤嘉風(さとうかふう)氏です。佐藤嘉風という名前に僕は聞き覚えがありませんでした。

これは、作曲に関しても広く作曲家の方達に呼びかけて募集を行なったためです。このため選考には1か月余りの時間がかかりました。演歌、バラード、アップテンポの曲と色々と集まりましたが、これといったものがなかなか見つかりませんでした。秋元さん自身も「技術が凄いですよでは、人の心は打たない。本当にそこにひばりさんがいるんだということをみんな見たいわけだから・・・ということまでは言えるのですが具体的にこのような曲というのが見えていたわけではなかったようです。そんな中、若手のシンガーソングライターが作曲した近代的なポップス調の曲が秋元さんの耳に止まりました。これまでのひばりさんの曲にはなかった、近代的なポップス調の曲です。ひばりさんの新しい世界観の曲なので難しいと感じましたが、あとは詞次第だということで、佐藤嘉風氏が作曲したものに決まりました。

並行して、ひばりさんの歌声と見た目をどのように再現するかということです。

歌声を担当したのは、バーチャルアイドル初音ミクを生み出したボーカロイドを開発したヤマハの歌声合成チーム(大道竜之介氏と才野慶二郎氏)です。ボーカロイドとは楽譜と歌詞をインプットすると歌にしてくれるソフトウェアです。
しかし、今回は人工的な音声ではなく、実在した歌手の音声を再現し、更に新曲を歌わせないといけないため格段に難易度が上がっています。

www.itmedia.co.jp

簡単に歌声を再現させるといっても、気の遠くなるような数の音を準備しないといけません。50音+濁音等を4オクターブ分を再現するために5000を超える音が必要です。しかしこれだけでは歌にならないので、音毎にビブラート(長・中・短)・裏声(強・中・弱)の組み合わせ、音と音の組み合わせ(順列組み合わせ)と天文学的な数の音が必要になってきます。これを人間が手作業で準備するのは不可能なので、ディープラーニングというソフトウェアが膨大な数のデータ(教師データ)より自ら学習する仕組みを使いました。

教師データには、ボーカルのみのデータをレコード会社から提供してもらったそうです。

AIは、ひばりさんの声を100に分割します。音符と歌詞を元にひばりさんがどう声に出したかを楽譜と詞を照らし合わせながら解析します。そして人間には見つけることができない楽譜と声の相関関係である唄い方を見つけ出します。人間がかけるルールの数というのはたかだかしれています。数百個・数千個も人間が書くという事は大変です。しかし、AIは何千万という条件分岐やパラメーターによる重みづけができてしまいます。

このように教師データを元に学習が終わり詞の完成を待ちました。

詞は、秋元康氏が、「川の流れのように」の詞を作った時と同じ、ニューヨークのイーストリバーほど近くのカフェ(Winter Garden)で取り組んだそうです。秋元康氏が大好きな美空ひばりさんの曲を初めて作詞したのが「川の流れのように」だそうです。当時売れっ子の放送作家だった秋元氏は、自らの仕事の行く末に疑問を感じショービジネスの街であるニューヨークに自分を見つめ直そうとやってきました。そしてその時に、美空ひばりさんの作詞の依頼が届きました。これが作詞家 秋元康誕生のきっかけになりました。

秋元氏は一つの言葉にたどり着きました。

「あれから」です。

20回以上も詞を書き直し、完成しました。秋元氏はこの曲の中でどうしても、やりたかった試みがありました。それは「語り」です。

お久しぶりです。

あなたのことを ずっと見ていましたよ。

頑張りましたね。

さぁ 私の分まで まだまだ頑張って。

この語りが歌声の再現チームを苦しめました。ひばりさんが唄った1500曲の中に「語り」はほとんどありません。(悲しい酒の1曲のみ)このため学ぶための教師データが決定的に不足するのです。悲しい酒の語りだけで学習させたのですが、結果は、悲壮感があるものになってしまいました。

更に、これまでひばりさんになかった曲調の曲なので、過去の曲で学習したルールが通用しませんでした。

そんな中で、「語り」については一つの光明が見えました。

ひばりさんは、息子さんが小さい頃は、地方公演で家を離れる時は必ず、一緒に連れていったそうです。しかし、小学校に上がった頃から一緒に公演に行けなくなった時に、淋しくないようにということで、ひばりさんが録音してくれた「読み聞かせ」のカセットテープ(2時間の音声データ)が見つかったのです。

  • はだかの王様
  • みにくい あひるの子
  • 3匹のこぶた
  • その他(途中まで)

カセットテープの音声データで学習させた結果と、悲しい酒の語りとでは差は歴然でした。これを教師データとしてAIが自己学習を繰り返していけば「語り」を実現できる目途が立ちました。

映像開発は、ひばりさんの膨大な映像から顔の動きの法則をAIが学習することで表情については新曲に連動して動かせるシステムが開発できました。しかし、現在の技術を駆使しても乗り越えられない課題がありました。

それは歌の「振付」です。

ひばりさんに専属の振付師はいませんでした。
このため、決まった振付というのはなく、ひばりさんの心の赴くままに動いていたのです。お客さんの反応を見ながら自在に振付を変えるひばりさんの動きを推測することはAIをもってしても困難でした。

誰も見たことのない新曲でひばりさんが、こういう動きをするだろうというのは、想像でしかないので、前人未到の領域だというのです。

ここで一人の歌手の力を借りました。

ひばりさんを̪師と仰ぐ、天童よしみさんです。

天童さんは、ひばりさんみたいな歌手になりたいという夢をもって歌手になった方です。このため、ひばりさんの歌と動きを自分のものにしようと、レコードを聴きこみ、ビデオを擦り切れる程、見てきました。天童さんに全身の動作を精密に記録するモーションキャプチャーセンサーを装着し、ひばりさんになりきって新曲「あれから」を歌ってもらいました。

ひばりさんの髪型については、美容師の白石文江さんに協力を依頼しました。
白石さんは、ひばりさんのヘアメイクを25年に渡り担当しました。ひばりさんと背格好が同じモデルさんに向けて新曲のイメージにあった髪型を作りCGにしました。

衣装はファッションデザイナーの森英恵さんです。ひばりさんが42歳の頃から全てのステージ衣装を手掛けてきました。

こうして、AI美空ひばりが完成しました。

そして完成したAI美空ひばりを、美空ひばり後援会の方に確認してもらったのです。

その反応は、予想以上に厳しいものでした。

  • 歌詞がわからない(聞き取れない)ひばりさんの歌っていうのは、言葉がはっきりしていたから
  • ひばりさんの声がもつ独特の力が感じられない
  • ひばりさんの歌を聴くと、ものすごい濃い空気の中にいるような気持になるんですけど、そういう空気が足りないというか浅かった。これだとひばりさんの本当の良さは出てこない気がする

そして秋元康さんにも聞いてもらった結果です。

  • これだと人間味がないというか、キッチリスコア通りに唄うのが、うまいのか的確にデータで作っているので、もうちょっと雑味というか人間臭さとか温かみとかひばりさんの凄さってそこにあるような気がして包み込む大きさがあるでしょう。

正確にひばりさんの声で唄えるようにはなっているはずですが、それだけでは人を感動させることができないってことなんでしょう。

歌声再現チームは、まだ再現出来ていない何かを見つけることになりました。

ひばりさんの声の何が人の心を揺さぶるのか?そのために歌声分析の専門家(金沢工業大学 山田真司研究所)に相談しました。その結果、ひばりさんの声には、高次倍音と呼ばれる特殊な音が含まれていることがわかりました。

以下は「川の流れのように」の歌詞の一部です。

ああ わのながれのように

ひばりさんが唄う、「か」の部分の周波数は1KHz~5KHzの間で構成されています。

これは普通の人も同じです。
しかし、ひばりさんの声には7KHzを超える高次倍音が含まれていました。

高次倍音というのは、元の音の周波数より何倍も高い音、つまり数オクターブ上のもう一つの音です。ひばりさんは、この複数の音を同時に出し、一人でハーモニーを奏でていたというのです。

典型例が、モンゴルのホーミーだと言います。一人で唄っているのに同時に2音聞こえます。


モンゴル国ホーミー Arvan Tavnii sar khoomei

舌を特殊な形に動かし、低いうなり音と甲高い音を同時に出し、そのハーモーニーが幻想的な世界を作り出します。

ひばりさんは、高次倍音を必要な個所だけにピンポイントで出しています。

川の流れのようにのサビの部分では、「か」の部分だけに高次倍音が出ています。

ああ わのながれのように

聴き手には気づかせない超絶テクニックで奥行きのある歌声を作り上げていたのです。

そして、もう一つ、歌声再現チームは、ひばりさんの歌には楽譜に対して音程やタイミングのズレが随所にあることを見つけました。

人間の耳で聞いているとすごく自然にいい音に聞こえる部分でも、周波数でみると必ずしもピタッ、ピタッと音符にあっているかというとあっていない箇所があります。

これが何故、いい歌に聞こえるのかは分析できていないようですが、こういうことが起きているということがわかったということです。

おそらく、これが秋元氏が言われた、人間臭さとか温かみを感じさせているのかもしれませんね。

本来、AIは高次倍音や音程やタイミングのズレというのも学習できるはずなのですが、今回は、新曲という事で楽譜で指示された音を忠実に再現するに留まってしまったと考えられます。

そこで、思い切った改良を行いました。

開発したAIにはメインのAIをサポートする以下の4つのAIがあります。

  • 音程
  • ビブラート
  • タイミング
  • 音色(倍音

この4つのAIが新曲ということで十分に機能していませんでした。

そこで、音程とタイミングのズレを担う2つのAIに関与の度合いを強めるようにしました。

何段階かのひばりさんAIがいて、楽譜から周波数(音の高さ)を作る部分と周波数から音色を作るそれぞれのAIがいるわけですけど、それらが強調して動いてくれないと、こういうことが起きないそうです。

これにより、美空ひばりさんの音楽になり、完成が近づきました。

完成したAI美空ひばりは、Youtube NHKの公式サイトで公開されていますので是非、ご覧ください。埋め込みができない設定になっているようなのでリンク貼り付けとしました。

[NHKスペシャル] AIでよみがえる美空ひばり | 新曲 あれから | NHK

AI美空ひばりに対して、色々な意見・感想・考え方があると思います。

僕は、AI技術の凄さ、可能性を感じました。

今回、教師データが不足したことで完成度に影響が出たことは間違いないと思います。生前の間に、教師データを揃えておけば、プロジェクトはスムーズに進められ、完成度も高まったはずです。

まだまだ、完成度は上げられるはずなので今後に期待したいと思います。