テクの雑学

第186回 歌詞とメロディーを入力して自然な歌声を合成する技術〜VOCALOID TMを知る〜

過去の記事を整理・一部リライトして再掲載したものです。 古い技術情報や、 現在、TDKで扱っていない製品情報なども含まれています。

ポピュラー音楽シーンにおいて「VOCALOIDTM(以下、ボーカロイド)」の存在感が高まっています。ネット上の投稿サイトだけではなく、プロのミュージシャンが作品中に使うケースも増えつつあります。今回は、そんなボーカロイド」について取り上げてみたいと思います。

 現代の商用音楽の「レコーディング」が、さまざまなデジタル技術を駆使することで成立しているのはご存知でしょう。伴奏部分はミュージシャンが楽器を演奏するのではなく、「サンプリング音源」や「デジタルミュージックシーケンサー」といった自動演奏用の機材を使って作り上げる、いわゆる「打ち込み」と呼ばれる音楽作成手法が一般化しています。その伴奏部分を再生しながら、歌手が「歌入れ」を行うわけです。ミュージシャンの演奏による録音の場合でも、録音プロセスやミキシング、マスタリングといった工程はデジタル化されているのが普通です。
 

【 参考情報 】

■テクの雑学・第62回「いつの時代もいい音で −CDの「デジタル・リマスタリング」ってなんだ?−」

DTMで一括管理

デジタル機器による自動演奏とDTMのイメージ

また、パソコンの普及と処理性能の高度化にともなって、DTM(Desk Top Music)と呼ばれるコンピュータを使った音楽作成手法も一般化しています。DTMを定義することは難しいのですが、ここではとりあえず「コンピュータの仕組みを使って作曲、編曲、演奏を行う作業」と考えてください。デジタルシンセサイザーやデジタルミュージックシーケンサーなどの専用機も、構造的にはコンピュータそのものなのですが、DTMはそれらと同等の機能をパソコン用の周辺機器やソフトウェア化したものを使い、コンピュータ上の作業によって音楽を作り上げることを指しています。

 専用のデジタル機器を用いた音楽制作は、①「作曲=楽譜(スコア)作成」②「編曲=譜面に対する音源の割り当て」③「音色や演奏表現の調整」というインプット作業を経て、④ミキサーを使って各音源のバランスを調整、そして⑤「自動演奏」というアウトプットに至ります。専用機を使った作業では、シーケンサーと音源ボードやサンプリングマシンなどをMIDI(Musical Instrument Digital Interface)という規格によって相互に連携させることで一連の作業を行うことになります。シーケンサーは自動演奏用データの作成と、連携する機材に演奏用の命令を発行します。「音源」は、シーケンサーからの命令に応じて実際に「音」を鳴らすための素材集です。シーケンサーを指揮者、音源を楽器ならびに演奏者と考えると理解しやすいかもしれません。

 この一連の作業を、すべてコンピュータの内部で完結させてしまうのがDTMです。DTMも「シーケンサー+音源」による演奏を行うのですが、それらが一体のパッケージとなった、通称でDAW(Digital Audio Workstation)と呼ばれるソフトウェアを用いることが特徴です。シーケンサーなどのMIDI機器を、コンピュータ上で仮想化して扱う作業と考えてもいいでしょう。

 ボーカロイドは、DTM用の合成音声を自動演奏するためのツールとしてヤマハが開発したシステムで、DTM用のシーケンサー機能付き歌声合成音源のようなものです。パッケージに収録している音が楽器のものではなく、人間の音声であることに加えて、演奏上、音声を単なる「音」ではなく「歌唱」として自然なものとするため、さまざまな「音声合成技術」による工夫を盛り込んでいることが特徴です。

 パッケージ製品としてはヤマハ製のもの以外に、基本システムのライセンス供与を受けた各社が独自の拡張を加えたものも販売されています。たとえば「初音ミク」は、ヤマハからVOCALOIDTM2のライセンスを受けたクリプトン・フューチャー・メディア社が、独自に起用した声優の音声を使ってパッケージ化したソフトウェア、という位置付けになります。
 

■ 一筋縄でいかない合成音声

タイミングの調整

 

 音声合成技術によって得られる音声を「合成音声」と呼びます。現在、一般に入手できるコンピュータは、ソフトウェアとしての合成音声を扱うのに十分な処理能力を備えていますから、音源としての合成音声と、その音程を調整しながら連続的に音声を再生するソフトウェアさえあれば、とりあえずの「演奏」は可能です。しかし、それだけではいかにも人工音声がぎこちなく発声している、いわゆるロボットボイスのような状態になりがちです。

 たとえば、譜面上で「あ」という声を長く伸ばす(サスティーンをかける)ように指定されている場合、ただ単に「あーーーー」と棒読み的に演奏したのでは「歌唱」として不自然に聞こえがちです。実際に人間が歌う場合には、声帯が振動を始めてから所定の周波数に達するまでの時間的な遅れや、肺から送り出される空気の量を常に一定に保つことが難しいといった物理的な事情から、「あぁあぁ〜〜〜」といった具合に「揺らぎ」を伴うのが普通だからです。

 さらに、微妙に音程を変えたり、わざとタイミングをずらして発声したりといった「表現」が、ごく自然に加味されます。このような要素が個々の歌手の個性を生み出したり、また音楽ジャンルごとの特徴点となっていますから、合成音声による演奏を「歌唱」に仕上げるためには、そのような人間の歌唱の特徴点や演奏表現をも再現することが必要になります。ちなみに、このような「微妙な音程の変化」や「タイミングのずれ」が「演奏表現」となるのは楽器音の場合でも同じで、演奏者に特有の「グルーブ感」と呼ばれる味わいを生み出す元となっています。

 また、日本語の場合、歌詞に割り当てられている音が母音なのか、それとも子音なのかによって発声のタイミングが異なる特徴もあります。たとえば、母音である「あ」の場合は音符通りのタイミングで「a」と発声すればいいのですが、「さ」の場合は「Sa」の「a」の部分が音符の位置に合っていないと拍がズレて聞こえてしまうのです。つまり、合成音声による自動演奏を自然な歌唱として聞かせるためには、歌詞に使われている文字が母音なのか子音なのか? を判断して発声のタイミングを自動的に調整する機能が必要となるわけです。このような演奏表現を自動的に適用するためのさまざまな仕組みが、「合成音声による演奏」を「歌唱」として成立させる上で重要な要素になっています。

 「音源」の作成方法も楽器とは異なります。楽器の場合、極端に言うと、鍵盤楽器なら備わっている鍵盤の数だけ音をデジタル録音(サンプリング)してしまえば、あとは波形の編集でさまざまな表現が可能になります。しかし、音声を用いた「歌唱」を実現するためには、日本語なら50音だけを発声して録音すれば済むというものではありません。歌唱表現の中では、さまざまな中間音や無声音、言語ごとに特徴的なフォルマントといった要素が重要になる場合もあります。そのような表現を実現するため、ボーカロイド用音源は各言語ごとに固有の「音素(おんそ)」と呼ばれるレベルに音声を分解し、そのすべてを収録する作業が必要になります。

 以前は音素採取のため専用に開発された「意味のない歌詞」を元音声の持ち主に歌わせていましたが、生身の歌手にとっては非常に負荷の高い作業だったことから、現在は意味のある歌詞によって収録できるように改良されています。とはいえ、すべての音素を収録するためには2時間程度歌ってもらわなければならないという、大変な作業を経ているそうです。

 

■ 自然に聞こえるためには

合成音声で「歌唱」させるために大切な機能
 元音声による歌唱を収録したら、専用のソフトウェアを使って元音声を音素に分解し、「シンガーライブラリ」を作ります。ボーカロイドのパッケージは、このライブラリに加えて、歌詞の内容を楽譜に割り当てていくツール「ボーカロイドエディタ」と、ライブラリに収録された音素を使って実際に歌唱を行わせる「音声合成用エンジン」で構成されています。

 ボーカロイドに「歌唱」を行わせるためには、まず楽曲の譜面を作り、次にボーカロイドエディタで楽譜に歌詞を割り当てる作業が必要になります。現状のボーカロイドは、これだけでも一応「歌唱」に聞こえるように細部を自動調整してくれるのですが、前述したような歌唱上の表現を強調したり、より自然な、もしくは特徴的な歌声として聞こえるようにするためには、ボーカロイドエディタの各種機能を使って、細かく調整していく作業が必要になります。ユーザーの間で「調教」などと呼ばれるこの作業いかんで、同じボーカロイド製品を使っているユーザー間でも、それぞれに個性のある歌唱が実現しているのです。

 ボーカロイドの開発者であるヤマハ株式会社の剣持秀紀氏は、ボーカロイドを「あくまで楽器」と位置付けているそうです。音楽関連機器のデジタル化によって、さまざまな楽器の音色がコンピュータ上で再現・編集できるようになった流れの上に、新たに合成音声が加わったことでDTMにおける表現の幅が広がったことは事実ですが、「だからといって、ボーカロイドが歌手の存在価値を下げたり、歌手を置き換えてしまうものとは考えていません」とも断言します。

 昨今、有名ミュージシャンの「ライブ」でも伴奏を自動演奏化している例は多々ありますが、それは音楽表現の一形態にすぎません。ボーカロイドにしても、それを使うことで超ハイトーンや息継ぎなしでの早口歌唱といった、人間では不可能な歌唱表現が可能になり、その意味で「歌」の可能性を拡げることは確かです。また、歌詞の内容や要求される歌唱法から歌手に敬遠されがちな表現を実現することもできます。何よりの利点は、常に譜面通りの歌唱を、何度でもリテイクさせられることかもしれません。

 そして、自動演奏と人間の演奏は対立し合ったり、互いを排除する関係ではないと筆者は考えています。自動演奏が普及する一方で、昔ながらに人間が楽器を演奏するライブ演奏が「その場でしか聴けない音」を楽しむ機会として価値を高めてきたという事実もあります。さらに、ライブ演奏上で自動演奏機材が使われることもまったく珍しくはありませんが、そのことでライブ演奏の可能性はむしろ広がったと言ってもいいでしょう。自動演奏機材は、人間の表現行為の幅を広げるツールとして人間と共存し、互いに影響を与えあうものなのです。

■ 音楽の可能性をより自由で豊かに

 ボーカロイドも、あくまで作業の効率化やボーカロイドにしかできないことを実現するために使うツールとして、まずは使われていくことになるでしょう。場合によっては、いずれ人間の歌手にも影響を与えていくことになるかもしれません。

 その意味も含めて、今後のボーカロイドにとって重要かつ難しい点は、作業の効率化・自動化を進めなくてはならない反面、使い手による表現の自由度を残しておかなければならない、そのバランスです。ボーカロイドの進化の方向性の一つとして、自動化のレベルアップがあげられます。譜面に歌詞を割り当てていくだけで「完璧な歌唱」が実現できれば、非常に便利でしょう。しかし、それを「誰が使っても同じアウトプットが得られる」と考えるのか、「誰が使っても同じアウトプットしか得られない」と考えるかによって、評価が分かれることになります。

 現状のボーカロイドは、使い手のさまざまな工夫によって独自の歌唱表現を得る、いわゆる「調教」作業が「使いこなし」のテクニックとなっており、それによって使い手ごとの個性が得られています。その余地をもって、剣持氏はボーカロイドを「楽器」と呼んでいるのだと筆者は解釈しました。

 さまざまな作業の「自動化」は、IT関連技術が私たちの生活にもたらす大きなメリットの一つです。音楽作成ならびに演奏の自動化も、ある面において大きなメリットをもたらしました。そして、ボーカロイドの登場によって、ついに「歌声を自在に操る」ことが可能となったわけです。「新しい楽器」としてボーカロイドが実現する音楽表現が、音楽全体の可能性をより豊かなものにしてくれることに期待しておきましょう。

取材協力:ヤマハ株式会社


著者プロフィール:松田勇治(マツダユウジ)
1964年東京都出身。青山学院大学法学部卒業。在学中よりフリーランスライター/エディターとして活動。
卒業後、雑誌編集部勤務を経て独立。
現在はMotorFan illustrated誌、日経トレンディネットなどに執筆。
著書/共著書/編集協力書
「手にとるようにWindows用語がわかる本」「手にとるようにパソコン用語がわかる本 2004年版」(かんき出版)
「記録型DVD完全マスター2003」「買う!録る!楽しむ!HDD&DVDレコーダー」「PC自作の鉄則!2005」(日経BP社)
「図解雑学・量子コンピュータ」「最新!自動車エンジン技術がわかる本」(ナツメ社)など

PAGE TOP