働く環境を変え、働き方を変え、生き方を変える。

WORK MILL

EN JP

Empathが切り拓く「音声感情解析」の可能性 ― 下地 貴明さん、山崎 はずむさん

amazon echoやgoogle homeなどのスマートスピーカーの普及、ヒアラブルデバイスの台頭など、テクノロジーによって進化した新しい音声コミュニケーションの手段や在り方は、これからの私たちの生活や働き方に大きな変化をもたらしていくことでしょう。
そんな時代を先駆けるように、2011年から「音声感情解析サービス」の開発に取り組んでいるEmpathは、海外のピッチで数々の実績を積み重ね、今やそのサービスは世界50か国、1,000社以上に利用されています。 

今回、WORK MILLではそんなEmpathのCEO下地 貴明さん、CSO山崎 はずむさんにフォーカス。前編では、音声感情解析サービスの現在の活躍の場と、これからの展望について、お話を伺いました。

4つの感情と元気度をリアルタイムで可視化

WORK MILL:Empathが開発している「音声感情解析サービス」とは、具体的にどのようなものなのでしょうか。

下地:簡単に説明すると、音声をリアルタイムで解析して、そこに含まれている4つの感情を可視化する技術です。
いま、この会話の解析結果を向こうのスクリーンに表示させていますが……それぞれ黄色が「喜び・快活」、緑は「平常・落ち着いている状態」、赤は「怒り」などの強い主張、青が「悲しみ・戸惑い」を示しています。

WORK MILL:喜びの指数が高いと、黄色の山が大きくなるのですね。

下地:統計的に、喜びと平常が70%を占めていると安定したプレゼンテーションで、悲しみが30%以上になっていると自信のないプレゼンテーションである、ということが分かっています。

―下地 貴明(しもじ・たかあき)株式会社Empath CEO
早稲田大学教育学部卒業後、システムエンジニア、プロジェクトマネジメントの実務経験を経て、2011年にスマートメディカル株式会社 取締役ICTセルフケア事業部長就任し、音声気分解析技術「Empath」の研究・開発を始める。2017年、同社からスピンオフした株式会社Empathの代表取締役に就任。Affective Computing領域におけるEmpathのビジネス活用を推進している。

WORK MILL:その中で動いている、白い線は?

山崎:あれは「元気度」を示すパラメーターです。たとえば、コールセンターでの実証実験では、この元気度が高い人ほどアウトバウンドコール(企業側から顧客にかける営業のための電話)の成約率が高く、逆に元気度が低い状態が続いている人は離職率が高い、といった結果が得られました。
こうしたデータを集めていくことで、企業でも生産性と結びつく指標として活用してもらえるようなサービスになっています。
 

ー山崎 はずむ(やまざき・はずむ)株式会社Empath CSO
東京大学大学院総合文化研究科修士課程修了(専攻:比較文学比較文化)。2015年よりEmpathにジョイン。主に海外戦略・営業を担当する。米国のベンチャー・キャピタル1776 が主催するピッチコンテストChallenge Cup Japan 2017にて優勝、日本代表に選出される。国内スタートアップ同士の連帯を深めるため、2017年7月よりミートアップ・イベント、Tsumuguを主催。

WORK MILL:それぞれの感情や元気度は、どのような仕組みで割り出しているのですか。

山崎:音声の物理的な特徴量―ボリュームやピッチ、スピード、イントネーションなどを解析し、「これくらいの声の音量なら“怒り”が高め、この話す速さなら“平常”寄り」といった要素を抽出し、総合的に感情を判断しているんです。元気度は4つの感情値から割り出しています。

下地:これらの測定の根拠となっているのは、約4万人の音声データを十数人の評価者がすべて聞いて、その評価から導き出した「教師データ」です。

WORK MILL:教師データ?

下地:機械学習の中で、事前にコンピューターに与える「例題と解答」のようなものですね。評価者の半数以上が「喜びだ」とラベル付けした音声を「喜びの教師データ」として、その音声にどのような物理的特徴があるのかを測定します。

WORK MILL:その測定結果を蓄積していくことで、先ほどの「これくらいの声の音量なら“怒り”が高め、この話す速さなら“平常”寄り」といった解析が可能になるのですね。

下地:そうです。なので、教師データが増えるほど解析の精度も上がります。現状ではAPIを無償で提供し、Empathのサービスを広く皆さんに活用していただきながら音声データを収集して、感情解析の精度向上に努めています。

被災地のメンタルケアでも活用

WORK MILL:音声の感情解析を事業にしたのには、何かきっかけがあったのでしょうか。

下地:もともとは、私が以前勤めていた親会社であるスマートメディカルで始めた事業です。私が入社したのは2011年の4月で、その時に社長から「ICTを使ってヘルスケアに役立つものを考えて企画せよ」という命題をもらったのがスタートでした。
日本の医療の現状をリサーチしていくと「ICTを活用したフィジカルなヘルスケアは進んでいる一方、メンタルヘルスケアでのICT活用がほとんどなされていない」ということが見えてきました。そして、メンタルヘルス――人の心にどうアプローチしていくかを考えるために先行文献をあたると、日本では人間の感情や情緒にかかわる「アフェクティブコンピューティング」分野の研究、とりわけ音声からの感情解析があまり進んでいないことがわかって。

WORK MILL:そこに注目して、企画開発をしていったと。

下地:そうですね。プロジェクトとして最初に形になったのは、2013年にdocomoと共同で行った、仙台市の仮設住宅地で支援活動に当たるスタッフの方々のサポート事業です。彼らが朝、出勤してきた時の音声データを解析して、元気度を数値化する取り組みを実施しました。
当時、東日本大震災の被災地では復興に当たる方々の「支援疲れ」が大きな課題として浮かび上がっていました。元気度をチェックすることで「少し調子が悪そうだ」と判断できた人は早めに帰したり、そういった状態が長く続いている人には個別にカウンセリングをセッティングしたりするなど、支援スタッフのメンタルケアに活用してもらったのです。

WORK MILL:とても意義のある活用事例ですね。

下地:導入した施設でのスタッフの離職率が低減する、という結果も得られました。最初は手探りの状況でしたが、ちゃんと役に立てていることが数字で確認できた時は、嬉しかったですね。
このプロジェクトが高く評価していただけて、以降もさまざまな企業との共同プロジェクトを行ないながら解析のアップデートを繰り返していきました。そして、2017年10月に分社化して、今に至ります。

WORK MILL:山崎さんは、プロジェクトがスタートした頃から関わっていた?

山崎:いいえ、僕がEmpathの現場に顔を出すようになったのは2014年の秋口くらいからで、本格的に仕事として関わり始めたのは2015年からです。

WORK MILL:どのようなきっかけから、関わるようになったのでしょうか。

山崎:最初に下地と出会ったのは、2011年頃ですね。新宿のゴールデン街で、たまたま同じ店で飲んでいたんです(笑)

下地:そこからしばらくは、たまにゴールデン街で顔を合わせる、ただの飲み友でした。お互い、昼間何をしてるかなんて、一切知らなかったです。あそこで仕事の話しなんかしてたら、嫌なヤツだと思われますからね。
その後、私は2014年から2年ほど大学で研究員をやったのですが、同大学の博士課程に山崎が在籍しているのを知って、彼に研究の手伝いを依頼しようと連絡を取ったんです。そしたら彼が「あなたのこと、無職だと思ってました。何している人なんですか?」と聞いてきて(笑)。そこで初めて仕事の話をして、彼が少しずつ関わってくれるようになりました。

WORK MILL:山崎さんは、もとからメンタルヘルスケアの分野や、音声による感情解析などを研究テーマにされていたのですか?

山崎:いえ、直接の研究分野にしていたわけではありません。僕は大学で比較文学科に所属していて、文学研究や分析哲学などに取り組んでいました。
哲学の分野でもAIや人工知能の話題は長く扱われていて、僕自身としても「人工知能はどこまで人間に近づけるのか、人間的な意識の再現は可能なのか」などのトピックには関心がありました。その文脈の中で、音声で感情解析をするという行為は、最初は「なんか怪しいな」と懐疑的だったりしたんですけど(笑)、興味深いジャンルだとは感じていました。

下地:僕も彼と同様、大学では国文を専攻していた文系の人間です。ただ、人の心の在り方には興味があり、心理学には触れていて。それに加えて、精神面で体を壊す人が周りに増えてきたことをきっかけに、段々とメンタルヘルスの領域に関心を持つようになりました。今の仕事は、自分事として「大事だな、何とかしていきたいな」と感じられることにアプローチできているので、とてもやりがいを感じられています。

音声感情解析が、車の事故を減らす?

WORK MILL:近い将来、音声感情解析はどのような分野で実用化が進んでいくでしょうか。事業の話をして、とくに反応がいい業界などはありますか。

山崎:直近で言うと、自動車業界ですね。2017年に開催されたCES(Consumer Electronics Show)で、トヨタが表情感情解析や音声感情解析などの機能を搭載したコンセプトカー「TOYOTA CONCEPT-愛i」を発表したのをきっかけに、ドイツやアメリカの自動車メーカーからリサーチの問い合わせが一気に増えました。「話を聞かせてくれ」と、海外で行なわれるイベントに呼ばれることもあります。
実際、自動車の中で音声感情解析がどのような役割を期待されているか……具体例を挙げると、「ドライバーのいら立ちを検知して緩和させるようなセーフティ機能として使えないか」といった可能性が探られていたりします。事故に繋がりやすい感情状態になっている時に、休憩を促したりするようなイメージです。

下地:それと合わせて、ドライバーの感情状態に合わせた情報コンテンツを適切に提供する「カーインフォテイメント」も発展していきそうですね。これについては、現在私たちもdocomoと共同で開発に臨んでいます。

WORK MILL:「感情状態に合わせた情報コンテンツを適切に提供する」というのは、具体的にはどのようなことなのでしょうか。

山崎:たとえば、僕はカープファンなんですけど、運転中で少しイライラしている時に、ラジオから「カープ6連敗です!」なんて聞こえてきたら、さらにイライラする(笑)。それで運転が荒くなって、事故に繋がってしまうかもしれない。だったら、「カープの今季の名プレー集」とか見せてくれたほうがいいじゃないですか。そういう周辺情報を踏まえ、言わば機械側が空気を読みつつコンテンツを選んでくれる機能が、カーインフォテイメントです。

WORK MILL:なるほど。

下地:今後「音声感情解析を車内に活用したことで事故が減った」といったデータなどがとれたら理想的なのですが、現段階の機能レベルでそれを明確に立証するのは難しいです。ただ「なんとなく役に立っているよ」くらいの実感をドライバーに持ってもらえるだけでも、導入していく上でかなりプラスの要素になるので、そのあたりを目標に臨床実験を続けています。

WORK MILL:確かに、何かしらデータの後押しができてくると、一気に普及していきそうですね。

山崎:あと、僕らがビジネス上で売り込んでいきたいと思っているのは、音声ショッピングの領域です。これから「Amazon Echo」や「Google Home」などのスマートスピーカーが普及していくと共に、デバイスに声をかけて注文する行為も一般化していくと見込んでいます。日本ではまだそこまで普及していませんが、高齢者の多い過疎地域などとは相性がいいでしょうね。

WORK MILL:身体が不自由な方にとって、声で注文ができて商品が家に届くのは、とてもありがたいことだと思います。

山崎:この音声ショッピングにおいて「どういう心理状態の時に、どういうものを買っているのか」というデータが集まれば、顧客に対して効果的な広告を提供できるのではないか―こういった観点から、音声感情解析が注目されています。

WORK MILL:そこに、Empathも乗り込んでいくと?

下地:アメリカや中国のEC市場は大きいので、そこに食い込んでいけたらいいなと考えています。私たちの根本の思いとしては、メンタルヘルスケアなどの領域で「人の心に寄り添うためのツール」として使ってもらえるのが理想です。ただ、この音声感情解析の有用性を認知してもらうこと、事業として持続可能な状態にしていくことも大事ですから、ビジネス方面でもしっかり足場を固めていきたいですね。


前編はここまで。後編ではEmpathのオフィスづくり、コミュニティづくりの実践について、詳しくお話を聞いていきます。

2019年1月15日更新
取材月:2018年10月

テキスト:西山 武志
写真:大坪 侑史
イラスト:野中 聡紀