仕事を支え、生活を便利にする、PFUの技術
~音響識別AI技術と日本酒の出会い~

昨年10月、国際的な展示会「CEATEC 2019」で、あるユニークなテクノロジーが出展された。
音で感情を分析するPFU独自の「音響識別AI技術」である。デモレベルではあったが、さながら“音をスキャンしている”ようなこの技術は、ブースに来場したお客様に驚きと期待を持って迎えられ、高い評価をいただいた(注1)。
あれから1年。「音響識別AI技術」は着実に進化を遂げていた。

本稿では、世界トップレベルのPFUの「音響識別AI技術」の特長や活用シーンについて解説するとともに、この技術を応用した具体的な事例の1つである「新たな日本酒体験プロジェクト」についても紹介する。

※記事中に記載のある『Rising-V活動』は、現在は終了しています。

世界が認めた技術 ~PFUの音響識別AI技術はここが違う~

PFUと聞くと、イメージスキャナーを連想する人も多いはずだ。そのことは、世界シェアNo.1(注2)の実績からもうなずける。しかし、PFUにはもう1つの世界No.1があることをご存知だろうか。
「音響識別AI技術」である。PFUは、この技術に関する国際コンペティション「DCASE2018 Challenge Task4」において、世界各国の50システム中、1位を獲得した(注3)。さらに、「DCASE2020 Challenge Task2」では、与えられた6分野の課題音の識別のうち、4分野において世界トップの成績を収めている。
こうした高度な技術はどのように生まれたのだろうか。

きっかけは単身赴任のアパート探しでのトラブル

立ち上げ当初から関わっている技術開発統括部の小坂さんに話を伺った。
さぞかし、十分な調査研究と組織的な専任体制の下、万全の状態でスタートしたのかと思いきや、意外な答えが返ってきた。

──音に取り組むきっかけはどんなことだったのでしょうか?
小坂単身赴任先で契約したアパートの騒音問題がきっかけです。実際に住んでみて初めて分かることがたくさんある訳ですが、中でも音の問題はやっかいです。下見の時には気づかなかった上の階の音、外からの騒音。もし、その部屋でいつ・どんな音が聞こえるかをあらかじめ集音して知ることができたら無用なトラブルも防げるのではないか?そして、当時注目されていたAI技術を活用すれば解決できるのではないか?とボンヤリと考えていました。2016年の冬のことです。

──そこから開発をスタートしたのですね?
小坂いえ。当時のPFUには音響識別に関するノウハウも実績もなかったので、まずは、動向や技術の調査から始める必要がありました。その時に活動の大きな支えとなったのが、社員のアイデア実現を支援する制度である「Rising-V活動」でした。手探り状態の不安なスタートでしたが、集まったメンバーは、皆、「新しいサービスを創出するんだ」という気概をもって臨んでいました。

──わずか2年で世界No.1になったということですか?
小坂そうですね。家庭内の音を検出して分類するというタスク(Task4)に関して、ありがたいことに最高の評価をいただきました。しかし、ここに至るまでは、未知の分野ということもあって、試行錯誤の連続でした。

社内制度を有効に活用できたとはいえ、さすがに気概だけでは世界トップレベルの評価を得ることは難しいだろう。そこには、独創的で確かな技術があったに違いない。次は、その技術の特長について見ていこう。

特長の中に現れるPFUらしさ

ここからは、技術の特長を、同じく技術開発統括部の葛西さんに解説していただく。

──PFUの音響識別AI技術の特長を教えてください
葛西大きく3つあって、その1つに「音の識別の精度」が挙げられます。精度に関しては、無数のノイズがある環境の中からいかに目的の音を抽出し、そしていかにその正しさの確率を高めるかが問われます。一般に、音を識別する場合、様々な音を機械に学習させ、一定のモデルを作成した上で、そのモデルを利用して識別(判別)することが多いのですが、当社の音響識別AI技術はその識別の精度が高いという点が特長です。DCASEの例ではその判別の正確さのスコアが最も高かったということです。

──ほかの特長は?
葛西「エッジ(現場)環境でも動作する」という点です。音を識別するセンサー装置は利用環境を選びません。もちろん、クラウド環境での動作も可能ですが、ネットワーク環境がない場合も想定して、その場に置いただけで音の識別をしてくれます。このことは、少ない資源(メモリーやCPU)での動作が可能であることを意味します。会社、工場、病院、家庭内といったそれぞれの現場の特性を考慮した上で、その場ですぐ使えることを重視し、“簡単なセットアップ+省電力+コンパクトな筐体”をコンセプトに掲げています。

──3つ目の特長は何でしょうか?
葛西先ほどの特長とも関連しますが、「プライバシーやセキュリティに配慮している」という点です。「エッジ環境でも動作する」ということは、AIによる分析処理をエッジ側で行うということです。つまり、集音データをクラウドに送らないことで、セキュリティに配慮するとともに、プライバシーが気になる人に対する心理的な障壁をなくしています。

説明していただいた特長はいずれも、決して華やかなものではなく、むしろ、ICTを活用した製品を社会に提供する上では必須の特長といえるかもしれない。しかし、葛西さんはこう話す。

「機械に学習させる音の種類と量を増やせば精度は上がります。しかし、我々は、異音を収集する時間や手段など、費用対効果を勘案した中で、精度をより高めることはもちろん、特長の中にPFUらしさをしっかりと出してお客様に受け入れてもらえる製品を提供していきたいと考えています」。「PFUらしさとは、『お客様の現場に価値を提供するエッジソリューションパートナーを目指す』という、当社のメッセージを具現化することだと思っています」。

確かな「音」の識別がビジネスを創出する

さて、続いては、この技術が、どんな領域のどのような場面で効果を発揮するのかといった点について、活用シーンを例示しながら見ていきたい。

読者の中には、スマートフォン上で音声をテキストに変換したり、音声で機器に対する動作を指示したりといったことを経験した人もいると思う。とても便利で我々の生活の中にも溶け込んでいるが、実は、これは音声認識という領域であり、主に言語モデルを用いてコンピューターが音声を解析し、認識するという仕組みだ。そのため、言語情報に依存するという特徴がある。一方、声だけで感情を分析したり、音だけで機械の異常音を検知したりといった、音を言語と結びつけずに音のまま判別する領域もある。
すでにお気づきのとおり、本稿では、“音響識別”という表現を使っている。つまり、音声識別に限定せず、言語とは基本的に関係のない「環境音」の識別をも包含していることを意味する。そのため、活用シーンも多様だ。
では、早速、その一例を見てみよう。

音の検知が“安心・安全”を作り出す

最初は、「工場や倉庫」における活用例である。
近年の工場は、AIやIoTといったテクノロジーの進化によって自動化が進み、産業ロボットやAGV(無人搬送車)の導入で人が介在する場面は少なくなってきている。とはいえ、現時点では人の代用が難しいケースや局所的あるいは過渡的な措置として人を配置する場面はまだまだ多い。ここでは、そういった状況を前提として、工場や倉庫における音響識別AI技術の応用について考えてみる。

工場や倉庫内では、フォークリフトでパレット(荷物を載せるための荷役台)を運ぶ光景が一般的だ。熟練の運転手が操縦しているとはいえ、パレットの積み込みが不完全な状態で運搬することがないとはいえない。気づかずにいると、商品の破損や事故にもつながりかねない。そんな時、パレットの引きずり音を異常音として検知し、早めに運転手に警告することで、事故を未然に防止することが可能になる。
同様に、不注意で作業者の身体の一部が大型機械に巻き込まれた場合など、一刻を争うような非常事態に素早く対応するために、衝撃音や悲鳴(事故に関連する音)を異常音として察知し、管理センターに瞬時に連絡するといった活用も考えられる。
音の検知が“安心・安全”を創出する例といえよう。

音の検知が“生活の現場”を支える

次は、家庭内での活用例を紹介する。
少子高齢化が叫ばれて久しいが、より深刻なのが、一人暮らしが増加傾向にあるという点だ。内閣府の「平成30年版高齢社会白書(注4)」によると、2020年は、65歳以上の一人暮らしが700万人を超えるという。人口の割合としては、65歳以上の5人に1人が一人暮らしということになる。
そんな時、頼りになるのが、PFUの音響識別AI技術だ。

今年、80歳になる田中さん(仮名)は5年前に最愛の妻を亡くし、以来、一人暮らしを続けている。一人の生活には多少慣れてきたが、実はある悩みを抱えている。それは、最近、耳が遠くなったことだ。玄関のチャイムやヤカンが沸騰したことに気づかなかったことも一度や二度ではない。幸い、トラブルや事故にはならなかったが、PFUの音響識別AI技術を応用したセンサー装置は、チャイムやヤカンの沸騰音を検知し、それをLEDライトで視覚的に知らせることができるため、生活の支援にも一役買うことができる。

音の検知が“犯罪”を抑止する

最後は、銀行での活用例を紹介する。
特殊詐欺の被害が後を絶たない。警察庁の調べによると、令和元年の特殊詐欺の認知件数は16,851件、被害額は315億円を超えたという。ここでも、高齢者(65歳以上)の被害の割合が83%と際立っている(注5)。
特殊詐欺の手口は様々だが、言葉巧みに被害者を銀行のATMの前まで誘導し、現金の振り込みをスマートフォンで指示するというケースもあるという。PFUのセンサー装置を活用することで、例えば、ATMの前でお年寄りがスマートフォンで喋っている音を検知したら、振り込め詐欺を疑い、行員に即座に連絡するといったことも可能である。
ATMの前での会話がすべて振り込め詐欺ということでもないが、センサー装置をスピーカーとして使用することで、「振り込め詐欺に注意してください♪」と音声を流すだけでも、パニック状態のお年寄りに対する注意喚起にはつながるはずである。
音の識別が犯罪の抑止を支援する例といえよう。

このほかにも、以下のような活用シーンが考えられる。

  • 保育園内の子供たちの声(笑い声、泣き声、喜びの声)を分析・集計することで、園内のイキイキ度をモニタリングし、保護者に対して“音の通信”を定期的に発信するといったケース。
  • ベッドに入ったことを音から検知し、就寝中のいびき、歯ぎしり、寝言を自動録音し、無呼吸症候群の危険を予知するといった健康管理の用途に活用するケース。

このように、音響識別AI技術の活用シーンは多彩だ。展示会などでもこの技術に対する評価も高い。しかし、ビジネスとして具体化するためには課題も多いという。再度、小坂さんに伺った。

「世界トップレベルの技術という自負だけでお客様に対して活用シーンを提示しても、なかなか次の段階に進みません。当たり前ですが、アイデアを提示するだけではなく、お客様の困り事を真剣に考えて、そしてこの技術をカタチにして解決策を示すことが重要だと気づきました。それからは、この技術を活用した試作機を開発し、お客様に対して実際に使い勝手や精度を目の前で確認していただき、そしてコメントをもらうことをベースとした活動を続けています」。
「こうした提案活動が奏功し、今では、“一緒に検証実験をやりたい”、“わが社の技術と融合した新サービスが展開できないか検討したい”といった、前向きなご意見をいくつかいただいています。今後も、幅広い業種の技術と共創することで、新たな価値と体験をお客様に提案していきたいと考えています」。

音響識別AI技術がイベントを盛り上げる~新日本酒体験~

活用シーンの例でも分かるとおり、音響識別AI技術の応用範囲は広く、ジャンルも多様だ。もちろん、イベントでの利用も例外ではない。
ここでは、あるユニークな取り組みについて紹介する。その名も「新日本酒体験プロジェクト(注6)」。
何が「新」なのか? PFUと「日本酒」にはどんな関係があるのか? その答えを早速、探ってみる。

“伝統をつなぐ想い”から生まれたプロジェクト

石川県の能登半島北部に位置する能登町(のとちょう)。この静かな町で毎年7月に開催される「あばれ祭」は、350年前から伝承され、県の無形民俗文化財にもなっている勇壮な祭りである。残念なことに、今年は新型コロナウイルスの影響で、長い歴史の中で初めて中止になってしまった。疫病退散を願って始まったこの祭りが、コロナで中止になるのは何とも皮肉だが、強行することで思わぬ結果を生むことだけは何としても避けたいという背景から、やむなく中止に至ったという。
こうした状況下で、本社を同じ石川県にもつPFUが何かできないかという想いでスタートしたのが、「新日本酒体験プロジェクト」である。

あばれ祭の掛け声や環境音の中から「歓びの声」だけを音響識別AI技術で抽出し、それを日本酒に聞かせて製造するという試みである。また、オンライン飲み会専用アプリも開発した。これは、同技術を応用し、オンライン飲み会での盛り上がり度合いを計測し、その場の状況にあった日本酒をレコメンドしてくれるというものだ。

酒造りを通して自然と文化を継承する

あばれ祭が開催される能登町には、明治2年創業の酒蔵がある。今回のプロジェクトにおいて日本酒の製造を担当した「数馬酒造」である。代表銘柄の「竹葉(ちくは)」の名前を聞いてピンとくる人も多いだろう。

祭りに欠かせないのがお酒。神様に捧げたお酒(御神酒)をいただくことで霊力を分けてもらい、神に感謝し、ときには祈願する。日本人はこれを繰り返してきた。こうしてみると、祭りも酒造りも神事といえる。神事であるあばれ祭を愛し、酒造りを通して能登の自然と文化を継承してきたのが数馬酒造である。
8月末、その酒蔵を訪ね、製造の途中経過を見せていただいた。大きな酒樽にあばれ祭の歓びの声を聞かせ続けた結果、少しお酒に変化が出てきたとの知らせを受けての訪問であった。筆者がお邪魔した時も、まさにスピーカーで音を聞かせている最中であった。

植物に話しかける、家畜にクラシック音楽を聞かせるという話はよく耳にする。では、製造過程のお酒に祭りの歓声を聞かせたらどんな味になるのだろう。そこに1つの答えがある訳ではないが、筆者は、祭りの歓声を聞かせたお酒と、通常のお酒の飲み比べをさせていただいた。もちろん両方おいしいのだが、前者は、お米のふくよかな味わいが口全体に広がり、何というか、凛として背筋が伸びるような味(?)だ。ちなみに、筆者が試飲した時の味と、皆さんが口にする時の味(あばれ祭の歓びの声をさらに1か月聞かせた味)は、それこそ“一味”違ったものになっているはずである。

このお酒は、人々の想いをつなぐことを願って「継音(つぎね)」と命名され、いよいよ10月に解禁となる。
あばれ祭は中止になったが、平和な社会と明るい未来を願うこの祭りの想いは、PFUのテクノロジーと、酒と地域とあばれ祭を愛する数馬酒造によって確かに引き継がれている。
せっかくの機会なので、お酒のプロである数馬社長に「おいしいお酒」の定義を聞いてみた。

数馬社長「“甘口が好き”“辛口が好き”というお客様に対してそれに合ったお酒をお勧めすることはできますが、『おいしいお酒はこれです』と言うことはありません。あえて答えるとしたら、『お客様がおいしいと思うお酒』が最もおいしいお酒です。継音もそういったお酒になることを確信しています」。

日本酒の新しい楽しみ方を提案するアプリ

次に、オンライン飲み会専用アプリについて、その特長と使い方を紹介する。

Withコロナ時代の新たな飲み方のスタイルとして「オンライン飲み会」が増えている。
PFUが開発したオンライン飲み会アプリは、飲み会に参加している人の声の感情(大きさやトーン)を分析することで、その場の盛り上がり度や喜び度を見える化してくれる。さらに、会話の中に登場する単語を検知・解析し、それを手掛かりにその場の雰囲気に応じた日本酒を映像とともに提案してくれる。
例えば、会話の中で「猫」というキーワードが出てきた場合、猫の名前を冠した日本酒や、猫のラベルが貼られた日本酒をこのアプリが紹介してくれるので、その場が盛り上がることは必至だし、新しい日本酒との出会いを楽しむこともできるのである。

読者の中には、会話を解析されることへのプライバシーを気にする人もいると思うが、心配無用だ。
オンライン飲み会中に収集された感情分析や環境音識別のための音声データは、飲み会終了と同時に削除され、クラウド上に保存されることはないからだ。また、会話の内容を意味として解析することもしていないのである。つまり、音声をテキスト変換して自然言語データを生成している訳ではなく、声を音としてのみとらえて解析しているのである。

このアプリは、離れた場所にいる皆の気持ちを、簡単にそして楽しくつなぐためのお手伝いをしてくれる。話題を提供することで、参加者の気持ちや感情の共有を促進するということから、「emopair(エモペア:エモーショナルペアリング)」と名付けられた。また、使い方もいたって簡単で、オンライン飲み会の主催者が発行したURLにアクセスするだけだ。PCでもスマホでも楽しめる。

あばれ祭の歓びの声を聞かせた日本酒「継音」。これまでにない日本酒体験を提供するアプリ「emopair」。
いずれも、世界トップレベルのPFUの技術の応用から生まれたものである。

常にお客様にとっての価値を求めて

我々は音に囲まれて生活している。その音でもって行動を判断することも多い。視覚に障害がある人にとって音は重要な手掛かりになるし、聴覚に障害のある場合でも、その人に代わって音を正確に識別し、それを光や文字に変換することで生活を支えることだってできる。音はすべての人に関係するのだ。
その意味で、「音響識別AI技術」の活用シーンもビジネスと生活の数(現場の数)だけあるといっても過言ではない。多くの可能性を秘めているこの技術は、すべての人にとって“仕事を支え、生活を便利にする技術”といえるのではないだろうか。

お客様のあらゆる現場の課題をエッジテクノロジーで解決するのがPFUだ。その解決は、決して技術主導でなされるものではなく、常に現場のお客様と一緒になって悩み、挑戦するプロセスの末に実現するものである。
PFUは、これからもお客様にとっての価値を常に求める姿勢を守り続けていく。その先にある、真の「ソリューションパートナー」を目指して。

(注1)PFUジャーナル「エッジ技術で共創する未来 ~CEATEC 2019 イベントレポート~」を参照。
https://journal.pfu.fujitsu.com/00036/

(注2)ドキュメントスキャナーを対象とする。日本・北米はKEYPOINT INTELLIGENCE社(InfoTrends)により集計(2019年実績)、ドキュメントスキャナー集計よりMobile/Microを除く6セグメントの合計マーケットシェア(主に8ppm以上のドキュメントスキャナー全体)。欧州はinfoSource 社(2019年実績)の集計に基づく、西欧地区(トルコとギリシャを含む)におけるシェア。

(注3)DCASE(Detection and Classification of Acoustic Scenes and Events)は、IEEE公認の国際コンペティション。Task 4は家庭内の様々な環境音(犬の鳴き声、掃除機、髭剃り機など)を識別する精度を競うカテゴリー。

(注4)内閣府の「平成30年版高齢社会白書」の「第1章 高齢化の状況」「第1節 高齢化の状況」より。
https://www8.cao.go.jp/kourei/whitepaper/w-2018/html/zenbun/s1_1_3.html

(注5)警察庁の特殊詐欺対策ページより。https://www.npa.go.jp/safetylife/seianki31/1_hurikome.htm

(注6)世界トップレベルの「音響識別AI技術」を保有するPFU、150年以上の歴史をもつ酒蔵「数馬酒造」、そしてリカー・イノベーションが運営する新しい酒屋「KURAND」の3社がコラボレーションして、新しい日本酒体験を提案するプロジェクト。日本酒は「Makuake(マクアケ)」より限定販売され、PFUが開発したオンライン飲み会アプリ「emopair(エモペア)」も提供される。

SHARE