データ分析でビジネスを成功させる、レガシーな企業やテック企業のデータとの関わり方

2018年3月6日、ビジネス領域でのデータ分析活用をテーマにしたイベント「CTO meetup データ分析でビジネスを成功させる!」が開催されました。 イベント前半は株式会社DATUM STUDIOのCAO、里氏がデータ分析の成功事例をエンジニア視点で語り、後半はデータ分析の最新動向や分析の成否を握るポイントについて、第一線で活躍中のCTOらパネリストが議論しました。データ分析を活用する際のポイントや注意点についてレポートしていきます。

テーマ1:データ分析の成功事例

【登壇者プロフィール】
里 洋平氏
里 洋平氏
DATUM STUDIO株式会社 取締役兼CAO
ヤフーで推薦ロジックや株価の予測モデル構築などの分析業務に従事した後、DeNAやドリコムでビッグデータマイニングやデータ分析環境の構築に携わる。その後、DATUM STUDIOを設立。R言語の東京コミュニティTokyo.Rの主催者でもある。

専門家を凌駕する予測精度を実現

里:今回は弊社が手掛けたデータ分析案件について、3つケーススタディをお話していきます。 最初に紹介するのは、自動車関連会社の案件です。中古車売買は高値で買い取ると赤字になり、安値だと顧客に車を売ってもらえないというジレンマがあります。ですから、できる限り正確に売却価格を予測する価格査定のプロセスが非常に重要です。 現状では専門の査定士が車体カラーやボディ形状、走行距離などを総合的に勘案して査定価格を算出しています。この予測精度はかなり高く、ベテランの方ともなれば誤差±数%で売却価格を予測できるのです。しかし人間に任せている以上、人件費などの負担も大きい。そこでこの問題をAIで解決できないか、というお話でした。

ご相談いただいた後、まずは機械学習の代表的手法であるランダムフォレストをベースとした売買予測モデルを作成しました。ランダムフォレストは元データから様々な特徴量をサンプリングし、「あらゆる視点で作ったモデル」を作成して統合します。これにより予測結果は高精度になり、頑強性も高くなるので、ビジネスデータと相性の良い分析手法といえるでしょう。

しかし、最初のアプローチはうまくいきませんでした。中古車の状態を記録した査定データと、実際の売却価格データの2つを用いてモデル作成したところ、精度は誤差±十数%程度に留まり、査定士の精度を超えられなかったのです。 ブレイクスルーとなったのは、社内に蓄積されていたデータだけでなく、外部で公開されているオークションの落札価格データも使い、データ量を増やしたことです。併せてランダムフォレストだけでなく独自の分析手法も組み合わせたモデルも作成し、査定士を大幅に上回る予測精度を実現しました。

この事例のように、機械学習を用いたデータ分析では、初めから人の能力を超える成果を残せるわけではありません。基本的には試行錯誤を繰り返し、予測精度を向上させます。

異常検知を半自動化、工数を削減

里:2つめは複雑な通信ネットワークを構築した企業からの依頼。ネットワーク上で生じた異常を早急に検知する仕組みが欲しいというご相談でした。

ネットワーク上で異常が検知された場合には、通信機器のログを解析して故障原因を探り、異常再発防止のためのルールリストを作成するという事後対応が一般的です。しかしこのルール化作業を人力で処理するのは大変なので、機械学習で代替できないか、とお声掛けいただきました。

異常検知の案件では「正常時のデータに比べて異常時のデータが圧倒的に少ない」という点がしばしば問題になります。この量的な不均衡を無視してモデルを作成しても、正常と異常をほとんど区別できないモデルが生まれるだけです。

そこで発想を転換し、ネットワークの異常状態よりも正常状態に注目して「正常状態からどれだけ逸脱しているか」をスコアリングする「異常度スコア」を作成しました。これにより、現在のネットワークが正常域からどれだけ外れているかを測定し、スコアの値次第でオペレーターにアラートメールを送信、オペレーターが実際に機器を確認するという仕組みを作りました。 この方式を導入することで、人力でのルールリスト作成よりも工数を削減できたのです。

校正用文章予測モデルをLSTMで作成

里:最後はマネックス証券からいただいた案件です。従来、同社がネット上に掲載している金融関係の文章コンテンツは専門の部署が数人掛かりで誤植や専門用語のチェックなどの校正業務を担当していましたが、「膨大な労力が必要なので、なんとか作業工数を減らしたい」とご要望をいただきました。

そこで時系列データを扱えるディープラーニングの一手法LSTMを用いた文章予測モデルをご提案しました。このモデルに公開済みコンテンツを「正しい文章」と定義して学習させると、特定の単語列の後に出現しやすい言葉を確率的に予測します。 もしも文章内に過去例がない、あるいは著しく出現確率の低い単語の繋がりが発見された場合、その部分が赤字でチェックされます。

ただ、このモデルは「トランプ大統領」や「EU離脱」など比較的新出の単語に対応しづらいなどの問題も抱えています。また、校正精度は90%で一見高そうに見えますが、100個文章があった時に10個校正に失敗するわけですから、十分な性能とはいえません。

モデルの精度改善の話もありましたが、もともと完全自動化はやらない想定で、運用していく上では現状の精度で問題無いという判断になりました。 文章校正は汎用性のあるものなので、本件とは別に今後精度改善を進めていきたいなと考えております。 CTOmeetupデータ分析

テーマ2:データ分析を成功させるために必要なこと

【モデレーター】
進藤 圭氏
進藤 圭氏
ディップ株式会社 次世代事業準備室/Dip AI.Lab室長
ディップに新卒入社後、「ナースではたらこ」など20件以上のサービス企画に参加。現在は、人工知能メディア「AINOW」、スタートアップメディア「StartUpTimes」、アニメの舞台めぐり「聖地巡礼マップ」などの責任者として活躍中。AI研究開発や事業提案、講師なども兼任。
【登壇者プロフィール】
浅谷 学嗣氏
浅谷 学嗣氏
株式会社エクサウィザーズ 執行役員
ディープラーニングを活用した筋骨格モデリングやロボット制御を研究し、2015年12月には人工知能研究会(現AIR)を立ち上げる。2016年6月、大阪大学大学院修士課程在籍中に株式会社エクサインテリジェンスにジョインし、後にCTOに就任。2017年10月から現職。
【登壇者プロフィール】
関根 裕紀氏
関根 裕紀氏
株式会社SQUEEZE CTO
複数企業で新規サービス開発やマネジメント業務を経験したのち、2015年から現職に就任。コミュニティ活動としてPythonカンファレンス「PyCon JP 2015」の副座長を務めるほか、「Pythonもくもく会」を主催。共著書に『Pythonエンジニアファーストブック(技術評論社)』など。
【登壇者プロフィール】
里 洋平氏
里 洋平氏
DATUM STUDIO株式会社 取締役兼CAO
ヤフーで推薦ロジックや株価の予測モデル構築などの分析業務に従事した後、DeNAやドリコムでビッグデータマイニングやデータ分析環境の構築に携わる。その後、DATUM STUDIOを設立。R言語の東京コミュニティTokyo.Rの主催者でもある。
【登壇者プロフィール】
吉崎 亮介氏
吉崎 亮介氏
株式会社キカガク 代表取締役社長
京都大学大学院卒業後、ITベンチャー企業を経てキカガクを創業する。日本マイクロソフトとPreferred Networks両社が公認するデータサイエンス人材養成トレーナー。現在、SOMPOホールディングスや京都府データサイエンティスト養成研修などの案件を担当中。

イン・アウト両方に対応するスキルが重要

進藤:まずお聞きしたいのは、みなさんのデータとの関わり方です。現在所属されている企業で、どのようにデータを取り扱っていますか。

浅谷:弊社ではソリューション事業、プラットフォーム事業、HRテック事業の3つをメインに事業運営していますが、各事業で扱うデータの種類や形式はそれぞれ全く異なります。ただ、限られたデータを扱いつつ、お客様のご要望を汲んでアウトプットを設計していくという目標はどの事業の場合でも共通していますね。

関根:宿泊施設の売上予測を正確に出すためには、競合他社の価格、シーズナリティ、周辺のイベント情報、現在のホテル稼働率など多様な変数を考慮しなければなりません。日々自社の運営施設からデータを収集するほか、競合施設の情報をWeb上から集め、試行錯誤しつつ予測精度の最適化に取り組んでいます。

進藤:SQUEEZEさんはオープンなデータを分析対象にしています。誰にでも開かれたデータを使いつつ、高い予測精度を担保する。ここが特徴です。

吉崎:機械学習によるデータ分析は「データXから結果Yを予測する」というセットで考えなければなりません。ところがXとYを切り分けて考えられず、せっかくデータを用意しても「何をしたいか」が決まっておらず、具体的なアクションに結びつかないというケースは多く見られます。弊社が主に取り組んでいるのは、この点の意識改革です。

進藤:非常に重要な指摘ですね。データサイエンティストとして稼ぐためには、データのインプットとアウトプット、その両方に対応できるスキルが大事だということです。

事業理解を深めつつアウトを設計

進藤:データを用いて事業に貢献した事例はありますか。

関根:昨年9月にホテル「Minn」をオープンしましたが、オープン直後は宿泊客のデータがないため、オープン後3ヶ月位は価格を抑えて稼働率を上げる施策を行い、宿泊客の出身国や平均宿泊日数などのデータを把握するように努めました。それによりプラットフォーム別の流入客数や宿泊客の属性が次第につかめてくるので、そこからマーケティングに繋げていきました。

進藤:料金値下げなどの事業コントロールが効果的なデータ収集に繋がることもあると。

関根:収益の最大化を目指すのか、あるいは一時的には稼働率を上げたいのかなど、その時点での戦略やゴールをどこに置くかによって変わりますね。

進藤:事業内容をよく理解し、そのうえでアウトプットの設計を考えていく、ということですね。

里:成功談ではなく、うまくいかなかったパターンですが……。スマホアプリの売上を予想してくれという依頼を受けた時の話ですが、弊社でシミュレーションしたところ「絶対成功しない」という予測結果が出ました。ところがクライアントは予測結果に納得せずにアプリをリリースし、結局億単位の損失を抱えて撤退することになりました。「データは嘘をつかない」という証明にはなりましたが。プロジェクトとしては失敗ですね。データ分析は、分析結果を元にアクションを起こさないと意味がありません。

吉崎:案件として取り組みやすいのは、製造系の企業ですね。現在、化学系メーカーのコンサルタントを担当していますが、課題が明確なのでプロジェクトを進めやすく、しかも成功時のインパクトが大きい。3%程度しか品質改善ができなくても、改善効果は数億円ということもあります。

進藤:わずかな労力で大きな結果が残せるものを扱う。上手なプロジェクト進行の見本です。

メソッドに詳しくても「一流」ではない

進藤:データサイエンティストに必須のスキルについて、みなさんのお考えを聞かせてください。

里:「きちんとデータと向き合う」というマインドではないでしょうか。エンジニアにありがちですが、分析がうまくいかないと「この手法では駄目なんだ」と考えて色々な論文を読み、分析手法を変えてみたがる人は多い。けれども、実際に大事なのはどうデータを作り込んでモデルに食わせるか、という部分です。多くの分析手法を知っているだけでは「一流」のデータサイエンティストとはいえません。

進藤:データサイエンティストがこだわるべきなのはメソッドでなく、データを見るのが好きかどうかというアティチュードの側面だということですね。

浅谷:AIのプロジェクトに関わっていると実感しますが、技術力だけでなく、お客様のニーズに応えるコンサルタント的な能力は必要です。ニーズとデータのギャップを繋ぐために、プロジェクトマネジメントとしての役割を果たすことが求められます。

進藤:たしかに業務理解をしっかりできる技術者は少ないです。データサイエンスの知識がある人はプロジェクトマネジメントを学ぶ、反対にプロジェクトマネジメントに携わる人は、データサイエンスに触れることが今後重要になるでしょう。

吉崎:弊社の受講生にはオペレーションをAIなしで動かせる人、その状態でバリューを出せる人になって欲しいと考えています。いきなりAIを投入して成果を出そうとしなくてもいい。まずはRPAやクラウドソーシングを使ってもいい。これらを活用したうえでAIを念頭に設計をしていくこと、これが大事です。

進藤:「RPAでも何でも使ってきれいなデータを取るところから始めましょう、その次は機械学習、ディープラーニングです」と、クライアントに対して段階的に提案できる人材は貴重ですね。 CTOmeetupデータ分析② ビジネス領域でのデータ分析活用をテーマにした【CTO meetup】データ分析でビジネスを成功させる! ご登壇者の皆様、ご参加いただきました皆様、ありがとうございました。 CTOmeetupデータ分析③ 次回の【CTO meetup】は、2018年4月12日(木)を予定しています。 【CTO meetup】Rust, Go, Elixir 次世代言語の魅力をCTOが語る。大手企業で広がり始めている次世代言語の魅力をお伝えいたします。

LINEでフリーランスの案件情報や最新Tipsを受け取る

FLEXYとはABOUT FLEXY

『FLEXY』はエンジニア・デザイナー・CTO・技術顧問を中心に
週1~5日のさまざまな案件を紹介するサービスです