<“Google Cloud”TOPPAN社内セミナー>【後編】 クラウド環境で求められるデータ&MLエンジニアのスキルとは
2022年7月11日、グーグル合同会社全面協力のもと、TOPPAN社内セミナーが開催された。
「クラウド環境におけるデータ・機械学習エンジニア人材について」と題したトークセッションの後編では、Google 佐藤氏よりGoogle Cloudを使いこなしていくために必要なスキルが紹介されたほか、データエンジニア&MLエンジニアの将来像についての考察が行われた。
※所属企業名・部署名は2022年7月時点
登壇スピーカー: Google合同会社 デベロッパーアドボケイト 佐藤一憲氏 TOPPAN株式会社 情報コミュニケーション事業本部 マーケティング事業部 デジタルマーケティングセンター データ&テクノロジー本部 マーケティングテクノロジー部 1T 西川賢大 TOPPAN株式会社 情報コミュニケーション事業本部 マーケティング事業部 デジタルマーケティングセンター コミュニケーションデザイン本部 インタラクティブ2部 2T 梶原康至 |
■Google Cloudを使いこなすために必要なスキル・Googleにおける人材育成の取り組み
続いてGoogle 佐藤氏から、Google Cloudを使いこなすために必要なスキルと、Googleで実際に行われている人材育成のための取り組みが解説された。
1.「Google BigQuery」の概要と必要なスキル
まずGoogleが行うデータ分析のすべてを支える、Google BigQuery(以下、BigQuery)の概要紹介。
BigQueryは、データウェアハウスの一種で、何テラバイト、何ペタバイトもの膨大なデータ量をスケール問わず格納することが可能なクラウドである。
その背景には、Googleのサービスを支える「Datacenter as a Computer」という概念と仕組みがある。これは20年以上前にGoogleが設置したデータセンターで、1万台を1セットとし、およそ3万台のコンピュータが格納されている。「1万台単位で1台の超並列計算機」として、何千人ものユーザーが共有できる独自のネットワーク、ミドルウェア、アプリケーションが作り込まれている。
Google検索、YouTube、GmailなどのGoogleのサービスはいずれも、この1万台のマシンを柔軟に、かつ瞬時に使いこなしながら実現している。BigQueryが高速な理由も、その仕組みが背景にある。
●「Google BigQuery」の特長
Google 佐藤氏は「通常、利用者側に必要となるデータベース管理者が、BigQueryでは不要」と、その特長を述べる。BigQueryはいわゆる「サーバレス」の仕組みだが、一般的なサービスと比べ規模が違う。BigQueryでSQL検索を行う際、平均2,000CPU、数百台のマシンを瞬時に使い集計する。そしてそれらはGoogleのエンジニアが24時間365日、運用保守していため、利用者側はインスタンスの大きさやサーバのリソースなどを考える必要がない。
また、佐藤氏は「SQLについては少しの知識で、使い慣れたインターフェースから使える」ことも特長と語る。「スプレッドシートをフロントエンドとして、裏側に大きい巨大テーブルがあり、フィルタリングした特定のデータだけをスプレッドシートで集計するといった処理が、簡単に行えます。」と述べた。
●BigQueryで起きた「データの民主化」
Google 佐藤氏は、これから求められるデータエンジニア、MLエンジニアのスキルと関連し「SQLを用いてデータ集計したり、データウェアハウスで機械学習を行うといった処理は近年、ハードルが低くなってきており、データの民主化が起きています。」と強調した。
すでにGoogleでは非エンジニア、マーケティングリサーチをする社員などが直接SQL、もしくはダッシュボードを触り、本番データを集計しているという。それでも本番環境や顧客に対しまったく迷惑をかけず、さまざまな角度から自由に集計が行える仕組みとなっている。
BigQueryではスケーラビリティだけでなく、使い方の「質的な変化」が期待できることから、データの民主化が実現できるという。そして佐藤氏は「今後、営業部門など、マーケティング分析を行いたい人が自ら分析するといったことが、クラウドサービスの新しい使い方になっていく」と述べた。
これに対しTOPPAN 西川は「BigQueryを触りたいと思うメンバーは、これを機に触って欲しい」と述べる。佐藤氏は、「お試し環境を用意するといいのでは。無償で使えるパブリックデータとして、世界中の気象データやウィキペディアの情報、バイクシェアデータなどが用意されていますので、自由に集計を試すことができます。」と提案した。
●「Vertex AI」の概要と必要なスキル
続いて、Google Cloudで使えるAI系のプロダクト「Vertex AI」について、その概要と必要なスキルがGoogle佐藤氏から紹介された。
Vertex AIはML(機械学習)の知識がなくても簡単に扱えるのと同時に、専門家が行う幅広い分析にも対応できるツールだ。特に専門知識がなくても、専門家並みの性能を持つ機械学習のモデルの学習を半自動的に行ってくれるところが、一番の特長だ。
●事例 セルフレジシステム
ここでGoogle・佐藤氏自らが手がけたという、Vertex AIを使ったクリーニング店のセルフレジシステムの制作事例が紹介された。
服の画像を学習データとして、数千件~数万件を集めて機械学習を実行。1日程度待つと、自動的に95%ほどの性能の機械学習モデルを作ってくれる。自分でプログラミングを書く必要は、ほとんどない。ファイルをダウンロードし、小さいコンピュータに入れ、店舗で使うといったことが簡単にできるという。
●MLエンジニア育成への「Vertex AI AutoML」活用
続いて佐藤氏は、Google社内における「Vertex AI AutoML」ソリューションを用いた、MLエンジニア育成の事例を紹介。データサイエンティストがML初心者に対しAutoMLのトレーニングを提供。プロトタイプ作成を行わせ、その検証結果をデータサイエンティストがチェックする流れである。これにより、1人のデータサイエンティストが扱える案件数が、10倍ほどに増えたという。
■データエンジニア・MLエンジニアの将来像とは?
最後は、「今後、データエンジニア・MLエンジニアにはどのようなことが求められるか」がテーマ。
Google 佐藤氏は「クラウドを用いたサービスを開発する際、従来のようにゼロからクラウドエンジニアが何人も集まり、何ヶ月もかけ、多大なコストをかけて作るといったやり方ではなくなりつつある」と語る。前述の通りBigQueryはビジネスユーザーがSQLを用いて自由に分析できるほか、Vertex AIについてもデータさえ集めればボタン一つで翌朝にはできあがっているなど、ハードルがかなり低くなっている。
佐藤氏は「まずはこうしたクラウドの新しい使い方を、試してしていただきたいです。自分の身の回りにあるセルフレジシステムでもよいですし、家の中の問題を解決するのでもよいです。実際に試してみて、自分で扱えるという肌感覚を得ることが大切です。そうして現場に取り入れれば、どんどん社内に広がっていき、Vertex AIなどを用いて開発する現場が増えるのではないかと期待しています」と述べた。
●事例 プログラミング経験一切なしでセルフレジシステムを自作したクリーニング店
続いて佐藤氏は、クリーニング店の事例を紹介。店主が自らGoogleの機械学習のオープンソースのツール「TensorFlow」を用いて、ベンダーなどの手を一切借りず、セルフレジシステムを作ったという。店主はプログラミング経験が一切ないところから始めたそうだ。
佐藤氏はこの事例について「興味とやる気さえあれば自分の手元の問題を、オープンソースを使いコストをそれほどかけずに試せることが、お分かりいただけると思います。誰でも身の回りの課題を解決できる力としてお使いいただける事例としてご紹介しました」とコメントした。
最後に、TOPPAN 西川と梶原がこのトークセッションを受け、今後のTOPPANにおけるデータエンジニア・MLエンジニアの展望についてコメントした。
TOPPAN 西川は、今後の社内のデータエンジニアについて、「SQLなど、これまで敬遠していたけれどこれなら触ってみたいなと思ってくれる人が、1人でも増えたらと思います。実際に業務改善が実現した結果を社内に共有し、TOPPAN全体でこういったタスクを広げていきたいと考えています」と述べる。
TOPPAN 梶原は、今後の社内のMLエンジニアについて、「難しいところを一つ一つ理解していくというよりも、課題を解決する視点が重要になってくると思いました。気軽に身の回りの課題解決を実践していく時代になってきていると思います。今回、非常に勉強になりました」と語った。
2023.11.30