【参加記録】データとML周辺エンジニアリングを考える会 #2

【参加記録】データとML周辺エンジニアリングを考える会 #2

簡単に

  • データとML周辺エンジニアリングを考える会 #2に参加してきたので簡単なまとめと若干のコメント

  • 実サービスでのログ管理、どうやってDWHにデータ突っ込んでるのか、という話題が中心でした

  • 普段は機械学習やデータといえばKaggleの話しか知らないので実際のサービスともなればやはり色々大変なのだな、という印象

  • というかKaggleはもうデータがかなり綺麗に整備されて用意された状態からスタートなので忘れがちだったけど、機械学習周辺のデータパイプラインといえば各種ログから整備されたデータを作る話ですよね

  • 自分がこの分野のど素人であることもありコメントは訳のわからないことを書いている可能性があるので基本はリンク先の各資料を辿って貰うのが吉かと

  • 資料のリンクが無いものは資料が探して見当たらなかったものなので所在をご存知の方は教えていただければ幸いです・・・・

各発表

GCPでStreamなデータパイプライン運用しはじめた

  • 本番環境のlogをDWHなどの分析環境に安定的かつ信頼性を担保しつつ転送する話

  • データ転送費用を抑えるためにlogをGCPの外に出さずにBigQueryに投げ込みたたい

  • パイプライン中のデータフォーマットとしてAvroを利用、GCSに生ファイルを保存できる、BigQueryに食べさせることもできる

cloud.google.com

  • データパイプラインで障害が発生する可能性が高いスキーマを決める部分はパイプライン上の一箇所にまとめたほうが管理しやすい

リアルタイムデータ処理基盤の構築

  • m3.comのユーザーの行動ログ処理基盤の構築

  • 20以上のサービスへの間口になっているポータルサイトのシステムを改修している話

  • スピード感を大事にして各サービスを作って来た中で発生してきた課題の解決

  • 課題は各サービスのログデータをポータルサイト側が取りに行っていた事でポータルサイトが各サービスに深入りしすぎていた事

  • 各サービスからポータルサイト側にログをプッシュする形に

Google Cloud ML Engineに浸かってみる

  • Google Cloud Machine Learning Engineの利用事例の話

  • 広告効果測定及び予測基盤における利用事例

  • 広告の効果測定なのでデータは画像やカテゴリカルデータが多く含まれる

  • これを特徴ベクトルにするにあたっては各種エンコーディングが必要になるのでこの前処理の部分を作ることになる

  • 以前はGKEとFlaskで前処理してからCloudMLEngineに渡していたがモデルに組み込んでしまった事で簡略化できた

  • 今回利用していたフレームワークがTensorFlowなので他のフレームワークを利用する場合やTensorFlowのアップデートによる問題への対処は課題として残っている

PoC案件が多すぎてつらいので、パイプラインを使い回すツールを入れた。

  • データ分析ソフトウェアであるDataikuの導入事例

  • PoC案件が大量に来るが捌く人間は有限

  • jupyter notebookも大量に増えてきてよくわからなくなる

  • Dataikuを導入してデータ分析の間口を広げた

  • あと公式ではサポートされていないBigQueryもgoogle cloud API使うと・・・・

Cloud Composer & Cloud Dataflow によるバッチETLの再構築

  • 分速14スライド(70スライド/5分)の爆速LT

  • ログの収集分析基盤の再構築を行った事例

  • 背景・モチベーションからコードまで全部入りの話

  • とにかく資料が力作なので資料をご参照ください

DigdagでETL処理をする

  • ワークフローエンジンDigdagの導入事例

  • サービスを機能単位で分割したプロジェクトを立ててワークフローの管理

  • プロジェクト間の結果のやりとりは自作モジュールを作成して実現(S3を利用)

Comet.mlでAutoMLライブラリ開発

  • KDD Cup 2019 AutoML Trackの参加記録

  • AutoMLTrackはAutoMLのパッケージ開発を行い、実行時間や計算機環境の制限のある中で予測精度を競うコンペ

  • 同僚とのチームでの参加記録ということで複数人で足並みを揃えた分析を行われていたよう

  • また、コンペ中はComet.mlを利用して結果や学習の管理を行っていたそう

  • 題材としていたデータが”任意”の時系列データというのが普段見ているKaggleのコンペとの違いでなるほどと思った

データ活用の際にハマってしまったログ・データスキーマ設計

  • データ活用におけるハマり所とかあるあるのようなTIPSの発表、とてもLT

  • 意味の異なる日付を表すテーブルsuffix、json形式Stringのカラム、nullと"null"の混同

まとめ

  • 各社のサービスの事例に関する発表が中心でした

  • GCPの事例が多かったのが印象的

  • また、ML基盤あたりは様々にサービスがありどこも色々試しているのだなぁと感じております

いじょう