【参加記録】データとML周辺エンジニアリングを考える会 #2
【参加記録】データとML周辺エンジニアリングを考える会 #2
簡単に
データとML周辺エンジニアリングを考える会 #2に参加してきたので簡単なまとめと若干のコメント
実サービスでのログ管理、どうやってDWHにデータ突っ込んでるのか、という話題が中心でした
普段は機械学習やデータといえばKaggleの話しか知らないので実際のサービスともなればやはり色々大変なのだな、という印象
というかKaggleはもうデータがかなり綺麗に整備されて用意された状態からスタートなので忘れがちだったけど、機械学習周辺のデータパイプラインといえば各種ログから整備されたデータを作る話ですよね
自分がこの分野のど素人であることもありコメントは訳のわからないことを書いている可能性があるので基本はリンク先の各資料を辿って貰うのが吉かと
資料のリンクが無いものは資料が探して見当たらなかったものなので所在をご存知の方は教えていただければ幸いです・・・・
各発表
GCPでStreamなデータパイプライン運用しはじめた
本番環境のlogをDWHなどの分析環境に安定的かつ信頼性を担保しつつ転送する話
データ転送費用を抑えるためにlogをGCPの外に出さずにBigQueryに投げ込みたたい
パイプライン中のデータフォーマットとしてAvroを利用、GCSに生ファイルを保存できる、BigQueryに食べさせることもできる
- データパイプラインで障害が発生する可能性が高いスキーマを決める部分はパイプライン上の一箇所にまとめたほうが管理しやすい
リアルタイムデータ処理基盤の構築
m3.comのユーザーの行動ログ処理基盤の構築
20以上のサービスへの間口になっているポータルサイトのシステムを改修している話
スピード感を大事にして各サービスを作って来た中で発生してきた課題の解決
各サービスからポータルサイト側にログをプッシュする形に
Google Cloud ML Engineに浸かってみる
広告効果測定及び予測基盤における利用事例
広告の効果測定なのでデータは画像やカテゴリカルデータが多く含まれる
これを特徴ベクトルにするにあたっては各種エンコーディングが必要になるのでこの前処理の部分を作ることになる
以前はGKEとFlaskで前処理してからCloudMLEngineに渡していたがモデルに組み込んでしまった事で簡略化できた
今回利用していたフレームワークがTensorFlowなので他のフレームワークを利用する場合やTensorFlowのアップデートによる問題への対処は課題として残っている
PoC案件が多すぎてつらいので、パイプラインを使い回すツールを入れた。
データ分析ソフトウェアであるDataikuの導入事例
PoC案件が大量に来るが捌く人間は有限
jupyter notebookも大量に増えてきてよくわからなくなる
Dataikuを導入してデータ分析の間口を広げた
Cloud Composer & Cloud Dataflow によるバッチETLの再構築
分速14スライド(70スライド/5分)の爆速LT
ログの収集分析基盤の再構築を行った事例
背景・モチベーションからコードまで全部入りの話
とにかく資料が力作なので資料をご参照ください
DigdagでETL処理をする
ワークフローエンジンDigdagの導入事例
サービスを機能単位で分割したプロジェクトを立ててワークフローの管理
プロジェクト間の結果のやりとりは自作モジュールを作成して実現(S3を利用)
Comet.mlでAutoMLライブラリ開発
AutoMLTrackはAutoMLのパッケージ開発を行い、実行時間や計算機環境の制限のある中で予測精度を競うコンペ
同僚とのチームでの参加記録ということで複数人で足並みを揃えた分析を行われていたよう
また、コンペ中はComet.mlを利用して結果や学習の管理を行っていたそう
題材としていたデータが”任意”の時系列データというのが普段見ているKaggleのコンペとの違いでなるほどと思った
データ活用の際にハマってしまったログ・データスキーマ設計
データ活用におけるハマり所とかあるあるのようなTIPSの発表、とてもLT
意味の異なる日付を表すテーブルsuffix、json形式Stringのカラム、nullと"null"の混同
まとめ
各社のサービスの事例に関する発表が中心でした
GCPの事例が多かったのが印象的
また、ML基盤あたりは様々にサービスがありどこも色々試しているのだなぁと感じております
いじょう