ETL + LLM + File Storage がなぜ最強か : 全自動日記サービスの設計判断

前提 : deariary が解いている問題

deariary は、Google Calendar、Slack、GitHub などのツールを連携するだけで、AI が毎朝自動で日記を生成するサービスです。

このサービスの本質は「複数ソースの活動データを集めて、人間が読める日記にする」こと。一見 AI がメインに見えますが、実際のアーキテクチャの核は ETL パイプラインです。

日記のデータ構造を考えてみてください。

この「構造が毎日変わるデータ」を RDB のテーブルに押し込もうとすると、地獄が始まります。

連携サービスが増えるたびにカラムが増え、ほとんどの行でほとんどのカラムが NULL になる。JSONB に逃がしても、結局スキーマレスなデータを RDB に格納しているだけで、型の恩恵もクエリの最適化も効きません。

deariary では、生成された日記を Markdown + YAML として扱います。

この設計にはいくつかの決定的な利点があります。

RDB は「ユーザー情報」「連携設定」「課金状態」のような構造化データに集中させ、日記そのものはファイルストレージに置く。データの性質に合った場所にデータを置く、という原則に忠実な設計です。

「じゃあ MongoDB や Firestore でいいのでは？」という疑問があるかもしれません。

NoSQL は確かにスキーマレスですが、日記データの場合は以下の理由で File Storage のほうが適しています。

生成 AI の話になると、つい LLM に複雑な処理を任せたくなります。データの取捨選択、重要度の判定、文章のスタイル調整、感情分析。全部 LLM にやらせたくなる。

でも、それをやると以下の問題が起きます。

deariary では、LLM に任せる仕事を明確に2つだけに絞っています。

1. 要約 : 構造化データを人間が読めるテキストにする

ETL パイプラインが出力した正規化済みデータを、自然な日記文にまとめる。これは LLM が最も得意とする「要約」タスクです。

2. 翻訳 : 機械的なログを人間的な言葉に変える

"event: meeting, title: Sprint Planning, duration: 30min" を 「30分のスプリントプランニングがあった」 に変換する。これは広い意味での「翻訳」です。

つまり、LLM に渡す時点でデータの収集・フィルタリング・正規化・構造化は全て終わっています。LLM は最後の仕上げだけを担当する。

この分離によって得られるメリットは大きいです。

「LLM に渡すデータを最小化する」設計は、プライバシー保護の観点でも理にかなっています。ETL パイプラインの段階で必要最小限のデータに絞り込むので、LLM プロバイダに送信されるデータ量が自然と少なくなります。

改めて全体を整理すると、こうなります。

それぞれが自分の得意な仕事だけを担当しています。

この「責務の分離」が、個人開発でもメンテナンス可能なシンプルさと、プロダクトとしての堅牢さを両立させています。

「ETL + LLM + File Storage」は、LLM 時代のデータパイプライン設計の一つの解だと思います。