読者です 読者をやめる 読者になる 読者になる

TAMALOG

プログラミングがあれば遠いところへ行けます。プログラムと人の共生を記録します。

画像収集基盤の構築ログ5

目的は、人間の代わりに画像を集めてきてくれるシステムを構築することです。個人的な趣味からイラスト画像を対象としています。

tamanobi.hatenablog.com

広告配信システムを構築し、十数年間運用してきた人と話す機会がありました。その人が構築したシステムは細かい変更こそされど、アーキテクチャを変えずに運用しているそうです。その堅牢でハイパフォーマンス、そして何よりも柔軟なシステムに強い感銘を受けました。

現在の構築中の画像収集基盤は、かなりポータビリティが低く、別の環境で再構築しようとするとかなり時間がかかる見込みです。最近、簡単なウェブアプリを通じて、Dockerを触る機会があったので少し勉強をしています。

画像収集基盤の構成要素

各サーバーは試験的に立ち上げたものを含めると、それなりに数があります。これまで少しずつ増やしていきましたが、再度構築するには骨が折れる数です。特にインストール手順が複雑なライブラリがいくつかあるので、再現すらできないかもしれないです。

Dockerの基本的な操作についてはわかるようになったので、これらの構成をコンテナに分けようかな。

  • データベースサーバー
  • 自動タグ付けサーバー
  • 自動クロップサーバー
  • 特徴抽出サーバー
  • 管理サーバー
  • コンテンツ推薦サーバー
  • 行動ログ集約サーバー
  • スクレイピングサーバー
  • データ収集バッチサーバー
  • プロキシサーバー
  • クローラーサーバー(未定)
  • オブジェクティブストレージ(未定)

参考資料