AgenticWorkerz
記事一覧に戻る
アーキテクチャ8 min read2026-03-02

オープンソースAIエージェントのセルフホスティング戦略

クラウドサービスに依存せずAIエージェントを自社インフラで運用するセルフホスティング戦略を解説。コスト削減、データ主権、カスタマイズ性の観点から最適なアーキテクチャ設計と運用ノウハウを紹介する。

A
AgenticWorkerz編集部
AI × Work Research

なぜセルフホスティングなのか

AIコーディングツールの利用が拡大する中、企業が直面する課題の一つがデータのコントロールです。Copilotや商用エージェントを使う場合、コードがサードパーティのサーバーに送信されることになります。知的財産の保護が重要な企業や、規制業界では、このデータフローが法的・コンプライアンス上の問題になり得ます。

セルフホスティングの主な動機は三つあります。一つ目はデータ主権(コードや機密情報を外部に出さない)、二つ目はコスト最適化(APIコールの削減と固定コスト化)、三つ目はカスタマイズ性(自社のコードベースに特化したファインチューニングや設定)です。

ローカルLLMの選定:コーディングタスク特化モデル

セルフホスティングの核心はローカルLLMの選定です。2026年時点でコーディングタスクに推奨される主なモデルはDeepSeek Coder V3(671B MoEで商用品質)、Qwen2.5 Coder 32B(バランス重視)、CodeLlama 70B(Metaが公開した老舗)などです。これらのモデルはOllamaまたはvLLMを通じて提供でき、Continue.dev、Cline、Aiderなどのフロントエンドツールから透過的に利用できます。

M2/M3 Mac Studioクラスのマシンであれば32Bモデルまでは実用的な速度で動作します。より大きなモデルにはA100/H100 GPUが必要になりますが、GPU 1枚のサーバーコストは月額5〜15万円程度で、チームが多数のAPIコールを消費する場合は十分ペイします。

OpenHandsとLiteLLMで構築する統合セルフホスト環境

OpenHandsはLiteLLMプロキシとの組み合わせで、複数のLLMプロバイダーを統一したインターフェースで管理できます。ローカルモデルをデフォルトとして使いつつ、コンテキストが不足する場合や特に高精度が必要な場合のみクラウドAPIにフォールバックするハイブリッド構成が現実的な選択肢です。LiteLLMはOpenAI互換のAPIを提供するため、ほぼすべてのAIツールがそのまま動作します。

運用上の考慮事項とモニタリング

セルフホスト環境の運用では、モデルのバージョン管理、推論サーバーの可用性監視、コスト追跡が主な課題です。Prometheus + Grafanaによるメトリクス収集でGPU使用率とレスポンスタイムを可視化し、SLAを定義してオンコール体制を整備することが推奨されます。モデルの更新時にはBluе-Greenデプロイを採用することで、サービスを止めずに新バージョンに切り替えられます。また、定期的なSWE-Benchライクなベンチマークを実施して、モデル更新による性能変化を継続的に把握することも重要です。

#セルフホスティング#ローカルLLM#インフラ#Ollama

関連記事