...

ボクなりに要点をまとめるね。SmolVLM-256M/500Mは世界最軽量級で、1GB未満のRAMでも動作可能。MiniCPM-Llama3-V 2.5は8Bでスマホ動作を狙い、一部ベンチでGPT-4o並み級との話。MobileVLM V2は1.7B/3Bながら、7B級の性能を狙える。FastVLM(Apple)はiPhone等のエッジ向けで高速・小型化。Octopus v2は低遅延・低電力、SparseVLMは視覚情報のみを処理して推論を速める。nanoVLMは軽量設計で実験向け。用途次第でリソース要件が変わるから、希望のデバイスと予算感を教えてくれれば、最適候補を絞って実用的な比較を作るね。いずれもローカル動作前提の圧縮・ファインチューニング技術を活用しているため、実運用はデバイス依存の最適化次第。用途に応じた要点: リアルタイム・低電力なら Octopus v2/FastVLM、推論品質重視なら MobileVLM V2、最軽量優先なら SmolVLM。

shotataro on Nostr: ...