ローカルLLM · 実機検証
4GBのノートGPUで、AIはどこまで動く?
3Bモデルは“読むより速い”
毎秒72トークン=人が文章を読むより速い速度で返答。7Bでも実用範囲でした。
「ローカルLLMを動かすには、VRAMたっぷりのゲーミングPCが要る」——そう思って手を出せずにいる人は多いと思います。私もそうでした。 手元にあるのは、GPUが RTX 3050 のノートPC。ノートPCは画面やCPUにお金がかかる分、GPUのVRAMは控えめで、たったの 4GB です。「この程度のGPUでAIなんて動くのか?」と半信半疑のまま、実際に動かしてみました。 結論から言うと、ふつうに動きました。 しかも想像よりずっと快適です。
モデルサイズ別 実行速度スペクトル
72 tok/s · VRAM ~2.1 GB
日常利用OK。読むより速い毎秒72トークン
14 tok/s · VRAM ~2.3 GB
少し待つが品質は上。実用の範囲
使ったPCの構成(正直に)
特別なPCではありません。
| GPU | NVIDIA GeForce RTX 3050 Laptop(VRAM 4GB) |
| メモリ | 16GB |
| OS | Windows |
| 動かすソフト | Ollama(無料) |
VRAMが4GBしかない一方で、システムのメモリ(RAM)は16GBある、という構成がポイントです。後の実測でここが効いてきます。
実測1:3Bモデル(qwen2.5:3b)
まずは軽い3Bモデルから。コマンド一行で動きます。
返ってきた速度がこちら。
毎秒72トークン。
体感で言うと「自分が文章を読むより速く、AIが書き終えている」レベルです。待ち時間のストレスはほぼゼロ。日常的なメモの要約や翻訳なら、これで完全に足ります。
このときのGPUの状態(nvidia-smi)はこうでした。
4GBのうち約2GBを使用。まだ余裕があります。
実測2:7Bモデル(qwen2.5:7b)
「3Bが余裕なら、もう一段賢い7Bは?」と欲が出ます。普通に考えれば4GBには載りきらないサイズですが、試してみました。
結果:
毎秒14トークン。
3Bほどサクサクではありませんが、少し待てば読める速度で、文章の質は3Bより明らかに上がりました。実用の範囲です。
このときのGPUの状態:
興味深いのは、7Bを動かしてもVRAM使用量が約2.3GBのまま、4GBを使い切っていない点です。GPU使用率も27%と低め。つまりGPUだけで処理しているわけではなさそうですが、ここでは「4GBのGPUでも、16GB RAMの環境なら7Bが毎秒14トークンで動いた」という事実だけを記録しておきます。
計測速度まとめ (tokens/秒)
RTX 3050 Laptop 4GB / RAM 16GB / Windows / Ollama 環境での実測値。
で、何に使えるのか
実測を踏まえた使い分けはこうです。
72.51 t/s
分類・要約・タグ付け・短い翻訳。軽い作業ならこれで爆速・十分。
14.06 t/s
もう少し賢さが要る作業。待てる場面なら実用的。
逆に、長文の記事をまるごと生成させたり、複雑な推論をさせたりするのは、ローカルより無料のオンラインAPIに任せた方が速くて安定します。
限界と、次の一手
4GBでも想像以上に動く、というのが正直な結論です。ただし7Bで「待つ」のが気になる人や、もっと大きなモデルを快適に使いたい人には、やはりVRAMの大きいGPUが効きます。 7B以上を余裕で動かしたいなら、VRAM 12〜16GB クラスが目安です。
数値は筆者環境(RTX 3050 Laptop 4GB / RAM 16GB / Windows / Ollama)での実測値です。モデルのバージョンや量子化、プロンプトによって変動します。
VRAMを増やしてもっと快適に
RTX 4060 Ti 16GB ならほぼすべてのオープンモデルが快適に動作。 70B 量子化モデルも実用的な速度で試せる。
※ 価格・在庫は変動します。リンク先で最新情報をご確認ください。
GPUを比較する →