ローカルLLM · 実機検証

4GBのノートGPUで、AIはどこまで動く？

動いた

3Bモデルは“読むより速い”

毎秒72トークン＝人が文章を読むより速い速度で返答。7Bでも実用範囲でした。

「ローカルLLMを動かすには、VRAMたっぷりのゲーミングPCが要る」——そう思って手を出せずにいる人は多いと思います。私もそうでした。手元にあるのは、GPUが RTX 3050 のノートPC。ノートPCは画面やCPUにお金がかかる分、GPUのVRAMは控えめで、たったの 4GB です。「この程度のGPUでAIなんて動くのか？」と半信半疑のまま、実際に動かしてみました。結論から言うと、ふつうに動きました。 しかも想像よりずっと快適です。

モデルサイズ別実行速度スペクトル

3B72 t/s

7B14 t/s

← 快適に動く限界実用外 →

3B快適

72 tok/s · VRAM ~2.1 GB

日常利用OK。読むより速い毎秒72トークン

7B実用的

14 tok/s · VRAM ~2.3 GB

少し待つが品質は上。実用の範囲

使ったPCの構成（正直に）

特別なPCではありません。

GPU	NVIDIA GeForce RTX 3050 Laptop（VRAM 4GB）
メモリ	16GB
OS	Windows
動かすソフト	Ollama（無料）

VRAMが4GBしかない一方で、システムのメモリ（RAM）は16GBある、という構成がポイントです。後の実測でここが効いてきます。

実測1：3Bモデル（qwen2.5:3b）

まずは軽い3Bモデルから。コマンド一行で動きます。

terminal

>ollama run qwen2.5:3b --verbose "日本の四季について200字程度で説明してください"

返ってきた速度がこちら。

terminal

eval count: 149 token(s)

eval rate: 72.51 tokens/s

毎秒72トークン。

体感で言うと「自分が文章を読むより速く、AIが書き終えている」レベルです。待ち時間のストレスはほぼゼロ。日常的なメモの要約や翻訳なら、これで完全に足ります。

このときのGPUの状態（nvidia-smi）はこうでした。

terminal

Memory-Usage: 2149MiB / 4096MiB

4GBのうち約2GBを使用。まだ余裕があります。

実測2：7Bモデル（qwen2.5:7b）

「3Bが余裕なら、もう一段賢い7Bは？」と欲が出ます。普通に考えれば4GBには載りきらないサイズですが、試してみました。

terminal

>ollama run qwen2.5:7b --verbose "日本の四季について200字程度で説明してください"

結果：

terminal

eval count: 175 token(s)

eval rate: 14.06 tokens/s

毎秒14トークン。

3Bほどサクサクではありませんが、少し待てば読める速度で、文章の質は3Bより明らかに上がりました。実用の範囲です。

このときのGPUの状態：

terminal

Memory-Usage: 2279MiB / 4096MiB

GPU-Util: 27%

興味深いのは、7Bを動かしてもVRAM使用量が約2.3GBのまま、4GBを使い切っていない点です。GPU使用率も27%と低め。つまりGPUだけで処理しているわけではなさそうですが、ここでは「4GBのGPUでも、16GB RAMの環境なら7Bが毎秒14トークンで動いた」という事実だけを記録しておきます。

計測速度まとめ (tokens/秒)

RTX 3050 Laptop 4GB / RAM 16GB / Windows / Ollama 環境での実測値。

3B (Q4_K_M): 72.5 t/s7B (Q4_K_M): 14.06 t/s

で、何に使えるのか

実測を踏まえた使い分けはこうです。

3B
72.51 t/s

分類・要約・タグ付け・短い翻訳。軽い作業ならこれで爆速・十分。

7B
14.06 t/s

もう少し賢さが要る作業。待てる場面なら実用的。

逆に、長文の記事をまるごと生成させたり、複雑な推論をさせたりするのは、ローカルより無料のオンラインAPIに任せた方が速くて安定します。

限界と、次の一手

4GBでも想像以上に動く、というのが正直な結論です。ただし7Bで「待つ」のが気になる人や、もっと大きなモデルを快適に使いたい人には、やはりVRAMの大きいGPUが効きます。 7B以上を余裕で動かしたいなら、VRAM 12〜16GB クラスが目安です。

無料LLM API比較（軽い処理はローカル、重い処理は無料APIへ） →

GPU選びガイド（ローカルLLM用途別） →

数値は筆者環境（RTX 3050 Laptop 4GB / RAM 16GB / Windows / Ollama）での実測値です。モデルのバージョンや量子化、プロンプトによって変動します。

VRAMを増やしてもっと快適に

RTX 4060 Ti 16GB ならほぼすべてのオープンモデルが快適に動作。 70B 量子化モデルも実用的な速度で試せる。

※ 価格・在庫は変動します。リンク先で最新情報をご確認ください。

GPUを比較する →

4GBのノートGPUで、AIはどこまで動く？

モデルサイズ別 実行速度スペクトル

使ったPCの構成（正直に）

実測1：3Bモデル（qwen2.5:3b）

実測2：7Bモデル（qwen2.5:7b）

計測速度まとめ (tokens/秒)

で、何に使えるのか

限界と、次の一手

VRAMを増やしてもっと快適に

モデルサイズ別実行速度スペクトル