Smartify Lab

ローカルLLM · 実機検証

4GBのノートGPUで、AIはどこまで動く?

動いた

3Bモデルは“読むより速い”

毎秒72トークン=人が文章を読むより速い速度で返答。7Bでも実用範囲でした。

「ローカルLLMを動かすには、VRAMたっぷりのゲーミングPCが要る」——そう思って手を出せずにいる人は多いと思います。私もそうでした。 手元にあるのは、GPUが RTX 3050 のノートPC。ノートPCは画面やCPUにお金がかかる分、GPUのVRAMは控えめで、たったの 4GB です。「この程度のGPUでAIなんて動くのか?」と半信半疑のまま、実際に動かしてみました。 結論から言うと、ふつうに動きました。 しかも想像よりずっと快適です。

モデルサイズ別 実行速度スペクトル

3B72 t/s
7B14 t/s
← 快適に動く限界実用外 →
3B快適

72 tok/s · VRAM ~2.1 GB

日常利用OK。読むより速い毎秒72トークン

7B実用的

14 tok/s · VRAM ~2.3 GB

少し待つが品質は上。実用の範囲

使ったPCの構成(正直に)

特別なPCではありません。

GPUNVIDIA GeForce RTX 3050 Laptop(VRAM 4GB)
メモリ16GB
OSWindows
動かすソフトOllama(無料)

VRAMが4GBしかない一方で、システムのメモリ(RAM)は16GBある、という構成がポイントです。後の実測でここが効いてきます。

実測1:3Bモデル(qwen2.5:3b

まずは軽い3Bモデルから。コマンド一行で動きます。

terminal
>ollama run qwen2.5:3b --verbose "日本の四季について200字程度で説明してください"

返ってきた速度がこちら。

terminal
eval count: 149 token(s)
eval rate: 72.51 tokens/s

毎秒72トークン。

体感で言うと「自分が文章を読むより速く、AIが書き終えている」レベルです。待ち時間のストレスはほぼゼロ。日常的なメモの要約や翻訳なら、これで完全に足ります。

このときのGPUの状態(nvidia-smi)はこうでした。

terminal
Memory-Usage: 2149MiB / 4096MiB

4GBのうち約2GBを使用。まだ余裕があります。

実測2:7Bモデル(qwen2.5:7b

「3Bが余裕なら、もう一段賢い7Bは?」と欲が出ます。普通に考えれば4GBには載りきらないサイズですが、試してみました。

terminal
>ollama run qwen2.5:7b --verbose "日本の四季について200字程度で説明してください"

結果:

terminal
eval count: 175 token(s)
eval rate: 14.06 tokens/s

毎秒14トークン。

3Bほどサクサクではありませんが、少し待てば読める速度で、文章の質は3Bより明らかに上がりました。実用の範囲です。

このときのGPUの状態:

terminal
Memory-Usage: 2279MiB / 4096MiB
GPU-Util: 27%

興味深いのは、7Bを動かしてもVRAM使用量が約2.3GBのまま、4GBを使い切っていない点です。GPU使用率も27%と低め。つまりGPUだけで処理しているわけではなさそうですが、ここでは「4GBのGPUでも、16GB RAMの環境なら7Bが毎秒14トークンで動いた」という事実だけを記録しておきます。

計測速度まとめ (tokens/秒)

RTX 3050 Laptop 4GB / RAM 16GB / Windows / Ollama 環境での実測値。

3B (Q4_K_M): 72.5 t/s7B (Q4_K_M): 14.06 t/s

で、何に使えるのか

実測を踏まえた使い分けはこうです。

3B
72.51 t/s

分類・要約・タグ付け・短い翻訳。軽い作業ならこれで爆速・十分。

7B
14.06 t/s

もう少し賢さが要る作業。待てる場面なら実用的。

逆に、長文の記事をまるごと生成させたり、複雑な推論をさせたりするのは、ローカルより無料のオンラインAPIに任せた方が速くて安定します。

限界と、次の一手

4GBでも想像以上に動く、というのが正直な結論です。ただし7Bで「待つ」のが気になる人や、もっと大きなモデルを快適に使いたい人には、やはりVRAMの大きいGPUが効きます。 7B以上を余裕で動かしたいなら、VRAM 12〜16GB クラスが目安です。

数値は筆者環境(RTX 3050 Laptop 4GB / RAM 16GB / Windows / Ollama)での実測値です。モデルのバージョンや量子化、プロンプトによって変動します。

VRAMを増やしてもっと快適に

RTX 4060 Ti 16GB ならほぼすべてのオープンモデルが快適に動作。 70B 量子化モデルも実用的な速度で試せる。

※ 価格・在庫は変動します。リンク先で最新情報をご確認ください。

GPUを比較する →