【2026年最新】LLM比較表・性能ランキング！LLM比較サイト一覧

2026年5月1日

大規模言語モデル（LLM）は、生成AIの中核技術として急速に進化しており、GPT・Gemini・Claude・DeepSeek・Qwenなど、選択肢は年々増えています。

しかし、実際のLLM選定では、「どのモデルが一番高性能か」だけでなく、用途・コスト・提供形態（API／ローカル）・日本語性能まで含めて比較することが大切です。

本記事では、2026年最新のLLM性能比較表をもとに、主要モデルの特徴や性能ランキング、信頼できるLLM比較サイト、ローカルLLMとクラウドLLMの違いまでを網羅的に解説します。LLM導入や比較検討の判断材料として、ぜひ参考にしてください。

LLM性能比較表

LM性能比較表では、主要な大規模言語モデルを同一の評価指標で横断的に比較しています。

ただし、スコアが高い＝すべての用途で最適、とは限りません。

モデルごとに得意分野や運用条件（速度・コスト・提供形態）が異なるため、数値の順位だけでなく「どの用途に向くか」を意識し、LLM比較時の参考にしてください。

LLMモデル名	サイズ・カテゴリー	性能総合スコア
openai/gpt-5.2-2025-12-11: xhigh-effort	API	0.829
google/gemini-3-flash-preview	API	0.816
google/gemini-3-pro-preview	API	0.813
openai/gpt-5.1-2025-11-13: high-effort	API	0.808
anthropic/claude-opus-4.5-20251125: extended-thinking	API	0.806
anthropic/claude-opus-4-1-20250805: extended-thinking	API	0.799
openai/gpt-5-2025-08-07: high-effort	API	0.797
anthropic/claude-sonnet-4-5-20250929: extended-thinking	API	0.795
anthropic/claude-sonnet-4-20250514: extended-thinking	API	0.792
deepseek/DeepSeek-V3.2 (Thinking Mode)	API	0.79
deepseek-ai/DeepSeek-V3.2: reasoning-enabled	大規模モデル(30B+)	0.789
anthropic/claude-haiku-4-5-20251001: extended-thinking	API	0.788
openai/o3-2025-04-16: high-effort	API	0.788
grok-4	API	0.781
anthropic/claude-opus-4-20250514: no-thinking	API	0.78
Qwen/Qwen3-235B-A22B-Thinking-2507: reasoning-enabled	大規模モデル(30B+)	0.778
zai-org/GLM-4.7: reasoning-enabled	大規模モデル(30B+)	0.777
openai/o1-2024-12-17: high-effort	API	0.775
anthropic/claude-3.7-sonnet-20250219: extended-thinking	API	0.773
google/gemini-2.5-pro	API	0.77
x-ai/grok-4-1-fast-reasoning	API	0.765
openai/o4-mini-2025-04-16	API	0.761
Qwen/Qwen3-Next-80B-A3B-Thinking	大規模モデル(30B+)	0.756
deepseek-ai/DeepSeek-R1-0528: reasoning-enabled	大規模モデル(30B+)	0.743
openai/o3-mini-2025-01-31	API	0.743
Qwen/Qwen3-Max-Preview	API	0.742
openai/gpt-5.1-2025-11-13: none-effort	API	0.741
Qwen/Qwen3-VL-32B-Thinking	大規模モデル(30B+)	0.741
grok-3-mini	API	0.737
moonshotai/kimi-k2-thinking	API	0.733
Qwen/Qwen3-30B-A3B-Thinking-2507: reasoning-enabled	大規模モデル(30B+)	0.733
anthropic/claude-opus-4.5-20251125: no-thinking	API	0.732
upstage-karakuri/syn-pro reasoning	API	0.727
openai/gpt-4-1-2025-04-14	API	0.726
grok-3	API	0.725
Qwen/Qwen3-14B: reasoning-enabled	中規模モデル (10–30B)	0.723
openai/gpt-4o-2024-11-20	API	0.722
Qwen/Qwen3-235B-A22B: reasoning-enabled	大規模モデル(30B+)	0.721
LGAI-EXAONE/K-EXAONE-236B-A23B: reasoning-enabled	大規模モデル(30B+)	0.719
anthropic/claude-3.7-sonnet-20250219: no-thinking	API	0.718
openai/gpt-5-nano-2025-08-07: high-effort	API	0.717
anthropic/claude-sonnet-4-20250514: no-thinking	API	0.715
Qwen/Qwen3-Next-80B-A3B-Instruct	大規模モデル(30B+)	0.713
MiniMaxAI/MiniMax-M2: reasoning-enabled	大規模モデル(30B+)	0.713
Qwen/Qwen3-32B: reasoning-enabled	大規模モデル(30B+)	0.709
anthropic/claude-3.5-sonnet-20241022	API	0.706
zai-org/GLM-4.5-Air	大規模モデル(30B+)	0.704
Qwen/Qwen3-30B-A3B: reasoning-enabled	大規模モデル(30B+)	0.703
Qwen/QwQ-32B: reasoning-enabled	大規模モデル(30B+)	0.703
Qwen/Qwen3-VL-8B-Thinking	小規模モデル (<10B)	0.702
openai/gpt-oss-120b: reasoning-enabled	大規模モデル(30B+)	0.701
openai/gpt-4-1-mini-2025-04-14	API	0.699
google/gemini-2.5-flash	API	0.697
Qwen/Qwen3-4B-Thinking-2507	小規模モデル (<10B)	0.696
rinna/qwq-bakeneko-32b: reasoning-enabled	大規模モデル(30B+)	0.691
Qwen/Qwen3-8B: reasoning-enabled	小規模モデル (<10B)	0.69
abeja/ABEJA-Qwen2.5-32b-Japanese-v1.0	大規模モデル(30B+)	0.687
Qwen/Qwen3-VL-4B-Thinking	小規模モデル (<10B)	0.677
deepseek-ai/DeepSeek-V3-0324	大規模モデル(30B+)	0.676
elyza/ELYZA-Shortcut-1.0-Qwen-32B	大規模モデル(30B+)	0.671
Qwen/Qwen3-4B: reasoning-enabled	小規模モデル (<10B)	0.661
rinna/deepseek-r1-distill-qwen2.5-bakeneko-32b: reasoning-enabled	大規模モデル(30B+)	0.659
cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese	大規模モデル(30B+)	0.658
tokyotech-llm/Llama-3.3-Swallow-70B-Instruct-v0.4	大規模モデル(30B+)	0.652
meta-llama/Llama-3.1-405B-Instruct-FP8	大規模モデル(30B+)	0.651
rinna/qwen2.5-bakeneko-32b-instruct-v2	大規模モデル(30B+)	0.649
meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8	大規模モデル(30B+)	0.646
upstage-karakuri/syn-pro	API	0.646
shisa-ai/shisa-v2-llama3.1-405b	大規模モデル(30B+)	0.646
mistralai/Mistral-Large-3-675B-Instruct-2512	大規模モデル(30B+)	0.635
anthropic/claude-3.5-haiku-20241022	API	0.63
google/gemma-3-27b-it	中規模モデル (10–30B)	0.628
tokyotech-llm/Gemma-2-Llama-Swallow-27b-it-v0.1	中規模モデル (10–30B)	0.621
shisa-ai/shisa-v2-llama3.3-70b	大規模モデル(30B+)	0.62
mistral/mistral-large-2411	API	0.62
openai/gpt-4-1-nano-2025-04-14	API	0.616
openai/gpt-4o-mini-2024-07-18	API	0.615
pfn/plamo-2.0-prime	API	0.613
meta-llama/Llama-4-Scout-17B-16E-Instruct	大規模モデル(30B+)	0.61
meta-llama/Llama-3.3-70B-Instruct	大規模モデル(30B+)	0.608
google/gemma-3-12b-it	中規模モデル (10–30B)	0.599
tokyotech-llm/Gemma-2-Llama-Swallow-9b-it-v0.1	小規模モデル (<10B)	0.598
us.amazon.nova-pro-v1:0	API	0.589
mistral/mistral-small-2503	API	0.578
Qwen/Qwen3-VL-2B-Thinking	小規模モデル (<10B)	0.576
cyberagent/calm3-22b-chat-selfimprove-experimental	中規模モデル (10–30B)	0.57
tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.5	小規模モデル (<10B)	0.561
mistralai/Ministral-3-14B-Reasoning-2512	中規模モデル (10–30B)	0.561
us.amazon.nova-lite-v1:0	API	0.554
Qwen/Qwen3-1.7B: reasoning-enabled	小規模モデル (<10B)	0.553
us.amazon.nova-micro-v1:0	API	0.548
google/gemini-2.5-flash-lite	API	0.548
baidu/ERNIE-4.5-21B-A3B-Thinking	中規模モデル (10–30B)	0.547
mistralai/Ministral-3-8B-Reasoning-2512	小規模モデル (<10B)	0.544
google/gemma-3-4b-it	中規模モデル (10–30B)	0.533
tokyotech-llm/Gemma-2-Llama-Swallow-2b-it-v0.1	小規模モデル (<10B)	0.491
mistralai/Ministral-3-3B-Reasoning-2512	小規模モデル (<10B)	0.457
Qwen/Qwen3-0.6B: reasoning-enabled	小規模モデル (<10B)	0.409
meta-llama/Llama-3.2-3B-Instruct	小規模モデル (<10B)	0.404

※上記のLLM比較表は、2026年1月27日時点での、Nejumi Leaderboard 4（Weights & Biases Japan社）による総合スコアです。母体は海外法人で、日本法人のWeights & Biases Japan 株式会社は、PRTIMES等のニュースサイトで大手企業との提携なども発信しております。

LLMの性能スコアはあくまで目安であり、実際の業務では用途との相性が重要です。具体的な活用イメージについては、以下の記事も参考になります。

▶関連記事

生成AIの業務効率化事例12選【2026年】業種別・職種別にわかるAI業務効率化
データ分析AIツールおすすめ8選！【2026年最新】生成AIデータ分析の活用事例と企業向けに選び方を解説

それでは、主要なLLMについて、それぞれ紹介します。

GPT-5（OpenAI）

参考：OpenAI｜GPT-5.2 が登場

GPT-5は「迷ったらまず候補に入る」タイプのLLMです。文章生成だけでなく、推論（筋道立てて考える）・コード生成・タスク分解まで幅広く対応しやすく、業務の汎用モデルとして採用されやすい傾向があります。

また、API経由で既存システムに組み込みやすいため、チャットUIだけでなく「社内ツールの裏側のエンジン」としても使われます。

一方で、同じGPTでもモデルや設定（例：高精度/高速）で挙動が変わるため、速度・コスト・精度の優先順位を決めて使い分ける設計が大切です。

▶関連記事

ChatGPTエージェントとは？ChatGPTのAIエージェントを使ってみた

AIエージェントとは？生成AIとの違い・仕組み・できることをわかりやすく解説

Gemini（Google）

参考：Google Cloud｜Gemini 3 を使ってみる: Gemini 3 Flash での Hello World

Geminiは、速度と実務での扱いやすさを重視した運用に向きやすいLLMです。特に、問い合わせ対応や要約など「大量に処理する」「レスポンスを速く返したい」用途で強みが出やすいモデル群です。

また、Google系の環境と相性が良く、組織での導入では「既存のワークフローに自然に組み込む」選定がされやすいです。

モデルの種類（Pro/Flashなど）によって得意領域が変わるため、高精度モデルは重要タスク、軽量モデルは大量処理のように役割分担すると運用しやすくなります。

関連記事：AIエージェントフレームワークとは？【2026年】人気のフレームワークを比較

Claude（Anthropic）

参考：Anthropic｜Introducing Claude Opus 4.5

Claudeは、長い文章を読ませて整理する用途で選ばれやすいLLMです。規程・契約・仕様書・議事録など、文書量が多い業務で「読みやすい要約」「丁寧な言い回し」「抜け漏れの少ない整理」に強みが出やすい傾向があります。

また、出力のトーンが落ち着いていて、社内向け文書（社内通知、FAQ、説明資料）の文章品質を整える用途とも相性が良いです。

注意点として、精度や安全性を重視する設計の分、設定やモードによっては処理時間・コストが増えることがあるため、重要度で使い分けると現実的です。

DeepSeek

参考：DeepSeek｜Thinking Mode

DeepSeekは、推論（Reasoning）に寄せたモデルが多く、論理性が求められるタスクで候補になりやすいブランドです。たとえば、根拠を踏まえた回答、計算・分析、コードの修正など「考える工程」がある仕事で強みが出やすいです。

また、クラウドAPIだけでなくモデルによってはローカル運用の検討余地もあり、要件によっては「自社環境で動かしたい」「コストを最適化したい」といったニーズに合うことがあります。

ただし、派生モデルやバージョン差が大きいので、ランキングだけで決めず、自社データで小さく検証してから選ぶのが安全です。

Grok（xAI）

参考：xAI｜Grok 4

Grokは、会話のテンポと発想支援に寄ったLLMとして使われることが多いです。きっちり正解を出すというより、「案をたくさん出す」「たたき台を早く作る」「壁打ちして方向性を固める」といった探索型タスクで価値が出やすいタイプです。

たとえば、企画の切り口出し、キャッチコピー案、文章トーンの調整、SNS向けの短文案など、スピード優先のアウトプットで使われやすい傾向があります。

一方、業務利用ではセキュリティや管理要件（ログ管理、権限、データの扱い）を満たせるかを先に確認し、適用範囲を決めて使うのが現実的です。

Qwen（アリババ）

参考：Hugging Face｜Qwen3-VL-Embedding – a Qwen Collection

Qwenは、ラインナップの広さ（大規模〜小規模、推論対応、派生モデル）が大きな特徴です。用途に応じてサイズを選べるため、「高精度が必要な処理は大きめ」「大量処理は軽量モデル」といったモデルの役割分担を設計しやすいシリーズです。

また、モデルの選択肢が多いことで、コストや速度、実装難易度に合わせて「最適な落としどころ」を作りやすいのも強みです。

注意点として、同じQwenでも世代や派生モデルで得意・不得意が変わるため、比較表のスコアに加えて、自社での実タスク評価（短いPoC）を行うと選定ミスが減ります。

Qwen3は、Hugging Face、GitHub、ModelScopeで無料公開されており、専用チャットサイト（chat.qwen.ai）でも試用可能です。

LLM比較サイト

LLMを比較・検討する際には、単一の性能スコアだけで判断しないようにしましょう。

実際には、評価に使われているベンチマークや指標、測定方法によって、モデルの順位や評価は大きく変わります。

以下、LLMの性能比較に使われるサイトの一覧です。

比較サイト名	評価の軸（指標/手法）	強い領域	向くユーザー	向く用途（選定シーン）
Nejumi LLM Leaderboard	複数タスクで総合評価（日本語・実運用観点も重視）	日本語LLM/日本語性能の横断比較	日本語圏の開発者・導入担当	日本語でのモデル候補絞り込み
Hugging Face Open LLM Leaderboard	主要ベンチマークを統一フレームワークで評価	OSS/公開モデルのベンチ比較	OSS利用者・研究/開発	オープンモデルの性能比較・選定
ELYZA-tasks-100	日本語の指示追従タスク100問（評価観点付き）	日本語の指示追従/実務的回答	日本語LLM開発者	日本語instructionモデルの品質チェック
Artificial Analysis	知能/速度/価格など複数指標で比較	運用目線（コスト・速度込み）	導入担当・意思決定者	本番運用のモデル選定（費用対効果）
AlpacaEval Leaderboard	指示追従の相対評価（勝率など）	Instruction-followingの比較	研究/開発・チューニング担当	指示追従モデルの改善/比較
LiveBench	汚染（contamination）対策を重視したベンチ	“新しめ”で客観評価を狙う	研究/開発・評価担当	ベンチ汚染を避けて実力比較

それぞれの比較サイトについて、紹介します。

実運用での使われ方については「AIエージェントの事例15選」もあわせて確認すると理解が深まります。

▶関連記事

AIエージェントの種類とは？複数の種類を役割で組み合わせる階層型・マルチエージェントと企業事例
AIエージェントの事例15選！日本国内企業の活用例と成功事例

Nejumi LLM Leaderboard

出典：Nejumi LLM Leaderboard

日本語を含む観点でLLMを評価し、モデル選定に使える形でランキング化しているリーダーボードです。日本語圏の開発・導入で「まず日本語性能を横断比較したい」場合に便利です。

Hugging Face Open LLM Leaderboard

出典：Hugging Face Open LLM Leaderboard

オープン（公開）LLMを対象に、複数ベンチマークを統一手法で計測して比較できる定番のリーダーボードです。OSSモデル同士を公平に見たいときの基準になります。

ELYZA-tasks-100

出典：Hugging Face｜ELYZA-tasks-100

日本語の指示追従モデルを評価するための100問データセットで、採点観点が付いているのが強みです。日本語instructionモデルの品質チェックや改善に使われます。

Artificial Analysis

出典：Artificial Analysis

多数のモデルを、知能（能力）だけでなく速度や価格も含めて比較できるサイトです。「精度が高いけど高い」など、運用の現実を含めて判断したいときに向きます。

AlpacaEval Leaderboard

出典：AlpacaEval Leaderboard

指示追従（instruction-following）に焦点を当て、相対評価（勝率など）でモデルを比較する仕組みです。チューニングやモデル改善の比較指標として使われやすいです。

LiveBench

出典：LiveBench

テスト汚染（学習済みでスコアが上がる問題）を避けることを重視して設計されたベンチマークです。「より客観的に、最新モデルの実力を測りたい」方向けの指標になります。

ローカルLLMとクラウドLLMの比較

LLMは、どこでモデルを実行するか（実行環境）によって「ローカルLLM」と「クラウドLLM」に大きく分けられます。

クラウドLLMはインターネットを介して外部のクラウドサーバ上で実行される一方で、ローカルLLMは企業内サーバや個別デバイス上で直接実行されます。

出典：日経クロステック｜驚くほど簡単に使えるローカルLLM、ChatGPT風Webサイトも簡単

それぞれの違いについて、紹介します。

比較項目	ローカルLLM	クラウドLLM
実行環境	自社サーバ・オンプレミス・ローカル端末	外部クラウドサーバ
インターネット接続	不要（オフライン可）	必須
データの送信先	自社ネットワーク内で完結	外部クラウド（インターネット経由）
セキュリティ	物理的・ネットワーク的に隔離可能	暗号化通信・ベンダー管理が前提
カスタマイズ性	モデル選定・調整の自由度が高い	プロンプト調整が中心
導入の手軽さ	環境構築が必要	非常に高い（すぐ利用可能）
コスト構造	初期投資は高いが長期利用で抑えやすい	従量課金・月額課金が中心
向いている業界	金融・医療・官公庁・研究機関	一般企業・スタートアップ・SaaS