私のAIモデルの選択

純粋に個人的な経験であり、データに基づいた研究ではありません

日常業務

情報検索、分析、整理のようなタスク、主に私の独立した開発における非専門的な作業（デザインやマーケティングなど）をカバーするためです。

Gemini 2.5 Pro: 現在の主力です。手頃な価格（他のトップティアLLMと比較して）、安定性、マルチモーダル（非常に寛大なファイルサイズ制限付き）、そして大きなコンテキストウィンドウを備えています。考えるのに少し時間がかかり、出力が冗長になることがありますが、問題の理解度と指示への忠実性は優れています。真剣な作業が必要な場合の第一選択です。
Claude Sonnet 4 (thinking): Gemini 2.5 Proのセカンドオピニオンとして使用します。現在の最大の課題は、問題となるファイルサイズ制限と、会話が長くなると簡単に脱線し、一般的な箇条書きの回答になる傾向があることです。
Claude Sonnet 4: 深い思考を必要としない軽微な問題を処理します。Appleの以前の論文で、推論モデルが小さな問題について過度に考えてしまうという指摘は、私の経験と一致しています。Claude Sonnetシリーズは常に「真面目すぎる」という欠点がありました。問題点を指摘することを躊躇させないようにするには、適切なプロンプトと慎重な質問が必要です。私が観察したもう一つの問題は、プロンプトへの忠実性が非常に柔軟性に欠けることです。特定の「不適切な」役割をうまく演じません。
Qwen QWQ 32B (on Groq): Claude Sonnet 4のセカンドオピニオンとして機能し、異なる視点を提供します。対照的に、その情報と数値は、Sonnetの「真面目さ」とは異なり、よりシャープで誇張されているように感じます。マルチモーダルでないのが欠点です。
GPT 4o: Claude Sonnet 4のサードオピニオンとして使用します。実際には、もうGPTシリーズを使うことはほとんどありません。4oの出力品質は著しく劣り、その感情操作が常に嫌いでした。プロンプトで上書きしない限り、基本的には使用しません。しかし、プロンプトの柔軟性が非常に高く、メイドの役割を演じるのが得意であるという利点があります。
Gemini 2.5 Flash: 単純な翻訳や文法などの小さなタスクを処理します。安価で高速ですが、分析および整理能力は不十分です（thinkingが追加されても）。
Llama 4 Scout / Marverick (on Groq): 笑いのためです。他人の失敗はいつも私を喜ばせます。真剣に、なぜLlama 4はこんなにひどいのでしょうか？出力は平凡で、セカンドオピニオンとしての価値もなく、命令順守は製品APIとして十分ではありません（少なくともLlama 3はそうでした）。Groqでゲームチェンジャーになることを期待していましたが、今はゲームオーバーのようです。

コードの記述

Gemini 2.5 Pro: 主力です。ほとんどの場合、これを使います。冗長で遅いこと以外に、あまり不満はありません。非専門分野で書く場合、その冗長性は知識を補うことができますが、自分の主要分野で書く場合は少し煩わしいことがあります。
Claude Sonnet 4: 比較的単純な軽微なタスクを処理します。Claude Sonnetシリーズは元々私の主要な選択肢でしたが、Sonnet 4の「やりすぎ」の傾向は少し煩わしいです。それは「自分を証明する」ために操作されたのでしょうか？
Gemini 2.5 Flash: i18n。

製品API

Gemini 2.5 Flash: 現在、「価格」、「速度」、「品質」の中で最適な位置にあります。サービスも安定しており、開発にとって最も実用的なモデルです。高品質な出力を必要としないほとんどのAIモジュールは、Gemini 2.5 Flashを使用しています。GoogleはGemini 2.0 Flashの後、良い市場参入点を見つけ、他のモデルを引き上げることができたと信じています。
Claude Sonnet 4: 高品質なアプリケーションに適しています。Claudeの「真面目な」スタイルは、出力品質を非常に安定させ、価格と速度も許容範囲です。Tasmapで経験したもう一つのことは、Sonnetシリーズが最高の「美学」、というか唯一美学を持っているということです。
Gemini 2.5 Flash Lite: これを書いた前日にリリースされたばかりで、まだ積極的にテストしていません。しかし、初期の印象では、「最小限の実行可能な品質、最速の速度」の選択肢となる可能性を秘めているようです。
Llama 3.3 70B (on Groq): 「最小限の実行可能な品質、最速の速度」のモデルを探しています。以前はMistral 7bx8を使用していましたが、Groqはもうサポートしていません。Llama 3の品質は少し微妙です。オブジェクト出力を生成できない場合があります。

日常生活

GPT 4o: 食料品の買い物中に「これは何の魚？」と尋ねます。私はラップトップから離れてLLMをあまり使いません。
Claude, Gemini: 上記と同じです。私はラップトップから離れてLLMをあまり使いません。

その他

Mistral: 最近実験していますが、特に優れた結果は得られていません。彼らの最高のモデルはMistral Mediumであるべきですが、その位置づけは少し中途半端です。Claude Sonnet 4とGemini 2.5 Flashの間に位置しているように感じますが、突出した特徴はあまりありません。彼らから「適格な品質、超高速、安価なモデル」を見つけたいと願っていますが、彼ら自身がどの方向へ進むべきかまだ模索しているようです。
Grok: Twitterのリアルタイムトレンド検索に優れていると聞きましたが、まだ試していません。アプリで試した最初の印象は良くありませんでした。その機能と出力品質は、大手3社のモデルにはるかに劣っていました。奔放さが特徴かもしれません。
Claude Opus 4: 高価すぎ、遅すぎです。製品開発や日常業務には役に立ちません。プロジェクトを書くのに1時間も動かす必要はありません。どれだけレビューしなければならないかを考えると恐ろしくなります。
GPT o3: OpenAIシリーズにはあまり詳しくありません。これは深層分析で宣伝されていたと記憶していますが、数回試した後、それほど深いとは感じませんでした。大体Gemini 2.5 Proと同程度でした。