我的AI模型選擇

沒有數據研究，純粹個人經驗

日常工作

查資料，分析，整理等等的工作，主要是用來cover我獨立開發中的非專業領域工作，例如設計及行銷。

Gemini 2.5 Pro：這是目前的主力。便宜（相對於其他頂級LLM），穩定，多模態（而且檔案大小上限很寬鬆），上下文大。思考時間比較久，輸出有點多話，但問題理解以及指令遵循度佳。需要認真做事的時候的首選。
Claude Sonnet 4 (thinking)：作為Gemini 2.5 Pro的第二意見使用，目前最大的問題在於檔案大小的限制有時候很麻煩，還有對話一拉長就很容易讓prompt跑掉，開始出現條列式的泛用回答。
Claude Sonnet 4：處理不需要深入思考的小問題。Apple之前那篇關於推理模型在小問題上會過度思考的論文和我的經驗一致。Claude Sonnet系列一直有一個毛病就是太「得體」，需要使用良好的prompt以及謹慎的提問方式來避免他不敢指出問題。另一個我觀察到的問題是，對於prompt的遵循彈性不那麼高，有些比較「不正確」的角色他扮演不好。
Qwen QWQ 32B (on Groq)：作為Claude Sonnet 4的第二意見，可以看到不同角度的資訊。作為對比，我感覺資訊及數字上會比較尖銳以及誇張一些，不像Sonnet那樣「得體」。沒有多模態是個缺點。
GPT 4o：作為Claude Sonnet 4的第三意見。其實很少在用GPT系列了，4o的輸出品質很明顯的落後，然後那個情緒煽動我一直都很討厭，沒有用prompt蓋掉我基本上不會用。但好處是prompt彈性很高，扮演女僕的時候很到位。
Gemini 2.5 Flash：負責處理簡單的翻譯或文法之類的小雜事。便宜，快，但分析整理的能力不堪用（加thinking也一樣）。
Llama 4 Scout / Marverick (on Groq)：拿來笑的。別人的失敗總是讓我感到愉悅。說真的，為什麼Llama 4會這麼差？輸出平凡，沒有作為第二意見的價值，指令遵循性也不夠格當產品API（起碼Llama 3還可以）。本來是期望他搭配Groq能成為Game Changer，但現在看起來是Game Over。

寫Code

Gemini 2.5 Pro：主力。大多數的時候都是用這個，除了多話跟慢之外沒有太多抱怨。在寫非擅長領域的時候，他的多話可以補充一些知識，但寫主要領域的時候就有點煩。
Claude Sonnet 4：處理比較簡單的小事。Claude Sonnet系列本來一直都是我的主力，但Sonnet 4的「做太多」傾向讓人有點煩。他是不是有被PUA說要「證明自己」之類的啊？
Gemini 2.5 Flash：i18n。

產品API

Gemini 2.5 Flash：這是目前在「價格」、「速度」、「品質」之間的甜蜜點，服務也穩定，是開發上最實用的一款。大多數不需要高品質輸出的AI module都是用Gemini 2.5 Flash。我認為Google在Gemini 2.0 Flash之後成功找到了很好的市場切入點，才有機會把其他的型號帶起來。
Claude Sonnet 4：適用於高品質的用途。Claude的「得體」風格讓他的輸出品質十分穩定，價格跟速度方面也OK。另一個我在做Tasmap的經驗是，Sonnet系列的「美感」是最好的，或者應該說唯一有美感的。
Gemini 2.5 Flash Lite：我寫這篇的前一天才發布，還沒有用力測試過。但是初步看起來有機會成為「最小可用品質，最快速度」的選擇。
Llama 3.3 70B (on Groq)：我正在尋找「最小可用品質，最快速度」的模型，之前是用Mistral 7bx8，但現在Groq不支援了。Llama 3在品質上有點微妙，有時候會沒辦法輸出object output。

日常生活

GPT 4o：市場買菜的時候問一下「這什麼魚」之類的。離開筆電其實沒什麼在用LLM。
Claude、Gemini：同上。離開筆電就沒什麼在用LLM。

其他

Mistral：最近有在嘗試，但沒有得到特別突出的結果。他最好的型號應該是Mistral Medium，但這個定位有點尷尬，感覺定位在Claude Sonnet 4以及Gemini 2.5 Flash之間，但又沒有太突出的特色。我希望能在他們家找到一個「合格品質的超快速便宜模型」，但感覺他們自己也還在摸索該走哪個方向。
Grok：聽說搜尋推特的即時動態很棒，但還沒試過。之前在App中試用的感想不太好，功能性及輸出品質遠不及三大廠的模型。百無禁忌可能是個特色。
Claude Opus 4：太貴了，太慢了，產品跟開發中都用不到，日常工作也用不到。我沒有要給你跑1小時寫出一個project的需求，光想到有多少東西要review就怕。
GPT o3：我跟OpenAI系列不太熟，記得這是主打深度分析，但我試了幾次並沒有感覺到有多深度，就差不多跟Gemini 2.5 Pro同級而已。