ChatGPTとClaudeとGemini: どのAIが最も良いIELTSライティングフィードバックを提供するか?
この記事はAIによって翻訳されています。最も正確な内容については、英語版をご参照ください。
英語で見るChatGPTとClaudeとGemini: どのAIが最も良いIELTSライティングフィードバックを提供するか?
私は、全く同じIELTSタスク2のエッセイとプロンプトを使用してChatGPT、Claude、Geminiをテストしました。同じミス。同じフィードバックのリクエスト。しかし、結果は非常に異なりました。
このガイドでは、各AIが具体的に何を返したのか、何が私を驚かせたのか、そして実際にIELTSライティングの準備にどれを推薦するかをお見せします。
ネタバレ: IELTSのライティングフィードバックに最も優れているAIは、あなたが想像するものではありません。
テストのセットアップ
私は、意図的なミスを含むIELTSタスク2のエッセイを書きました。バンド6の候補者が犯しがちなタイプのエラーです。それから、すべてのAIツールで同じプロンプトを使用しました。
エッセイの質問
一部の人々は、技術が私たちの生活をあまりにも複雑にしていると信じており、解決策はテクノロジーなしでよりシンプルな生活を送ることであると考えています。あなたはどの程度同意しますか、またはどの程度反対しますか?
少なくとも250ワードを書いてください。
私のテストエッセイ(意図的なエラー含む)
ここに、すべてのAIツールに提出したエッセイがあります:
現代の世界では、技術が至る所に存在しており、一部の人はそれが私たちの生活をあまりにも複雑にしていると思っています。彼らは、私たちが技術なしでシンプルな生活を送るべきだと信じています。この意見には部分的に同意します。なぜなら、技術には利点と欠点の両方があるからです。
まず第一に、技術はいくつかの方法で私たちの生活をより複雑にしました。たとえば、人々は常に携帯電話やソーシャルメディアをチェックしており、十分にリラックスできません。さらに、多くのアプリやウェブサイトがあり、私たちはそれぞれのパスワードを覚えておく必要があります。これは特に高齢者にとってストレスが多い問題です。祖母は常に、スマートフォンの使い方がわからないと不平を言っています。
しかし、技術なしで生きるべきだという意見には反対です。技術は私たちにとって多くの重要な方法で助けになります。たとえば、海外に住む家族とビデオ通話を通じて簡単にコミュニケーションができることです。また、技術は私たちの仕事をより効率的にし、多くの時間を節約します。コンピュータとインターネットなしでは、多くの仕事は実行できません。
私の意見では、解決策は技術を拒否することではなく、賢く使用することです。私たちは、デバイスにどれだけの時間を費やすかを制御し、私たちの生活に本当に必要な技術を選ぶべきです。たとえば、通知をオフにして、ソーシャルメディアをチェックするための特定の時間を設定することができます。
結論として、技術は生活を複雑にすることがありますが、それなしで完全に生活することは実用的な解決策ではありません。むしろ、技術を使うこととシンプルなライフスタイルを維持することのバランスを見つけるべきです。
このエッセイは、主語と動詞の一致の問題(「it make」、「technology help」)、記事の欠如(「live simple life」)、複数形のエラー(「too many application」)やつづりの間違い(「specially」ではなく「especially」)を含む一般的なバンド6のエラーを含んでいます。
重要: このエッセイは、236語で250語をわずかに下回っています。このことをテストするために、各AIがこの問題をキャッチするかどうかも確認する予定です。
私が使用したプロンプト
あなたはIELTSの試験官です。私のタスク2エッセイを評価してください。
課題は:
一部の人々は、技術が私たちの生活をあまりにも複雑にしていると信じており、解決策はテクノロジーなしでよりシンプルな生活を送ることであると考えています。あなたはどの程度同意しますか、またはどの程度反対しますか?
少なくとも250ワードを書いてください。
私の回答:
[エッセイ以上]
評価基準:
- Task Response (私はすべての部分に完全に触れたか?私の立場は一貫して明確か?)
- Coherence and Cohesion (エッセイはよく整理されているか?アイデアは論理的につながっているか?)
- Lexical Resource (語彙は多様で正確か?つづりの間違いはないか?)
- Grammatical Range and Accuracy (文は多様か?文法の間違いはあるか?)
私にください:
1. 各基準の推定バンドスコア
2. 全体のバンドスコア
3. 私がうまくいったこと
4. 修正を伴う具体的な間違い
5. バンド8+レベルで書き直した段落
6. 次回使うべき3つの語彙アップグレード
さて、どのAIが返してきたか見ていきましょう。
ChatGPTの結果
テストモデル: GPT-4o(無料版)
つけたスコア
| 基準 | スコア |
|---|---|
| Task Response | 6.5 |
| Coherence and Cohesion | 6.5 |
| Lexical Resource | 6.0 |
| Grammatical Range and Accuracy | 5.5–6.0 |
| 全体 | 6.0–6.5 |
ChatGPTが良かった点
- 明確に述べられた意見
- 適切な例(ソーシャルメディア、パスワード、祖母、ビデオ通話)
- 論理的な段落構成
- 適切な長さ(250語以上)
- バランスの取れた議論(利点と欠点)
ChatGPTがキャッチしたエラー
ChatGPTは7つの具体的なエラーを特定しました:
- 「it make」→「it makes」(主語-動詞一致)
- 「live simple life」→「live a simple life」(記事)
- 「advantage and disadvantage」→「advantages and disadvantages」(複数形)
- 「people always checking」→「people are always checking」(動詞形)
- 「live in abroad」→「live abroad」(前置詞)
- 「specially」→「especially」(つづり)
- 「not practical solution」→「not a practical solution」(記事)
ChatGPTのバンド8+の書き直し
しかし、私は人々が完全に技術を放棄すべきだという考えには反対です。現代の技術は私たちの日常生活において重要な役割を果たしています。例えば、ビデオ通話を通じて海外に住む家族と簡単にコミュニケーションを取ることができます。さらに、技術的なツールは作業の効率を大幅に向上させ、多くの時間を節約します。コンピュータやインターネットがなければ、多くの職業が今日のグローバル化した世界で効果的に機能するのは難しいでしょう。
提案された語彙アップグレード
- 「make life complex」→「increase the complexity of daily life」
- 「use technology wisely」→「use technology in a balanced and responsible manner」
- 「not practical solution」→「an unrealistic/impractical approach」
ChatGPTが見逃した点
語数の問題。ChatGPTは実際に「250語以上書いた」と言ったが、エッセイは250語を下回っていました。これは事実誤認です。
Geminiの結果
テストモデル: Gemini Flash、Gemini Thinking、Gemini Pro(すべて無料)
つけたスコア(モデルによって異なる)
| 基準 | Flash | Thinking | Pro |
|---|---|---|---|
| Task Response | 6.0 | 6.0 | 5.0 |
| Coherence and Cohesion | 6.0 | 6.0 | 6.0 |
| Lexical Resource | 5.0 | 5.5 | 5.5 |
| Grammatical Range | 5.0 | 5.5 | 5.0 |
| 全体 | 5.5 | 6.0 | 5.5 |
Geminiは全体的に最も厳しいスコアを付けました。これはChatGPTとClaudeよりも低くなりました。
Geminiが良かった点
- 明確な構成(導入、本文段落、結論)
- 明確な意見(「部分的に同意」を一貫して維持)
- 適切な例(高齢者、ビデオ通話)
Geminiがキャッチしたエラー
Geminiは5~6の具体的なエラーを特定しました:
- 「it make our life」→「it makes our lives」
- 「live simple life」→「live a simpler life」
- 「live in abroad」→「live abroad」
- 「too many application」→「too many applications」
- 「specially」→「especially」
Geminiのバンド8+の書き直し(Thinkingモデル)
確かに、デジタル時代は圧倒される層の複雑さをもたらしました。通知の絶え間ない攻撃や、ソーシャルメディアを通じて常に「つながっていなければならない」というプレッシャーは、精神的疲労の状態を引き起こし、個人が真に切断してアンワインすることを妨げることがよくあります。さらに、無数のデジタルアイデンティティやパスワードを管理する必要性は、特に高齢者にとっては非常に負担のかかる認知的な負担を生み出します。このデジタルの分断は、インターネット時代に育たなかった人々にとって、フラustrationや除外感の感情を引き起こす可能性があります。
提案された語彙アップグレード
- 「Helpful」→「Indispensable」
- 「Bad thing」→「Detrimental」
- 「Big change」→「Revolutionized」
Geminiが他よりも良かった点(他が見逃した点)
Gemini ThinkingとGemini Proは、語数の問題に気付きました。
Gemini Thinkingは「あなたのエッセイは約225語で、250語の要件を下回っています。これにより、ペナルティが発生します。」と言いました。
Gemini Proは「エッセイは語数制限を下回っています(約220語)。これは、スコアを大きく下げる要因です。」と言いました。
これが、この問題に気づいた唯一のモデルでした。
Claudeの結果
テストモデル: Claude SonnetとClaude Haiku(両方とも無料)
つけたスコア
| 基準 | Sonnet | Haiku |
|---|---|---|
| Task Response | 6.0 | 6.5 |
| Coherence and Cohesion | 6.0 | 7.0 |
| Lexical Resource | 5.5 | 6.0 |
| Grammatical Range | 5.5 | 6.5 |
| 全体 | 6.0 | 6.5 |
Claude Haikuは最も寛大なスコアを付けました。Claude Sonnetはより保守的でした。
Claudeが良かった点
- 明確に述べられた立場
- 適切な例(スマートフォンを持つ祖母、ビデオ通話)
- 両方の側面を提示するバランスの取れた議論
- 適切な導入部、本文段落、結論
Claudeがキャッチしたエラー
Claude Sonnetは、他のAIでテストした中で最も多い10~13の具体的なエラーを特定しました。
- 「it make our life」→「it makes our lives」(主語-動詞一致 + 複数形)
- 「live simple life」→「live a simple life」(記事)
- 「advantage and disadvantage」→「advantages and disadvantages」(複数形)
- 「people always checking」→「people are always checking」(助動詞が不足)
- 「too many application and website」→「too many applications and websites」(複数形)
- 「specially」→「especially」(つづり)
- 「complain」→「complains」(主語-動詞一致)
- 「Technology help」→「Technology helps」(主語-動詞一致)
- 「live in abroad」→「live abroad」(前置詞)
- 「technology make」→「technology makes」(主語-動詞一致)
- 「on device」→「on devices」(複数形)
- 「not practical solution」→「not a practical solution」(記事)
- 「simple lifestyle」→「a simple lifestyle」(記事)
Claudeのバンド8+の書き直し(Sonnet)
しかし、私は人々が完全に技術を放棄すべきだという考えには賛同いたしません。現代の技術は私たちの日常生活に重要な役割を果たしています。たとえば、それは海外に住む家族とのビデオ通話を通じて簡単にコミュニケーションをとることを可能にします。さらに、技術的なツールは作業の効率を大幅に向上させ、時間を大幅に節約します。コンピュータとインターネットがなければ、多くの職業は今日のグローバル化した世界で効果的に機能するのは困難です。
Claudeの書き直しの違い:Claudeは単に良いバージョンを提供するのではなく、どのように変更が改善されたかを正確に説明しました。
- より洗練された語彙(contend, renouncing, feasible, facilitates)
- 従属節を含む多様な文構造
- より正確な表現(地理的に遠くに住む vs.「live in abroad」)
- 遷移表現を使った滑らかなコヒージョン。
提案された語彙アップグレード
- 「make life complex」→「exacerbate the complexity of daily life」または「render existence more intricate」
- 「too many apps」→「the proliferation of digital applications」
- 「use technology wisely」→「employ technology judiciously」または「leverage technology in a measured manner」
Claudeが見逃した点
語数の問題。ChatGPTのように、Claudeはエッセイが250語を下回っていることには触れませんでした。
横並びの比較
| 特徴 | ChatGPT | Gemini | Claude |
|---|---|---|---|
| 提供された全体スコア | 6.0–6.5 | 5.5–6.0 | 6.0–6.5 |
| テストしたモデル数 | 1 | 3 | 2 |
| キャッチしたエラー | 7 | 5–6 | 10–13 |
| クリーンなフォーマット | ✓ | ✓ | ✓ |
| 詳細なエラーリスト | ○ | ○ | ✓ |
| バンド8+の書き直し | ✓ | ✓ | ✓ |
| なぜそれが良いかの説明 | ○ | ○ | ✓ |
| 語数の問題をキャッチ | ✗ | ✓ | ✗ |
| 語彙の提案 | ✓ | ✓ | ✓ |
| 改善のヒント | ○ | ○ | ✓ |
伝説: ✓ = はい | ○ = 部分的 | ✗ = いいえ
重要な2つの注意点
私が推薦を共有する前に、これらの結果に関して知っておくべき2つのことがあります。
1. AIのスコアリングフォーマットは正しくない
すべてのAIツールが「ポイント5」のスコアを個別基準に与えました - 例えば、「Task Response: 6.5」や「Grammar: 5.5」など。
これは実際のIELTSでは正しくありません。
実際のIELTSスコアリングでは、各基準(Task Response、Coherence and Cohesion、Lexical Resource、Grammatical Range and Accuracy)は整数でスコアが付けられます。5、6、7、8など。
ポイント5スコアは、セクションの合計にのみ表示されます(スピーキングスコア、ライティングスコア)と全体のバンドスコアに表示されます。
AIが「Grammar: 5.5」と言う場合、それはIELTS基準スコアとしては無効です。
2. 語数ペナルティが変更された
Geminiは語数の問題に気づきました - そしてChatGPTとClaudeは見逃しましたが、この発見は見かけ上ほど重要ではありません。
語数制限は、数年前にIELTSから削除されました。
語数が大きく不足していることは、アイデアが十分に展開されていない可能性があるため、スコアに影響を与えることがありますが、250語ではなく240語を書くことに対する自動的なペナルティはもはや認められていません。
私のエッセイはわずかに下回っていましたが(236語)、実際の試験では、この問題は大きな影響を与えないと考えられます - アイデアがしっかりと展開されている限り。
私の正直な意見
私は元IELTSの試験官ではありません。私は何度もIELTSを受けた経験があり、多くの人のIELTSの旅を見てきた者です。
提交したエッセイに基づいて、実際のスコアはおそらくバンド7.0であると見積もっています - これはどのAIツールも予測していないものです。
その理由は:
- エッセイは明確な構造と一貫した立場を保持しています
- アイデアは適切で、例によってサポートされています
- エラーは目立ちますが、コミュニケーションを妨げていません
- わずかな語数の問題は、重要ではない可能性があります
すべてのAIツールが過度に厳しいスコアを付けていました、特にGemini。
しかし、ここが重要なのです: 他の投稿でも言ったように、バンドスコアはAIのフィードバックから得られる最も価値のあるものであるわけではありません。
AIスコアは正確ではありません。それらは人間の試験官の判断を再現することはできません。(私はこの点についての詳細を、AI scoring accuracyに関する私の投稿で説明しました。)
本当に重要なのは、フィードバックそのものです:
- どの具体的なエラーを犯したのか?
- それをどのように修正できるのか?
- バンド8+のバージョンはどのように見えるのか?
- 次回使用すべき語彙は何か?
それこそが改善に必要なことです。
私の推薦:Claude Sonnet
IELTSライティングのフィードバックに最適なAIツールを選ばなければならないとしたら、Claude Sonnetを選ぶでしょう。
その理由は:
- キャッチしたエラー数が最多(10~13) - ClaudeはChatGPT(7)やGemini(5~6)よりもはるかに多くの間違いを特定しました。多くの修正により、学習の機会も増えます。
- 最高の説明 - Claudeは「これが間違っている」と言うだけでなく、なぜ修正がより良いのか、そしてどのようにスコアに影響を与えるかを説明しました。
- 詳細なバンド8+の書き直し - Claudeは私により良いバージョンを示し、その本質的な要素を示しました:洗練された語彙、多様な文構造、正確な言語、滑らかなコヒージョン。
- 実践的な改善のヒント - Claudeは、バンド7+に到達するための具体的な推奨を提供しました。漠然としたアドバイスではありません。
はい、Claudeは語数の問題を見逃しました。しかし、そのペナルティが削除された今、私はより多くの実際のエラーをキャッチし、より良くそれらを説明してくれるAIを好むでしょう。
AIの完全な回答(参照用)
各AIが返したものを正確に見たい場合、以下に完全なレスポンスを含めています。
ChatGPT完全なレスポンス
以下は、IELTS タスク2試験官スタイルの評価で、公式のバンド記述に近いものです。
1. 基準別推定バンドスコア
Task Response: バンド6.5
あなたは課題のすべての部分に触れています。
あなたの位置(「部分的に同意」)は明確で一貫しています。
アイデアは関連していますが、いくつかの議論は、より明確な説明や例を通じて、もう少し深く展開することができたでしょう。
Coherence and Cohesion: バンド6.5
エッセイは明確な構造を持っており、導入、本文段落、結論があります。
段落分けは論理的です。
接続詞(「First」、「However」、「In conclusion」)は使われていますが、コヒージョンは時折基本的で繰り返し的です。
一部の文は、滑らかに接続されるというよりはリストのように感じられます。
Lexical Resource: バンド6.0
語彙は適切ですが、限られています。
いくつかの繰り返しがあり(「technology」、「life」、「make」)。
いくつかの単語の形とコロケーションのエラーがあります。
意味は常に明確であるので、これはポジティブです。
Grammatical Range and Accuracy: バンド5.5–6.0
あなたはほとんど単純な構造を使用しています。
主語-動詞一致、記事、複数形の頻繁なエラーがあります。
エラーはコミュニケーションを妨げてはいませんが、目立つ頻度があります。
2. 全体推定バンドスコア: 6.0–6.5
おそらくバンド6.0ですが、文法の正確性が少し改善されれば6.5に近づくでしょう。
3. 良かったところ ✅
- 明確に述べられた意見
- 適切な例(ソーシャルメディア、パスワード、祖母、ビデオ通話)
- 論理的な段落構成
- 適切な長さ(250語以上)
- バランスの取れた議論(利点と欠点)
これは強いバンド6+の特徴です。
4. 修正を伴う具体的な間違い ❌➡️✅
エッセイにおいて、スコアを下げる一般的なエラーを以下に示します:
主語–動詞一致
- ❌ technology is everywhere and some people think it make our life too complicated
- ✅ technology is everywhere and some people think it makes our lives too complicated
- ❌ technology is everywhere and some people think it make our life too complicated
記事と複数形
- ❌ live simple life
- ✅ live a simple life
- ❌ live simple life
単語の形
- ❌ has both advantage and disadvantage
- ✅ has both advantages and disadvantages
- ❌ has both advantage and disadvantage
動詞の時制/形式
- ❌ people always checking their phone
- ✅ people are always checking their phones
- ❌ people always checking their phone
前置詞
- ❌ family members who live in abroad
- ✅ family members who live abroad
- ❌ family members who live in abroad
つづり
- ❌ specially older generation
- ✅ especially the older generation
- ❌ specially older generation
記事 + 名詞
- ❌ not practical solution
- ✅ not a practical solution
- ❌ not practical solution
5. バンド8+レベルで書き直した段落
元の段落(第2部段落):
しかし、私は完全に技術を放棄すべきだという考えには反対です。近代技術は私たちの日常生活に重要な役割を果たします。例えば、インターネットを介して、海外に住む家族と簡単に連絡を取ることができます。さらに、技術的なツールは作業の効率を大きく改善し、時間を節約することに役立ちます。コンピュータやインターネットがなければ、多くの職業は正常に機能するのが難しくなります。
バンド8+バージョン:
しかし、私は人々が完全に技術を放棄すべきだという考えに異論があります。現代技術は私たちの日常生活に不可欠な役割を果たしています。たとえば、ビデオ通話を通じて、海外に住む家族と容易にコミュニケーションを取ることが可能です。さらに、技術的なツールは労働の効率を大幅に改善し、時間を節約するのに不可欠です。コンピュータやインターネットがなければ、グローバル化した現代における多くの職業は、効果的に機能することが困難です。
6. 次回のための3つの語彙アップグレード 🔤
次回のエッセイでは、基本的な言葉をこれらのより高いバンドの言葉で置き換えてみましょう;
- 「make life complex」 → increase the complexity of daily life
- 「use technology wisely」 → use technology in a balanced and responsible manner
- 「not practical solution」 → an unrealistic / impractical approach
最終試験官コメント 📝
あなたはバンド6レベルにしっかり会っていますが、バンド7に向かう可能性があります。
改善するには:
- 文法の正確性に焦点を当ててください
- より複雑な文構造を使用する
- 語彙をアップグレードし、繰り返しを避ける
Claude Sonnetの完全なレスポンス
IELTSタスク2エッセイ評価
バンドスコア
Task Response: 6.0
- あなたは課題のすべての部分に触れ、明確な立場を示しています(部分的に同意)。
- あなたの立場は一貫して維持されていますが、展開が深くありません。
- 主なアイデアは関連していますが、より詳細なサポートや例が必要です。
Coherence and Cohesion: 6.0
- 全体的な組織が論理的で明確な段落構成があります。
- 基本的な接続詞が使用されていますが、やや機械的です。
- アイデアの進行は一般的に明確ですが、さらに滑らかにすることができるでしょう。
Lexical Resource: 5.5
- 語彙は課題に対して覚えやすいですが、限られています。
- 一部のスペルや単語の形の誤りが明瞭さに影響を与えています。
- 一部の不正確さがあるものの、一般的に適切な語彙が使われています。
Grammatical Range and Accuracy: 5.5
- 単純な文構造と複合文構造が混ざって表現されています。
- エラーの頻度が高く、時折、コミュニケーションに影響を与えることがあります。
- 記事、主語-動詞一致、動詞形式に注意が必要です。
全体バンドスコア: 6.0
2. あなたがうまくやったこと
- 明確な構造: 適切な導入部、本文段落、結論があり、従ったエッセイを持っています。
- 明確な意見: あなたの「部分的に同意」という立場は、導入段落から結論にかけて一貫しています。
- 関連した例: 祖母の例やビデオ通話の例は具体的で、ポイントをサポートしています。
- バランスの取れた議論: あなたは成功裏にどちらの側面も提示し、あなたの意見を述べています。
3. 修正を伴う具体的な間違い
| エラー | 元の文章 | 修正 | タイプ |
|---|---|---|---|
| 主語-動詞一致 |