ChatGPT与Claude与Gemini:哪个AI提供最佳IELTS写作反馈?
本文由AI翻译。如需最准确的内容,请参阅英文版。
查看英文版ChatGPT与Claude与Gemini:哪个AI提供最佳IELTS写作反馈?
我使用完全相同的IELTS Task 2作文和提示测试了ChatGPT、Claude和Gemini。相同的错误。相同的反馈请求。结果非常不同。
在本指南中,我将向您展示每个AI返回的内容,我感到惊讶的地方,以及我实际上推荐的IELTS写作准备工具。
剧透: 最好的IELTS写作反馈AI不是你预想中的那个。
测试设置
我写了一篇包含故意错误的IELTS Task 2作文——这是一个Band 6考生可能犯的错误。然后,我在所有三个AI工具中使用相同的提示。
作文问题
有些人认为科技让我们的生活变得太复杂,解决方案是过上没有科技的简单生活。您在多大程度上同意或不同意?
请写至少250个单词。
我的测试作文(带故意错误)
这是我提交给所有三个AI工具的作文:
在当今世界,科技无处不在,有些人认为它使我们的生活变得太复杂。他们认为我们应该过简单的生活而不使用科技。我部分同意这种观点,因为科技既有优点也有缺点。
首先,科技在某种程度上使我们的生活变得更复杂。例如,人们总是检查他们的手机和社交媒体,他们无法得到正确的放松。此外,有太多的应用程序和网站,我们需要记住密码。这对许多人来说非常有压力,尤其是老一代。我的祖母总是抱怨她无法理解如何使用智能手机。
然而,我不同意我们应该完全生活在没有科技的状态。科技在许多重要方面帮助我们。例如,我们可以通过视频通话轻松地与居住在国外的家人进行沟通。此外,科技使我们的工作更加高效,节省了大量时间。如果没有计算机和互联网,许多工作是无法完成的。
在我看来,解决方案不是拒绝科技,而是明智地使用它。我们应该学习控制我们在设备上花费的时间,并选择哪些科技对我们的生活真正必要。例如,我们可以关闭通知并设定特定时间检查社交媒体。
总之,虽然科技可能会使生活复杂,但完全没有科技的生活并不是一个实际的解决方案。相反,我们应该在使用科技和保持简单的生活方式之间找到平衡。
这篇作文包含常见的Band 6错误,包括主谓一致问题(“it make”,“technology help”)、缺少冠词(“live simple life”)、复数错误(“too many application”)和拼写错误(“specially”而不是“especially”)。
重要提示: 这篇作文也稍微少于250个单词(236个单词),以测试每个AI是否会抓住这个问题。
我使用的提示
You are an IELTS examiner. Evaluate my Task 2 essay.
The task is:
Some people believe that technology has made our lives too complex, and the solution is to live a simpler life without technology. To what extent do you agree or disagree?
Write at least 250 words.
My response:
[Essay above]
Evaluate based on:
- Task Response (Did I fully address all parts? Is my position clear throughout?)
- Coherence and Cohesion (Is the essay well-organized? Are ideas logically connected?)
- Lexical Resource (Is vocabulary varied and precise? Are there spelling errors?)
- Grammatical Range and Accuracy (Are sentences varied? Are there grammatical errors?)
Give me:
1. Estimated band score for each criterion
2. Overall band score
3. What I did well
4. Specific mistakes with corrections
5. One paragraph rewritten at Band 8+ level
6. Three vocabulary upgrades I could use next time
现在让我们看看每个AI的返回结果。
ChatGPT结果
测试模型: GPT-4o(免费版)
给出的分数
| 标准 | 分数 |
|---|---|
| Task Response | 6.5 |
| Coherence and Cohesion | 6.5 |
| Lexical Resource | 6.0 |
| Grammatical Range and Accuracy | 5.5–6.0 |
| 总体 | 6.0–6.5 |
ChatGPT认为我做得好的地方
- 清晰的观点已阐明并保持
- 相关的例子(社交媒体、密码、祖母、视频电话)
- 逻辑段落结构
- 适当的长度(超过250字)
- 平衡的讨论(优缺点)
ChatGPT抓住的错误
ChatGPT识别出7个具体错误:
- “it make” → “it makes”(主谓一致)
- “live simple life” → “live a simple life”(冠词)
- “advantage and disadvantage” → “advantages and disadvantages”(复数)
- “people always checking” → “people are always checking”(动词形式)
- “live in abroad” → “live abroad”(介词)
- “specially” → “especially”(拼写)
- “not practical solution” → “not a practical solution”(冠词)
ChatGPT的Band 8+重写
然而,我不同意人们应该完全放弃科技的想法。现代科技在我们的日常生活中扮演着至关重要的角色。例如,它使我们能够通过视频通话轻松地与居住在国外的家人沟通。此外,技术工具显著提高了工作效率,并帮助节省时间。如果没有计算机和互联网,许多职业将在当今全球化的世界中难以有效运作。
建议的词汇升级
- “make life complex” → “increase the complexity of daily life”
- “use technology wisely” → “use technology in a balanced and responsible manner”
- “not practical solution” → “an unrealistic/impractical approach”
ChatGPT未能发现的内容
字数问题。 ChatGPT实际上说我写了“超过250个单词”,而这篇作文少于250个单词。这在事实上的描述中是错误的。
Gemini结果
测试模型: Gemini Flash、Gemini Thinking、Gemini Pro(均为免费版)
给出的分数(按模型区分)
| 标准 | Flash | Thinking | Pro |
|---|---|---|---|
| Task Response | 6.0 | 6.0 | 5.0 |
| Coherence and Cohesion | 6.0 | 6.0 | 6.0 |
| Lexical Resource | 5.0 | 5.5 | 5.5 |
| Grammatical Range | 5.0 | 5.5 | 5.0 |
| 总体 | 5.5 | 6.0 | 5.5 |
Gemini给出的分数是最严格的——低于ChatGPT和Claude的评分。
Gemini认为我做得好的地方
- 清晰的结构(引言、主体段、结论)
- 清晰的观点(“部分同意”在整篇文章中保持一致)
- 相关的例子(老一代、视频通话)
Gemini抓住的错误
Gemini识别出5-6个具体错误:
- “it make our life” → “it makes our lives”
- “live simple life” → “live a simpler life”
- “live in abroad” → “live abroad”
- “too many application” → “too many applications”
- “specially” → “especially”
Gemini的Band 8+重写(Thinking模型)
不可否认的是,数字时代带来了令人窒息的复杂性。不断的通知轰炸以及通过社交媒体保持“连接”的压力,往往会导致心理疲惫,阻止个体真正地断开联系。此外,管理无数数字身份和密码的现代需求,给人们带来了额外的认知负担,这对于老年人尤其具有挑战性。这个数字鸿沟可能导致那些未在互联网时代成长的人感到沮丧和被排斥。
建议的词汇升级
- “Helpful” → “Indispensable”
- “Bad thing” → “Detrimental”
- “Big change” → “Revolutionized”
Gemini发现的(其他未发现的)事情
Gemini Thinking和Gemini Pro都注意到了字数问题。
Gemini Thinking说:“你的作文大约是225个单词,低于250个单词的要求。这会导致扣分。”
Gemini Pro说:“这篇作文低于字数限制(约220个单词),这会显著降低你的分数。”
这是仅有的两个模型注意到这个问题。
Claude结果
测试模型: Claude Sonnet和Claude Haiku(均为免费版)
给出的分数
| 标准 | Sonnet | Haiku |
|---|---|---|
| Task Response | 6.0 | 6.5 |
| Coherence and Cohesion | 6.0 | 7.0 |
| Lexical Resource | 5.5 | 6.0 |
| Grammatical Range | 5.5 | 6.5 |
| 总体 | 6.0 | 6.5 |
Claude Haiku是最慷慨的评分者。Claude Sonnet更加保守。
Claude认为我做得好的地方
- 清晰的观点已阐明并保持
- 相关的例子(祖母与智能手机,视频通话)
- 平衡的论证呈现了两个方面
- 合适的介绍、主体段和结论
Claude抓住的错误
Claude Sonnet识别出了10-13个具体错误——是所有测试AI中最多的:
- “it make our life” → “it makes our lives”(主谓一致 + 搭配)
- “live simple life” → “live a simple life”(冠词)
- “advantage and disadvantage” → “advantages and disadvantages”(复数)
- “people always checking” → “people are always checking”(缺失的助动词)
- “too many application and website” → “too many applications and websites”(复数)
- “specially” → “especially”(拼写)
- “complain” → “complains”(主谓一致)
- “Technology help” → “Technology helps”(主谓一致)
- “live in abroad” → “live abroad”(介词)
- “technology make” → “technology makes”(主谓一致)
- “on device” → “on devices”(复数)
- “not practical solution” → “not a practical solution”(冠词)
- “simple lifestyle” → “a simple lifestyle”(冠词)
Claude的Band 8+重写(Sonnet)
然而,我不同意人们应该完全放弃科技的想法。现代科技在我们的日常生活中扮演着至关重要的角色。例如,它使我们能够通过视频通话轻松地与居住在国外的家人沟通。此外,技术工具显著提高了工作效率,并帮助节省时间。如果没有计算机和互联网,许多职业将在当今全球化的世界中难以有效运作。
Claude的重写有何不同:
Claude不仅提供了更好的版本——它还解释了每个变化为什么能改善写作:
- 更复杂的词汇(contend, renouncing, feasible, facilitates)
- 句子结构多样化,包含从句
- 更精确的语言(“geographically distant”对比“live in abroad”)
- 更平滑的衔接,使用过渡短语
建议的词汇升级
- “make life complex” → “exacerbate the complexity of daily life”或“render existence more intricate”
- “too many apps” → “the proliferation of digital applications”
- “use technology wisely” → “employ technology judiciously”或“leverage technology in a measured manner”
Claude未能发现的内容
字数问题。 和ChatGPT一样,Claude也没有提到这篇作文低于250个单词。
并排比较
| 特征 | ChatGPT | Gemini | Claude |
|---|---|---|---|
| 总体评分 | 6.0–6.5 | 5.5–6.0 | 6.0–6.5 |
| 测试模型数量 | 1 | 3 | 2 |
| 抓住的错误 | 7 | 5–6 | 10–13 |
| 格式规范 | ✓ | ✓ | ✓ |
| 错误细节列表 | ○ | ○ | ✓ |
| Band 8+重写 | ✓ | ✓ | ✓ |
| 解释为何更好 | ○ | ○ | ✓ |
| 抓住字数问题 | ✗ | ✓ | ✗ |
| 词汇建议 | ✓ | ✓ | ✓ |
| 改进建议 | ○ | ○ | ✓ |
图例: ✓ = 是 | ○ = 部分 | ✗ = 否
两个重要说明
在我分享我的推荐之前,关于这些结果有两个你应该知道的事情。
1. AI评分格式是错误的
每个AI工具对每项标准都给出了“0.5分”的分数——比如“Task Response: 6.5”或“Grammar: 5.5”。
这并不是实际IELTS的操作方式。
在实际IELTS评分中,每个标准(Task Response、Coherence and Cohesion、Lexical Resource和Grammatical Range and Accuracy)的得分是整数:5、6、7、8等等。
0.5分只出现在部分总分(口语分数、写作分数)和整体分数中。
因此,当一个AI说“Grammar: 5.5”,那不是有效的IELTS标准分数。
2. 字数处罚已经改变
虽然Gemini抓住了字数问题——而ChatGPT和Claude没有注意到——但这一发现看起来没那么重要。
IELTS在几年前就已经取消了严格的字数处罚。
写得显著少于要求字数仍然会影响你的分数(因为你可能没有充分展开思想),但现在不再会因为写240字而自动处罚。
我的作文只有略微不足(236个字)。在实际考试中,这可能不会显著影响分数——只要思想得到了良好的展开。
我诚实的看法
我不是前IELTS考官。我是一个多次参加IELTS考试,并见证许多考生IELTS旅程的人。
根据我提交的作文,我估计真实的分数大约是Band 7.0——高于任何AI工具的预测。
这里是我的推理:
- 这篇作文结构清晰,保持了一致的立场
- 思路相关并以例子支持
- 错误显而易见,但并未妨碍交流
- 稍微的字数问题是微不足道的
所有三个AI工具的评分都太严格,特别是Gemini。
但事情是这样的:正如我在其他帖子中所说,分数并不是你从AI反馈中获得的最有价值的东西。
AI给出的分数并不准确。它们无法复制人工考官的判断。(我在关于AI评分准确性的帖子中对此做了详细说明。)
真正的价值在于反馈本身:
- 你做错了哪些具体错误?
- 你如何修正它们?
- Band 8+的版本是什么样的?
- 你下次应该使用什么词汇?
这才是改善的重要所在。
我的推荐:Claude Sonnet
如果我必须选择一个AI工具来获取IELTS写作反馈,我会选择Claude Sonnet。
原因有以下几点:
抓住的错误最多(10-13)——Claude识别出显著更多的错误,超过ChatGPT(7)或Gemini(5-6)。更多的修正=更多的学习机会。
最佳解释——Claude不仅仅说“这是错误的。”它解释了为什么修正更好,以及它如何影响你的分数。
详细的Band 8+重写——Claude向我展示了一个更好的版本,并解释了使其达到Band 8的更改:复杂的词汇、句子结构的变化、精确的语言、平滑的衔接。
可操作的改进建议——Claude提供了具体建议,帮助我达到Band 7+,而不仅仅是模糊的建议。
是的,Claude错过了字数问题。但由于那项处罚已被取消,我宁愿选择一个抓住更多实际错误且更好地解释它们的AI。
完整的AI响应(供参考)
如果你想准确查看每个AI的返回,我已在下面包含了完整的响应。
ChatGPT完整响应
以下是一个IELTS Task 2考官风格的评估,紧密遵循官方评分标准。
1. 按标准估计的分数
Task Response: Band 6.5
- 你涵盖了任务的所有部分。
- 你的立场(“部分同意”)在整个作文中是清晰且一致的。
- 思路相关,但某些论点可以通过更清晰的解释和例子进行更深入的展开。
Coherence and Cohesion: Band 6.5
- 这篇作文的结构清晰:引言、主体段、结论。
- 段落划分是逻辑的。
- 使用了连接词(“首先”、“然而”、“总之”),但衔接有时基本且重复。
- 有些句子感觉像列表,而不是顺畅连接的。
Lexical Resource: Band 6.0
- 词汇适当但有限。
- 有几个重复(“technology”、“life”、“make”)。
- 一些词形和搭配错误。
- 意思始终清晰,这是积极的。
Grammatical Range and Accuracy: Band 5.5–6.0
- 你主要使用简单的句子结构。
- 频繁出现的主谓一致、冠词和复数错误。
- 错误不会阻碍交流,但频繁且显而易见。
2. 总体估计的分数:6.0–6.5
最可能是6.0,但如果语法准确度稍有改善,则接近6.5。
3. 你做得好的地方 ✅
- 清晰的观点陈述并保持一致
- 相关的例子(社交媒体、密码、祖母、视频通话)
- 逻辑的段落结构
- 适当的长度(超过250字)
- 平衡的讨论(优势和劣势)
这些是良好的Band 6+特征。
4. 具体错误及修正 ❌➡️✅
以下是在你的作文中减少分数的一些常见错误:
- 主谓一致
- ❌