国内外六款AI大语言模型英语写作文本特征对比研究

罗芷汀; 柴省三

宁夏大学学报(社会科学版） ›› 2025, Vol. 47 ›› Issue (04) : 69 -79.

语言学研究

国内外六款AI大语言模型英语写作文本特征对比研究

罗芷汀 ,
柴省三

作者信息 +

Author information +

文章历史 +

PDF (565K)

摘要

基于人工智能（AI）的大语言模型正在全方位重塑语言教育生态。大语言模型通过基于海量文本数据的预训练，能够捕捉到语言的复杂性，生成适应不同语境与主题的文本，并能够为学习者提供即时反馈、写作文本生成和逻辑框架，有望改变传统的二语写作教学模式。由于每种大语言模型在训练方式、底层架构和算法方面并不完全相同，因此在写作文本质量上也可能有差异。本文通过实验研究，基于Coh-Metrix文本分析工具，对ChatGPT、Gemini、Claude、DeepSeek、文心一言和Kimi等主流大语言模型在英语同题写作文本的词汇多样性、句子衔接性、段落衔接性、句法复杂度和文本可读性进行了对比分析，研究结果可为英语二语写作教学中的模型选择提供适配度参考。

关键词

大语言模型（LLMs） / 英语写作评价 / Coh-Metrix / 语言特征

Key words

引用本文

引用格式 ▾

[Author(id=1241409904025350618, tenantId=1045748351789510663, journalId=1155139928303341781, articleId=1190597102020358557, orderNo=0, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=null, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={CN=AuthorExt(id=1241409904084070883, tenantId=1045748351789510663, journalId=1155139928303341781, articleId=1190597102020358557, authorId=1241409904025350618, language=CN, stringName=罗芷汀, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=北京语言大学国际学生教育政策与评价研究院，北京 100083, bio={"content":"

罗芷汀（2000— ），女，贵州贵阳人，北京语言大学国际学生教育政策与评价研究院博士研究生，主要从事语言习得研究。

"}, bioImg=null, bioContent=

罗芷汀（2000— ），女，贵州贵阳人，北京语言大学国际学生教育政策与评价研究院博士研究生，主要从事语言习得研究。

, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1241409903962436051, tenantId=1045748351789510663, journalId=1155139928303341781, articleId=1190597102020358557, xref=null, ext=[AuthorCompanyExt(id=1241409903979213269, tenantId=1045748351789510663, journalId=1155139928303341781, articleId=1190597102020358557, companyId=1241409903962436051, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=北京语言大学国际学生教育政策与评价研究院，北京 100083)])]), Author(id=1241409904130208231, tenantId=1045748351789510663, journalId=1155139928303341781, articleId=1190597102020358557, orderNo=1, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=null, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={CN=AuthorExt(id=1241409904193122798, tenantId=1045748351789510663, journalId=1155139928303341781, articleId=1190597102020358557, authorId=1241409904130208231, language=CN, stringName=柴省三, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=北京语言大学国际学生教育政策与评价研究院，北京 100083, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1241409903962436051, tenantId=1045748351789510663, journalId=1155139928303341781, articleId=1190597102020358557, xref=null, ext=[AuthorCompanyExt(id=1241409903979213269, tenantId=1045748351789510663, journalId=1155139928303341781, articleId=1190597102020358557, companyId=1241409903962436051, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=北京语言大学国际学生教育政策与评价研究院，北京 100083)])])] 罗芷汀,柴省三. 国内外六款AI大语言模型英语写作文本特征对比研究[J]. 宁夏大学学报(社会科学版）, 2025, 47(04): 69-79 DOI:

登录浏览全文

4963

注册一个新账户忘记密码

一引言

（一）研究背景与意义

随着人工智能（Artificial Intelligence， AI）技术的发展，国内外若干大语言模型（Large Language Models，LLMs）如 ChatGPT、Claude、DeepSeek等纷纷面世，LLMs在教育领域尤其是英语二语（L2）写作教学中的垂直应用已经越来越普遍^［1］。LLMs 可以为英语第二语言学习者提供实时反馈（Intermediate feedback）、写作示例（Exemplars）和自动评分（Automated writing evaluation，AWE）应用，从而帮助学习者提高写作能力。基于庞大的训练数据和复杂的深度学习（Deep learning）架构，LLMs在语言理解和内容生成方面展现了不俗的能力^［2］，而且可以通过提供有针对性的高效反馈、增强词汇使用广度和改善语法准确性等方式帮助英语二语学习者提升写作能力，辅助英语教师提高教学效果，使其成为英语二语写作的重要个性化辅助工具^［3］。

针对LLMs生成文本的语言特征，不少研究人员进行了实证研究。有研究表明，ChatGPT生成的文本几乎没有语法错误，因此也被语言教师尝试用于二语写作教学，如生成写作大纲、提供写作思路与观点、对论文初稿进行修改、润色等^［4］。ChatGPT生成的文本无论是在词形还是词种比率上，都显著高于人类作文^［5］。Herbold等人针对英语二语学习者和ChatGPT分别产出的270篇议论文进行了对比研究，发现ChatGPT生成的作文在语言表达、主题完整性、逻辑结构和文本衔接性等方面明显优于英语二语学习者的作文^［6］。还有研究表明，虽然ChatGPT和Gemini等大语言模型在生成连贯且语境适宜的句子方面表现出色，但它们在内容选择和批判性思维（critical thinking）的处理方面存在不足^［7］。此外，基于汉语母语环境开发的AI大语言模型，比如文心一言和Kimi等可能在为中国英语二语学习者提供本地化语言支持方面具有独特优势，能够更好地契合中国学生英语写作学习的需求。虽然LLMs已引起了语言学界的关注，但不同大语言模型输出的文本在语言复杂性（complexity）、词汇多样性（lexical diversity）、语义衔接性（coherence）和句法结构（sentence structure）等方面可能存在差异，因此通过实验研究，全面、系统地考察不同大语言模型在英语写作文本方面的语言学特征，深入分析不同LLMs生成的文本的语言特征，并据此为英语二语学习者提供模型评价、选择和高适配度应用具有重要的实践价值。

基于上述考虑，本研究将使用Coh-Metrix英语写作自动分析工具，针对国内外六种主流大语言模型（ChatGPT 4.0、Gemini 1.5、Claude 3.0、DeepSeek、文心一言4.0和 Kimi）进行英语同题写作文本的实验研究，通过比较不同大语言模型生成的文本在词汇多样性（lexical diversity）、语义衔接（coherence）、句法复杂度（syntactic complexity）和文本可读性（readability）等语言特征指标方面的差异，全面评价不同大语言模型生成的英语文本的相对优势，为英语作为第二语言的写作教学和学习提供借鉴，并为LLMs在语言教学和评估中的针对性应用提供实证依据。

（二） Coh-Metrix在英语文本分析中的应用

Coh-Metrix是由美国孟菲斯大学McNamera等人基于语料库语言学、计算语言学、自然语言处理等多学科的最新进展而研发的可以采集并量化写作文本的可读性、衔接性、句法复杂度等多项指标的英语文本自动化分析工具^［8］。Coh-Metrix可以实现对英语文本的表层结构和深层特征的自动量化分析和有效评估。目前，Coh-Metrix已广泛应用于英语二语写作的评价研究中，它可以帮助英语教师分析学生作文中的语言特征，评估写作质量，并探索不同语言特征与写作能力之间的相关关系^［9］。

Crossley和McNamara通过Coh-Metrix对文本的语法复杂度、衔接性和词汇多样性等特征进行了分析，结果表明上述指标可以有效预测英语二语者的写作熟练程度^［10］。Ullmann在2019年使用Coh-Metrix分析了学生的写作文本，发现语言的复杂性、衔接性和词汇多样性与英语写作成绩之间存在着显著的相关关系^［11］，表明Coh-Metrix文本分析指标在预测学习者的英语写作水平方面具有较高的效度。

Coh-Metrix文本分析工具可以提供多达108项文本评估指标，能够较准确地量化分析文本的语言特征。在这些指标中，最有价值的评估指标主要包括词汇多样性、句子衔接性、段落衔接性、句法复杂度和文本可读性，它们可以全面揭示文本的复杂性、连贯性和适宜性。

词汇多样性（LDTTRa）是一个反映文本语言丰富程度的重要评估指标。多项研究发现，词汇因素在作文整体评分中对分数的影响最大^［12-14］，文章的质量在很大程度上取决于所使用的词汇^［15］。然而，过度丰富的词汇使用有时也会导致文本主题表达不明确，并可能对低水平英语学习者的理解构成负担。通过Coh-Metrix对词汇多样性的评估，能够帮助英语教学者选择哪些模型生成的文本在词汇使用上更适合英语二语学习者。

句子衔接性（LSASS1）和段落衔接性（LSAPP1）是Coh-Metrix提供的评估文本衔接性的两个重要指标。衔接能力对于二语学习者而言尤为重要。语言学习者在写作中往往面临连接句子和段落的困难，而缺乏衔接性的文本会让读者难以理解作者的语义逻辑和表达意图。通过分析文本的LSASS1和LSAPP1指标，可以有效揭示不同LLMs生成的文本的衔接性差异，准确判断哪些模型生成的文本更具连贯性，更适合充当二语学习者的写作学习辅助工具。

在句法复杂度（SYNLE）方面，Coh-Metrix通过计算每个句子中的名词短语数量来衡量句法复杂度。早在1980年，Crowhurst的研究表明，10到12年级学生的议论文写作分数与句法复杂度之间存在显著相关^［16］。过高的句法复杂度可能使二语学习者在理解和产生句子时遇到困难。

文本可读性指标（RDFKGL）是Coh-Metrix文本分析工具提供的可以评估文本可读性的重要指标，所谓可读性（readability）就是指文本的理解难易度。对于二语学习者来说，文本的可读性直接影响其理解和产出能力。过高的RDFKGL值可能意味着文本的词汇句法等过于复杂，不适合英语低水平学习者。

Coh-Metrix作为一个精确评估写作质量的有效工具，不仅在评估学生写作质量方面具有重要的价值，而且在评估LLMs生成的文本语言学特征方面也是一个可靠的工具。它能够从多个维度对文本的语言特征进行量化分析，为二语学习者提供精准的认知诊断指导，也为英语教育工作者选择合适的模型提供了针对性建议。随着LLMs在二语教育中的广泛应用，结合Coh-Metrix进行文本分析的应用性研究颇为必要，研究成果将有助于英语教学者根据学生的实际需求选择最适合的写作辅助工具。

二研究设计

（一）研究语料

本研究所使用的语料均是国内外六个主流大语言模型（LLMs）生成的英语文本。具体来说，这些模型包括ChatGPT、Gemini、Claude、DeepSeek、文心一言和Kimi，六个模型均是基于Transformer架构的生成式预训练通用模型，其核心技术包括自注意力机制、多层解码器结构以及预训练与微调相结合的训练策略，目前LLMs已在文本生成、分类、翻译、逻辑和语言对话—反馈等通用领域衍生出了广阔的应用场景，尤其在生成写作文本时表现出各自独特的特点和优势，作为研究对象的六个大语言模型的基本概况见表1。

为了深度分析不同LLMs生成的文本语言学特征，我们采用相同的提示语（prompts）和写作规则（rubrics），在相同的提示框下引导六个大模型分别生成9篇英文文本，共计获得54篇文本作为研究语料。文本生成指令的题目要求如下。

Based on the following topic， write 3 English essays. Write at least 250 words in each essay. Each essay should be divided into paragraphs and logically coherent.

Topic：In universities， people tend to concern more about the career prospect of the subjects they learn. Some people propose that students should learn subjects with a fast job growth including science， technology， and engineering even if these are not parts of their field of study. Do you agree or disagree this statement？Use specific reasons and examples to support your answer. Write at least 250 words.

为了避免题目（topic）因素对文本生成产生的偏差，我们的作文任务设计借鉴了大型国际标准化英语写作考试（改编自IELTS 8 Test 2）的题目要求，以统一的提示语引导六个大语言模型围绕给定的主题进行论证写作。写作题目要求模型生成不少于250字的英语作文，题目内容为开放性讨论类问题。

本研究将针对语言大模型生成的作文语料，使用Coh-Metrix英语文本分析工具对不同LLMs生成的文本的典型语言特征指标进行分析和对比研究。

（二）研究问题

1.六种大语言模型生成的文本在词汇多样性、句子衔接性、段落衔接性、句法复杂度和文本可读性指标方面是否存在显著差异？

2.国内与国外两类大语言模型生成的文本在词汇多样性、句子衔接性、段落衔接性、句法复杂度和文本可读性指标方面是否存在显著差异？

（三）研究思路

首先，针对六个大语言模型（LLMs）生成的54篇英语写作文本进行数据收集和预处理。为了确保数据的准确性和分析的可操作性，所有文本首先被输入Word文档进行存储，并分别转换成txt格式，形成一个微型语料库。同时，根据文本的来源和生成模型，对每篇作文进行编码处理，例如，ChatGPT-1表示由ChatGPT生成的第一篇文本，Claude -2表示由Claude生成的第二篇文本，以此类推，以确保每个文本都具有明确的来源标识。

其次，采用Coh-Metrix 3.0英文文本自动分析软件，分别针对每篇文本进行语言特征指标提取和分析。本研究中，Coh-Metrix提取的语言指标主要包括LDTTRa（词汇多样性）、LSASS1（句子衔接性）、LSAPP1（段落衔接性）、SYNLE（句法复杂度）和RDFKGL（文本可读性）等。

最后，基于Coh-Metrix提取的所有模型的文本的词汇多样性、句子衔接性、段落衔接性、句法复杂度和文本可读性等语言学特征指标，使用SPSS 27.0软件对每个模型生成的文本的上述指标进行描述性统计分析，同时，采用单因素方差分析（ANOVA），深入考察不同模型在不同语言特征指标方面的差异，探讨ChatGPT、Gemini、Claude、DeepSeek、文心一言和Kimi等模型生成的文本特征。此外，对六种大语言模型按照国内外两大类进行分类，对比国内LLMs（DeepSeek、文心一言和Kimi）与国外LLMs（ChatGPT、Gemini和Claude）生成的作文文本总体在五种文本指标上的差异。

（四）指标定义

针对六个大语言模型生成的文本，我们采用Coh-Metrix 3.0工具进行分析。Coh-Metrix可以针对文本提供若干指标，但对文本质量评价最有价值的指标主要关注的是文本词汇层面、句子层面、段落层面以及整体层面。具体的文本语言特征指标定义见表2。

三研究结果

（一）描述性统计

为了考察不同LLMs在相同提示语下生成的同题英语文本的宏观特征，我们首先针对六个LLMs生成的文本长度进行描述性统计，具体结果见表3。

描述性统计结果显示，文心一言和Claude生成的文本较长，9篇文本的平均长度分别是353个词和334个词；ChatGPT和DeepSeek生成的文本长度较短，分别是289个词和283个词。国内模型（文心一言、Kimi和DeepSeek）和国外模型（ChatGPT、Claude和Gemini）生成的文本平均长度分别是312个词和320个词。

为了从微观上探讨不同LLMs生成的文本的语言学特征变量，针对每个模型的9篇文本采用Coh-Metrix进行文本分析，并获得词汇多样性（LDTTRa）、句子衔接性（LSASS1）、段落衔接性（LSAPP1）、句法复杂度（SYNLE）和文本可读性（RDFKGL）五个指标的描述性统计结果（见表4）。

从大语言模型生成的文本指标的描述性统计数据来看，我们可初步发现以下结果：（1）从生成的词汇多样性指标来看，ChatGPT表现最突出，LDTTRa的平均值达到了0.628，表明其生成文本的词汇丰富度最高；文心一言和Kim的词汇多样性指标则相对较低。（2）在句子衔接性方面，Claude模型的表现最好，LSASS1的平均值是0.306，ChatGPT则最低，LSASS1的平均值仅为0.198。（3）在段落衔接性方面，Claude模型的表现最好，LASPP1的平均值是0.455，文心一言模型的段落衔接指标最低，平均值是0.343。Claude生成的文本更连贯，衔接度更好。（4）在句法复杂度方面，Kimi的SYNLE值最高（7.031），表明其生成的文本语法结构较为复杂，Claude模型的句法复杂度则最低，平均值仅为5.562。（5）在文本可读性方面，Claude模型的平均值得分最高，达到16.333，表明其生成的文本难度较大，而DeepSeek和文心一言的平均值得分比Claude低，分别为13.507和13.693，说明两者生成的文本更容易理解。

如果将六种大语言模型分成两大类，即国内模型（文心一言，Kimi，DeepSeek）和国外模型（ChatGPT，Claude，Gemini）两大类，我们可以得到国内与国外大语言模型在Coh-Metrix五种文本指标上的结果，见表5。根据表5的数据，对比国内与国外大语言模型在各项文本指标上的总体差异，见表6。

续表5

在国内外LLMs生成的文本中，两类文本在五项指标上均存在一定程度的差异。结果表明，国外LLMs生成的文本在词汇多样性上表现更优，其中词汇多样性（LDTTRa）指标平均值为0.60796，优于国内文本（平均值为0.58722）。在句子衔接性指标（LSASS1）上，国外LLMs文本的优势更为明显，平均值达到0.24944，国内文本的平均值为0.223。在段落衔接性指标（LSAPP1）上，国外LLMs文本表现优于国内LLMs文本。从句法复杂度（SYNLE）指标来看，国内LLMs生成的文本句法复杂度平均值为6.29726，但国外大模型生成的句法复杂度标准差（SD=1.29077）比国内（SD=0.85752）模型要大。最后，国外模型在文本可读性指标上大于国内模型，国内外文本的对比分析进一步揭示了文本生成模型的来源差异性。

（二）单因素方差分析

为了进一步探讨ChatGPT、Claude、Gemini、文心一言、Kimi与DeepSeek六个大语言模型生成的英文文本的语言特征指标是否存在显著差异，本研究针对Coh-Metrix提取的五项文本指标（LSASS1、LSAPP1、LDTTRa、SYNLE、RDFKGL）分别进行了单因素方差分析（ANOVA），方差分析结果汇总见表7。

在方差分析前，首先需要进行球形假设检验（Mauchly’s Test of Sphericity），检验结果显示：六个LLMs在词汇多样性、句子衔接性、段落衔接性、句法复杂度和文本可读性五个文本指标的球形假设检验结果的P值均大于0.05，即全部满足方差齐性要求，符合方差分析的条件（见表8）。

从单因素重复测量方差分析结果来看，六个LLMs在词汇多样性、句子衔接性、段落衔接性和文本可读性四个指标上的P值全部小于0.01的显著水平，只有句法复杂度指标上的差异没有达到显著水平（F=2.101，P=0.085>0.01）。分析结果表明ChatGPT、Claude、Gemini、文心一言、Kimi和DeepSeek六个语言大模型生成的英语文本除了在句法复杂度方面没有显著差异外，在其他四个指标上均存在极其显著差异（P<0.01）。

由于单因素重复测量方差分析结果表明，六个LLMs在词汇多样性、句子衔接性、段落衔接性和文本可读性四个指标上的P值全部小于0.01的显著水平，为了进一步分析六个模型在这四个文本指标上的具体差异，我们需要采用事后多重比较法对模型之间的差异进行显著性检验。

（三） Tukey事后检验

将六个LLMs的生成文本在词汇多样性、句子衔接性、段落衔接性和文本可读性四个指标的结果采用Tukey后续检验后，检验结果显示：（1）在词汇多样性（LDTTRa）指标上，ChatGPT与DeepSeek均显著高于Gemini、文心一言和Kimi，P值均小于0.01；Claude 与 ChatGPT、DeepSeek之间无显著差异，但Claude显著高于 Kimi。ChatGPT与DeepSeek之间无显著差异。说明ChatGPT与DeepSeek生成的英语文本具备更丰富的词汇分布，Kimi在词汇多样性方面相较于其他五个模型表现较弱。（2）在句子间衔接指标（LSASS1）方面，Claude显著高于其余五个模型，P值均小于等于0.01，其余五个模型之间的差异并不显著，表明在句子层面的连贯性上，Claude 明显优于所有同类模型。（3）在段落间衔接（LSAPP1）指标上，Claude显著高于ChatGPT、Gemini、文心一言和 Kimi。DeepSeek略低于Claude，但两者无显著差异，且DeepSeek与其他模型的差异未达到显著水平。在段落衔接层面，Claude保持着显著优势。（4）在文本可读性方面（RDFKGL），Claude与其余五个模型差异显著，P值均小于0.01，且Claude在此指标上的值显著高于其余五个模型，表明Claude生成文本阅读难度最大。

总体而言，Claude在句子衔接性、段落衔接性和文本可读性三个指标上显著高于多数同类模型。

（四）国内外LLMs文本指标差异的T检验

为了从整体上考察国内大语言模型和国外大语言模型在生成的文本指标之间是否存在差异，我们将六种LLMs分为国内（DeepSeek、文心一言、Kimi）和国外（ChatGPT、Claude、Gemini）两类模型，然后基于Coh-Metrix提取的语言特征指标，进行了独立样本T检验，检验结果见表9。

在进行T检验以前，首先需要进行方差齐性检验（Test of Homogeneity of Variance），并根据方差齐性假设是否满足分别以T值为依据进行决策。独立样本T检验结果显示，国内大语言模型和国外大语言模型只在词汇多样性（LDTTRa）（t=2.097，P=0.041<0.05）和文本可读性（RDFKGL）（t=3.201，P=0.003<0.05）两个指标上存在显著差异，其他指标上则不存在显著差异。

四讨论

针对国内外六个大语言模型生成的文本语言学特征指标的方差分析结果显示，六个LLMs在词汇多样性、句子及段落的衔接性和文本可读性方面显著不同。这一研究结果与以往的试验结果吻合，验证了不同模型在训练方式、数据处理和算法架构方面的多样性。具体而言，在词汇多样性方面，DeepSeek表现突出，其生成的文本在词汇丰富性方面明显高于其他模型；而Kimi模型则表现相对较弱。Claude在句子与段落衔接性指标中也表现突出，这显示其生成的文本具有较高的语义连贯性和衔接流畅性。Claude模型在文本可读性方面得分最高，表明其生成的文本语言难度最大。ChatGPT和DeepSeek模型的文本难度较低，生成的英语文本更易于理解。在句法复杂度方面，Kimi模型的平均得分相对最高，表明其生成的句法结构相对复杂，但六个大语言模型之间在句法复杂度上没有显著差异，说明六个LLMs生成的英语文本在句法复杂度上比较相似。

Tukey事后检验结果显示，Claude模型在句子衔接性和段落衔接性方面表现尤其突出，其相对优势可能归因于更为精准的语言结构学习和语义衔接机制。DeepSeek在词汇多样性方面的突出表现，则提示了国内模型在特定方面已具备一定的竞争优势，但在整体语言表现上仍需更加优化和提高。

另外，国内与国外大语言模型在Coh-Metrix文本指标的对比分析揭示出显著的差异。整体而言，国外模型在词汇多样性和文本可读性方面表现明显优于国内模型。这一结果可能与国外大语言模型英语训练语料规模更大、语言多样性更丰富有关^［17］，使得其生成文本在词汇使用方面更加丰富和多样。国内模型在此指标上表现相对不足，可能需要进一步优化训练策略，增加语料库规模，以提升文本生成的词汇多样性和丰富性。在句子衔接性方面，国外模型表现也较为优异，这意味着国外模型可能更擅长捕捉句子之间的上下文语义关系，从而生成更加连贯的文本。然而，在段落衔接性和句法复杂度方面，国内外模型差异未达到显著水平，表明国内外大语言模型在段落结构的连贯性和句法复杂性方面的表现趋于一致^［18］。这一结果可能反映出大语言模型在特定语篇结构和句法生成方面已达到了相对成熟的技术水平。

五结论

本研究基于Coh-Metrix文本分析工具，通过方差分析和独立样本T检验法，探讨了六个国内外大语言模型（LLMs）生成的英语文本，在词汇多样性（LDTTRa）、句子衔接性（LSASS1）、段落衔接性（LSAPP1）、句法复杂度（SYNLE）和文本可读性（RDFKGL）五项文本指标上的表现差异，同时进一步探讨了国内与国外LLMs在上述文本特征上的整体表现差异，试验研究的结论如下。

首先，从六个LLMs之间的对比研究来看，在句法复杂度方面模型之间不存在显著差异以外，但六个LLMs在词汇多样性、句子衔接性、段落衔接性以及文本可读性方面均存在显著差异。

其次，从国内和国外两组LLMs生成的文本指标来看，国外大语言模型在词汇多样性和文本可读性两个方面差异显著，即三个国外大语言模型在这两项指标上明显优于国内三个大语言模型，但在句子衔接性、段落衔接性和句法复杂度三个文本指标上则无显著差异。

研究结果表明，国外大语言模型在英语文本生成方面具有一定的整体优势，但同时也揭示了国内大语言模型在生成文本的某些方面具有一定潜力和提升空间。未来研究可进一步探索如何通过优化国内大语言模型的训练数据与技术架构，提升其语言生成质量，从而更有效地满足语言学习者的多样化需求。同时，后续研究可以更多地关注大语言模型在实际教学场景中的应用与评估，以充分发挥人工智能技术在语言学习和写作教育领域的辅助作用。

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	MINDNER L，SCHLIPPE T，SCHAAFF K.Classification of Human- and AI-Generated Texts：Investigating Features for ChatGPT［M］.International Conference on Artificial Intelligence in Education Technology. Singapore：Springer Nature Singapore，2023：152-170.

[2]	苏祺，杨佳野.语言智能的演进及其在新文科中的应用探析［J］.中国外语，2023，（3）：4-11．

[3]	BUBECK S， CHANDRASEKARAN V， ELDAN R， et al. Sparks of Artificial General Intelligence： Early Experiments with GPT-4 ［EB/OL］. （2023-3-22）［2023-4-13］. https：//arxiv.org/abs/2303.12712.

[4]	郭茜，冯瑞玲，华远方.ChatGPT在英语学术论文写作与教学中的应用及潜在问题［J］.外语电化教学，2023（2）：18-23+107.

[5]	吴琼.汉语二语者、母语者及ChatGPT生成记叙文写作质量和词汇复杂度对比研究［J］.世界汉语教学，2024（4）：517-532.

[6]	HERBOLD S，HAUTLI-JANISZ A，HEUER U， et al.AI，write an essay for me：A large-scale comparison of human-written versus ChatGPT-generated essays［EB/OL］. （2023-4-22）. https：//arxiv.org/abs/2304.14276.

[7]	SMITH G， FUNK J.When It Comes to Critical Thinking，AI Flunks the Test ［EB/OL］. （2024-3-13）. https：//www.chronicle.com/article/when-it-comes-to-critical-thinking-ai-flunks-the-test.

[8]	GRAESSER A C，MCNAMARA D S，CAI Z，CONLEY M，LI H，PENNEBAKER J.Coh-Metrix measures text characteristics at multiple levels of language and discourse［J］.The Elementary School Journal，2014，115 （2）：210 - 229.

[9]	MCNAMARA D S.Coh-Metrix：Capturing linguistic features of cohesion ［J］.Discourse Processes，2010（47）：292-330.

[10]	CROSSLEY S A，MCNAMARA D S.Predicting second language writing proficiency：The roles of cohesion and linguistic sophistication［J］.Journal of Research in Reading，2012，35 （2）：115–135.

[11]	ULLMANN T D. Automated analysis of reflection in writing： validating machine learning approaches［J］.International Journal of Artificial Intelligence in Education，2019，29 （2）：217-257.

[12]	SANTOS T. Professors’ reactions to the academic writing of nonnative-speaking students［J］.TESOL Quarterly，1988，22（1）：69-90.

[13]	ASTIKA G G. Analytical assessments of foreign students’ writing［J］.RELC Journal，1993，24（1）：61-70.

[14]	NATION P.Learning vocabulary in another language［M］.Cambridge：Cambridge University Press，2001.

[15]	KYLE C，CROSSLEY S A.The relationship between lexical sophistication and independent- and source-based writing［J］.Journal of Second Language Writing，2016，34：12-24.

[16]	CROWHURST M. Syntactic complexity and teachers’ quality ratings of narrations and arguments［J］.Research in the Teaching of English，1980 （14）：223-231.

[17]	BROWN T B， MANN B， RYDER N， et al. Language models are few-shot learners［M］//LAROCHELLE H，RANZATO M，HADSELL R，et al.Advances in Neural Information Processing Systems 33 （NeurIPS 2020）.Red Hook，NY：Curran Associates Inc.，2020：1877-1901.

[18]	YANG K，KLEIN D，PENG N，TIAN Y.Improving long story coherence with detailed outline control［M］//Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics （Volume 1：Long Papers）.Toronto：Association for Computational Linguistics，2023：3378-3465.