采用LDA模型的美国《芯片与科学法案》主题挖掘及分析

孙亚洲 ,  李晓松

信息工程大学学报 ›› 2025, Vol. 26 ›› Issue (01) : 120 -126.

PDF (1520KB)
信息工程大学学报 ›› 2025, Vol. 26 ›› Issue (01) : 120 -126. DOI: 10.3969/j.issn.1671-0673.2025.01.018
军事信息学

采用LDA模型的美国《芯片与科学法案》主题挖掘及分析

作者信息 +

Theme Mining and Analysis of the U.S CHIPS and Science Act 2022 Using LDA Model

Author information +
文章历史 +
PDF (1555K)

摘要

大国博弈背景下,开展美国《芯片与科学法案》研究是分析美国科技政策思维和趋势的有效途径。以法案原文为语料,采用隐性狄利克雷分布模型挖掘法案主题,获得美国《芯片与科学法案》的8个主题结果及对应关键词集合,进而开展深层次分析。结果表明,美国《芯片与科学法案》内容重点为半导体产业、财政资助条件、教育和科技创新、供应链安全、科学基础设施等5个方面;该法案的性质是由政府财政制定预算并拨款的支持、激励性法案,本质上是美国零和思维的产物;结果揭示了法案所包含的封闭和排他思想,美国科技政策将逐步倾向于自身发展而非协同发展,其制定思路基于科技博弈而非合作共赢。

Abstract

Under the background of great power game, the research on the U.S. CHIPS and Science Act 2022 is an effective way to analyze the thinking and trend of U.S science and technology policy in USA. Taking the original bill as the corpus, the latent dirichlet allocation model is used to mine the bill topics, and the results of eight topics and corresponding keyword sets of the CHIP and Science Act are obtained, and then the in-depth analysis is carried out. The results show that the content of the CHIP and Science Act focuses on the semiconductor industry, financial support conditions, education and technological innovation, supply chain security, and scientific infrastructure. The nature of the bill is an incentive bill supported by the government budget and funding, which is essentially the product of zero sum thinking in the USA. The results reveal the closed and exclusive thoughts contained in the bill, and the U.S. science and technology policy will gradually tend to self-development rather than collaborative development, and its formulation idea is based on science and technology game rather than cooperation and win-win.

Graphical abstract

关键词

国防科技 / 情报安全 / 政策评估 / 信息挖掘 / LDA模型

Key words

national defense technology / intelligence security / policy evaluation / information mining / LDA model

引用本文

引用格式 ▾
孙亚洲,李晓松. 采用LDA模型的美国《芯片与科学法案》主题挖掘及分析[J]. 信息工程大学学报, 2025, 26(01): 120-126 DOI:10.3969/j.issn.1671-0673.2025.01.018

登录浏览全文

4963

注册一个新账户 忘记密码

2022年8月,美国总统拜登于白宫正式颁布了《2022年最高法院安全资助法案》[1],鉴于其对半导体产业及科学研究领域的着重关注,该法案亦被称为《芯片与科学法案》。当前全球大国竞争日趋激烈,美国推出《芯片与科学法案》显现出强烈的战略攻势。该法案批准向美国本土芯片制造业提供巨额财政资助及税收减免措施,同时设立限制条款,禁止接受联邦激励资金的实体在“被视为对美国国家安全构成威胁的特定国家”增加半导体生产能力,违反此禁令的实体或将面临补贴全额追缴的处罚[2]
美国《芯片与科学法案》颁布之后,立即在国内社会各界引起了广泛瞩目,主流官方媒体迅速刊载评论文章,学术界对此也开展了相关研究。然而目前有关学术探讨数量较少,文献多以专栏短评的形式出现,深度研究成果有限,主要聚焦于法案的影响效应剖析及政策应对策略等领域。由于半导体芯片技术对国防科技和国民经济的重要性,早在特朗普政府时期美国已采取一系列措施对其出口进行限制,2022年《芯片与科学法案》是美国相关政策的延续和升级[3]。法案的出台反映了美国遏制竞争对手发展、抢占芯片产业主导权的战略意图,对全球半导体产业链和创新链发展产生了深远影响[4]。同时,该法案也是美国在经济科技领域与竞争对手博弈竞争布局中的一环,由于科技是当前竞争的主轴,芯片成为竞争焦点[5]。尽管如此,学界普遍认为,美国的这项举措并不能达到其预期效果[6]。美国《芯片与科学法案》是对世界贸易组织相关规定的违反,长远来看,这种破坏规则的行为必将损害自身及其盟友的利益[7]
开展美国《芯片与科学法案》研究是分析美国科技政策思维和趋势的重要途径,现有的工作以宏观研究为主,微观研究相对较少,以定性研究为主,定量研究尚有不足[8]。本文以美国《芯片与科学法案》原文为基础,构造词袋模型,识别主题向量,通过文档层面的词语共现实现语料库的主题挖掘,探索主题视角下的美国科技政策思维和趋势评估,细粒度解读美国《芯片与科学法案》。

1 研究设计

1.1 技术方法

1.1.1 NLTK数据处理

自然语言处理工具包(Natural Language Toolkit, NLTK)作为一款根植于Python环境的综合性工具与数据集,为广泛语料库及词汇资源提供了全面且用户友好的接入途径[9]。该工具包的核心应用涵盖文本分类、词干缩减、句法解析及语义推导等关键流程,涉及自然语言处理领域的多项功能,包括但不限于分词处理、词性标记、命名实体识别以及句法结构分析等。本文使用NLTK进行美国《芯片与科学法案》语料的预处理。

1.1.2 LDA模型

隐性狄利克雷分布(Latent Dirichlet Allocation, LDA)模型由文献[10]提出,模型认为主题由多个词语组成,文档由多个主题组成。模型的原理可以解释为以下过程:主题中有词语的概率分布,概率越高表示该词与主题的关联程度越大。同样地,文档中有主题的概率分布,概率越高表示该主题与文档的相关性越高。LDA模型从词语在文档中的概率学习,得出词语在主题中的概率分布以及主题在文档中的概率分布[11]

LDA主题发现模型作为自然语言处理领域的重要方法,其研究热度一直不减,被广泛应用于多种主题聚合场景。知识发现是LDA模型应用的研究领域之一,以学术成果、研究论文为语料,利用LDA模型挖掘主题,能够完成新兴交叉主题识别[12]、技术机会发现[13]、关键技术识别[14]、特定领域知识图谱构建[15]、研究主题演化与热点主题识别[16]等工作。研究人员还将LDA模型与其他方法结合,在问题分类[17]、知识抽取和推荐[18]、网络入侵检测[19]等领域展开研究。将LDA模型应用于政策文本分析是近来兴起的一种方法,利用模型处理政策文本,识别、解析政策的主题,能够直观地揭示相关政策的现状与趋势,目前在政府数据开放管理[20]、课程体系建设[21]、个人隐私信息保护[22]等领域已有相关探索。本文运用LDA模型对美国《芯片与科学法案》进行主题发现,挖掘法案的主题分布,进而对该法案开展深层次分析。

1.2 研究框架设计

本文以美国《芯片与科学法案》为研究对象,设计了一套包含数据收集、数据处理、主题识别发现、分析结果等4个阶段的研究框架,具体结构如图1所示。研究步骤细化如下:1)数据获取阶段。通过公开资源获取法案的官方全文文本,作为后续分析的原始素材。2)数据处理阶段。对所收集的材料进行清理与整理,随后利用NLTK对文本进行句子分割与词汇切分。此外,构建特定的停用词列表,以过滤分词结果中的无关词汇,形成最终待分析的数据集。3)主题识别阶段。首先,统计待分析数据中的词汇频率,并运用Wordcloud工具生成词云图,以初步揭示法案的主题轮廓。接着,设定合理的主题数量,采用LDA主题模型深入挖掘文本的主题结构,获取主题分布及其挖掘结果。4)结果分析阐释阶段。基于步骤3)的主题提取内容计算各主题强度,并深入分析关键词集。结合专业知识与专家意见,细粒度剖析美国科技政策制定的思维逻辑与发展趋势,提炼出具有学术与实践价值的研究结论。

2 数据收集与处理

2.1 数据来源

本研究以美国国会颁布的H.R.4346号法案,即2022年《芯片与科学法案》作为核心数据源。数据来源于美国国会官方网站的公开记录,具体版本为2022年9月8日释出的正式文本,全文总计含158 658个词汇。此版本由美国国会图书馆下属的国会研究服务部门(Congressional Research Service, CRS)权威发布。CRS是国会内部的专业机构,专责为众议院、参议院各委员会及议员提供具有权威性和保密性的政策法律分析。

2.2 数据处理

2.2.1 语料处理

处理所得数据,使用NLTK工具,将法案原文中的大写字母全部转换为小写,方便后续工作。本研究采用空格与标点作为分句、分词的依据,根据数据特性定制个性化停用词表,据此从语料库中剔除停用词。经上述步骤,原始数据被转化为适用于LDA模型输入的语料形式。最终所得数据以词汇集合的方式呈现。语料处理前后的示例,如表1所示。

2.2.2 词频统计与词云

在语料处理的基础上,用NLTK工具对语料进行词频统计,获得统计学意义上的关键词,进而初步理解文档主题。美国2022年《芯片与科学法案》出现频率最高的10个词,如图2所示。由图2可知,该法案出现频率最高的3个词分别是“国家”“监管”“科技”,某种程度上反映了美出台该法案的直接目的。

采用WordCloud工具对语料库实施可视化分析,依据词汇频率构建了词云图,具体展示如图3所示。

该词云图实现了对语料中关键词的视觉化呈现,有效过滤了低频低效低质文本内容。语料中频次越高的单词在词云图中的视觉显著性越强。图3词云中,“国家”“技术”“管理”“发展”等4个词最为明显,直观地揭示了美国《芯片与科学法案》的主题:由国家层面发展和管理科技。“科学”“财政”“能源”“工业”“计划”等词也较为突出,一定程度上反映了法案的涉及领域和重点主题。

2.2.3 LDA主题建模

使用LDA主题模型处理法案语料,获得主题挖掘结果。首先需要确定LDA模型的主题数,主题数量选择的合理性可通过模型的困惑度指标评估。困惑度反映了模型在判断文档归属主题时的不确定性程度,一般而言,困惑度值越低,则表明模型的聚类效果越为优越。困惑度的计算方法为

PD=exp-d=1Mlgpωd/d=1MNd

式中:M为文档的总数;ωd为文档d中单词所组成的词袋向量;Nd为文档d的单词总数;pωd为模型所预测的文档d的生成概率。以美国2022年《芯片与科学法案》为语料,计算主题数及对应困惑度,绘制如图4所示的困惑度曲线。由图4可知,主题个数为6~8时,模型困惑度维持在较低水平。此外,在确定最佳主题数量时,还需综合考虑数据规模大小、计算资源性能以及主题间一致性等因素。基于上述分析,本研究最终将LDA模型的主题数量设定为8个。

在确定主题数量之后,采用LDA模型挖掘语料主题,具体结果见表2表2列出了8组关键词集合,每组关键词集合对应语料中的一个主题,编号为T1至T8。关键词后对应数字表示该词在所属主题中的概率值。此外,主题占比揭示了各主题在整个语料库概率分布上的相对重要性。

3 主题视角下的法案内容分析

3.1 主题关键词分析

根据表2,将主题关键词中语义相近的划入同一个集合,从词的粒度分析美国《芯片与科学法案》。关键词集合划分结果见表3

表3可知,集合C1中的关键词频率较高,与集合C5一同反映了法案的性质。由政府财政制定预算和拨款的支持、激励性法案。集合C6、C7表明了该法案的主要作用领域,即先进科技、半导体芯片领域。集合C2、C4、C10表明,美国《芯片与科学法案》不仅是一个指引性的文件,还包含了具体的实施细则,如建立管理委员会、制定计划方案、明确分配规则和裁决依据等。这部分内容往往容易被人忽视。由表3可知,美国《芯片与科学法案》关键词集合反映了该法案的关注领域、计划方案、文件类型、态度措施等信息。美国《芯片与科学法案》是美国政府关于芯片和重点科技领域的科技和财政制度法规,法案中包含的某些特定计划与方案,反映了美国政府未来一段时期在科技领域的政策趋势。

3.2 主题内容分析

根据表2,分析美国《芯片与科学法案》经过LDA模型挖掘所得结果,提炼主题内容,确定美国《芯片与科学法案》的8个主题为:国家财政支持半导体行业发展;规定申请者获得资助所需条件;限制被资助实体的技术转移;明确资金分配权和分配方案;发展科技创新及能源、教育等领域;提高劳动力发展能力;减少对外国依赖,确保本国供应链;建设基础设施和实验室等。主题分析结果见表4。总体上看,该法案提供资金支持美国半导体的国内生产,并为联邦科学机构的各种计划和活动授权。

表4可知,主题T5、T6、T8为科学发展部分,主要涉及美国未来对科技创新、能源、教育以及劳动力等领域的支持和决策。美国《芯片与科学法案》提出要建立面向未来的美国能源部(Department of Energy, DOE)、国家标准与技术研究院(National Institute of Standards and Technology, NIST)和国家科学基金会(National Science Foundation, NSF),并对上述机构的职责和任务做出了明确规划。这一部分主题还包括美国生物经济的研究与发展、海洋研究、量子网络与通信、区块链以及国家航空航天局授权法案等内容。美国《芯片与科学法案》对美国国家科技战略、区域创新、研究安全、机构协调和国家实验室等科学发展的重要事项进行规定。法案决定设立“技术理事会”、发布“国家科学技术战略”体现出美制定该法案的战略性目标,两项要求进一步明确了科技在美国国家安全中的战略性地位,强化了美国政府的科技战略规划职责,是对美科技政策决策机制的进一步完善,将大大提升美国在科技领域的国防动员能力。此前美国在《2021财年国防授权法案》中已加入所谓的“研究安全”条款,《芯片与科学法案》的规定则更加具体,更具可操作性,形成了美国应对“研究安全”的整套决策和实施机制。

主题T1、T2、T3、T4、T7等5个主题与芯片紧密相关,反映了美国政府在半导体领域的政策思路。T2涵盖内容所对应条款虽未明确指定某个国家,但其针对对象显然为美国的主要竞争对手,与我国密切相关。这5个主题基于美国政府对竞争对手半导体产业发展可能带来的“国家安全威胁”担忧,反映了美国在相关领域采取的措施。法案“为创造生产半导体的有益激励措施”设立了美国国防基金、美国国际科技安全和创新基金等5个基金组织,并明确了一系列半导体激励相关的财政援助计划和措施。上述芯片相关主题占所有主题数量的67.5%。值得注意的是,此法案所提出的半导体管理与激励举措展现出显著的排他性特征,其核心设计旨在确保美国国内芯片供应的稳定性并维护其技术优势地位。依据法案条款,美国商务部在分配联邦财政援助时,需将支持国内关键制造业及增强半导体供应链韧性作为优先考虑的对象,并且法案明确规定此类资金不可用于在美国境外进行的半导体设施建设、改造或升级项目。上述内容揭示了《芯片与科学法案》是大国博弈背景下美国零和思维的产物。

对LDA主题分析结果进行可视化,如图5所示。主题以气泡的形式呈现,各气泡之间的距离代表主题间的相关程度,气泡直径的大小代表在法案中该主题的占比。气泡图中,PC1和PC2是对LDA模型主题分布进行降维后得到的第一和第二主成分,可作为坐标轴在二维平面上展示主题的分布特征。

图5中各主题气泡分布较为均匀,表明所得主题结果总体上相似程度较低,且基本覆盖了法案的主体内容;主题气泡大小较为一致,表明所得结果在法案中的占比接近。气泡之间的距离反映了每个主题之间的接近性,距离越近主题关联程度越大。图5出现了两处重叠较多的气泡分布现象,这提示注意其中可能存在的某种联系。图中3号和6号气泡重合面积较大,二者对应主题分别为限制被资助实体的技术转移(T3)和提高劳动力发展能力(T6)。据此分析美国《芯片与科学法案》,法案第一部分指出,依据半导体激励措施相关财政资助方案所提供的资金,其使用范围受限,不得在美国本土以外的地区用于芯片设施的建造、改造或优化,国家半导体技术中心的目标是增加国内半导体劳动力。这表明该法案中所谓的“提高劳动力发展能力”同样包含着封闭和排他思想,这一发现尚无已有研究提及。7号和8号气泡也有较大重叠,其所代表的主题为减少对外国依赖,确保本国供应链(T7)和建设基础设施和实验室(T8),二者在内容上具有一定的关联。美国《芯片与科学法案》指出,美国政府问责局(Government Accountability Office, GAO)应评估联邦政府如何采取具体行动解决半导体供应链短缺问题,在这种审查下,GAO应描述项目如何支持美国半导体行业的关键基础设施需求。显然,美国认为基础设施和实验室的建设是确保本国半导体供应链安全不可或缺的关键措施,这一点在学界前期的研究中似乎同样有所忽略。

3.3 主题强度分析

在LDA主题挖掘的基础上,可进一步计算各主题的强度。主题强度表示主题在语料中的热度与关注度,其计算方法为

Pk=1NiNθki

式中:Pk表示第k个主题的主题强度;θki表示第k个主题第i个关键词在该主题中的概率;N表示该主题下的关键词个数。设置N的取值为10,即取每个主题的前10个关键词,计算主题T1~T8的主题强度,结果如表5所示。

美国《芯片与科学法案》主题强度最高的两个主题为T5和T7,其内容为发展科技创新、能源、教育等领域,减少高科技产业供应链对国外的依赖,确保本国供应链安全。结合美国后续出台的芯片“最终规则”和“护栏条款”等科技政策,这两个主题反映了美国制定《芯片和科学法案》的根本目的和预期效果。主题强度较低的两个主题为T4和T6,其对应内容为明确资金分配权和分配方案,提高劳动力发展能力。这部分内容较为具体,在《芯片与科学法案》中的热度和关注度相对较低。对照法案内容,上述主题的重要程度与其强度是一致的。8个主题的平均主题强度为0.042 7,比较各主题强度与平均主题强度的关系,可以识别法案侧重关注的内容。主题T1、T2、T5、T7、T8的主题强度高于平均值,表明关于半导体产业发展、资助申请条件、发展教育和科技创新、确保本国供应链安全和建设科学基础设施等5个方面的内容是美国《芯片与科学法案》的侧重点所在。

4 结束语

美国《芯片与科学法案》是近年来最受关注的法案之一,本文基于LDA模型对美国《芯片与科学法案》进行政策文本分析与主题发现研究。LDA模型的结果表明,《芯片与科学法案》的主要内容是未来一段时期美国在半导体、能源、生物、太空、海洋等重点科技领域的政策举措和STEM人才培养规划等。研究基于主题挖掘结果解读美国《芯片与科学法案》,重点分析了美国政府在半导体领域的政策思路和激励措施,揭示了美国限制被资助实体的技术转移和提高劳动力发展能力、确保本国供应链和建设基础设施等措施之间的联系。研究获得了美国《芯片与科学法案》的8个主题,从主题内容、主题强度和主题关键词等方面对结果进行定性和定量分析,评估美国在芯片科技领域的政策重点和思维趋势。根据分析结果,美国《芯片与科学法案》是美国零和思维的产物,美国科技政策将逐步倾向于自身发展而非协同发展,其制定思路基于零和博弈而非合作共赢。下一步将持续跟进美国科技领域最新政策,结合世界科技经济发展形势进行研究,寻求科学合理的应对之策。

参考文献

[1]

Congree 117th . H.R.4346-Chips and science act[EB/OL]. (2022-08-09)[2023-09-07].

[2]

唐乾琛.美国布鲁金斯学会发布《<芯片与科学法案>不会自行建立包容性创新生态系统》报告[J].科技中国2023(6):102.

[3]

冯昭奎.中美芯片之争:现实、逻辑与思考[J]. 亚太安全与海洋研究2023(2):18-36.

[4]

杨忠,巫强,宋孟璐,美国《芯片与科学法案》对我国半导体产业发展的影响及对策研究:基于创新链理论的视角[J].南开管理评论202326(1):146-158.

[5]

陈文玲.美国在几个重要经济领域对华遏制的新动向[J].人民论坛·学术前沿2023(5):80-100.

[6]

肖君拥,朱海峰.美国“芯片法案”的历史根源及效果预估[J].人民论坛2023(6):79-84.

[7]

洪艺娴.美国《2022芯片法案》对WTO补贴规则的违反及应对研究[J].对外经贸实务2023(8):52-58.

[8]

赵健雅,陈美华,陈峰,美国《2022年芯片与科学法案》对中国科技安全的影响分析[J].情报杂志202342(11):54-60.

[9]

孙亚洲,李晓松. 基于改进hLDA模型的国防工业基础评估指标构建方法研究[J]. 军事运筹与评估202338(6):9-15.

[10]

DDAVID M BANDREW Y NMICHEAL I J. Latent dirichlet allocation[J]. Journal of Machine Learning Research20033:993-1022.

[11]

林晗,汤珊红,高强,基于改进HLDA的前沿主题挖掘方法研究[J].情报理论与实践202245(11):188-194.

[12]

邓启平,柯佳秀. 基于基金项目数据的新兴交叉主题识别:以量子技术为例[J].图书情报工作202367(20):130-141.

[13]

韦婷婷,冯丹钰,宋世领,技术机会发现领域专利挖掘方法研究述评[J].情报学报202342(10):1238-1250.

[14]

滕飞,张奇,曲建升,基于专利竞争力指数和Doc-LDA主题模型的关键核心技术识别研究:以新能源汽车为例[J]. 数据分析与知识发现: 20248(11):33-46.

[15]

王志宇,刘雨薇.基于政务微博的自然灾害知识图谱构建:以森林火灾为例[J].现代情报2024(3):47-58.

[16]

胡泽文,韩雅蓉,王梦雅.基于LDA-Word2vec的图书情报领域机器学习研究主题演化与热点主题识别[J].现代情报202444(4):154-167.

[17]

FENG HHAN JHUANG L J, et al. Incident and problem ticket clustering and classification using deep learning[J]. ZTE Communications202321(4):69-77.

[18]

刘建湘,刘海砚,刘一萱,兼顾时空特征的领导人出访事件可视分析[J].信息工程大学学报202021(4): 482-489.

[19]

ZHOU W DLEI S WXIA C H, et al. LDA-ID: an LDA-based framework for real-time network intrusion detection[J]. China Communications202320(12):166-181.

[20]

吴应强,石乐怡,张马萍.嬗变与发展:中国政府数据开放管理央地政策文本的内容主题挖掘与分析[J].情报科学202442(4):79-88.

[21]

李兰兰,焦建玲,杨冉冉,新文科背景下大数据管理与应用专业课程体系建设研究[J].图书馆学研究2023(10):2-12.

[22]

王晨,廖启明.基于改进的LDA模型的文献主题挖掘与演化趋势研究:以个人隐私信息保护领域为例[J]. 情报科学2023(10):112-120.

基金资助

国家自然科学基金(72074219)

国家社会科学基金(23ZDA119)

AI Summary AI Mindmap
PDF (1520KB)

296

访问

0

被引

详细

导航
相关文章

AI思维导图

/