基于大语言模型的世界鱼类拉汉对偶翻译

doi:10.18307/2026.0161

微信订阅号

基于大语言模型的世界鱼类拉汉对偶翻译

doi: 10.18307/2026.0161

钱建硕^1,2 ，丁刘勇¹ ，李雁羽^1,2 ，陈晋南^1,2 ，王环珊¹ ，何德奎^1,2

1. 中国科学院水生生物研究所，武汉 430072

2. 中国科学院大学，北京 100049

基金项目: 国家重点研发计划项目（2021YFC3200103）、第二次青藏高原科学考察研究计划项目（2024QZKK0200）、国家自然科学基金项目（42401074）、中国科学院战略生物资源计划能力建设项目（KFJ-BRP-017-085）和中国博士后科学基金项目（2025M772588）联合资助

Latin-Chinese dual translation of global fish taxonomic names using large language models

Qian Jianshuo^1,2 ， Ding Liuyong¹ ， Li Yanyu^1,2 ， Chen Jinnan^1,2 ， Wang Huanshan¹ ， He Dekui^1,2

1. Institute of Hydrobiology, Chinese Academy of Sciences, Wuhan 430072 , P.R.China

2. University of Chinese Academy of Sciences, Beijing 100049 , P.R.China

摘要

物种名是生物分类学的核心概念，是认识和描述生物多样性的前提。拉丁种名的命名具有语言独立性、规范性和唯一性，不受地域和语言差异影响，确保跨语言、跨学科交流的准确性；但物种地方名（俗名）缺少命名规则，融合了历史与文化传统，往往存在误用、混乱甚至是缺失的情况，特别是在鱼类中，约20%的物种缺少中文名，严重制约了生物多样性认知、跨语言交流、科学传播和数据共享与利用等。为应对这一问题，本研究整合《拉汉世界鱼类系统名典》等多个权威数据源，构建了60564条高质量拉丁学名与中文名双语平行语料库。基于多语言大模型mT5（multilingual text-to-text transfer transformer，包含small、base、large三种参数规模），引入对偶学习框架与命名规则约束，实现鱼类中文名的自动生成与校正。结果显示，微调后的mT5-large模型在独立测试集上获得的BLEURT和COMET的对偶译质评分分别为0.90和0.93，较DeepSeek-R1等通用大语言模型提升38%~159%，并将低频属名与新描述种名的翻译错误率降低25%~80%。所有生成的鱼类中文名均由分类学专家逐条审定，以确保命名的科学性和规范性。本研究首次系统性地补全了全球鱼类的中文名系统，打通了物种学名与俗名之间的信息壁垒；并开发配套微信小程序面向所有用户开放，实时更新种名信息和分类变动。研究方法为其他生物类群的多语言俗名翻译提供了可复制、可推广的技术范式，助力全球生物多样性与文化多样性保护实践。

关键词

双命名法 / 鱼类命名编目 / 对偶学习 / mT5大语言模型

Abstract

Taxonomic names constitute the foundation of biological taxonomy and are crucial for documenting and communicating biodiversity. Scientific names provide standardization and linguistic independence, whereas vernacular names are frequently inconsistent, misapplied, or nonexistent. Among fish species, about 20% of valid taxa still lack standardized Chinese taxonomic names. This study aims to establish a complete Chinese taxonomic naming system for all global fish species and to develop a scalable methodology for multilingual translation of vernacular taxonomic names. We compiled a bilingual parallel corpus of 60564 Latin-Chinese fish taxonomic name pairs by integrating multiple authoritative sources, including the Latin-Chinese Dictionary of Fish Names by Classification System. Using this dataset, we fine-tuned the mT5 model family (including small, base, and large variants) under a dual-learning framework that incorporated formal taxonomic naming rules as constraints. Model performance was assessed on an independent test set, and all translated names were manually verified by taxonomic experts to ensure scientific accuracy and nomenclatural consistency. The fine-tuned mT5-large model achieved a BLEURT score of 0.90 and a COMET score of 0.93. Compared to general-purpose large language models such as DeepSeek-R1, these results reflect an improvement of 38% to 159%. The translation error rate for taxonomic names pertaining to long-tail genera and newly described species was reduced by 25% to 80%, depending on the category. All generated Chinese taxonomic names were reviewed and approved by domain experts. This research provides the first systematic solution for completing Chinese taxonomic names for all currently valid global fish species, thereby bridging a long-standing gap between scientific nomenclature and vernacular usage. By combining a dual-learning framework with formal naming rules, our method offers a reproducible and scalable solution for multilingual translation of taxonomic names across the tree of life. To improve accessibility and practical utility, we have also developed an accompanying WeChat mini-program that delivers periodically updated taxonomic names, supporting both scientific communication and the integration of biodiversity knowledge with cultural heritage.

Keywords

Binomial nomenclature / Catalog of Fishes / bidirectional translation / mT5 model

1 材料与方法 1.1 拉汉双语平行语料的构建 1.2 大语言模型的微调与优化 1.3 微调模型的评估与推理 2 结果 2.1 鱼类中文名缺失现状 2.2 不同模型的翻译质量评估 2.2.1 微调后模型与通用大语言模型的翻译质量对比 2.2.2 对偶翻译机制与单向翻译策略的效果比较 3 讨论 4 结论 5 附录

物种学名在以生物多样性为主的科学研究中具有举足轻重的地位，是连接科学知识与语言文化的重要纽带^[1-3]。标准化的拉丁学名双命名体系是科学研究与国际交流中的通用语言^[4]，但在实际应用中，地方俗名却是公众和政府认识、描述、利用与管理生物多样性的最广泛的语言载体^[5-6]。然而，物种拉丁学名与地方俗名的一致性和时效性仍面临诸多挑战。实际应用中，俗名比种名更容易出现同种异名、异种同名等现象，导致对物种认知混乱^[7]。此外，物种俗名常难以与最新的分类修订保持同步，尤其在中文语境下，中文名翻译滞后、命名标准缺失等问题严重阻碍了公众参与和多语种知识的有效传播^[8-9]。当前，中文是除英语外全球使用最广泛的语言之一（https://www.ethnologue.com），并在科研、教育和政策制定等领域影响力日益增强，因此亟需构建规范、共享和及时更新的中文物种命名体系，以支撑生物多样性认识和管理，以及跨文化生物多样性交流与知识共享。

鱼类是脊椎动物中物种数量最多的类群^[10]。截至2024年12月，全球已描述鱼类有效物种超过37167种^[11]，超过所有已知脊椎动物物种数的一半。鱼类又与人类生活息息相关，养殖、食用、观赏、休闲运动等是人类日常生活的一部分^[12-13]。在我国，中文名是科研人员、渔业从业者、管理机构和公众识别和使用鱼类信息的主要语言媒介，鱼类物种俗名和拉丁学名的应用需求远高于其他生物类群。规范的中文名体系对于推动物种识别、疾病防控、原种选育、渔政执法、教育传播以及公众认知具有基础性支撑作用。近20年来，每年平均超过400种鱼类新种被描述^[11]，加之种名修订、分类变动因素等，文献资料和公众传播中普遍存在鱼类种名误用、书写错误、中文名缺失、中文名误用、更新严重滞后等突出问题。截至2025年9月，全球已记录的37167种有效鱼类物种中，超过7000种缺乏规范中文名（图1）。需求大但又无快速、准确、及时更新的参考数据资源，严重制约生物多样性认知、跨语言交流、科学传播和数据共享与利用等^[8]。因此，构建覆盖广泛、语义明确、分类准确的中文名命名系统及数据资源，是当前鱼类相关的科学研究、政府管理和公众认知传播亟待解决的重要需求。

近年来，大语言模型（large language models，LLMs）在机器翻译领域取得了显著突破，特别是在处理新闻、文学和科学文献等长文本时，译文质量稳步提升^[14-16]。这些模型通过大规模语义嵌入与上下文建模，具备了更强的语言理解与跨语种生成能力，在多语言语境中展现出良好的通用性^[17-18]。然而，对于物种拉丁学名的翻译仍面临独特挑战。物种拉丁学名通常简短且缺乏语境线索，且需严格遵循国际命名规范^[19]，在生成本土化、规范化的俗名时准确率不高^[20-21]。针对这一问题，对偶学习（dual learning）框架展现出较强潜力。该框架通过联合优化正向和反向翻译任务，有效提升了短文本语义对齐与翻译一致性，在上下文受限情境中表现尤为突出^[22-23]。在此基础上，多语言大模型mT5（multilingual text-to-text transfer transformer）凭借其强大的跨语言迁移学习能力，为构建物种学名与本地俗名之间的双向映射提供了结构化、稳健且可扩展的技术方案。

本研究整合《拉汉世界鱼类系统名典》《中国动物志》^[24-37]等权威数据源，在构建高质量的全球鱼类拉丁学名与中文名双语平行语料库的基础上，基于mT5（small、base、large）多语言大模型，引入对偶学习策略与命名规则约束开展微调与优化，以提升在低资源、短文本条件下的翻译稳健性。针对模型生成结果，进一步采用专家逐条审定，确保中文名的本土化、术语规范性与分类学准确性。该框架可为鱼类俗名标准化和数据共享提供实践案例，并为其他生物类群的多语言俗名标准化提供可复制范式。

图1世界鱼类中文名在分类目阶元的缺失情况

Fig.1Taxonomic order-level deficits in Chinese vernacular names of global fish

1 材料与方法

为规范鱼类物种的中文命名，本研究融合权威分类学数据库与自然语言处理技术，设计并实施了“三步法”技术流程（图2）。第一步，系统整合并标准化多家权威数据库中的鱼类物种命名数据，构建高质量拉丁学名—中文名双语平行语料；第二步，基于多语言大模型mT5，引入对偶学习翻译框架进行微调优化，提升鱼类学名—俗名之间的双向翻译准确性；第三步，构建多维度评价指标体系，全面评估模型翻译结果的语言质量与分类学准确性。

图2基于mT5大语言模型的世界鱼类拉汉学名对偶翻译工作流程

Fig.2Latin-Chinese dual translation workflow for global fish taxonomic names using mT5

1.1 拉汉双语平行语料的构建

本研究以Eschmeyer's Catalog of Fishes数据库为鱼类物种拉丁学名主干数据源^[11]，借助rFishTaxa R程序包^[38]批量获取全球鱼类基础分类信息。截至2024年12月，该数据库已收录72目、608科、5300属及37167种鱼类，并囊括所有现行有效拉丁学名及其同物异名。中文名则以《拉汉世界鱼类系统名典》^[24]为核心数据来源，同时整合Catalogue of Life（https://www.catalogueoflife.org）、中国生物物种名录^[39-40]及相关文献资料^[41-42]，系统构建全球鱼类的中文名候选集。在命名匹配过程中，对多来源俗名实施标准化处理，包括字符清洗、拼写统一、分类更新以及属种分类阶元的校正。当同一物种对应多个中文名时，统一以《拉汉世界鱼类系统名典》中所列命名为准，并采用人工审定方式解决歧义项与分类调整问题。

在生物命名体系中，物种命名遵循属名（genus）与种名（species）的组合固定规律。针对拉丁学名与中文名的双向翻译任务，研究引入了“命名规则约束”，以提升模型对命名规律的学习与生成能力。该约束的核心思想为：在模型学习过程中，分别建模属名与种名的语义对应关系，并通过预定义的组合规则生成完整中文名，从而在语言层面嵌入分类学命名逻辑。命名规则约束要求模型先译出属名的规范中文通名，再译出种加词的修饰语，并按“属名+种名”的语序进行组合。该约束可形式化表达为：中文名=C（g（属名），h（种名）），其中g和h分别表示属名和种名的映射函数，C表示它们的组合规则。通过这种方式，模型能够显式地学习命名结构与语义依存关系，从而在生成过程中保持属—种之间的逻辑一致性。为实现该约束，本研究在语料构建阶段将分类学层级信息（纲、目、科、属）嵌入到输入提示词中，最终形成涵盖30282 种鱼类的标准化拉丁学名与中文名双语平行语料库（附表Ⅰ），其中拉丁学名至中文名与中文名至拉丁学名方向各占50%，以确保模型在对偶学习框架下的训练平衡性与方向鲁棒性。此外，本研究仅纳入中文名呈“属名+种名”结构的物种，未包含具有历史沿用或区域俗称特征的单词式命名（如“鳤”“鱤”），以保证语料结构的规范性与一致性。

1.2 大语言模型的微调与优化

对构建的拉汉双语平行语料按目、科、属等分类阶元进行分层随机抽样，并划分为训练集（80%）、验证集（10%）和测试集（10%），以确保模型训练的代表性与泛化能力。在模型训练阶段，基于mT5系列预训练模型中的3个参数规模（mT5-large，1.2B；mT5-base，0.58B；mT5-small，0.3B），采用AdamW优化器，设定学习率为1×10^-4，批量大小为100，开展模型微调实验。当验证集损失趋于稳定且在连续10个训练周期（epoch）内不再下降时，模型自动触发提前终止机制，判定训练已收敛并达到最优拟合状态。

在此基础上，为进一步提升翻译质量与鲁棒性，引入对偶回译校正（DUAL-REFLECT）框架^[43]，结合对偶学习机制与反思式反馈流程，在训练过程中动态校正模型的双向翻译能力。该框架包括5个关键步骤：1）初译阶段（draft translation）：大语言模型首先将原始语言（Ls）的输入文本x翻译为目标语言（Lt），生成初始翻译结果y；2）回译阶段（back translation）：将初始翻译结果y再次回译为原始语言（Ls），得到回译结果x′；3）译文一致性评估（process assessment）：模型比较回译结果x′与原始输入文本x的一致性；若两者吻合，则接受译文，否则进入下一步反思过程；4）对偶误差分析（dual reflection）：模型分析输入文本和回译结果之间的差异，识别翻译偏差并生成修改建议；5）自动修订（auto revision）：依据对偶反思结果对初译结果y进行调整，进一步提高翻译结果质量（附表Ⅱ）。在训练过程中采用双向损失函数^[44]，对正向翻译损失（L_f）与反向翻译损失（L_b）同时优化，整体损失函数表达式为：L_total= L_f + L_b。

1.3 微调模型的评估与推理

为验证微调后mT5系列模型的翻译准确性，本研究设计一套自动化评估框架，将其与DeepSeek-R1、Qwen-Plus、GLM4-Plus等主流通用大语言模型进行横向对比测试^[45-46]。针对通用大语言模型的鱼类物种名称拉汉翻译任务，采用Function Calling技术结合定制化提示词工程实现（参数配置详见附表Ⅲ）。评估体系包括两个指标：BLEURT（bilingual evaluation understudy with representations from transformers，基于Transformer表征的多语言评估指标）^[47]通过上下文嵌入技术量化译文与参考文本的语义一致性；COMET（crosslingual optimized metric for evaluation of translation，跨语言优化翻译质量评估指标）^[48]则从流畅度与跨语言适配性双维度进行综合评分。上述指标在自然语言生成任务中已形成标准化评估范式，能够全面、客观地衡量翻译输出的质量维度。

基于综合评估结果，选取性能最优的微调模型对缺失中文名的鱼类物种进行翻译预测，并由人工逐条复核，以确保命名的规范性与准确性。所有模型的微调训练、推理与性能评估均在Python环境中完成^[49]，结果可视化由R语言实现^[50]。

2 结果

2.1 鱼类中文名缺失现状

截至2024年12月，全球已记录有效鱼类物种37167种，其中6762种（18.25%）尚缺乏规范的中文名（图2）。这一命名缺失严重，影响中文名应用，也制约跨语言生物多样性数据共享与学术交流。从3大主要演化支系看，物种中文名的缺失比例相对接近：无颌类（Agnatha）为18.6%，软骨鱼类（Chondrichthyes）为20.1%，硬骨鱼类（Osteichthyes）为18.2%，均集中在18%~20%区间。

具体而言，无颌类虽物种总数较少（共140种），但其中仍有26种缺乏中文名，其中盲鳗目（Myxiniformes）和七鳃鳗目（Petromyzontiformes）分别缺失16和10种，显示即便在低多样性类群中亦存在显著命名空白。软骨鱼类的缺名情况更为突出，在1307种有效物种中，约五分之一（263种）尚无标准中文名，其中鲼形目（Myliobatiformes）、鳐形目（Rajiformes）和真鲨目（Carcharhiniformes）分别缺失72、52和46种，是中文名缺失最为集中的3个大目；而鼠鲨目（Lamniformes）、六鳃鲨目（Hexanchiformes）等类群已基本实现命名全覆盖。硬骨鱼类由于其物种基数庞大，中文名缺失总量最为显著，共有6474种未建立规范中文名，占该类群总数的18.2%。其中，鲤形目（Cypriniformes）缺失1287种，鲇形目（Siluriformes）缺失990种，鰕虎形目（Gobiformes）缺失719种，仅上述3个目就占中文名缺名总数的近一半。此外，脂鲤目（Characiformes）和鲈形目（Perciformes）分别缺失571和410种，反映出热带高多样性类群的中文名命名工作仍显不足。在某些中低多样性的目级类群中亦存在不可忽视的空白，如鳚形目（Blenniformes）和慈鲷目（Cichliformes）分别有218和216种尚无统一中文名。整体来看，鱼类中文名的缺失现象具有广泛性与结构性，既分布于物种极为丰富的主干类群，也存在于边缘性类群中，凸显出构建覆盖广、标准一致的中文命名体系的紧迫性。

2.2 不同模型的翻译质量评估

经拉汉双语平行语料微调后的mT5模型（以下简称Fish-mT5）在翻译任务中展现出良好的训练稳定性。训练过程中，模型损失函数整体呈平稳下降趋势，未出现过拟合迹象（附图Ⅰ）。

2.2.1 微调后模型与通用大语言模型的翻译质量对比

在模型性能评估中，Fish-mT5显著优于当前主流通用大语言模型。相较于DeepSeek-R1、Qwen-Plus和GLM4-Plus，Fish-mT5在中译拉、拉译中及双向翻译3个任务中，BLEURT和COMET两项评估指标均实现2~3倍提升（表1），其中平均BLEURT值达0.89，COMET值达0.92，而表现最优的通用模型DeepSeek-R1两项指标仅为0.48和0.69，表明经过领域语料微调后的模型在术语一致性与语义保真性方面具有显著优势。

在不同参数规模的Fish-mT5模型中，Fish-mT5-large的整体翻译表现优于Fish-mT5-base和Fish-mT5-small。平均COMET得分从Fish-mT5-small的0.83提升至Fish-mT5-base的0.87，在Fish-mT5-large上进一步达到0.92。BLEURT得分也呈相同趋势。随着模型规模增加，拉汉双向翻译结果的一致性显著提升，一致率由Fish-mT5-small的0.37增加至Fish-mT5-base的0.56，Fish-mT5-large则达到0.81。

表1不同大语言模型在拉汉翻译任务中的译文BLEURT和COMET评分对比

Tab.1Evaluation of Latin-Chinese translation quality by different large language models based on BLRURT and COMET scores

*表示非对偶微调，**表示对偶微调。

2.2.2 对偶翻译机制与单向翻译策略的效果比较

对偶学习机制显著提升了翻译准确率，在低资源语言场景（如物种名常缺乏句法锚点）中效果尤为突出。由于鱼类拉丁学名多为双字结构且缺乏语法特征，传统语言模型的判别依据往往不足。对偶学习目标通过强制要求往返翻译路径的语义一致性，有效弥补了这一缺陷。应用对偶反思框架后，模型在鱼类种名翻译任务上取得了最优表现，其BLEURT和COMET得分分别达到0.90和0.93。相较于单方向翻译任务，该结果在两项指标上分别实现了0.02和0.01的增长。在相同语料与参数条件下，Bi-directional mT5的性能优于单向基线，但仍显著低于本研究提出的对偶学习模型。以Fish-mT5-small为例，在汉译拉方向BLEURT提升43%，拉译汉方向BLEURT提升53%，而对偶模型在相同指标上提升45%，说明“对偶误差分析+自动修订”机制在超越常规双向训练的基础上，确实带来了可量化的性能增益。这些提升在低频物种名的翻译上体现得尤为突出。单向训练时会生成看似合理但非标准的物种名。而对偶学习机制构建的自我循环校正则能有效识别此类错误，当回译无法准确复原原始中文名时，模型即触发逐轮优化过程，直至获得一致的映射结果。

单向翻译模型有时会生成看似合理但并不规范的物种名，而对偶学习可通过回译失败自动触发修正，直至得到语义一致的映射。例如，脂鲤科布氏半线脂鲤（Hemigrammus bleheri）在单模型模式下由于缺失变音符号一致性被译为“Hemigrammus blehsi”，经对偶学习机制校正后，均规范化为标准的二名法格式“Hemigrammus bleheri”。最终，性能最优的Fish-mT5模型成功翻译了六分之一的数据稀缺鱼类名（附表Ⅳ），凸显了该方法在生物多样性信息处理中的实用价值。

3 讨论

本研究明确量化了全球鱼类中文名的缺失情况。截至2024年12月，已有有效学名的鱼类物种共37167种，其中18.25%的物种尚无中文名。鲤形目和鲇形目因物种基数庞大而贡献了近半数的命名缺失；软骨鱼类以20.1%的缺名率位居3大演化支系之首，体现出深海类群在命名体系构建中的系统性缺位，这既与其生态习性和形态特征有关，也反映出研究投入长期不足^[51]。此外，鳚形目、慈鲷目等中低多样性类群亦存在显著命名空白，说明命名缺失在各演化支系中普遍存在。综上，当前亟需在物种多样性高而分类体系尚未完善的类群中，推动分类学与语言学的协同研究，构建统一的拉丁学名—中文名对照体系。重点推进鲤形目、鲇形目等关键类群命名标准化，有望在短期内显著填补命名空白区，进而促进中文语境下生物多样性知识的传播与共享。为此，我们开发并上线微信小程序“世界鱼类物种名中拉互译”（图3、附图Ⅱ），提供拉丁学名与中文名的双向检索、命名规范校对与问题反馈功能，方便用户的即时应用与推广。

图3微信小程序“世界鱼类物种名中拉互译”二维码

Fig.3QR code for the WeChat mini program for Latin-Chinese translation of global fish names

垂直领域大模型在术语精准度与语境消歧需求极高的物种名翻译任务中表现出明显优势^[52-53]。本研究构建的Fish-mT5模型在BLEURT和COMET两项主流自动评估指标上的得分（分别为0.92和0.94）显著优于当前主流通用模型（DeepSeek-R1、Qwen-Plus和GLM4-Plus），其表现提升可达2~3倍^[47-48]。这一优势得益于mT5模型本身所采用的多语文本到文本架构^[22]，与本研究任务中的对偶翻译机制天然契合；同时，大规模平行语料的引入强化了语义对齐过程，显著减少了命名不对称或拼写差异带来的误译^[54]。尽管增加模型参数规模（如从mT5-base到mT5-large）可进一步提升准确率，但整体性能增益呈现边际递减趋势^[55-56]，提示在模型部署中应综合平衡资源消耗与精度收益。尽管如此，高质量语料依旧是垂直领域微调不可或缺的基准。

值得注意的是，即便人工智能模型具备高度表达与理解能力，生物物种俗名的翻译仍面临固有挑战。物种地方俗名常与其分布地、形态特征与生态习性有关，有时还融合了历史与传统文化语境^[57-58]。例如，“斑点叉尾鮰”（Ictalurus punctatus）与“澜沧裂腹鱼”（Schizothorax lantsangensis）等名称蕴含形态与地理信息，而“鱤”“鯮”等命名则包含古汉语构词元素，导致与拉丁学名的语义对齐困难。当前通用翻译模型往往无法准确处理物种拉丁学名前缀在生物学分类学中的具体含义，容易产生字面直译。以Pseudorasbora parva为例，模型常将前缀“pseudo”错译为“假、似、拟”，而忽略其属名“麦穗鱼属”的生物学含义。此种情形凸显了专家人工校审在机器翻译结果中的不可替代作用。

Fish-mT5结合神经机器翻译与垂直领域知识引导机制，成功应对了地方俗名命名准确性、术语消歧及语境复杂性等多重挑战。该模型具备良好的迁移潜力，不仅可应用于其他物种类群（如鸟类、昆虫、植物等）的跨语言命名任务，也可扩展至生物多样性热点地区的低资源语言环境。亚马逊流域、南非、南亚东南亚等地区不仅生物多样性丰富，亦分布大量濒危语言，Fish-mT5有望成为科学知识与地方管理实践之间的桥梁，支持生物多样性保护与文化协同发展^[59]。

综上所述，尽管鱼类物种的俗名翻译仍面临高度异质性与语境依赖性的挑战，Fish-mT5对偶学习框架已为跨语言物种地方俗名命名标准化提供了可行路径与技术范式。特别是在濒危语言和低资源语种领域，未来的命名翻译任务亟需向零样本（zero-shot）与少样本（few-shot）学习方向拓展，以突破语料稀缺的限制，实现知识迁移与语义泛化能力的同步提升。通过融合大规模语言模型与分类学专家知识，该方法显著提升了命名效率与准确性，并为构建更具包容性、互操作性和语种多样性的全球生物多样性信息基础设施奠定了坚实的技术基础。

4 结论

本研究实证表明，引入对偶学习策略的大语言模型mT5，在物种拉丁学名与中文名的双向翻译任务中表现出较高的准确性与可行性。基于垂直领域的高质量双语语料进行微调后，该模型在拉丁学名与中文名互译中的准确率达90%，在术语消歧与语境映射等分类命名关键环节上，显著优于现有通用大语言模型。该框架具有良好的可扩展性和即时性，可推广应用于其他生物类群与多语种命名体系构建，为跨语言分类学研究提供高效、稳定的技术路径。同时，该方法在促进全球生物多样性信息互通与本土知识体系协同构建方面，亦展现出广泛的应用潜力与实践价值。

致谢：我们谨向长期从事鱼类分类研究的专家学者、标本采集人员和馆藏管理工作者表示衷心感谢。正是他们多年来的辛勤付出，为本研究奠定了坚实基础。特别感谢参与Eschmeyer's Catalog of Fishes数据库编撰工作的专家，他们的专业贡献为本研究提供了重要支撑。同时，感谢黄俊豪、徐一扬、谢昊洋在鱼类中文名核对过程中给予的积极协助。

5 附录

附图Ⅰ、Ⅱ和附表Ⅰ~Ⅳ见电子版（DOI： 10.18307/2026.0161）。

图1世界鱼类中文名在分类目阶元的缺失情况

Fig.1Taxonomic order-level deficits in Chinese vernacular names of global fish

下载: 全尺寸图片

图2基于mT5大语言模型的世界鱼类拉汉学名对偶翻译工作流程

Fig.2Latin-Chinese dual translation workflow for global fish taxonomic names using mT5

下载: 全尺寸图片

图3微信小程序“世界鱼类物种名中拉互译”二维码

Fig.3QR code for the WeChat mini program for Latin-Chinese translation of global fish names

下载: 全尺寸图片

表1不同大语言模型在拉汉翻译任务中的译文BLEURT和COMET评分对比

Tab.1Evaluation of Latin-Chinese translation quality by different large language models based on BLRURT and COMET scores

下载: 全尺寸图片

图1世界鱼类中文名在分类目阶元的缺失情况

Fig.1Taxonomic order-level deficits in Chinese vernacular names of global fish

图2基于mT5大语言模型的世界鱼类拉汉学名对偶翻译工作流程

Fig.2Latin-Chinese dual translation workflow for global fish taxonomic names using mT5

图3微信小程序“世界鱼类物种名中拉互译”二维码

Fig.3QR code for the WeChat mini program for Latin-Chinese translation of global fish names

表1不同大语言模型在拉汉翻译任务中的译文BLEURT和COMET评分对比

Tab.1Evaluation of Latin-Chinese translation quality by different large language models based on BLRURT and COMET scores

图1世界鱼类中文名在分类目阶元的缺失情况

Fig.1Taxonomic order-level deficits in Chinese vernacular names of global fish

图2基于mT5大语言模型的世界鱼类拉汉学名对偶翻译工作流程

Fig.2Latin-Chinese dual translation workflow for global fish taxonomic names using mT5

图3微信小程序“世界鱼类物种名中拉互译”二维码

Fig.3QR code for the WeChat mini program for Latin-Chinese translation of global fish names

表1不同大语言模型在拉汉翻译任务中的译文BLEURT和COMET评分对比

Tab.1Evaluation of Latin-Chinese translation quality by different large language models based on BLRURT and COMET scores

Gorenflo LJ, Romaine S, Mittermeier RA et al. Co-occurrence of linguistic and biological diversity in biodiversity hotspots and high biodiversity wilderness areas. Proceedings of the National Academy of Sciences of the United States of America,2012,109(21):8032-8037. DOI:10.1073/pnas.1117511109.

Chu YN, Lin C, Mao WH et al. New progress in biocultural diversity studies. Biodiversity Science,2022,30(10):324-333. DOI:10.17520/biods.2022463.[楚雅南, 林晨, 毛文慧等. 生物文化多样性研究新进展. 生物多样性,2022,30(10):324-333.]

Reyes-García V, Cámara-Leret R, Halpern BS et al. Biocultural vulnerability exposes threats of culturally important species. Proceedings of the National Academy of Sciences of the United States of America,2023,120(2):e2217303120. DOI:10.1073/pnas.2217303120.

Patterson DJ, Cooper J, Kirk PM et al. Names are key to the big new biology. Trends in Ecology & Evolution,2010,25(12):686-691. DOI:10.1016/j.tree.2010.09.004.

Fraser C. Is bull-kelp kelp?The role of common names in science. New Zealand Journal of Marine and Freshwater Research,2012,46(2):279-284. DOI:10.1080/00288330.2011.621130.

Hutchings P, Lavesque N. I know who you are,but do others know?Why correct scientific names are so important for the biological sciences. Zoosymposia,2020,19(1):151-163. DOI:10.11646/zoosymposia.19.1.16.

Zhang J, Qian H. U. Taxonstand: An R package for standardizing scientific names of plants and animals. Plant Diversity,2023,45(1):1-5. DOI:10.1016/j.pld.2022.09.001.

Lu YR, Fang CC, He SP. Cnfishbase: A cyber Chinese fish database. Zoological Research,2023,44(5):950-953. DOI:10.24272/j.issn.2095-8137.2023.087.

Guedes JJM, Moura MR, Jardim L et al. Global patterns of taxonomic uncertainty and its impacts on biodiversity research. Systematic Biology,2025:syaf010. DOI:10.1093/sysbio/syaf010.

Nelson JS, Grande TC, Wilson MVH. Fishes of the world.5th ed. New Jersey: John Wiley & Sons Press,2016.

Fricke R, Eschmeyer WN, Van der Laan R eds. Eschmeyer's catalog of fishes: Genera,species,references. San Francisco: California Academy of Sciences,2025[2024-12-01].http://researcharchive.calacademy.org/research/ichthyology/catalog/fishcatmain.asp.

He DK, Sui XY, Sun HY et al. Diversity,pattern and ecological drivers of freshwater fish in China and adjacent areas. Reviews in Fish Biology and Fisheries,2020,30(2):387-404. DOI:10.1007/s11160-020-09600-4.

Lynch AJ, Elliott V, Phang SC et al. Inland fish and fisheries integral to achieving the sustainable development goals. Nature Sustainability,2020,3(8):579-587. DOI:10.1038/s41893-020-0517-6.

Stahlberg F. Neural machine translation: A review. Journal of Artificial Intelligence Research,2020,69:343-418. DOI:10.1613/jair.1.12007.

Wang HF, Wu H, He ZJ et al. Progress in machine translation. Engineering,2022,18:143-153. DOI:10.1016/j.eng.2021.03.023.

Kasneci E, Sessler K, Küchemann S et al. ChatGPT for good on opportunities and challenges of large language models for education. Learning and Individual Differences,2023,103:102274. DOI:10.1016/j.lindif.2023.102274.

Ranathunga S, Lee EA, Prifti Skenduli M et al. Neural machine translation for low-resource languages: A survey. ACM Computing Surveys,2023,55(11):1-37. DOI:10.1145/3567592.

Team N, Costa-jussà MR, Cross J et al. Scaling neural machine translation to 200 languages. Nature,2024,630(8018):841-846. DOI:10.1038/s41586-024-07335-x.

Wang ML. Design of automatic translation system for English for special purpose in agriculture based on neural machine translation. Proceedings of the 3rd International Conference on Electronic Information Technology and Smart Agriculture. Sanya: ACM,2024:390-394. DOI:10.1145/3641343.3641422.

Liang T, He ZW, Jiao WX et al. Encouraging divergent thinking in large language models through multi-agent debate. Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing. Miami, Florida, USA. Stroudsburg, PA, USA: ACL,2024:17889-17904. DOI:10.18653/v1/2024.emnlp-main.992.

Shinn N, Cassano F, Berman E et al. Reflexion: Language agents with verbal reinforcement learning.2023:2303.11366.https://arxiv.org/abs/2303.11366.

Xue LT, Constant N, Roberts A et al.mT5: A massively multilingual pre-trained text-to-text transformer.2020:2010.11934. DOI:10.48550/arXiv.2010.11934.

Glazkova AV, Morozov DA, Vorobeva MS et al. Keyword generation for Russian-language scientific texts using the MT5 model. Automatic Control and Computer Sciences,2024,58(7):995-1002. DOI:10.3103/S014641162470041X.

伍汉霖, 邵广昭, 赖春福等. 拉汉世界鱼类系统名典. 基隆: 水产出版社,2012.

李思忠, 王惠民. 中国动物志硬骨鱼纲鲽形目. 北京: 科学出版社,1995.

褚新洛, 郑葆珊, 戴定远. 中国动物志硬骨鱼纲鲇形目. 北京: 科学出版社,1999.

曹文宣. 中国动物志硬骨鱼纲鲤形目（上）. 北京: 科学出版社,2024.

陈宜瑜. 中国动物志硬骨鱼纲鲤形目（中）. 北京: 科学出版社,1998.

乐佩琦. 中国动物志硬骨鱼纲鲤形目（下）. 北京: 科学出版社,2000.

张世义. 中国动物志硬骨鱼纲鲟形目海鲢目鲱形目鼠鱚目. 北京: 科学出版社,2001.

陈素芝. 中国动物志硬骨鱼纲灯笼鱼目鲸口鱼目骨舌鱼目. 北京: 科学出版社,2002.

苏锦祥, 李春生. 中国动物志硬骨鱼纲鲀形目海蛾鱼目喉盘鱼目鮟鱇目. 北京: 科学出版社,2002.

金鑫波. 中国动物志硬骨鱼纲鲉形目. 北京: 科学出版社,2006.

伍汉霖, 钟俊生. 中国动物志硬骨鱼纲鲈形目（五）虾虎鱼亚目. 北京: 科学出版社,2008.

张春光. 中国动物志硬骨鱼纲鳗鲡目背棘鱼目. 北京: 科学出版社,2010.

李思忠, 张春光. 中国动物志硬骨鱼纲银汉鱼目鳉形目颌针鱼目蛇鳚目鳕形目. 北京: 科学出版社,2011.

朱元鼎, 孟庆闻. 中国动物志圆口纲软骨鱼纲. 北京: 科学出版社,2001.

Ding LY.rFishTaxa: R interface to Eschmeyer's Catalog of Fishes, Version 0.1.0.2022.https://github.com/Otoliths/rFishTaxa.

Ji LQ. Catalogue of life China:2025 annual checklist. Beijing: Biodiversity Committee of Chinese Academy of Sciences,2025.https://www.catalogueoflife.cn/annual-checklist/2025.

Ding LY, Li H, Tao J et al. SP2000: An open-sourced R package for querying the catalogue of life. Biodiversity Science,2021,29(1):118-122. DOI:10.17520/biods.2020235.[丁刘勇, 李昊, 陶捐等. 获取生物物种名录信息的R程序包SP2000. 生物多样性,29(1):118-122.]

Chen XY. Checklist of fishes of Yunnan. Zoological Research,2013,34(4):281-343.[陈小勇. 云南鱼类名录. 动物学研究,2013,34(4):281-343.]

张春光, 赵亚辉, 邢迎春等. 中国内陆鱼类物种与分布. 北京: 科学出版社,2016.

Chen AD, Lou LZ, Chen KH et al. Dual-reflect: Enhancing large language models for reflective translation through dual learning feedback mechanisms. Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics(Volume 2: Short Papers). Bangkok: ACL,2024:693-704. DOI:10.18653/v1/2024.acl-short.64.

He D, Xia YC, Qin T et al. Dual learning for machine translation. Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona: ACM,2016:820-828. DOI:10.5555/3157096.3157188.

He ZW, Liang T, Jiao WX et al. Exploring human-like translation strategy with large language models. Transactions of the Association for Computational Linguistics,2024,12:229-246. DOI:10.1162/tacl_a_00642.

Liu AX, Feng B, Xue B et al. Deepseek-v3 technical report.arXiv,2024,2412.19437. DOI:10.48550/arXiv.2412.19437.

Sellam T, Das D, Parikh AP. BLEURT: Learning robust metrics for text generation.arXiv,2020:2004.04696.https://arxiv.org/abs/2004.04696.

Rei R, De Souza JGC, Alves D et al. COMET-22: Unbabel-IST 2022 submission for the metrics shared task. Proceedings of the Seventh Conference on Machine Translation(WMT),2022:578-585.

Python Software foundation. Python: Version 3.10.2021.https://www.python.org.

R Core Team. R: A language and environment for statistical computing. Vienna: R Foundation for Statistical Computing,2024.https://www.r-project.org.

Priede IG, Froese R. Colonization of the deep sea by fishes. Journal of Fish Biology,2013,83(6):1528-1550. DOI:10.1111/jfb.12265.

Turc I, Chang MW, Lee K et al. Well-read students learn better: On the importance of pre-training compact models.arXiv,2019:1908.08962.https://arxiv.org/abs/1908.08962.

Kale M, Siddhant A, Constant N et al.nmT5—Is parallel data still relevant for pre-training massively multilingual language models.arXiv,2021:2106.02171.https://arxiv.org/abs/2106.02171.

Conneau A, Lample G. Cross-lingual language model pretraining. Advances in Neural Information Processing Systems,2019,32.

Johnson M, Schuster M, Le QV et al. Google's multilingual neural machine translation system: Enabling zero-shot translation. Transactions of the Association for Computational Linguistics,2017,5:339-351. DOI:10.1162/tacl_a_00065.

Shoeybi M, Patwary M, Puri R et al. Megatron-LM: Training multi-billion parameter language models using model parallelism.arXiv,2019:1909.08053.https://arxiv.org/abs/1909.08053.

Winston JE, Disney H. Describing species: Practical taxonomic procedure for biologists. Nature,2000,405(6787):619.

Farghaly A, Shaalan K. Arabic natural language processing: Challenges and solutions. ACM Transactions on Asian Language Information Processing,2009,8(4):1-22. DOI:10.1145/1644879.1644881.

Loh J, Harmon D. Biocultural diversity: Threatened species,endangered languages. Zeist: WWF Netherlands,2014.