基于人工智能大模型技术的果蔬农技知识智能问答系统

来自：智慧农业资讯 > 馆藏分类

配色：

字号：大中小

2024-02-26 | 阅：转： | 分享

2023 年 12 月第 5 卷第 4 期智慧农业（中英文） Smart Agriculture Dec. 2023 Vol. 5, No. 4
基于人工智能大模型技术的果蔬农技知识智能问答系统
1 ， 2 3 1 ， 2 1 ， 2
王婷，王娜，崔运鹏，刘娟
（1. 中国农业科学院农业信息研究所，北京 100081 ，中国； 2. 农业农村部农业大数据重点实验室，北京 100081 ，
中国； 3. 96962 部队，北京 102206 ，中国）
摘要：［［目目的的 / 意意义义］］乡村振兴战略给农业技术推广提出新的要求，使农业推广知识的供给形式有待进一步创
新。以果蔬农技知识服务为需求导向，基于前沿大语言模型技术，面向新型农业知识导读和知识问答等农技推广
服务，构建果蔬农技知识智能问答系统。［［方方法法］］基于草莓种植户需求分析，把草莓栽培农技知识划分为不同主
题，形成知识对象识别和知识问答两种大模型下游任务，结合机器自动标注和人工标注的方法构建小样本高质量
训练语料；通过对比已有的 4 种大语言模型：Baichuan2-13B-Chat 、ChatGLM2-6B 、Llama-2-13B-Chat 、ChatGPT
的性能表现，选择性能最优的模型作为基础模型，按照 “ 优质语料+ 预训练大模型+ 微调 ” 的研究思路，训练具有
语义分析、上下文关联和生成能力，能够适应多种下游任务的深度神经网络，构建农业知识问答大模型；采用数
据优化、检索增强生成技术等多种策略缓解大模型幻觉问题；研发果蔬农技知识智能问答系统，生成高精度、无
歧义的农业知识答案，同时支持用户多轮问答。［［结结果果和和讨讨论论］］以精准率和召回率为命名实体识别任务的性能表现
指标，参与测评的国内主流模型在微调后不同知识主题下的平均精准率均超过 85% ，平均召回率表现各异，其中
知识实体类型的数量、标注语料数量等因素都会影响大模型性能；以幻觉率和语义相似度为知识问答任务的性能
表现指标，数据优化、采用检索增强生成技术等策略以 10% ~40% 的幅度有效降低大模型幻觉率，并有效提高大
模型的语义相似度。［［结结论论］］在农业领域的命名实体识别和知识问答任务中，预训练大模型 ChatGLM 的表现性能
最优。针对预训练大模型下游任务的微调和基于检索增强生成（Retrieval-Augmented Generation ，RAG ）技术的模
型优化可以缓解大模型幻觉问题，显著提升大模型性能。大模型技术具有创新农技知识服务模式、优化农业知识
推广的潜力，能够有效降低种植户获取高质量有效知识的时间成本，引导更多的种植户实现农业技术创新和转型。
但是由于性能不稳定等诸多问题，大模型的优化方法和具体场景应用仍需进一步深入研究。
关键词：大模型；生成式预训练变换器；农技知识；智能问答；命名实体识别
中图分类号： TP399 ； S126 文献标志码： A 文章编号： SA202311005
引用格式：王婷, 王娜, 崔运鹏, 刘娟 . 基于人工智能大模型技术的果蔬农技知识智能问答系统[J]. 智慧农业( 中英文),
2023, 5(4): 105-116. DOI ： 10.12133/j.smartag.SA202311005
WANG Ting, WANG Na, CUI Yunpeng, LIU Juan. Agricultural technology knowledge intelligent question-answering sys ‐
tem based on large language model[J]. Smart Agriculture, 2023, 5(4): 105-116. DOI ： 10.12133/j.smartag.SA202311005
(in Chinese with English abstract)
［1 ］
为中国农业现代化亟须解决的问题。传统农业技
0 引言
术推广存在 “ 供需矛盾突出 ” 的问题：首先，很多
现代信息技术的飞速发展促进了中国农业技术
农业科研成果没有得到有效的推广和使用，导致农
的不断进步。如何推广普及先进实用的农业技术成业生产力和市场需求不匹配。其次， “ 大水漫灌式 ”
收稿日期：2023-11-01
基金项目：北京市数字农业创新团队项目（BAIC10-2023 ）；中国农业科学院基本科研业务费项目（JBYW-AII-2023-31 ）；国家重点研发计划
项目（2022YFF0711902 ）
作者简介：王婷，研究方向为深度学习方法的理论研究与应用、生信分析。E-mail ：wangting01@caas.cn

通信作者：崔运鹏，博士，研究员，研究方向为农业大数据挖掘分析、自然语言处理、生信分析。E-mail ：cuiyunpeng@caas.cn
copyright?2023 by the authors106 智慧农业（中英文） Smart Agriculture Vol. 5, No. 4
的农技推广无法满足农业生产者的个性化、易接统，能够为农业生产者提供高精度、无歧义的有效
受、好吸收的需求。在乡村振兴战略给农业技术推知识，全面助力农业生产者解决实际问题。
广提出新要求的背景下，农业推广知识的供给形式
1 智能问答技术相关研究
［2 ］
有待进一步创新。如何在果蔬栽培过程中，针对
种植户面临的实际生产问题，随时随地提供高质量
1.1 　命名实体识别　
的答疑解惑，并辅助种植户快速有效地消化和吸收
根据命名实体识别领域的研究进展，主要可以
农业知识，都是农技知识推广亟须解决的问题，实
划分为以下 3 个阶段。
现技术分别对应自然语言处理领域中的命名实体识
（1 ）基于词典和规则的方法。在专家制定好规
别和知识问答。
则和词典后，通过文本匹配的方式实现命名实体识
深度学习、大规模神经网络等人工智能技术的
别。这种方法过于依赖专家知识，人工成本和时间
快速突破性进展，尤其是大语言模型（Large Lan ‐
guage Models ，LLM ）的出现，给命名实体识别和成本较高，且无法面向新领域、新实体类型或新数
［5 ］
知识问题提供了新的手段和方法，从而也使得拟人据集进行迁移或扩展。
［3 ］
化、智能化的农业技术推广成为可能。LLM 在（2 ）基于传统机器学习的方法。命名实体识别
被转化为序列标注问题，当前的预测标签不仅与当
大规模数据训练过程中可以自动学习一些高级复杂
前的输入特征相关，还与之前的预测标签相关，利
的功能，拥有更准确的逻辑推理学习能力，在很多
［4 ］
方面都拥有了接近人类认知的表现。聊天生成式用序列之间的强相互依赖关系来实现命名实体识
［6 ］
预训练变换器（Chat Generative Pre-trained Trans ‐ 别。常见方法包括隐马尔可夫模型、支持向量
［7 ］［8 ］
former ，ChatGPT ）的出现将大语言模型技术推向机和条件随机场等。
了爆发阶段，引发了大模型技术产业前所未有的发（3 ）基于深度学习的方法。在命名实体识别任
展契机。OpenAI 、微软、谷歌、Facebook 、百度等务适用于非线性转化的特性条件下，由于深度学习
科技巨头企业纷纷布局了相关业务，在大语言模型
以端到端的训练方式，通过梯度传播方法构建更复
领域持续不断地进行探索创新，推出 ChatGPT 、
杂的网络结构，从而能够提取自然语言中更有效的
GPT-4 、文心一言、通义千问、ChatGLM-6B 、Bai ‐ 特征，更好地挖掘命名实体和实体类型之间的关
chuan2-13B-Chat 等人工智能大模型产品。系，所以注意力机制、图神经网络、迁移学习、远
同时，中国政府也推出多项与人工智能领域相监督学习等热门研究技术成为命名实体识别目前的
［9 ］
关的利好政策。其中，《北京市促进通用人工智能
主流研究方向。常见方法包括 BiLSTM-CRF 、
［10 ］［11 ］［12 ］
创新发展的若干措施（2023 —2025 年）》提出 “ 开
IDCNN-CRF 、 CAN-NER 、 LatticeLSTM 、
［13 ］［14 ］
展大模型创新算法及关键技术研究 ” “ 加强大模型
BERT 和 ERNIE 等。
训练数据采集及治理工具研发 ” 等，面向政务服
1.2 　知识问答　
务、医疗、科学研究、金融等领域拓展应用场景，
抢抓大模型发展机遇，推动通用人工智能领域实现根据知识问答领域的研究进展，主要可以划分
为以下 4 个阶段。
创新引领。
（1 ）传统基于规则的方法。通常包括问题分
因此，本研究在把握农业需求、跟踪前沿人工
类、答案检索和答案生成。这种方法人工成本和时
智能技术的基础上，以草莓栽培技术为例，利用预
［15 ］
间成本较高，且无法有效处理未知问题和答案。
训练大语言模型，按照 “ 优质语料+ 预训练大模型+
微调 ” 的大模型技术研究思路，训练具有语义分（2 ）基于知识图谱的方法。首先通过结构化数
析、上下文关联和生成能力，能够适应知识对象实据、文本语料库和半结构化数据构建领域知识图
体识别、关系抽取、知识问答等多种下游任务的深谱，然后基于此提取准确和详细的答案。由于知识
度神经网络模型，构建新一代果蔬农技知识问答系图谱存在过于依赖专家知识、知识不完备性、缺乏Vol. 5, No. 4 王婷等：基于人工智能大模型技术的果蔬农技知识智能问答系统 107
表 1 果蔬农技知识需求调研种植户的基本特征
语言理解等缺点，所以这种方法具有很大的局
［16 ］ Table 1 The characteristics of farmers related with the require ‐
限性。
ment study on agricultural knowledge
（3 ）基于传统深度学习的方法。基于深度学习
样样本本种种植植户户描描述述百百分分比比/%
方法中小型神经网络，如循环神经网络、长短期记
男 95.5
忆网络和注意力机制等，将自然语言转化为语义表
性别
女 4.5
示，并将问题和答案表示为向量形式，通过问题向
40 岁及以下 29.1
量和答案向量之间的相似匹配得分确定最优
年龄 40 ~50 35.3
［17 ］
50 岁及以上 35.6
答案。
初中及以下 81.3
（4 ）基于大语言模型的方法。把深度学习方法
学历
高中及以上 18.7
中大型神经网络作为预训练模型，如 BERT 、Ro ‐
30% 及以下 14.2
［18 ］［19 ］［20 ］
BERTa 、BART 、GPT 和 ChatGLM 等，根
家庭务农人口比例 30% ~90% 72.1
90% 及以上 13.7
据下游任务进行微调，以实现迁移学习。这些模型
5 万及以下 24.4
的参数规模巨大，网络结构十分复杂，在设计的预
年家庭收入 5 万 ~8 万 63.9
训练任务下从大规模无标注文本中学习自然语言上
8 万及以上 11.7
下文相关的意义和结构，可以捕捉到更丰富的语言 2
20 t/hm 及以上 49.3
2
特征，从而能够更好地应对各种自然语言处理任草莓单产水平 5 ~20 t/hm 47.2
2
5 t/hm 及以下 3.5
务，知识问答便是其中一个。但是由于 GPT 、
ChatGLM 等大模型生成回复时，在 “ 事实性 ” “ 实
时性 ” 等方面存在缺陷，在需要精准回答的领域知
识问答场景无法满足需求，所以必须借助外部知识
库生成高质量的准确回复。
2 果蔬农技知识需求分析
以针对草莓的果蔬农技知识需求分析为例，本
研究分别对北京市 12 个区县的草莓种植户进行随
机抽样问卷调查，基本涵盖了北京市郊区主要的草
莓生产区域，涉及种植户基本情况、技术需求及获
图 1 　果蔬农技知识需求调研种植户的区域分布
得途径等。本次调研共计发放 193 份调查问卷，回
Fig. 1 The district distribution of farmers related with the re ‐
收 165 份，问卷有效率为 85.5% 。
quirement study on agricultural knowledge
（1 ）果蔬农技知识需求调研种植户的基本特
征，包括性别、年龄、学历、家庭背景、家庭收
运及加工技术。总体上，北京市郊设施草莓种植户
入、草莓单产水平等，如表 1 所示。
对各种类型技术都表现出强烈的需求欲望，各类技
（2 ）从调研种植户的区域分布来看，基本上涵
术都有七成以上的种植户选择。设施草莓生产大多
盖了北京市郊区主要的草莓生产区域，包括昌平、
是大棚保护地生产，属于劳动密集型农业，机械作
通州、顺义等，如图 1 所示。
业的替代性较小，所以种植户对省工机械技术的需
（3 ）种植户的技术需求类型。种植户对草莓种求较少。
植农业技术的整体需求如表 2 所示。93.3% 的种植（4 ）种植户的技术需求。通过种植户按照急需
户需要增加产量的良种技术；91.3% 的种植户需求性和重要性对设施草莓栽培技术需求的排序发现，
是病虫害防控技术；排在第 3 位的是节本高效栽培种植户普遍对良种技术需求迫切。首先，27.9% 的
技术；种植户需求较低的技术是省工机械技术、贮种植户将提高品质良种技术的急需程度排在第 1108 智慧农业（中英文） Smart Agriculture Vol. 5, No. 4
表 2 草莓种植户的农技需求分布
（5 ）种植户获取技术的来源途径。关于种植户
Table 2 Agticultural technology demand distribution of straw ‐
技术获得途径的调查结果显示，近九成种植户没有
berry farmers
参加过任何和草莓种植相关的技术培训，基本上还
种植户对现有技术水平的评价
是以自己摸索、凭经验生产为主；其次是通过向其
需求
技术类型
基本有待亟待
他种植户学习获得技术。48.97% 的种植户生产主要
比例/%
满足/%
满足/% 提高/% 提高/%
依靠自己；39.65% 的种植户则是模仿其他种植户生
种苗培育技术 75.5 13.85 23.08 40.00 23.08
产。在其他获得技术途径方面，4.91% 的种植户从
水肥及管理技术 81.2 7.69 32.31 38.46 21.54
病虫害防治技术 91.3 7.58 16.67 51.52 24.24
政府各级农技推广站的农技人员那里学到相关生产
贮运及加工技术 85.6 13.85 29.23 47.69 9.23
技术；2.65% 和 2.26% 的种植户分别从媒体或乡村
优质生产技术 72.1 10.77 21.54 41.54 26.15
干部那里获得生产技术知识，农业合作组织或龙头
增加产量良种技术 93.3 21.54 33.85 23.08 21.54
企业在草莓生产技术供给方面的作用则微乎其微。
节本高效栽培技术 90.7 7.69 26.15 53.85 12.31
省工机械技术 77.7 10.77 38.46 33.85 16.92 基于以上需求分析，本研究通过构建基于大模
新品种应用 69.3 25.76 37.88 16.67 19.70
型技术的果蔬农技知识智能问答系统创新农业技术
新农药和肥料应用技术 67.9 32.31 26.15 30.77 10.77
推广模式，以此加强对农业技术知识服务的管控，
新农具应用技术 73.7 29.23 30.77 26.15 13.85
降低种植户优化农技知识储备的时间成本，从而引
品牌经营技术 49.2 33.85 15.38 30.77 20.00
导更多的种植户实现农业技术创新和转型。
位；其次有 24.5% 的种植户将提高产量良种技术排
3 果蔬农技知识智能问答大模型构建
在第 2 位，说明随着生活水平的提高，种植户顺应
本研究基于农技推广现状和草莓农技知识需求
人们消费需求的变化，在高产稳产的基础上愈发重
分析，针对农技知识导读和农技知识问答等农业领
视草莓的品质；急需性排名第 3 位的是病虫害防控
技术，19.8% 的种植户认为最需要此项技术；种植域行业应用，形成知识对象识别和知识问答两种大
户对水肥及管理技术、省工机械技术、节本高效栽模型下游任务，获取相关农技知识语料，构建小样
本高质量标注语料，训练农业领域知识大模型，并
培技术的重视程度相当，分别排在第 4 、5 、6 位；
构建果蔬农技知识智能问答系统，总体框架如图 2
在对各种类型技术进行排序的过程中，41.1% 的种
植户把贮运及加工技术排在最后，可见目前大部分所示。
种植户不太关注草莓的产后技术。
图 2 果蔬农技知识智能问答系统总体框架图
Fig. 2 The general framework of intelligent question answering system oriented to agricultural technologyVol. 5, No. 4 王婷等：基于人工智能大模型技术的果蔬农技知识智能问答系统 109
表 3 大模型训练标注语料数据统计
3.1 　获取农技知识语料　
Table 3 The statistical analysis of labeled database for the
基于本研究第 3 节中种植户对草莓农技知识的
LLM training
需求分析，本研究首先对草莓栽培技术知识进行了
生产基品种套种虫害诊断病害诊断药害诊断
知识专题总量
梳理，划分了草莓生产基本知识、品种筛选、套种
本知识筛选知识与防治与防治与防治
知识、虫害诊断与防治、病害诊断与防治、药害诊标注语料
151 107 61 212 232 106 869
数量
断与防治 6 个专题的知识对象。然后，分别根据果
知识对象
5 1 3 4 4 4 21
蔬农技知识的知识对象确定实体类型，形成关键
数量
词，并构建关键词检索式。举例说明如下：专题病
知识实体类
9 2 4 6 6 5 32
型数量
害的诊断与防治的知识对象包括农作物、作物部
问答对数量 63 47 22 44 48 36 260
位、病害诊断与防治；知识对象 “ 病害诊断与防
治 ” 的实体类型包括病害、症状、防治措施，关键 3.3 　构建农业知识实体识别和农业知识问答
词为病害、灰霉病、霜霉病等，对应的关键词检索
大模型　
式为：Summary ：（ “ 病害 ”or “ 灰霉病 ”or “ 霜霉
农业知识实体识别和农业知识问答大模型的构
病 ”or … … ）。
建过程如下所述：
面向草莓农技知识的 6 个专题，通过关键词检
（1 ）初期基础模型候选集构建。基于以下 3 个
索式检索知网、维普、万方、国家科技图书文献中
方面的综合考虑构建初期基础预训练大模型集：
心（National Science and Technology Library ，
① SuperCLUE 针对中文通用大模型的逻辑推理、
NSTL ）、中国科学引文数据库等权威学术网站，下
知识百科、语言理解、生成创作、对话等各种能
载相关摘要或全文，经过清洗、内容重新组织等数
力的排名；② github 平台上相关应用获取的星数；
据预处理过程，共获取 869 条草莓农技知识语料。
③ 是否开源可商用，最终选择 Baichuan2-13B-Chat
［22 ］
3.2 　形成小样本高质量标注语料　
（Baichuan ）、 ChatGLM2-6B （ChatGLM ）、 Lla ‐
［23 ］
ma-2-13B-Chat （Llama ）作为初期基础预训练大
分别针对果蔬农技知识对象识别和果蔬农技知
模型集，并同时和业界热度比较高的大模型 ChatG ‐
识问答两种下游任务形成预训练大模型微调需要的
［24 ］
PT 进行性能对比。
小样本高质量标注语料。
［25 ］
（2 ）预训练大模型微调。由于 Lora 微调是
（1 ）标注知识对象实体。利用机器自动标注和
一种通过将模型参数矩阵分解为低秩形式，只对部
人工标注结合的方式对 869 条知识语料进行标注。
分重要参数进行微调，从而加速模型训练和提高模
首先针对每种知识对象实体类型随机抽取 40 条知
［21 ］
型性能的方法，具有以下优点：① 参数量小，对算
识语料，使用标注工具 doccano 进行人工标注。
力和存储的要求较低；② 属于小型微调，减少模型
然后把其他标注语料放到大模型 ChatGPT 里生成伪
参数优化的时间，效率较高；③ 性能与全参微调方
标签，最后通过人工校对形成大模型标注语料。其
法相差不大；④ 生成单独模块，可以和其他微调方
中，数据属性包含知识实体、知识实体类型及其
法结合使用，所以针对知识实体识别任务，本研究
位置。
采用 Lora 微调方法。
（2 ）构建问答对。根据知识语料的内容，通过
由于知识问答任务需要根据大模型的生成内容
领域专家转换成高质量的问答对。
进行多次调整，所以本研究采用 Prompt-tuning 方
（3 ）构建训练集和测试集。构建的标注语料
［26 ］
法进行微调。Prompt-tuning 微调通过设计和优
中，不同知识主题下，标注语料、知识对象、知识
对象类型、问答对数量的具体分布如表 3 所示。其化输入提示或模板，来指导预训练模型生成所需要
中，70% 的标注语料和问答被用作大模型微调；的输出内容，以适应下游任务，其优点包括：① 不
30% 作为测试集检验模型性能。需要修改模型参数，计算成本低，需要的训练时间110 智慧农业（中英文） Smart Agriculture Vol. 5, No. 4
少，效率高；② 属于手动试错过程，允许创建特容和检索到的知识片段给出问题答案，既包含了用
定任务的提示，可以更灵活地适应各种下游任务；户查询内容的上下文信息，也融合了知识库中检索
③ 对于超过 10 亿参数量的模型来说，小样本甚至
到的信息。
是零样本的微调性能也能够极大地被激发出来。
4 结果与讨论
（3 ）模型优化。随着大模型在各个领域的应用
不断增加，很多研究表明大模型生成的文本存在不
4.1 　知识实体识别结果分析　
遵循原文或者不符合事实的现象，称之为大模型幻
［27 ］
4.1.1 　性能评价指标　
觉问题。针对本研究的内容，根据大模型幻觉
本研究采用精准率（Precision ，Pre ）和召回率
问题产生内容的性质，主要分为 3 种类型：信息冲
［30 ］
（Recall ）作为评价知识实体识别的性能指标。
突，大模型的回复是错误的信息；无中生有，对大
（1 ）精准率：Pre 为预测正确的实体个数与预
模型的回复无法验证其真假；信息不匹配，大模型
测的实体总个数的商，表示衡量检测知识实体识别
的回复和问题不相关。
的整体有效性。
针对大模型幻觉问题，分别从数据和模型两个
（2 ）召回率：Recall 为预测正确的实体个数与
方面进行了微调优化。在数据方面，分别采用标注
［28 ］
标注的实体总个数的商，表示正确识别知识实体的
语料去重和人工剔除可能导致幻觉的数据；在
数量占所有知识实体的比值。
模型方面，采用检索增强生成（Retrieval-Augment ‐
［29 ］
4.1.2 　精准率分析　
ed Generation ，RAG ）方法增强大模型对领域
本研究对比了微调前后不同大模型在不同知识
知识的理解和生成能力。
主题下的精准率，如表 4 所示，可以看出：① 微调
RAG 技术基于检索模型，将大模型和外部知
对不同模型的作用不同。微调后 Llama 的精准率由
识源结合在一起，不仅可以通过知识库的补充，提
76.6% 提升到 86.52% ，得到明显的提升；Baichuan 、
高专业知识的广度和深度，加深大模型对专业知识
ChatGPT 和 ChatGLM 的提升幅度为 10% ~15% ；国
的理解和分析，还为大模型赋予能够随时查询最新
内业界主流模型 ChatGLM 、Baichuan 、Llama ，微
知识的能力，保持大模型的知识更新，保证知识的
调后在不同知识主题下的平均精准率均达到 85% 以
时效性。因此， RAG 技术能够有效缓解大模型
上。② 不同模型的精准度不同。在微调前，精准率
“ 幻觉 ” 导致的大模型生成结果不准确、不相关或
最高的模型是 ChatGPT ；微调后，精准度最高的模
虚构的问题，提高大模型生成答案内容的质量和有
型是 ChatGLM 。③ 知识对象实体类型的数量对精
效性。同时，在非开源大模型的应用中，还能够有
准度的影响不同。相比其他知识主题，定义了 9 种
效解决数据安全的问题，保证敏感数据的安全性。
实体类型的生产基本知识主题的精准率最低；定
RAG 技术具体的实现过程如下：① 构建外部知识
义了 2 种实体类型的品种筛选主题的精准率最高。
库。基于维基百科、科技文献、技术教程等数据
④ 微调使用的标注语料规模影响模型的精准度。在
源，通过网络爬取的方法获取专业领域知识，形成
针对知识问答的外部知识源。② 构建知识向量库。实体类型数量相同的条件下，标注语料越多，精准
率越高。例如，在知识主题虫害诊断和防治、病害
将知识库中的文档转换成可以处理的文本块，使用
诊断与防治、药害诊断与防治的知识实体类型数量
向量模型将文本块转换成向量形式，并创建文本块
都是 4 的条件下，药害诊断与防治的标注语料为
向量的索引，以实现知识库内容的快速搜索。③ 向
232 条，知识主题虫害诊断和防治、病害诊断与防
量检索。对用户查询内容进行处理，提取关键词转
化为向量形式，利用知识向量索引，通过近似最近治的语料条数分别为 212 和 106 条，药害诊断与防
邻检索等方法在知识向量库中查找最相近的文本块治的模型精准率最高。对于命名实体识别任务，如
向量，获取与用户查询内容最相关的知识片段。④ 答本研究中的知识实体识别，大语言模型的表现性能
案生成。基于 Prompt ，使得大模型结合用户查询内和模型架构、标注语料规模、实体类型数量等因素Vol. 5, No. 4 王婷等：基于人工智能大模型技术的果蔬农技知识智能问答系统 111
有密不可分的关系。经网络强大的泛化能力，所以相比微调之前能够更
好地适应下游任务，从而提升模型的精准率和召回
表 4 初期预训练大模型精准率分析
Table 4 Accuracy analysis of initial pre-trained LLMs
率，优化了模型针对命名实体识别任务的表现性
Baichuan Llama ChatGPT ChatGLM 能。精准率提升的幅度和微调语料的数量有关，所
知识主题
B/% A/% B/% A/% B/% A/% B/% A/%
以会出现相同模型在不同知识主题下的精准率得到
生产基本知识 62.7 82.9 66.7 82.9 62.7 81.9 79.7 86.5
不同程度提升的情况。由于模型参数的优化，在模
品种筛选 76.3 87.4 80.3 87.4 76.3 82.4 80.3 89.4
型识别的命名实体中正确识别的比例更大，识别的
套种知识 71.8 85.9 77.8 85.9 73.8 79.9 77.8 87.9
虫害诊断与防治 72.3 85.9 78.3 88.5 74.7 80.9 78.3 91.6
实体数量相对会有所减少，于是会造成召回率升高
病害诊断与防治 75.0 86.5 80.3 89.2 74.1 81.7 78.3 92.5
幅度小于精准率升高幅度，甚至相比微调前降低的
药害诊断与防治 72.2 85.2 76.2 85.2 72.2 80.2 76.2 87.2
现象。
平均值 71.7 85.6 76.6 86.5 72.3 81.2 78.4 89.2
注： A 代表模型微调后召回率； B 代表模型微调前召回率。
4.2 　农技知识问答结果分析　
4.1.3 　召回率分析　
4.2.1 　大模型性能定量分析　
对比了微调前后各个模型的召回率，如表 5 所
本研究通过指标幻觉率和语义相似度定量评估
示，可以看出：① 不同模型的召回率不同。微调
大模型提供答案的质量和大模型幻觉问题的严重程
前，召回率最高的模型是 Llama ；微调后，召回率
度，并对比分析了大模型在 “ 微调+ 优化 ” 前后的
最高的模型是 ChatGPT 。② 微调前后，精准率和召
表现性能。
回率的趋势不一致。微调后，所有模型的精准率都
（1 ）性能评价指标。包括幻觉率（Hallucina ‐
有所增加，但只有模型 ChatGLM 和 Llama 的召回率
tion Rate ，HR ）和语义相似度（Semantic Similari ‐
是增加的，其他模型都稍微有些降低。③ 不同模型
ty ，SS ）。
的精准率和召回率的表现不一致。微调后，Chat ‐
幻觉率。模型提供的答案中存在大模型幻觉现
GLM 的平均精准率最高，而 Llama 的平均召回率
象的答案占所回答问题总量的比例，作为衡量大模
最高。
型提供的答案是否符合事实及大模型幻觉问题严重
表 5 初期预训练大模型召回率对比分析
程度的评价指标。本研究采用 “ 投票决定制 ” 决定
Table 5 Recall analysis of initial pre-trained LLMs
大模型提供的答案是否存在大模型幻觉问题，邀请
Baichuan Llama ChatGPT ChatGLM
知识主题
B/% A/% B/% A/% B/% A/% B/% A/%
相关专业领域的 5 名研究人员针对 “ 是 ” 或 “ 否 ”
生产基本知识 56.1 47.5 57.3 59.5 51.8 46.7 69.7 70.4
进行投票，票数多的选项作为最终结果。
品种筛选 70.7 69.6 70.1 72.9 70.4 62.4 70.2 72.1
语义相似度。衡量模型预测答案和语料库中提
套种知识 66.6 67.5 69.2 71.5 68.9 60.1 68.0 70.6
［31 ］
虫害诊断与防治 68.5 63.2 68.2 76.7 69.4 63.5 67.5 75.9
供答案之间的相似程度。具体流程如下：对预
病害诊断与防治 67.2 65.4 68.1 77.9 68.2 65.9 69.3 76.3
测答案和语料答案进行分词、去除停用词；使用词
药害诊断与防治 65.3 67.1 67.5 77.2 67.3 61.4 65.9 70.1
平均值 65.7 63.4 66.7 72.6 66.0 60.0 68.4 72.6
频- 逆文本频率指数（Term frequency-Inverse Docu ‐
注： A 代表模型微调后召回率； B 代表模型微调前召回率。
ment Frequency ，TF-IDF ）方法计算两条答案的词
频向量；计算两个词频向量的余弦相似度，值越大
4.1.4 　微调效果分析　
由本研究对 Lora 微调前后的模型性能分析可表示预测答案和语料答案的相似度越大。
（2 ）幻觉率分析。以幻觉率为指标对比分析不
得，Lora 微调后，所有测评模型在所有知识主题下
同知识主题下 ChatGLM 、Baichuan 、Llama 、Chat ‐
的精准率都有明显提高，大部分召回率都有所提
GPT 这 4 种大模型在 “ 微调+ 优化 ” 前后出现大模
高。Lora 微调在预训练大模型已有的神经网络结构
和参数的基础上，根据下游任务 — — 命名实体识别型幻觉现象的严重程度，如图 3 所示。其中，图 3
更改输出层，并通过输入带有实体类型标签的语料中蓝色条形代表 “ 微调+ 优化 ” 前的幻觉率；橙色
数据来更新模型的部分参数，有效地利用了深度神条形代表 “ 微调+ 优化 ” 后的幻觉率。由图 3 可得：112 智慧农业（中英文） Smart Agriculture Vol. 5, No. 4
① 不同知识主题范围下，大模型幻觉问题的缓解的幻觉率降低 10.9% ，ChatGLM 降低 43.5% ，其他
程度不同。对于药害诊断与防治专题，药害的种类主题的对比可以得出类似结论。 “ 微调+ 优化 ” 后，
相对病虫害较少，且标注语料比较充分，所以大模幻觉率以 10% ~40% 的幅度降低，大模型幻觉现象
型幻觉问题的改善更显著。② 相同 “ 微调+ 优化 ” 得到有效缓解，大模型问答回复的质量有了明显
方式下，不同大模型对大模型幻觉问题的缓解程度提升。
不同。例如，在病害诊断与防治主题下，ChatGPT
（a ）生产基本知识（b ）品种筛选（c ）套种知识
（d ）虫害诊断与防治（e ）病害诊断与防治（f ）药害诊断与防治
图 3 　不同知识主题下大模型 “ 微调+ 优化 ” 前后的幻觉率对比分析
Fig. 3 The hallucination rate comparative analysis of LLMs before and after fine-tuning and optimization in different knowledge topics
（3 ）语义相似度分析。由于知识主题病害诊断
与防治的数据量最大，本研究以此主题为例，通过
指标语义相似度对比分析 4 种大模型的预测答案和
标注答案的相似性，如图 4 所示。其中，图 4 中蓝
色条形代表 “ 微调+ 优化 ” 前的语义相似度；橙色
条形代表 “ 微调+ 优化 ” 后的语义相似度。由图 4
可得，在模型 “ 微调+ 优化 ” 后，所有测评模型的
图 4 　大模型 “ 微调+ 优化 ” 前后的语义相似度对比分析
语义相似度都得到提升，增长幅度均大于 15% ；在
Fig. 4 The semantic similarity comparative analysis of LLMs
模型 “ 微调+ 优化 ” 后，ChatGLM 的表现最好，其
before and after fine-tuning and optimization
次是 Llama ，最后是 ChatGPT 和 Baichuan 。
（4 ） “ 微调+ 优化 ” 效果分析。由本研究对 “ 微
所有测评模型在 “ 微调+ 优化 ” 后，大模型生成的
调+ 优化 ” 前后的模型性能分析可得，promp-tuning
答案质量得到显著提升。
微调和 RAG 技术优化后，所有测评模型的幻觉率
4.2.2 　具体问答案例分析　
都大幅度降低，语义相似度都明显提高。由于模型
本节以 ChatGLM 对问题 “ 大拱棚半促成草莓
在 prompt-tuning 的微调过程中，根据答案生成的质
栽培有什么特点 ” 的回复为例，说明大模型在微调
量不断调整模型的输入提示，迭代优化模型性能，
前后性能表现的变化，如表 6 所示。ChatGLM 在微
从而可以更灵活地适应知识问答任务。同时，由于
调前提供的答案不仅分别介绍了 “ 大拱棚 ” 和 “ 半
RAG 技术给模型增加了外部语料库，使得模型能
够更深入地理解知识问答任务的领域知识。因此，促成 ” 栽培的特点，还针对 “ 草莓品种选择 ” “ 土Vol. 5, No. 4 王婷等：基于人工智能大模型技术的果蔬农技知识智能问答系统 113
壤选择 ” 和 “ 病虫害控制 ” 等栽培技术给出建议。 GLM 提供的答案首先概括介绍 “ 大拱棚半促成草
虽然这些扩展知识都是在大拱棚半促成栽培方式下莓栽培 ” 及其优点，然后对比分析 “ 露地促成栽
草莓栽培需要注意的问题，但却导致答案中存在培 ” 和 “ 半促成栽培 ” 的不同，相比之前的回复，
“ 避重就轻，重点丢失 ” 的问题。在微调后，Chat ‐ 对应问题更具有针对性，质量得到明显提升。
表 6 大模型 “ 微调+ 优化 ” 前后的回复内容对比
Table 6 The comparative analysis of LLMs'' reply before and after fine-tuning and optimization
问题微调前微调后
大拱棚半促成草莓栽培是一种高效、经济、方便的草莓
大拱棚半促成草莓栽培是一种草莓种植技术，其特点是：
种植技术，适合在不同地区进行推广和应用。大拱棚半促
1 ）大拱棚：该栽培结构较大，通常采用 60 ~70 cm 的高拱棚，
成栽培是指草莓在露地促成栽培与大拱棚保护下促成栽培
顶部有通风口和排水口，可以保持土壤湿度和通风良好
的混合栽培形式。相对于露地促成栽培，半促成栽培具有
2 ）半促成：在这种栽培结构中，草莓生长期较短，通常为
以下几个特点：
20 ~30 d ，而果实成熟期较长，通常为 50 ~60 d 。因此，草莓的生
1 ）充分利用白天高温资源，加快草莓生长，缩短上市
长期和果实成熟期比较接近，可以满足消费者对快速生长和大
大拱棚半促期，经济效益高
量果实的需求
成草莓栽培 2 ）节省劳动力，减少人工辅助次数，节约劳动力成本
3 ）草莓品种选择：半促成草莓栽培适合选择生长期较短、果
有什么特点 3 ）在半促成栽培期间，温度更为灵活，可以根据实际情
实大小适中、口感鲜美的草莓品种，如红颜、赤星、巨峰等
况适时调整温度，使植株生长更为适宜
4 ）土壤选择：半促成草莓栽培通常需要在土壤肥沃、排水良
4 ）露地促成栽培草莓在低温下容易 “ 休眠 ” ，而半促成
好的地区进行种植，同时需要合理施肥和浇水，以保持土壤湿度
栽培可以在露地促成栽培与保护地促成栽培之间实现 “ 中
和营养供给
间状态 ” ，顺利实现 “ 休眠 ” 与 “ 清醒 ” 的转变
5 ）病虫害控制：半促成草莓栽培需要加强对病虫害的控制，
5 ）大拱棚半促成栽培相对于露地促成栽培更为灵活，
可以使用农药进行预防和治理，以保证草莓的安全和丰收
可提前采果，减少空袋率，提高果实产量
的答案，如图 5 所示。其中，ChatGLM 模型的命名
4.3 　果蔬农技知识智能问答系统　
实体识别任务在智能问答中的表现形式为：输入一
基于以上分析可得，ChatGLM 在农业领域命
段农业科技文献、农业新闻等农业领域知识，同时
名实体识别任务和知识问答任务中的表现都是最优
以自然语言的形式要求系统给出农业实体类型。
的，且是开源可商用的，所以本研究选择 Chat ‐
（2 ）问答信息源查看。在系统给出问题答案的
GLM 作为构建果蔬农技知识智能问答系统的基础
同时，会把模型生成答案参考的信息源提供给用
预训练模型。果蔬农技知识智能问答系统的功能包
户。用户可以通过点击信息源链接获取信息源的详
括以下两个部分：
细信息，包含文本、图片等多模态的内容，如图 6
（1 ）智能问答。针对用户的问题需求给出相应所示。
图 5 　果蔬农技知识智能问答系统问答界面
Fig. 5 The QA interface of agriculture technology question answering system114 智慧农业（中英文） Smart Agriculture Vol. 5, No. 4
利益冲突声明：本研究不存在研究者以及与公开
研究成果有关的利益冲突。
参参考考文文献献：
[ 1 ] 李秋生, 郑凯欣, 刘小春 . 新时代基层农技推广体系改革
创新实践探索、制约因素及深化路径[J]. 世界农业,
2022(2): 80-89.
LI Q S, ZHENG K X, LIU X C. Practical exploration,
constraints and deepening paths of the reform and innova ‐
tion of grass-roots agricultural technology extension sys ‐
tem in the new era[J]. World agriculture, 2022(2): 80-89.
图 6 　检索信息源详细内容展示
[ 2 ] 刘娜 . 浅析我国农业推广的现状及策略[J]. 河北农业,
Fig. 6 The details presentation of indexed information sources
2023, 10: 27-28.
LIU N. Analysis of the current situation and strategy of ag ‐
5 结论
ricultural extension in China[J]. Hebei agriculture, 2023,
10: 27-28.
在农业知识服务有待进一步优化的背景下，本
[ 3 ] RADFORD A, WU J, CHILD R, et al. Language models
are unsupervised multitask learners[J]. Computer science,
研究在分析大模型业界发展态势的基础上，面向农
2019: ID 160025533.
技知识导读和农技知识问答等农业领域行业应用，
[ 4 ] ZHAO W X, ZHOU K, LI J Y, et al. A survey of large lan ‐
guage models[EB/OL]. arXiv: 2303.18223, 2023.
利用 Baichuan2-13B-Chat 、 ChatGLM2-6B 、 Llama-
[ 5 ] 李冬梅, 罗斯斯, 张小平, 等 . 命名实体识别方法研究综
2-13B-Chat 、ChatGPT 这 4 种已有的预训练大模型，
述[J]. 计算机科学与探索, 2022, 16(9): 1954-1968.
构建知识实体识别和知识问答两种农业领域大模 LI D M, LUO S S, ZHANG X P, et al. Review on named
entity recognition[J]. Journal of frontiers of computer sci ‐
型，形成果蔬农技知识智能问答系统。在知识实体
ence and technology, 2022, 16(9): 1954-1968.
识别任务中，通过精准率和召回率对比分析了 4 种
[ 6 ] MORWAL S. Named entity recognition using hidden mar ‐
kov model (HMM)[J]. International journal on natural lan ‐
大模型的性能表现，可以得出：
guage computing, 2012, 1(4): 15-23.
（1 ）针对农业领域的命名实体识别任务和知识
[ 7 ] EKBAL A, BANDYOPADHYAY S. Named entity recog ‐
nition using support vector machine: A language indepen ‐
问答任务，预训练大模型 ChatGLM 的表现性能
dent approach[J]. International journal of electrical and
最优。
computer engineering, 2010, 4(3): 589-604.
（2 ）针对预训练大模型下游任务的微调和基于
[ 8 ] SONG S L, ZHANG N, HUANG H T. Named entity rec ‐
ognition based on conditional random fields[J]. Cluster
RAG 技术的模型优化可以显著提升大模型的性能，
computing, 2019, 22(3): 5195-5206.
且对不同大模型性能的影响程度不同。
[ 9 ] LUO L, YANG Z H, YANG P, et al. An attention-based
BiLSTM-CRF approach to document-level chemical
（3 ）知识实体类型的数量、标注语料数量等因
named entity recognition[J]. Bioinformatics, 2018, 34(8):
素都会影响大模型性能。在知识问答任务中，采用
1381-1388.
了数据优化、检索增强生成技术等大模型幻觉缓解
[10] CHANG Y A, KONG L, JIA K J, et al. Chinese named en ‐
tity recognition method based on BERT[C]// 2021 IEEE
策略，通过幻觉率和语义相似度两种指标定量分析
International Conference on Data Science and Computer
了大模型幻觉现象和缓解策略使用的有效性，并通
Application (ICDSCA). Piscataway, New Jersey, USA:
IEEE, 2021: 294-299.
过具体问答案例对比分析了微调前后大模型回复质
[11] ZHU Y Y, WANG G X, KARLSSON B F. CAN-NER:
量的变化。
Convolutional attention network for Chinese named entity
通过以上分析，可以得出大模型技术在知识对
recognition[EB/OL]. arXiv: 1904.02141, 2019.
[12] ZHANG Y, YANG J. Chinese NER using lattice
象实体识别和知识问答任务中表现优异。随着大语
LSTM[EB/OL]. arXiv: 1805.02023, 2018.
言模型在涌现能力中的不断升级，在多模态知识处
[13] DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-train ‐
ing of deep bidirectional transformers for language under ‐
理和决策制定方面都将有突破性的表现。但是大模
standing[EB/OL]. arXiv: 1810.04805, 2018.
型依然存在性能不稳定等各种问题，在行业领域内
[14] SUN Y, WANG S H, LI Y K, et al. ERNIE: Enhanced rep ‐
的应用有待进一步深入研究。 resentation through knowledge integration[EB/OL]. arX ‐Vol. 5, No. 4 王婷等：基于人工智能大模型技术的果蔬农技知识智能问答系统 115
iv: 1904.09223, 2019. [24] FLORIDI L, CHIRIATTI M. GPT-3: Its nature, scope,
[15] RILOFF E, THELEN M. A rule-based question answering limits, and consequences[J]. Minds and machines, 2020,
system for reading comprehension tests[C]// Proceedings 30(4): 681-694.
of the 2000 ANLP/NAACL Workshop on Reading Com ‐ [25] DING N, QIN Y J, YANG G A, et al. Parameter-efficient
prehension Tests as Evaluation for Computer-Based Lan ‐ fine-tuning of large-scale pre-trained language models[J].
guage Understanding Sytems-Volume 6. New York,USA: Nature machine intelligence, 2023, 5(3): 220-235.
ACM, 2000: 13-19. [26] LIU X A, JI K X, FU Y C, et al. P-tuning: Prompt tuning
[16] YANI M, KRISNADHI A A. Challenges, techniques, and can be comparable to fine-tuning across scales and
trends of simple knowledge graph question answering: A tasks[C]// Proceedings of the 60th Annual Meeting of the
survey[J]. Information, 2021, 12(7): ID 271. Association for Computational Linguistics (Volume 2:
[17] SHARMA Y, GUPTA S. Deep learning approaches for Short Papers). Stroudsburg, PA, USA: Association for
question answering system[J]. Procedia computer science, Computational Linguistics, 2022: 61-68.
2018, 132: 785-794. [27] BANG Y J, CAHYAWIJAYA S, LEE N, et al. A multitask,
[18] LIU Y H, OTT M, GOYAL N, et al. RoBERTa: A robustly multilingual, multimodal evaluation of ChatGPT on rea ‐
optimized BERT pretraining approach[EB/OL]. arXiv: soning, hallucination, and interactivity[EB/OL]. arXiv:
1907.11692, 2019. 2302.04023, 2023.
[19] CHIPMAN H A, GEORGE E I, MCCULLOCH R E. [28] LEE K, IPPOLITO D, NYSTROM A, et al. Deduplicating
BART: Bayesian additive regression trees[J]. The annals training data makes language models better[EB/OL]. arX ‐
of applied statistics, 2010, 4(1): 266-298. iv: 2107.06499, 2021.
[20] PEREIRA J, FIDALGO R, LOTUFO R, et al. Visconde: [29] PENG B L, GALLEY M, HE P C, et al. Check your facts
Multi-document QA with GPT-3 and Neural Rerank ‐ and try again: Improving large language models with ex ‐
ing[C]// European Conference on Information Retrieval. ternal knowledge and automated feedback[EB/OL]. arX ‐
Cham: Springer Nature Switzerland, 2023: 534-543. iv: 2302.12813, 2023.
[21] DAUDERT T. A web-based collaborative annotation and [30] CHANG Y P, WANG X, WANG J D, et al. A survey on
consolidation tool[J]. International conference on lan ‐ evaluation of large language models[EB/OL]. arXiv:
guage resources and evaluation, 2020: 7053-7059. 2307.03109, 2023.
[22] YANG A Y, XIAO B, WANG B N, et al. Baichuan 2: [31] CORLEY C, MIHALCEA R. Measuring the semantic sim ‐
Open large-scale language models[EB/OL]. arXiv: ilarity of texts[C]// Proceedings of the ACL Workshop on
2309.10305, 2023. Empirical Modeling of Semantic Equivalence and Entail ‐
[23] TOUVRON H, LAVRIL T, IZACARD G, et al. LLaMA: ment-EMSEE ''05. Morristown, New Jersey, USA: Associ ‐
Open and efficient foundation language models[EB/OL]. ation for Computational Linguistics, 2005: 13-18.
arXiv: 2302.13971, 2023.
Agricultural Technology Knowledge Intelligent Question-
Answering System Based on Large Language Model
1,2 3 1,2 1,2
WANG Ting , WANG Na , CUI Yunpeng , LIU Juan
（1. Agricultural Information Institute, Chinese Academy of Agricultural Sciences, Beijing 100081, China; 2. Key Laborato ‐
ry of Big Agri-data, Ministry of agriculture and rural areas, Beijing 100081, China; 3. Unit 96962, Beijing 102206, China ）
Abstract:
[Objective] 　 The rural revitalization strategy presents novel requisites for the extension of agricultural technology. However, the con ‐
ventional method encounters the issue of a contradiction between supply and demand. Therefore, there is a need for further innovation
in the supply form of agricultural knowledge. Recent advancements in artificial intelligence technologies, such as deep learning and
large-scale neural networks, particularly the advent of large language models (LLMs), render anthropomorphic and intelligent agricul ‐
tural technology extension feasible. With the agricultural technology knowledge service of fruit and vegetable as the demand orienta ‐
tion, the intelligent agricultural technology question answering system was built in this research based on LLM, providing agricultural
technology extension services, including guidance on new agricultural knowledge and question-and-answer sessions. This facilitates
farmers in accessing high-quality agricultural knowledge at their convenience.
[Methods] 　 Through an analysis of the demands of strawberry farmers, the agricultural technology knowledge related to strawberry
cultivation was categorized into six themes: basic production knowledge, variety screening, interplanting knowledge, pest diagnosis 116 智慧农业（中英文） Smart Agriculture Vol. 5, No. 4
and control, disease diagnosis and control, and drug damage diagnosis and control. Considering the current situation of agricultural
technology, two primary tasks were formulated: named entity recognition and question answering related to agricultural knowledge. A
training corpus comprising entity type annotations and question-answer pairs was constructed using a combination of automatic ma ‐
chine annotation and manual annotation, ensuring a small yet high-quality sample. After comparing four existing Large Language
Models (Baichuan2-13B-Chat, ChatGLM2-6B, Llama 2-13B-Chat, and ChatGPT), the model exhibiting the best performance was
chosen as the base LLM to develop the intelligent question-answering system for agricultural technology knowledge. Utilizing a high-
quality corpus, pre-training of a Large Language Model and the fine-tuning method, a deep neural network with semantic analysis,
context association, and content generation capabilities was trained. This model served as a Large Language Model for named entity
recognition and question answering of agricultural knowledge, adaptable to various downstream tasks. For the task of named entity
recognition, the fine-tuning method of Lora was employed, fine-tuning only essential parameters to expedite model training and en ‐
hance performance. Regarding the question-answering task, the Prompt-tuning method was used to fine-tune the Large Language
Model, where adjustments were made based on the generated content of the model, achieving iterative optimization. Model perfor ‐
mance optimization was conducted from two perspectives: data and model design. In terms of data, redundant or unclear data was
manually removed from the labeled corpus. In terms of the model, a strategy based on retrieval enhancement generation technology
was employed to deepen the understanding of agricultural knowledge in the Large Language Model and maintain real-time synchroni ‐
zation of knowledge, alleviating the problem of LLM hallucination. Drawing upon the constructed Large Language Model, an intelli ‐
gent question-answering system was developed for agricultural technology knowledge. This system demonstrates the capability to gen ‐
erate high-precision and unambiguous answers, while also supporting the functionalities of multi-round question answering and re ‐
trieval of information sources.
[Results and Discussions] 　 Accuracy rate and recall rate served as indicators to evaluate the named entity recognition task perfor ‐
mance of the Large Language Models. The results indicated that the performance of Large Language Models was closely related to
factors such as model structure, the scale of the labeled corpus, and the number of entity types. After fine-tuning, the ChatGLM Large
Language Model demonstrated the highest accuracy and recall rate. With the same number of entity types, a higher number of annotat ‐
ed corpora resulted in a higher accuracy rate. Fine-tuning had different effects on different models, and overall, it improved the aver ‐
age accuracy of all models under different knowledge topics, with ChatGLM, Llama, and Baichuan values all surpassing 85%. The av ‐
erage recall rate saw limited increase, and in some cases, it was even lower than the values before fine-tuning. Assessing the question-
answering task of Large Language Models using hallucination rate and semantic similarity as indicators, data optimization and retriev ‐
al enhancement generation techniques effectively reduced the hallucination rate by 10% to 40% and improved semantic similarity by
more than 15%. These optimizations significantly enhanced the generated content of the models in terms of correctness, logic, and
comprehensiveness.
[Conclusion] 　 The pre-trained Large Language Model of ChatGLM exhibited superior performance in named entity recognition and
question answering tasks in the agricultural field. Fine-tuning pre-trained Large Language Models for downstream tasks and optimiz ‐
ing based on retrieval enhancement generation technology mitigated the problem of language hallucination, markedly improving mod ‐
el performance. Large Language Model technology has the potential to innovate agricultural technology knowledge service modes and
optimize agricultural knowledge extension. This can effectively reduce the time cost for farmers to obtain high-quality and effective
knowledge, guiding more farmers towards agricultural technology innovation and transformation. However, due to challenges such as
unstable performance, further research is needed to explore optimization methods for Large Language Models and their application in
specific scenarios.
Key words: LLM; generative pre-trained transformer; agricultural technology knowledge; intelligent question answering; name entity
identity
Foundation items: Beijing Digital Agriculture Innovation Consortium Project (BAIC10-2023); Fundamental Research Funds of Chi ‐
nese Academy of Agricultural Sciences (JBYW-AII-2023-31); National Key Research and Development Program of China
(2022YFF0711902)
Biography: WANG Ting, E-mail: wangting01@caas.cn
Corresponding author: CUI Yunpeng, E-mail: cuiyunpeng@caas.cn
（登陆 www.smartag.net.cn 免费获取电子版全文）

献花(0)

(本文系智慧农业资...原创)

类似文章 更多

发表评论：