近年来,第四范式在以平台为中心的决策型 AI 市场排名第一。不同于计算机视觉赛道上众所周知的「AI 四小龙」,学者每年发表的科技论文有数百万篇,第四范式聚焦决策型 AI 领域,如何在浩瀚的论文海洋中脱颖而出,提供以平台为中心的人工智能解决方案,吸引读者的注意力,可帮助企业实现人工智能快速规模化的转型落地,提高论文传播力和显示度,发掘数据隐含规律并以超越人类能力所及的方式促进决策过程,关键词起着十分重要的作用。关键词是能够明确表达学术论文的主体研究内容或中心思想的词或词组,全面提升企业的决策能力。招股书显示,其最初是为了满足计算机系统编制各种文献索引的需要而产生。
作为文献检索的重要依据,近年来第四范式的营收逐年增长,关键词应具有专指性、全面性、规范性等特点。但实际情况是,2018-2020 年收入分别为 1.28 亿元、4.60 亿元、9.42 亿元;在 2021 年上半年,科技论文中存在量的含义宽泛、无实质内容的无效关键词,该公司收入为 7.88 亿元,如“应用”“分析”“问题”“研究”等等,已接近 2020 年全年水平。2019 年及 2020 年的全年营收同比增幅分别为 259.7%、105.0%。但和国内很多 AI 创业公司类似,降低了科技论文的检索效率和传播效果。
此前,已有学者对无效关键词展开研究,但其主要针对高校社科学报论文以及农业科技类论文,针对更广泛领域内的科技论文中常见无效关键词的计量学研究较少。
为此,本文以知网为文献来源数据库,结合文献[3-5]及编校实践经验,选取10个科技论文中出现频率较高、指向性不强、含义空泛的关键词,分别检索其在2015—2019年发表的科技论文中的出现频率,分析其年度分布规律及关键词共现网络。
随后分别限定“学学报”和“学院学报”以及“博士论文”和“硕士论文”(即博士和硕士的学位论文)为文献来源,对比分析常见无效关键词在不同类型期刊以及不同学历作者所著科技论文中的词频分布。
最后分析常见无效关键词产生的原因及应对措施,以期提高科技论文作者和审读编校人员对关键词标引质量的认识。
1.检索范围和方法
检索范围:文献来源限定为知网“基础科学”“工程科技Ⅰ辑”“工程科技Ⅱ辑”“农业科技”“医药卫生科技”“信息科技”6类目录下的期刊、会议、学位论文等(即本文所指科技论文),“学学报”和“学院学报”,“博士论文”和“硕士论文”;文献语种限定为中文;关键词限定为“应用”“对策”“问题”“管理”“设计”“措施”“影响”“现状”“研究”“发展”;发表时间限定为2015-01-01—2019-1-31。
检索方法:以“关键词+发表时间”“关键词+发表时间+文献来源”为组合检索条件,在知网6类科技文献目录下进行检索,获得各关键词在不同检索条件下的词频分布。
为确保检索结果的有效性,每检索一次均随机选取若干篇论文,并核对这些论文中是否包含目标关键词。最后,将所得结果输入Excel软件进行统计分析(检索时间为2020-03-07—03-09)。
2.无效关键词的定义和分类
2.1无效关键词的定义
无效关键词是指词义宽泛、不能准确传达论文主题内容、不利于检索的词或词组,或是未经公认的缩写词等。它们与论文主题相关性不,不能反映单篇科技论文的特点,不具检索价值。
2.2无效关键词的分类
无效关键词的分类目前尚无统一标准。本文根据文献[3.6]将无效关键词分为以下3类:1)表示国别或地域的泛而不专的名词,如“”“美国”“德国”等;2)“不能表示所属学科专用概念的不足以反映实质内容的词”,如“方法”“问题”“试验”“研究”“分析”等;3)加了限定词的复杂短语或是未经公认的缩略词等,如“新型甘蓝型油菜品种”“AP”等,它们虽然能反映文章主题,但不利于计算机检索、识别。
3.10个无效关键词计量学分析
3.1不同年份科技论文中10个无效关键词频率分布
结合已有研究及编校实践经验,本文针对第2类无效关键词展开研究。分别选取“应用”“对策”“问题”“管理”“设计”“措施”“影响”“现状”“研究”“发展”这10个科技论文中出现频率较高的无效关键词,限定文献来源为科技论文,在知网进行检索。
10个无效关键词在2015—2019年发表的科技论文中的频率(以检索记录表示)及其累计词频(10个无效关键词检索记录条数之和与当年发表的科技论文总篇数的比值)分布如表1所示。由表1可见,整体看,不同年度无效关键词频率分布相对稳定,按检索记录数排序,从高到低依次为“应用”“对策”“问题”“管理”“设计”“措施”“影响”“现状”“研究”“发展”,呈现出明显规律性。
2017年,科技论文发表总量为2 017 727篇,这10个无效关键词检索记录之和达82 732条(未排除有2个或多个无效关键词同时出现在同一篇科技论文中的情况),每100篇文章里就有约4篇文章的关键词里包含这10个无效关键词之一,可见无效关键词的使用相当普遍。
2015—2019年,“应用”这一关键词出现频率,且其检索记录在2017和2018年分别达20 267和20 203条,明显高于其他9个无效关键词的出现频率,说明科技论文作者选择“应用”作为关键词的比例较高。
纵向来看,2015—2019年这10个无效关键词检索条数随年度的变化并无明显规律性,累计词频范围为3.7%~4.1%,其中2015和2019年的无效关键词累计词频均为3.7%左右(表1),说明科技论文作者并未有意地减少无效关键词的使用,无效关键词将会伴随着科技论文作者的写作惯而长期稳定地存在。
▼ 表1 2015—2019年科技论文中10个无效关键词频率及累计词频分布
3.2 10个无效关键词共词分析
共词分析法是指通过分析共同出现在同一篇文献中的关键词或主题词,从而鉴别某一学科知识结构和研究热点的方法。目前,基于关键词的共词分析法已被广泛应用于文献计量、信息系统、人工智能等领域。
本文以10个无效关键词为研究对象,分析其在2015—2019年共现关键词(即2个关键词同时出现在同一篇文献中的现象)分布情况,结果如图1所示。
图1中,2015—2019年10个无效关键词“应用”“对策”“问题”“管理”“设计”“措施”“影响”“现状”“研究”“发展”的检索记录总数分别为94 100、50 287、41 644、37 074、34 989、30 565、26 275、23 905、22 225和18 448条。数据来源于知网,本文仅展示频率排序第1~15的共现关键词。
▼ 图1 2015—2019年10个无效关键词共词分析
从图1可以看出,2015—2019年同一篇科技论文中同时出现2个无效关键词的现象相当普遍。例如,以“问题”为检索关键词,与其共现频率的关键词为“对策”,共现频率达15 223(图1(c)),也就是说,在一篇以“问题”为关键词的科技论文中,有于1/3的概率会同时出现“对策”这一关键词。
分析其余9个无效关键词的共词分布情况也可发现,与这些关键词共现频率较高的往往为无效关键词。
例如,按照关键词共现频率排序,2015—2019年与关键词“应用”共现的无效关键词依次为“发展”“设计”“研究”,共现频率分别为2 188、1878和1 642(图1(a));与关键词“现状”“研究”“发展”共现频率较高的几乎均为“对策”“问题”“应用”等无效关键词(图1(h)~(j)),可见无效关键词共现网络不仅不能反映学科知识结构和研究热点,而且造成了信息资源的浪费。
值得一提的是,在本文选取的10个无效关键词排名前15的共现关键词中,有7个共现关键词中出现了“建筑”或“建筑工程”,这可能与该领域的科技论文发文总量较有关:以“建筑”为主题词进行检索,2015—2019年累计发文306 196篇,约占科技论文总发文量9 890 018篇的3%。
3.3不同期刊科技论文中10个无效关键词频率分布
以本文筛选出的10个无效关键词为检索条件,同时限定文献来源为“学院学报”和“学学报”,检索得到2015—2019年不同类型期刊发表的科技论文中的10个无效关键词频率分布及其累计词频分布如表2所示。
由表2可见,2015—2019年,发表于“学学报”的科技论文明显比“学院学报”的科技论文多,但“学院学报”科技论文中无效关键词的出现频率明显比“学学报”科技论文的高。
例如,2015年,“学学报”共检索到67 598篇文献,其中以“应用”为关键词的文献为100条;“学院学报”共检索到42 620篇文献,其中以“应用”为关键词的文献为305条,二者差异显著。
由表2还可看出,2015—2019年,“学学报”科技论文中的无效关键词累计词频分别为0.73%、0.72%、0.69%、0.58%和0.54%,“学院学报”科技论文中的常见无效关键词累计词频分别为3.36%、3.34%、2.89%、2.65%和2.56%,二者均随着年度的变化而逐渐降低,呈现出明显的规律性。
同时,“学学报”科技论文无效关键词累计词频明显比同期“学院学报”科技论文的低,说明前者关键词标引质量比后者的高。
▼ 表2 2015—2019年不同类型期刊科技论文中的10个无效关键词频率及累计词频分布
3.4不同学历作者所著科技论文中10个无效关键词累计词频分布
以本文筛选出的10个无效关键词为检索条件,同时限定文献来源为“硕士论文”和“博士论文”,检索2015—2019年不同学历作者所著科技论文中无效关键词频率分布及其累计词频(即10个无效关键词检索条数之和与“博士论文”和“硕士论文”总篇数的比值)分布,如表3所示。
▼ 表 3 2015—2019 年不同学历作者所著科技论文中的 10 个无效关键词频率及累计词频分布
由表3可见,2015—2019年“硕士论文”总篇数显著高于“博士论文”总篇数,前者为后者的8.1~10.5倍;同时,“硕士论文”中10个无效关键词出现频率明显比“博士论文”的高,如2019年“硕士论文”中以“设计”为关键词的检索记录为203条,而“博士论文”中的检索记录仅为1条。
由表3还可见,2015—2019年“硕士论文”中的无效关键词累计词频明显降低,分别为10.43‰、8.84‰、8.32‰、6.93‰和5.32‰,与2015年相比,2019年“硕士论文”无效关键词累计词频降幅达48.9%。
2015—2019年“博士论文”中的无效关键词累计词频整体上也呈下降趋势,分别为2.39‰、1.70‰、1.71‰、1.57‰和1.40‰,5年间“博士论文”无效关键词累计词频降幅达41.4%。
同时,“博士论文”中无效关键词累计词频明显比同期“硕士论文”中的低,说明无效关键词的出现频率与论文作者学历有一定关系。
4.10个无效关键词出现原因及应对措施
4.1 10个无效关键词出现的原因分析
综合分析结果可知,虽然在2015—2019年博士和硕士作者群体已逐渐减少无效关键词的使用,但是在2015和2019年发表的科技论文中,这10个无效关键词累计词频并无明显变化(约为3.7%),说明无效关键词存在此消彼长的现象。本研究认为无效关键词出现的主要原因包括以下几个。
一是多数科技论文作者未接受有效的指导,不知道如何撰写合适的关键词。有研究表明,多数高校学生承认自己未接受过系统的科研写作训练。屈李纯等针对328名硕士研究生展开调研,发现仅有17.39%的研究生熟悉关键词的选取。
其实早在1987年,我国GB/T 7713—1987《科学技术报告、学位论文和学术论文的编写格式》明确规定:每篇论文应选取3~8个词作为关键词,如有可能,尽量用《汉语主题词表》等词表中提供的规范词语。2019年,新闻出版署发布了针对关键词的行业标准CY/T 173—2019《学术出版规范关键词编写规则》,其中阐述了关键词的定义和基本要求。
遗憾的是,高等院校中有关科技论文写作的课程和培训仍然较少,很多作者甚至从未听说过《汉语主题词表》,其他企事业单位中的作者接触到最新的标准、规范、写作培训和指导的机会更少,这也就导致了低质量科技论文和无效关键词的稳定存在。
例如,在未包括“质量”“分析”“技术”“原因”等无效关键词的情况下,2015—2019年,仅本文选取的10个无效关键词检索记录总数达381 295条;进一步分析这些无效关键词的累计词频可发现,其整体呈先增加后降低的趋势,但变化幅度不,可见科技论文作者使用无效关键词的现象依然普遍。
二是分作者未从思想上重视关键词对于论文检索的重要作用。有些中文科技论文作者只在乎论文是否能发表,是否能助其拿到学位或晋升职称,而对论文的关键词标引质量以及论文发表后的学术影响并不关心,这就导致科技论文中存在量无检索价值的关键词。
进一步分析图1还可以发现,作者在选取关键词时,往往只是根据刊物要求,简单地将论文题目拆分为3~8个关键词,而未仔细鉴别这些关键词是否能够准确地反映该篇论文的特点,导致同一篇论文中无效关键词共现的情况也相当普遍。
例如,2015—2019年篇名中同时含“应用”和“研究”的科技论文检索记录达199 841条,篇名中同时含“影响”和“研究”的科技论文检索记录达128 358条,这也反映了分作者从论文标题中选取关键词的随意性。
三是论文审读编校群体(包括论文指导教师和同行评议人员)把关不严。目前,仍然有相当一分的编校人员秉持着“改错不改好”的理念,在审读科技论文时仅仅关注变量符号和单位使用不规范、图表和公式编排不合理等,而针对论文关键词等能体现文章亮点的内容就抱着无所谓的态度,虽然也是“为他人做嫁衣裳”,但难免有不够走心之嫌。
例如,2015—2019年来源于“学院学报”的科技论文总数为180 674篇,其中10个无效关键词的累计词频为14.80%;而来源于“学学报”的科技论文总数为322 564篇,其中10个无效关键词的累计词频为3.26%(表2),前者累计词频约为后者的4.5倍,可见“学院学报”的编校群体对关键词的标引质量控制严格程度比“学学报”编校群体的低。
同时,高等院校教师忙于申请项目、开公司,疏于指导学生进行学术研究及写作的现象依然存在,论文作者因学术不端而被撤稿或是撤销学位的报道也屡见不鲜,可见高等院校中分导师和同行评议人员对学生学术论文的主体内容审读尚不够仔细,遑论论文中的关键词了。
例如,2015—2019年“博士论文”总数为116 093篇,其中10个无效关键词的累计词频为8.78‰;而“硕士论文”总数为1 016 061篇,其中10个无效关键词的累计词频为39.84‰,后者约为前者的4.5倍(表3),可见“硕士论文”的审读群体对关键词的标引质量控制严格程度比“博士论文”审读群体的低。
4.2无效关键词的应对措施
我们认为降低科技论文中的无效关键词出现频率的措施主要包括以下几个方面。
一是进一步加强对科技论文作者的指导与培训。这就要求高等院校、各科技期刊编辑以及其他企事业单位形成合力,建立合理的培训机制,定期开设写作课程或开展写作培训,对作者进行系统而全面的科技论文写作训练,使其加深对论文结构、论文要素、论文写作标准及规范的认识,提高综合写作能力,减少论文无效关键词的选取。
例如,吉林学《兽医学报》编辑针对科技论文写作者开展“移动课堂”网络教学,取得了较好的效果。
二是科技论文作者应从思想上重视关键词对于文献检索的重要作用,同时在操作上严格执行关键词的编写规则。作者应充分认识到关键词是科技论文检索的信息点,是表达论文主要学术观点的关键性因素,在论文写作中应避免使用无效关键词。CY/T 173—2019规定:关键词编写一般包括论文审读、主题分析、选词和编排;关键词应准确并充分揭示论文主题内容,重要的可检索内容不应遗漏。
科技论文作者根据编写规则选取适宜的关键词后,还应以读者的身份进行反推:要检索这一研究领域的科技论文,是否会选择这样的关键词?合理、科学地标引关键词有助于提升文献利用率。
三是论文审读编校群体需对无效关键词进行严格把关。关键词能够反映期刊研究热点和发展方向,关系着期刊的学术质量。论文审读编校群体应重视关键词的标引工作,选取合适的关键词有利于学术文献的有效传播和充分利用,从而有助于提高论文和期刊的学术影响力。
例如,已成功入选“科技期刊卓越行动计划梯队期刊”的《中南学学报(自然科学版)》严把期刊学术质量关,2015—2019年共发表论文2 385篇,其中10个无效关键词的出现频率为0;而《湖南城市学院学报(自然科学版)》同期共发表论文933篇,其中10个无效关键词的检索记录为68条,累计词频达7.3%。可见,论文审读编校群体在关键词的标引质量控制过程中发挥着重要作用。
结束语
在科学技术日新月异的今天,通过关键词检索相关研究领域的最新文献早已成为科研工作者最常用的检索方式之一。
一方面,科技论文作者应主动学科研写作标准和规范,参加科研写作课程学或培训,根据论文主题选取恰当的、指向性强的关键词;另一方面,作者和审读编校人员都应从思想上重视关键词的标引,进一步加强对关键词标引质量的控制,避免使用无效关键词,以期实现科技论文快速而广泛的传播,提高科技论文的检索利用率和学术影响力。
文章来源:知网,载于《编辑学报》2020年第4期,原题《科技论文10个无效关键词计量学分析》。
关注丧丧君
与你共成长