题目:引用评价系统
数学建模课程论文
——科技期刊论文排序
目录
一、摘要 ........................................................................................................................................ 3 二、问题重述 ............................................................................................................................... 3 三、模型的假设与符号说明 . ................................................................................................... 4
1) 基本假设 ........................................................................................................................ 4 2) 符号和术语 . ................................................................................................................... 5 四、问题分析 ............................................................................................................................... 5 五、模型的建立与求解 ............................................................................................................. 6 六、模型分析与结论................................................................................................................ 12 附录1:参考文献 ..................................................................................................................... 13 附录2:部分程序代码 ............................................................................................................ 14 附录2:涉及图表 ..................................................................................................................... 17
一、摘要
根据题目要求,我们尝试建立一个以论文引用情况为基础的数学模型作为评价期刊的工具。此次建模分为三个模块:
1. 建立相应的数学模型并提出求解方法,给出图中给出的15种科技期刊的
排名;
2. 根据引用网络(Citation Networks )的规模和模型,将会讨论我们所建
立的模型是否是适合对该学科的所有期刊进行排序;
3. 为了在实际中应用此套模型,我们将在引用网络(Citation Networks)
分析建模的基础上再引入新的分析方法来完善我们的数学模型。 对于上述三个模块中的第一部分,我们首先仅仅是根据其干的引用情况来对15种期刊进行排序;我们根据期刊中论文的被引用次数,将15种期刊粗分为4组。然后我们将定义一个常数和一个随机数,这两个数均与与期刊质量水平和影响力指数相关(根据引用的关系),最后使用层次分析法(AHP ),决定不同部分所占的比重。
如果模型进一步泛化,推广到在这一领域的所有期刊,那么期刊的数量和引文网络结构将发生相应的变化。但是,评价指标的本质没有改变,因此调整后的模型能够适用于此领域的所有期刊。
此模型仅仅考虑了期刊中论文被引用次数对期刊的水平进行建模并评价。但是在实际的应用中,期刊的水平通常包裹许多其它方面的影响因素。在上述第三部分中,我们将修改在涵盖了一些相关因素之后对现有的模型做出修改以使模型推导出的结果更加符合实际情况。
二、 问题重述
期刊的论文被其他期刊的论文引用是期刊水平高低的重要标志,通常高水平刊物的文章会被其他刊物的文章引用。因此,学校科技部门规定:将某刊物论文被引用情况作为该刊物水平高低的标准。例如,刊物A 中的论文经常被刊物B 中的文章引用,则记为A -> B,此时,认为刊物A 优于刊物B 。但在实际操作时发现,刊物中的文章有互相引用的情况,A B;或者多家刊物中的文章循环相引用的情况。
图1为某一学科15种期刊中文章相互引用的情况。
图 1
1. 建立相应的数学模型并提出求解的方法,为这15中期刊排序;
2. 能否将你的方法推广到该学科的全部期刊;
3. 以上是以引用作为评价标准,就某一学科,通过搜集资料,提出你认为合理的评价标准,并说明为什么?
三、 模型的假设与符号说明
1) 基本假设
科技期刊作为科技界发表和讨论科研成果的重要手段之一,为科技的进步做出了巨大的贡献。网络期刊作为一种新兴的信息交互系统,在交流科学和科技信息方面扮演着越来越重要的角色,但是网络期刊良莠不齐、彼此引用复杂的情况又让人难以在众多的网络期刊中合理地做出选择并提取出有效信息。因此,我们此次建模主要针对期刊网络对期刊的质量做出评估(其中也包含其它的分析方法),从而使每种期刊的质量和贡献都能得到一个较为客观公正、数量化的评价。
我们假设:
1. 为了避免造成因为语言的使用和普及情况造成的评价模型偏差,期刊采
用不同官方语言来发表论文未在我们的考虑范围之内;
2. 每种刊物文章的数量和期刊每期发行的总量是相同的,这样我们就能够
避免因为不同数量的文章和不同印刷数量的期刊对于建立模型的影响; 3. 未考虑“自引用”和其它非常规的引用方法;
4. 对于一个科学领域中,我们很难确定一门学科及其子学科之间的边界,
因此我们假定在模型中出现的学科是非常不同于其它的学科,不可能在其它学科的期刊中出现此学科的论文引用,并且此学科没有可以单独划分的子学科;
5. 引用关系的前提为:我们认为a 期刊在一段时间内,被b 期刊引用文章
数占总文章数的比超过5%时,我们认定a 期刊经常被b 期刊引用。 6. 假设我们所得到的引用数据均是在近两年内,并且忽略其它时间因为对
建模的影响。
7. 允许一种期刊不必全部引用所有其它的期刊,也就是说一种期刊可以自
由选择它所引其它期刊的种类和数量;
8. 每个期刊都趋向于引用比自身更加高级的期刊中; 9. 对于间接引用(如A->B->C),在计算过程中我们将不追溯到其“根”出
处,即一种期刊的所有引用都包含在其自身的计算当中而不回溯。
2) 符号和术语
符号:
: 影响指数,根据期刊中论文被引用的次数和期刊的声誉来描述期刊的影响力。
: 期刊i 的初始值,由该期刊的学术质量决定;对于同一等级的期刊具有相同的X 。
:当期刊i 被更高等级的期刊引用时的加分项。
:当期刊i 被更低等级的期刊引用时的加分项。
术语:
期刊1至期刊10等价于图标中的1-10。
四、 问题分析
我们所得到题目中的图表缺乏很多相关的数据,此外图表的结构也是对称的。为了解决
这一情况,我们运用随机数来代替计算所需要的数据。随机数会在一定程度上影响计算的结果,所以我们采用多次取随机数计算并群品均值得方法来减少随机数所带来的误差。数据越多,选取的样本越大,结果就会更精确并且更能反映实际情况。
五、 模型的建立与求解
1. 为15种期刊排序
A. 粗略分组
根据题目中的相关描述,我们认为期刊中刊物被引用的次数越多,就能初步推导出其期刊的学术水平较高。为了将所给途中的15中期刊进行排名,我们根据被引用次数将其粗略分为4组,下图显示了详细的分组资料:
B. 定义期刊的影响指数
在粗略分为4个组之后,我们将每种期刊的影响力(水平)分为三部分,这样我们就能用方程来更精确地描述每种杂志的学术水平。
W 受以下因素影响:期刊i 的初始等级(组别)i,
; 当期刊i
被更高等级的
; 能用
期刊引用时的加权值; 当期刊i 被更低等级的期刊引用时的加权值下列方程来表示W: 其中
的定义公式为:
表示期刊i 的“基本学术水平值”,其定义规则如下:
在公式中:
;
表示期刊i 中被期刊j 所引用的论文数占期刊i 总论文总数的比率。在处
理比率问题上,我们认为在两种期刊的学术等级差距最小的情况下,其比率最大,反之亦然。因为数据上的缺乏以及所给图形的对称性(特殊),我们引入一个随
机因子Rand ,定义公式中的
有Mathlab 产生的0~1之间的随机数。
的定义公式为:
. 在此公式中,Rand 是一个
在此公式中:
;
表示期刊i 中被期刊j 所引用的论文数占期刊i 总论文总数的比率。在处
理比率问题上,我们认为在两种期刊的学术等级差距最小的情况下,其比率最大,反之亦然。因为数据上的缺乏以及所给图形的对称性(特殊),我们引入一个随
机因子Rand ,定义公式中的
有Mathlab 产生的0~1之间的随机数。
,
和
表示指数的加权值。
. 在此公式中,Rand 是一个
C. 使用层次分析法(AHP )确定指数的加权值
对于排名问题,我们之前并没有对其进行定量的描述。学术水平和引用加权是认为给定的,这就导致了影响指数难以用量化的指标来描述。为了解决这样半定性半定量的问题,我们引入了层次分析法(AHP)来决定标准衡量X ,Y ,Z 所占权值,用以确定
,
and
.
a) 运用AHP 成对比较矩阵的权重向量
这种模式只涉及准则层和目标层,所以我们在使用之前需要做出一些改变。要将X ,Y ,Z 的影响表现在W 上,我们首先假设一个成对比较矩阵如下:
在这个矩阵中,
表示X 和Y 对于W 的重要比率(?),
表示X 和Z 对
于W 的重要比率(?)。我们从层次分析法(AHP )的创始人Saaty 处从得到成
在这个模型中,我们认为,X 和Y 对W 的的影响其重要性比例是5,Y 和Z 对W 的比例为4。
这里有一个向量,and ,这个向量被定义为
一个权重向量。实际上,是归一化特征向量对应的矩阵A 的最大特征值。
b) 一致性检查
设置一个矩阵, ,如果元素与一致,则A
是一致的矩阵。通常情况下,成对比较矩阵不是一致矩阵,但它应该被用来计算比较因素的权重向量。因此,其不一致的,应按规定允许的范围内。矩阵A 的一致指数为:
是矩阵A 的最大特征值,当CI= 0,矩阵A 是一致矩阵。较小的CI 是,
将一致矩阵的A 。为了保证矩阵A 的不一致的允许范围,CI 的标准是必需的。因此,引入随机的一致指数RI 的概念,它是:
当
定义是:随机构造一个正互反矩阵,
, 是1,2,3,... ,9和1,1 /2,1 /3,... ,
. 的平均^*.根
1 / 9之中的)
,以足够大的样本,以获得最大的特征值,据Saaty 的实验中,随机一致指数的一种形式,是获得如下:
在这个模型中,n = 3。 定义CR 如下:
CR 是一致随机矩阵的比例,A 当CR
作为权重向量作一个
比较。当CR ≥0.1,成对比较矩阵需要调整,直到达到一致性。基于以上的证明,我们CR=4.7
这十五种期刊的影响指数的表格如下(具体数据见附录):
重十次复此过程,获得十组数据。我们十套数据求平局值。 15期刊影响力指数排名结果显示在下面的表格(具体数据建附录):
因此,我们对15个期刊排名结果如下:14,12,3,2,9,5,4,7,8,1,13,6,15,11,10(期刊号)。
2. 推广模型
建立上述模型是基于之间刊物频繁引用关系,这意味着,该模型建立在引用网络期刊的结构之上。如果模型推广到这一领域的所有期刊,期刊的数量和引文
网络结构将发生变化。然而,评价指标的本质没有改变,因此该模型可以在调整后得到推广。
首先,以减少不同的循环所带来的负面影响,P 是修改为:
同时,期刊的数量在增加; 两篇论文是否有引用的关系的条件应修改为:当P> 0.01,两本期刊经常被互相引用,当P
其次,注意到引文的时间和频率将被期刊的数量增加影响,初始分组的标准是以被引用10次为一档次。例如,每次被引10次,该刊将达到较高的水平。该模型修改为:
3. 新的评价体系
以上只构建模型只考虑了引用方面。由于事实上,期刊的水平的评价标准通常包括:
(1)它是否出版:全国统一的版本编号(CN )和在国际标准连续出版物编号(ISSNInternational Standard Serial code),在这些地方发表过是合适进入评价范围的;
(2)期刊主办单位;
(3)专家的审查:杂志是由专家评估对期刊质量的影响更大; (4)编委会成员,并在杂志上发表他们的文件;
(5)发表次数;
(6)有拨款的论文:有拨款的论文一般是指由国家和省,市和国家重大工程项目支持的研究论文;
(7)引用杂志的循环利用;
(8)引用是一个更客观的评价学术期刊的方式; (9)杂志是否正在由世界权威的检索工具的呈现。
杂志的定量评价,这是不仅仅限于一个单一的评价指标,如传统的评价指标,引用半衰期,即时指数等,后来发展成一个综合指标,包含大量的信息,通常,他们是RCR [1], RI, RW, PI, PW [2], NMCR, FCSm, H index, ACIF等。 (“学
术期刊的评估和评价研究之间的关系”)
由于单一指标的限制,多属性评价是广泛应用于学术期刊的评价方式。多属性评价在一定技术的基础上,将综合反映学术期刊的各方面指标。
因此,唯一的结果包含的信息量更大。
在这一领域的研究方法主要是结构方程建模,数据包络分析,加权综合指数系统,灰色评价,排名和具体的评价,判别分析,层次分析,主成分分析和综合评价方法。
范围的课题研究活动起到一定的效果的行为。学术影响力影响学术质量和论文质量,这是在科学活动中的作用和价值,以及在社会效益和经济效益的综合反映。因此,要选择在期刊评价指标,我们要坚持这个标准。学术影响力的组成部分,主要包括学术含量指标,作者指标和引文索引。在评价方法,应选择多个方面。
杂志更全面的评估,在我们所说的影响因素使用数量指标的基础上,考虑资金支持论文的百分比(J ),的平均引用次数(V),平均作者数(N ),引用半衰期(β)。基于这些因素的影响期刊的水平,然后我们提供的最终评价。
根据《sources of indicators of academic journals and influence Empirical Study 》的研究(在我们的引用内容里),我们调整的影响指数W 到:
并且:
有了这个模型,我们把各方面的因素一起,并给予一个更全面的评估,该杂志的学术水平。
六、 模型分析与结论
这个模型,我们把各方面的因素一起,并给予一个更全面的评估,该杂志的学术水平。
我们构建了一个模型来处理的第一个问题,为避免题目中期刊网络图的对称性,我们使用MATLAB 产生基本的各期刊影响力初值(随机数)。实际上生活中,
人们对各期刊的学术质量有一个大致的评价,我们通过数学的手段,以随机数的形式给各期刊赋予学术价值是合理的。
在第一个问题,除了在十五个期刊引文网络的关系,我们有没有其他的定量数据,如总引用次数。随机数和Xi ,两个经常被引期刊第十一也用在其他两个因素,Yi ,Zi ,影响力指数,被引期刊的引用期刊的贡献可以使用Yi 和Zi 。
因为随机Xi 和Zi 的初始数据的组成部分,对同样的问题反复使用该模型将略微改变。一个完美的模型可以接受的重复性。同时,Yi 依赖基本的学术数值,Xi 和随机数,Xi 是期刊的唯一影响因素,很小,所以缺乏完整性。
此外,15个期刊分为四个水平,使用的唯一标准:被引用次数。当然,在很大程度上期刊被引用的频率反映了该杂志的水平,但如果我们忽视影响因子(IF ),H-Index ,非自引率,总引用次数,被引用次数,平均作者数,扩展因素和引用半衰期等。结论是:划分等级的标准,应该更有说服力。
附录1:参考文献
[1] L. Egghe and R. Rousseau, Introduction to Informetrics: Quantitative Methods in Library, Documentation and Information Science Elsevier, Amsterdam, 1990.
[2] FilippoRadicchi, Santo Fortunato, Benjamin Markines, and Alessandro Vespignani, “Diffusion of scientific credits and the ranking of scientists”: PHYSICAL REVIEW E 80, 056103,2009
[3] Chen Yanli, “Journal Ranking Schemes and Its Relationship with Other IndexesofBibliometrics”: Journal of Henan University ( Natural Science) Vo l. 40 No . 4 Jul. 2010
[4] Yu Liping, Pan Yuntao, Wu Yishan, “Analysis about Indicators Selection in Science and Technology Evaluation”: JOURNAL OF INT ELL IGENCE Vol. 28 No. 3Mar. 2009
[5] Liang Yan, Core elements of classification of academic journals:
JOURNAL OF CHANGZHOU UNIVERSITY ( SOCIAL SCIENCE EDITION) Vo l. 12 No. 3 Jul. 2011
[6] Yu Liping, Pan Yuntao, Wu Yishan, Comparability of multi-attribute evaluation methods for academic journals: ACTA EDITOLOGICA 2010-10 22( 5)
[7] “Citation Analysis as a Toolin Journal Evaluation” Essays of an Information Scientist, Vol1, p.527-544, 1962-73 Reprinted from :Science, (178):471-479, 1972
附录2:部分程序代码
1. Code segment[1] 产生15个随机数,用来产生15期刊的初始值 function [ rand_15 ] = rand_rand_15( )
%RAND_RAND_15 Summary of this function goes here % Detailed explanation goes here
rand_15=rand(1,15); end
2. Code segment[2]产生15 个初始值
function [ x_15,level ] = init( all_info,rand_15 ) %UNTITLED3 Summary of this function goes here % Detailed explanation goes here
% ·´»ØÒ»¸ö15´óСµÄÊý×飬 ÄÚÈÝÊÇÿ¸öµêÉä³öµÄÊý x_15 = zeros(1,15); level = zeros(1,15); count=0; for i = 1:15 count=0;
for j = 1:15
if (all_info(i,j)) count =count +1; end end
level(i) =count; end
%output(1:n)=1000*level(1:n)+ran(1:n)*500-250; for k = 1: 15
x_15(k) = 1000*level(k)+rand_15(k)*1000-500; end end
3. Code segment[3] 产生0-1之间的15*15个随机数,用以产生各期刊之间的引用比
function [ rand_all ] = rand_rand_all( )
%UNTITLED2 Summary of this function goes here % Detailed explanation goes here rand_all=rand(15,15); end
4. Code segment[4]同过已经产生的随机数最终确定各个期刊之间的引用比 function [ weight ] = getweight( all_info,rand_all,x_15 )
%如果有n 个开n 次方(1/n);!!!!!!!!!!!!!!!!!!!!!!!!! %UNTITLED Summary of this function goes here % Detailed explanation goes here weight=zeros(15,15); fori=1:15 for j=1:15
if (all_info(i,j))
%weight(i,j)=rand_all(i,j)/to(j);%!!!!!!!!!!!
%t=(x_15(i)/1000-x_15(j)/1000)^2; %temp1=exp(-t/(2*2.718));
%tt=abs(x_15(i)/1000-x_15(j)/1000); %temp2=1/(exp(-tt^0.5)+1);
%weight(i,j)=rand_all(i,j)*temp1*temp2;
%tt=abs(x_15(i)-x_15(j))/1000 %temp2=log(5-tt)+1;
%weight(i,j)=1.5*rand_all(i,j)*temp1/temp2;
temp = exp(abs(x_15(i)-x_15(j)-1000)/2000);
weight(i,j)=0.5*rand_all(i,j)/temp; if (weight(i,j)
5. Code segment[4] 计算出结果
function [ result_15,y,z ] = yyl( x_15,weight,factor) %YYL Summary of this function goes here % Detailed explanation goes here y=zeros(1,15); z=zeros(1,15);
add_greater=zeros(1,15); add_less=zeros(1,15);
result_15 =zeros(1,15); for i =1:15 for j =1:15
if (weight(i,j)>0)
add1=weight(i,j)*x_15(j); add2=weight(i,j)*x_15(i); add_greater(i)=add_greater(i)+add1; add_less(j)=add_less(j)+add2; end
end end
for k = 1:15
y(k)=add_greater(k); z(k)=add_less(k);
result_15(k)=factor(1)*x_15(k) +
factor(2)*add_greater(k) +factor(3)*add_less(k); end end
附录2:涉及图表
单次各期刊之间引用比结果:
(W(i,j)表示第i 期刊被第j 期刊的引用比)
10次重复计算结果如下: