Sas 数据分析大赛试题
1、Data 步、宏和绘图 [背景介绍]
以下是某公司销售信息,全部数据如下:
[题目要求]
1)使用Data 步计算两个新变量,dif1是当年销售额和上一年销售额的差值,dif2是当年利
润和上一年利润的差值。使用数组与DO 循环完成这个操作,分别计算不会得分。只计算东部地区
2、PROC SQL过程和转置试题 [背景介绍]
该数据取自银行系统的贷款表和交易流水表,字段说明如下: 贷款表(Loans):
每条记录代表某个账户的上的一条贷款信息, 条数:682
交易表 (Trans):
每条记录代表每个账户上的一条交易, 条数:1056320
两张表的连接关系如下
:
[题目要求]
根据上文提供的材料,获取每个贷款账号贷款发放前的帐户余额(即贷款前最后一次交易的帐户余额) ,如果贷款前最后有交易的一天有多笔交易,则取帐户余额的均值。表的效果如下:
使用一条SQL 语句得到完全一致的结果和展示效果,需要给变量加标签。
说明:
1)展现的变量分别是loan_id(来自贷款loan 表的loan_id),date (来自贷款loan
表的date ),tran_date(来自交易trans 表的date ),amount (来自贷款loan 表的amount ),avg_balance(来自交易trans 表的balance );
2)每笔贷款有一条记录,没有贷款则没有记录
3)使用到了Proc SQL步的表的横向连接、汇总函数和非关联子查询。
3、(数据见data3)湖南在历史上是一个灾害多发的地区,由于当地森林资源分布比较丰富,在旱季尤其是冬季是森林火灾的高发季节。而由于森林分布不均、气象条件不同、地形条件不同、经济发展水平差异等各种原因,灾害的发生、控制、预防和消防处理等问题,在各个不同的地区有明显的差异,进行灾害风险控制和防范就需要对各个地区的灾害风险进行分级分区处理。这里提供了湖南省各个地级市2013年森林火灾发生的相关数据,根据此数据,利用聚类分析,对于灾害进行风险分区。需要完成下列工作。
(1)列出聚类分析的流程和种类;
(2)将数据读入sas ,对于数据进行描述性分析,分析数据中基本信息; (3)通过变量聚类,从其中选择相应参加聚类过程的变量;
(4)对于数据进行探索性分析,探讨数据的分类进行(探索数据可能的分类结构); (5)对数据进行预处理(标准化、球性变换);
(6)选择合适的方法进行聚类分析,将各个地区分为三类,对于结果进行轮廓分析; (7)(此题选做)将分类结果利用地图进行展示。
4、(数据见data4)零售企业在进行产品生产之前,往往需要利用之前类似款的产品销量进行新产品的销量预测,比如阿迪达斯和耐克,这首先需要选择一款类似的产品,或者选择一个类别,然后建立模型,对于未来的可能销量进行预测。这里给出国内某运动用品企业进行产品预测的一组数据,其中是已经找到的一款类似的旧产品的累计销量,利用此数据,对于新产品销量进行预测,以便安排生产。利用数据,完成下列操作:
(1)将数据导入sas ,注意这是累计销量,首先利用数据计算单日销量,并且对于数据进行描述性分析;
(2)选择合适的指数平滑模型对于累计销量数据进行拟合;
(3)利用ARIMA 模型对于累计销量进行拟合(给出模型识别、估计、预测过程,而且可能需要适当的数据变换);
(4)在此类预测中经常使用的模型是bass 模型,形式如下:
巴斯扩散模型引入三个参量来预测Nt (消费者在第n 期购买该产品的数量) :
m=市场潜力, 即潜在使用者总数。 p=创新系数(外部影响) , 即尚未使用该产品的人,受到大众传媒或其他外部因素的影响,开始使用该产品的可能性。 q=模仿系数(内部影响) , 即尚未使用该产品的人,受到使用者的口碑影响,开始使用该产品的可能性。
利用单日销售数据,拟合bass 模型,并对模型进行解读。