spss教程:常量、变量和表达式(1)

您所在的位置:网站首页 鼠标low和high spss教程:常量、变量和表达式(1)

spss教程:常量、变量和表达式(1)

2024-01-26 11:36| 来源: 网络整理| 查看: 265

SPSS统计事务所主要业务:

1.为学生毕业论文、公司、高校课题提供spss、LISREL、Amos等数据分析服务。

2.为公司、高校和科研机构提供价格优惠的调查问卷数据录入服务。

3.为课题提供量化统计指导和咨询。

联系方式:

QQ:3098529344

电话:18375425162

公司地址:山东省青岛市白沙河街道办事处256号

4.5 常量、变量和表达式

 

   样本(Case)是指记录或事件。调查多少人或单位,就有多少样本,在SPSS中常用不同的行表示。变量(Variable)是指调查的项目、指标或问题,常用不同的列来表示。SPSS对列变量进行各种加、减、乘、除运算,即对所有样本进行运算。若要对部分样本进行运算,就需先对行变量(样本)进行检索、筛选、分类。变量的取值称变量值,也就是被调查对象提供的具体调查数据。

 

   4.5.1 常量

 

1. 常量的定义

 

SPSS的常量包括数值、在单(双)引号中的字符串或是按日期格式表示的日期和时间。常用的SPSS常量可分数值型、字符型和日期型,其中日期型变量用得比较少。

 

   数值型常量有两种书写方式。一种是定点(小数点位置固定)——普通书写方式,例如26、38.4等。另一种是浮点(小数点位置不固定)——科学记数法,常用于表示特别大或特别小的数字,例如1.23D3、2.56E-2、3.86-2,分别表示1230、0.0256、0.0386。其中D3、E-2、-2表示10的3、-2、-2次幂。

 

字符串常量是指被单引号或双引号括起来的一串字符。如果字符串中本身带有单引号或半个单引号,则该字符串常量必须使用双引号括起来。例如“Boy’s Book”。

 

2.观察值的录入

 

1)数据录入方法

 

一旦定义了变量库,结束数据结构修改任务,返回数据编辑窗口的二维表格。SPSS输入数据的操作方法是多种多样的,可以按列(变量)输入;也可以按行(样本或观测量)输入。输入前,务必要弄清多少(m)个变量、多少(n)个样本,以输入m列n行。

 

2)值标签的定义

 

如果对一个变量的值定义了标签,那么,输入该变量的值时可以显示输入值,也可以显示输入值的标签。选择方法是单击主菜单的“View”菜单项,展开下拉菜单,点击下拉菜单最下面一栏“Value Labels”即可;如果想在数据编辑窗口中输入变量值,单击“View” 下拉菜单中“Value Labels”,其前面出现“√”。在被激活的单元格中显示变量值。

 

选择Utilities下的Variables,就可显示某变量的一切信息(图4.11);对话框中左半部是变量列表,列出当前数据编辑窗口中定义的所有变量名,变量后面带有“<”符号的是字符型变量。对话框右半部分是变量信息显示区:“Variable Information:”,列出指定变量在数据编辑窗口中的位置序号,变量名,变量标签,变量值标签,格式和缺失值。如果想列出另一个变量的属性,可用鼠标单击变量表列中另一个变量的变量名,则在变量信息显示区显示指定变量的属性信息。若选择Utilities下的File Info,就可显示每一个变量的全部信息。

 

 

图4.11 “Utilities”的“Variables”对话框

 

   4.5.2变量

 

数量值可变化的量称为变量[2]。SPSS中的变量属性有四个:变量名、变量类型、变量标签、变量长度。输入数据(观察值)之前首先要定义变量,所谓定义变量就是要定义变量名、变量类型、变量长度(小数位数)、变量标签(或值标签),和变量的格式(显示宽度、对齐方式、缺失值标记等)。定义变量有两种方法。鼠标放置于某变量名位置上,鼠标光标呈现一向下的尖头,左键快速双击该变量名;或用鼠标左键单击某变量名,然后用鼠标点击屏幕左下方的Variable View,就可打开变量定义对话框如图4.12。由此可依次定义变量名、变量类型、变量长度、小数位数、变量标签等。变量

 

 

       图4.12 变量定义的对话框

 

类型一般默认为数值型,变量长度默认为f8.2,标签默认为无。

 

   1.变量名的定义    

 

若不输入变量名,而直接输入变量值,则系统按变量的输入顺序给出的变量名的默认值为:VAR00001、VAR00002、VAR00003依此类推。于是,可转入Variable View后,用键盘输入自己定义的变量名。如将“VAR1SEX”作为变量名。在该变量名后出现一系列变量其他属性的默认值。您可以修改或直接予以确认。变量默认值的修改,有三种情况。一种是方框右边带有三点,表示有二级对话框可供选择或展开,例如Type、Values和Missing;右边带有上下箭头的,表示可通过尖头,将默认值增加或减少,也可直接将该数修改;右边为空白的,可直接输入相关值。

 

  SPSS变量命名应遵循以下原则:

 

  ①SPSS变量的变量名由不多于8个字符组成;

 

   ②首字符是字母、中文或特殊符号@,但不能是空格。其后可为数字、字母、中文、特殊符号“.”、“$”、“@”或除了“?”“!”和“*”以外的字符,但不能以下划线“_”和圆点“.”作为变量名的最后一个字符,以引起误会。

 

   ③变量名不能与SPSS保留字相同以免引起混乱。SPSS的保留字有ALL、AND、BY、EQ、GE、GT、LE、LT、NE、NOT、OR、TO、WITH等13个。 

 

   ④系统不区分变量名中的大小写字符。例如:ABC和abc被认为是同一个变量。如:“A_s1”;“a.8$@1”;“南京产量”等都是合法变量名;而“Name_@123”;“ name_1”;“ _J13name”;“Name?1”;“all”;“2var”;“Fem le”;“南京文学院”等都是不合法变量名。

 

2.变量类型和宽度的定义

 

鼠标光标对准按钮Numeric,单击其右部,或用鼠标左键单击其三点,展开定义变量类型对话框如图4.12所示。SPSS变量有三种基本类型:数值型、字符型、日期型。数值型变量又按不同要求分为六种,因此共可定义八种类型的变量。变量的系统默认长度一般为F8.2,其中8是显示宽度,2是小数点后面的位数,但可通过主菜单Edit中的“Options”重新设置。

 

宽度Width是指在数据窗中该变量所占的列数。应该区分定义变量类型时指定的宽度与定义格式时的宽度。定义变量格式宽度应该综合考虑变量类型定义的总长度和变量名所占宽度,取其较大的一个作为该变量定义格式宽度时可取的最小值。例2000年11月1日中国第五次人口普查,全国人口为1,233,803,016人,相应变量名分别是“五普人口”;若用标准数值型变量表示,格式宽度至少应该定义为10位,F10.0。图4.13中“width”后面的方框内显示的是内存所占宽度,后面“decimal”后面的方框中显示的是小数位数。若要改变系统默认值,可将插入点光标移至方框内,即可用键盘删除原值,输入合适的值。 

 

如定义变量性别变量“SEX”,因为变量性别要作为分类变量参与统计分析,一般不能定义为字符型,而定义为标准数值型。如果考虑用值1表示男性,值2表示女性,变量值的长度只需要一个字节,把“Width” 后面方框中的数字改为1,但为清楚显示变量名,可定义为4,“Decimal places”后面方框中的数值改为0。

 

①标准数值型变量(Numeric)默认总长度8、小数位数为2位、小数点用圆点。其变量值可用标准数值格式输入,也可以用科学记数法输入。输入时使用科学记数法,如-36452.72、5.6467E5,显示出来的都是标准数值格式。

 

  ②带逗点的数值型变量(Comma)默认总长度8、小数位数为2位(除非另外指定)、用圆点作小数点、其整数值部分自右向左每三位用一个逗点作分隔符。如 –6,452.72;82,435.1。

 

 

 图4.12 SPSS变量类型的选择

 

   ③圆点数值型变量(Dot)默认总长度8、小数位数为2。用逗点作为小数点,整数部分自右向左每三位用一个圆点作分隔符,如8.251,25。这种格式用得十分少。

 

  ④科学记数法(Scientific notation)默认总长度8、小数位数为2、任何数字用一位整数、若干小数和指数所构成。表示指数的字母可以用E、用D,指数部分可带正负号也可不带。甚至指数部分不用字母D或E,只用符号表示也是可以被接收的。如123,可以用以下方式输入或显示:1.23E2、1.23D2、1.23E+2、1.23+2;再如-0.00789,可表达为-7.89 E-3、-7.89D-3、-7.89E-3、-7.89-3。

 

   ⑤带美元符号的数值型变量(Dollar)默认总长度8(包括“$”符号在内)、小数位数为2,显示其有效数字前带有“$”,用逗点作分隔符、用圆点作小数点。输入时可以带、也可以不带“$”,由系统自动加上“$”符号和分隔符。当输入的数值小数位数超过格式规定时,系统自动进行四舍五入处理。如当输入的整数位数超出规定的格式,显示时自动去掉作为三位分割符的逗号。

 

⑥自定义型币制(Custom Currency)变量是一种由用户利用Edit菜单下的Option功能定义的(图4.12)。CCA、CCB、CCC、CCD和CCE可以定义五种不同的货币,如人民币、港元和澳元等。方法具体见附录有关内容。

 

⑦字符型变量(string)默认长度8位,变量值是一串字符。字符串变量分:由8个及其以下字符组成的短字符串变量,   图4.13 变量类型的选择

 

和由8个以上字符组成的长字符串变量。前者使用范围较宽,使用时受限制少,使用较频繁。字符串中的大写、小写字母被系统认为是截然不同的两个字符,字符型变量不能参与运算。

 

⑧日期型变量(Date)可以表示日期,也可以表示时间。日期的表示形式多种多样,SPSS共收集了27种不同的表示方法。日期型变量的值按指定的格式输入和显示,不能直接参与运算。要想使用日期变量的值进行运算必须通过有关的日期函数转换后才行。日期型变量使用十分复杂。首先,世界各国表示时间的先后顺序不一样,例如美国的日期用月日年表示mm/dd/yyyy,欧洲的日期用日月年表示dd. mm.yyyy,我国的日期用年月日表示yyyy.mm.dd;其次,世界各国所用的日期间隔符不一样,有些地方习惯用“/”、“-”、“.”或空格作为分隔符;第三,各国表示时间的文字不一样,比较多的用阿拉伯数字,也有用英文或罗马字表示;第四,有二位数表示年份的,也有四位数表示年份的。因此计算机的日期判别很容易出错。显示在数据编辑窗口中相应单元格中的值,必须是按指定的日期格式显示。

 

日期型变量的具体格式显示在一个可以滚动、翻页的小菜单中,用户可以根据具体的数据和处理要求选择一种格式,输入日期型变量的相应值。月份可用罗马字、阿拉伯数字或英文字表示,用得最多的是阿拉伯数字。“ddd”三个字母d表示要求用从当年元月一日算起的日数表示日期。而英文m既可表示月份(month)又可表示分钟(minute)。SPSS规定“m” 在年与日(字母y与d)之间表示“月”份;在时与秒(字母h与s)之间表示分钟;“mmm”三个字母m表示要求书写英文月份单词的前三个字母组成的缩写。1至12月份分别是JAN, FEB,MAR,APR,MAY,JUN,JUL,AUG,SEP,OCT,NOV,DEC。

 

SPSS变量最常用的有标准数值型、短字符串两种基本变量。      

 

   3.变量标签和值标签的定义

 

变量标签、变量值标签具有一个可选择的属性,即可以定义、也可以不定义标签。当变量名(值)本身十分清楚、不需要定义标签。

 

①   变量标签(Variable Labels)

 

   变量标签Label是对变量名的附加的进一步说明。由于规定变量名的组成不能超过8个字符,而且这8个字符受到很多限制,有时很难表示变量的确切含义,时间长了难免会忘记。如何对变量名的含义加以详细说明和注释,就要用变量标签。变量标签允许有不超过256个字符(或128个汉字)组成,标签可包括空格、编号和汉字在内。在统计输出中会在与变量名相对应的位置显示该变量的标签,这样有助于分析、输出易读的结果。

 

 

  图4.14  变量标签格式的定义

 

  例如:变量名mpg对应的变量标签:Miles pre Gallon (每加仑汽油行多少英里),类似变量名weight对应的变量标签Vehicle Weight(车辆重量),变量名horse对应的变量标签Horsepower(马力)。

 

②(变量)值标签(Value Labels)

 

变量值标签是对变量的可能取值所附加的进一步说明和注释,对分类变量往往要定义其取值的标签。因此,在贴标签之前,要弄清变量或变量值代表的意义。变量值标签一般不得超过60个字符(或30个汉字),标签也可包括空格和编号等。如:

 

表4.1  常用变量标签、变量值标签

 

变量 

变量标签

变量值 

值标签

Sex

性别

f

Female

m

Male

age

年龄 

1

<=14岁

2

15-64岁

3

65岁

Hor

夫妻和睦程度

1

不和睦

2

一般

3

和睦

贴标签或分类时,还应注意历史上连续性。如职业:编码1,各类专业技术人员; 2,国家机关党群组织、企事业单位负责人;3,办事人员及相关人员; 4,商业人员;5,服务性工作人员;6,农林牧渔劳动者; 7,生产工人、运输工人和相关人员。

 

③变量标签定义的方法 

 

变量标签(Label)在Variable View屏幕下,可在Label列下直接输入。变量值标签(Values Label)定义比较麻烦,先用类似方式打开“Value Labels” 对话框如下图,在第一个矩形框中输入变量值;在第二个矩形框中输入对应值的标签(对该变量含义的解    图4.15  定义变量值标签对话框

 

释),按第三个矩形框左面的第一个按钮“Add”,一个值标签加入到值标签清单中。例如,我们定义的变量SEX,值m表示男性;值f表示女性。则先在第一个小框中输入“f”,再把插入点光标移至第二个矩形框中,输入“女”,按“Add”按钮,清单中显示:f=“女”;然后,再在第一个小矩形框中输入“m”,在第二个矩形框中输入“男”,再按“Add”按钮,清单中增加了一个值标签。至此,值标签定义完毕。

 

对变量值标签的修改,只要在“Variable Label”后最下面的矩形框中点击原错误标签,该标签的数值和标签,显示在上中矩形框内,重新输入新定义的值或值标签。按Change键,原值改变为新定义的值;按Remove键,原值移走。

 

   4. 用户缺失值定义

 

在实际的调查工作中,由于涉及到个人隐私,使记录的数据缺失、失真,这就是用户缺失值(Missing Value)。例如对女性年龄、身高和婚姻状态的调查,对个人经济状况和性生活的调查等。其次,数据有明显逻辑性错误,而又无法查询其真实数据。如一个少年10岁,测量其身高是2.08米或具有大专以上文化程度,该数据显然是失真,不能使用,这些记录也仅能记作缺失值。用户可以定义自己的缺失值,如对数值型变量定义缺失值为-9、对字符型变量定义缺失值为U等,一般都是不常见的数字或字符。用户缺省值作为单独一项参加频数、频率统计,但不参加有效百分比的统计。另一种是机器无法运算而产生的缺失值,叫系统缺失值。

 

在Variable View屏幕下,打开Missing列对话框如图4.16所示。有4种可供选择的用户缺失值定义方式。

 

①无缺失值,这也是系统的默认状态。如果当前变量的值测试、记录完全正确,没有遗漏,则可选择此项。  

 

②离散缺失值,标题为“Discrete missing values”,下面有三个矩形框。可在三个矩形框中输入不多于三个确切的、可能出现在相应的变量中的缺失值。如某份数据资料由三个人共同输入,由于预先没商量好,三个人对于性别变量的缺失值分别定义为0、3、4。则可把这三个值分别输入到三个矩形框中,计算机一遇到这三个数据就知是没有意义的缺失值。       

 

③连续缺失值“Range of missing values”的定义,下面有两个分别标有“Low:”和“High:”的矩形框。指定某一范围的值。如果出现在当前

 

图4.16 定义变量的用户缺失值对话框

 

定义的变量值中,则被当作缺失值处理。在“Low:”后面的矩形框中输入缺失值范围的最小值,即缺失值的下限;在“High:”后面的矩形框中输入缺失值的上限。多于三个缺失值的离散变量也可以用此方式定义用户缺失值。如已知某地人口最高年龄为92岁,则可将缺失值定义为95到99。

 

④一个连续范围加一个离散值为缺失值“Range plus one missing value”。标题下面有三个矩形框,供输入缺失值下限Low,缺失值上限High,和一个该范围包括不了的缺失值Discrete value。例成人体重缺失值定义为-9和150-999公斤。

 

   5.变量显示格式的定义

 

变量的屏幕显示格式包括两个内容,分别是变量屏幕显示宽度(Column)和变量左右对齐方式(Align)。变量屏幕显示列宽度默认值是8位,但可通过上下尖头调整其宽度值。width后面的方框内显示的是内存总宽度

 

数值型变量对齐方式的默认值是右对齐Right,字符型变量系统默认的对齐方式是左对齐Left,但可通过调整其为中间对齐Center,或其他对齐方式。

 

7.变量属性(尺度) 的定义

 

数据变量一般设置在scale,以减少矛盾。详见第一章。

 

4.5.3 表达式

 

如果在某种条件下进行计算(Compute)、或进行样本选择(Select Cases)时,常可见If对话框,允许我们根据逻辑运算符或关系运算符对部分样本进行选择、操作。SPSS的基本运算共有三种:数学运算、关系运算、逻辑运算。相应运算的算符如下:

 

表4.2  SPSS的基本运算符

 

数学运算符

关系运算符

逻辑运算符

符号

意义

符号

运算符

意义

符号

运算符

意义

+

GT

大于

|

Or

逻辑或

*

=

GE

大于等于

 

 

 

**

=

EQ

等于

 

 

 

()

括号

~=

NT

不等于

 

 

 

1. 算术表达式

 

   算术运算符可以连接数值型的常数、变量和函数构成算术表达式,其运算结果为数值型常数。注意:常数、变量、函数和算术表达式的 输入必须在英文状态下而不能在中文状态下,否则无法计算;必须严格执行计算机格式而不是手写格式,例3X必须写为3*X。再如,Y-X**2/((A+B)+1-ABS(A*Z)就是一个合法的算术表达式。在运算表达式中,运算的优先顺序为:按括号、函数、乘幂、乘或除,加或减的顺序,同一优先级的,从左到右运算。注意,在SPSS中乘幂是**,而不是^,这与EXCEL等完全不同。

 

   2. 比较表达式

 

   比较算符建立的是两个量之间的比较关系式,由系统判断关系是否成立。如果比较关系成立,比较表达式的值为“真”(1),否则为“假”(0)。相互比较两个量的类型必须一致。无论进行比较的两个量是字符型还是数值型,比较的结果均是逻辑型常量。比较算符表中列出的比较算符均有两种表示方法,用符号表示和用字母表示,这两种算符是等价的。例如A>5和A GT 5是等价的,如A=6则表达式A>5为真,其值为1;如A=5,则表达式A>5的值为假,值为0。

 

   3. 逻辑表达式

 

   逻辑算符即布尔算符有两种表示方法,用符号表示和用字母表示,这两种算符也是等价的。例如A&B与A and B是等价的。逻辑算符与逻辑型的变量,或其值为逻辑型的比较表达式构成逻辑表达式,逻辑表达式的值为逻辑型常量。

 

  “逻辑与” 运算符&(或and)前后的两个量均为真时,逻辑表达式的值为“真”,否则为“假”;例如逻辑表达式:A>B&C>0只有当A的值大于B的值,而且C为正数时,该逻辑表过公式的值为“真”。对于A=3 & B=2 & C=6,该逻辑表达式的值为“真”;如果C=0,则该逻辑表达式的值为“假”。

 

“逻辑或”运算符| (或or)前后的两个量只要有一个为“真”时,逻辑表达式的值为“真”。只有当操作符前后两个量均为假时,逻辑表达式的值才为“假”。例逻辑表达式:A>B | C>0中只要A>B成立,无论C为何值,表达式的值均为“真”。或者只要C>0成立,无论A与B为何值,该表达式的值均为“真”。

 

“逻辑非”运算符~(或not)是前置算符,它对其后面的量作逻辑非运算。NOT后面的量值为“真”,则NOT运算结果为“假”。逻辑与的运算顺序高于逻辑或。例逻辑表达式:NOT(A>0)中A为正数,逻辑表达式的值为“假”;A为负数或A为0,逻辑表达式的值均为“真”。

 

假定开始时x=5,并有if(A eq 2 or B eq 3 and C eq 1)X=1。如果有下列5种情况,则X分别为多少?注意:在该表达式中,

 

表4.3  逻辑表达式的一个案例  先执行逻辑与,再执行逻辑或。

 

特例

1

2

3

4

假定

A

2

1

18

5

B

10

3

3

4

C

4

4

1

1

结论

X

1

5

1

5

即:if(A eq 2 or (B eq 3 and C eq 1))X=1。另外,在SPSS中不存在语句if…than…else,也没有for…next。

 

 如果使用逻辑表达式选择每月薪金(Salary)在3000-5000元的男性(Sex=m),以及每月薪金在2000-4000元的女性(Sex=f),则其表达式为:

 

IF Salary>=3000 & Salary < 5000 & SEX=M | IF Salary>=2000 & Salary< 4000 & SEX=F

 

如果挑选出高考成绩(SCORE)在520-570分的城市(AREA=City)考生,和500-550元的农村(rural)考生。

 

IF Score>=520 & Score < 570 & area =city|IF Score >=2000 & Score < 4000 & area = rural

 

  

 

 

 

 



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3