- 文本数据挖掘:基于R语言
- 黄天元编著
- 474字
- 2025-02-22 14:08:44
2.2 R的基本数据类型
R语言是一门面向数据的语言,因此用户必须熟悉R体系中的基本数据类型。R中常用的数据类型包括数值型、逻辑型、字符型和因子型4种,以下一一进行介绍。
2.2.1 数值型
数值型,顾名思义就是数字,如19960524。可以用class函数来查看数据的类型。

可看到,这是一个数值型。其实数值还有更深层的分类,就是整数型和双精度型,可以用来表示整数和正整数。如果要表示整数,一般在数字后面加入“L”。可以用typeof函数来看到细分的数据差别。

R中还有一种数据类型叫作复数型,可以表示数学中的虚数,表示方法如下。

由于在文本数据挖掘中不常用,这里不展开介绍这种数据类型。
2.2.2 逻辑型
逻辑型的数据,一般是指非黑即白的两种:真(TRUE)与假(FALSE)。

TRUE和FALSE都是R中的保留字符,它们还可以分别简写为T和F。

值得注意的是,R中表示缺失值的保留字NA也是逻辑型数据。

2.2.3 字符型
字符型就是字符串,在文本数据挖掘中,所有文本格式的数据都属于这种类型,如“R语言”“文本数据挖掘”,就都是字符串。

2.2.4 因子型
因子型是R中独特的数据结构,它代表了字符与数字的映射关系,可以表示离散型的数据。

使用levels函数可以看到因子变量的等级。
