接触粗糙集是因为毕设论文需要用到,但是wiki上和网上的一些博客,包括老师给的参考论文上的理论都有一些出入(其实是不同的东西混在一起),所以就查阅了《粗糙集理论、算法与应用》,对粗糙集理论进行了较为系统的认识。
接着的几篇blog,我将自己在书上看到的和理解的东西整理出来,这一次主要讲一下经典集合中的关系的概念。
了解关系之前,需要先了解如下两个概念:
序偶
称由两个元素a1,a2组成的二元有序组(a1,a2)为序偶,如果将概念扩展到n个元素,则称之为n元组。
序偶,包括n元组,和普通集合最大的区别就是前者存在次序,所以两个n元组相等的充要条件是相同次序位置的元素对应相等。
每个具体的二元关系都对应一个以序偶为元素的具有某种特性的集合,这就将函数和集合的概念联系了起来,比如整数1,3,5之间的“小于关系”R对应如下集合:
R = {(1,3),(1,5),(3,5)}
反之,给定一个以序偶为元素的集合R,他就确定了一个二元关系,当然,n元关系也可以定义n元组为元素的集合。但这种说法也是有问题的,比如给你上面的R,其实可以得到小于关系以外的关系,比如我拟合一个二次曲线。
集合的笛卡尔积
称A X B = {(a,b) | a∈A,b∈B}为集合A和集合B的笛卡尔积,注意以为序偶的次序性,所以集合的笛卡尔积是不满足交换律和结合律,但是可以满足分配律。
下面给出关系的定义:
称A X B 的任一子集为A到B的一个二元关系,记为R,即R⊆A X B,即关系的实质是一个集合,比如常用的二元关系即为序偶组成的集合,下面的内容如果不加说明,一般指的是二元关系。
给定集合A和集合B,如果元素x∈A和元素y∈B满足关系R,则记为xRy,否则则记为xRy。称集合A是关系R的前域,B为其后域。D(R) = {x|∃y, xRy}为关系R的定义域(和函数课程中的定义一致),R(R) = {y|∃x,xRy}是关系R的值域。
等价关系
如果集合A上的关系R满足如下条件:
1、自反性:即∀x∈A,满足xRx;
2、对称性:即∀x,y∈A,如果有xRy,则必有yRx;
3、传递性:即∀x,y,z∈A,如果有xRy∧yRz,则必有xRz。
则称R是集合A上的等价关系。
等价关系看起来要求这么多,那到底和粗糙集理论有什么关系那?先别急着下结论,让我们先来理解一下,什么是等价关系。拿西瓜为例,假设我们判断一个西瓜的好坏会从花纹、颜色、大小三个特征入手,或者说一堆西瓜(即论域A)在我这其实就是3个特征组成的3元组组成的集合。现在我给出如下的等价关系:“西瓜的花纹、颜色、大小均相等”,即R = {(x,y)|x,y∈A ∧ x.花纹 = y.花纹 ∧x.颜色 = y.颜色 ∧ x.大小 = y.大小},也就是最常见的等价关系——恒等关系。根据这个关系,我们可以将论域A划分为一系列子集的并集,而这里划分的概念才是粗糙集理论的基础。
商集
设R为非空有限集合A上的等价关系,以R的互不相同的所有等价类为元素组成的集合叫做A在R下的商集,记做A/R,即A/R = {[x]R|∀x∈A}。
上面提到的等价类有如下定义:
设R是非空有限集合(论域)U上的等价关系,∀x∈U,定义 [x]R = {y|yRx}。
商集就是上一部分提到的划分,而划分也有严格的定义(区分于覆盖,可以从划分的概念推出就不赘述了),给定一个论域U和它的非空子集簇π = {A1,A2,…,Am},如果满足:
1、Ai ≠ ∅
2、
3、 Ai∧Aj = ∅,i ≠ j
则称集合簇π是U的一个划分,并且有如下定理:
非空有限集合A上的等价关系与集合A的划分是一一对应的。也就是说A/R就是A的一个划分。
经典集合 vs 粗糙集合
经典集合只能表达那些具有明确外延的清晰概念,一个对象x是否隶属于某个概念A,必须是非此即彼的,要么x∈A,要么x∉A,二者必居一。
但是一个粗糙集A是通过它的上、下近似集来表示的,这个概念我们将会在后面的blog讨论,这里我们关于上、下近似集,仅需要知道,它们是使用论域U的一个划分描述A的表达形式。既然我们的描述对象从具体的元素转为了划分,那么一个元素x是否隶属于粗糙集A,自然和x所在的划分与A的关系有关:
如果划分包含于A,即该划分属于A的下近似集,那么x肯定属于概念A;如果划分和A没有交集,即该划分在A的上近似集之外,那么x肯定不属于概念A;如果划分包含于A的上近似集而不包含于下近似集,那么x“可能”属于概念A。
在机器学习任务中,我们经常需要和数据的“特征”打交道,特征的不同则将我们的数据集进行了“划分”,这和我上面举的西瓜的例子想表达的东西是一致的,而粗糙集理论解决的就是只给定数据,如何从其中提取出更为“重要”的特征的问题。