粗糙集理论

这一部分我们讨论一下粗糙集理论中的基本概念,为后面讨论的知识约简算法做铺垫。

知识与分类

粗糙集理论认为,知识直接与真实或抽象世界的不同分类模式联系在一起,即任何客观事物都可以根据知识(事物的不同属性或特征)进行分类,所以我们说知识是具有颗粒性的。

关于知识有如下的定义:

1、论域U的任何一个子集X⊆U称为论域U的一个概念或者范畴(也叫信息粒);

2、论域U中任何子集簇(概念簇)称为关于U的(抽象)知识。

粗糙集理论中我们主要讨论那些能够在论域U上形成划分和覆盖的知识,既然划分和等价关系是等价的,所以我们通常用等价关系来表示分类或者知识。

所以,我们讨论的数据集的知识,就是将数据集完成划分的等价关系,而后面讨论的知识约简,也就是对等价关系进行约简,^_^。

知识库

给定一个论域U和U上的一簇等价关系S,称二元组K = (U,S)是关于论域U的一个知识库。

不可辨关系

给定一个知识库K = (U,S),若P⊆S,且P ≠∅,则∧P(P中所有等价关系的交集)仍然是论域U上的一个等价关系,称为P上的不可辨关系,记为IND(P),也常简记为P:

U/IND(P)便是与等价关系IND(P)相关的知识,IND(P)称为知识库K中关于论域U的P-基本知识,IND(P)的所以等价类也成为基本概念(范畴)。因为可以看到IND(P)是P中所有等价关系的交集,所以可以认为是由P产生的”比P中任一关系更强“的等价关系,对U的划分理论上应该更细。

特殊的,如果Q∈S,则称Q是关于论域U的Q-初等知识,Q的等价类为知识S的Q初等概念(范畴)。

粗糙集的基本定义

集合的下近似和上近似

给定知识库K = (U,S),则对于X⊆U和论域上的一个等价关系R,定义:

X关于R的下近似:

X关于R的上近似:

如果X的下近似和上近似相等,那么称X是关于论域U的相对于知识R的R-精确集或R-可定义集,反之则为不可定义集,或者粗糙集

X的R正域:(latex编辑公式真香^_^)

粗糙集合论的成员关系

和经典集合论的“非此即彼”不同,粗糙集合论的成员关系可以表示为:根据知识R,若$x \in \underline{R}(X)$,则x肯定属于集合X;若$x \in \overline{R}(X)$,则x可能属于集合X;若$x \notin \overline{R}(X)$,则x肯定不属于集合X。

知识约简

知识的约简与核

知识约简有两个基本概念,约简(reduction)和核(core)。由于涉及到知识的独立性,所以我们先介绍知识独立性的定义:

给定一个知识库K = (U,S),和知识库中的一个等价关系簇$P \subseteq S\,\forall R \in P$,若:

成立,则称知识R为P不必要的,反之则为必要的。如果对每个$R \in P$,R都为P中必要的,则称P为独立的,反之P为依赖的或者不独立的。且有定理,如果知识P是独立的,$\forall G \subseteq P$,则G也一定是独立的。

知识的约简

给定一个知识库K = (U,S),和知识库上的一簇等价关系$P \subseteq S$,对任意的$G \subseteq P$,若G满足如下要求:

(1)G是独立的;

(2)IND(G) = IND(P)。

则称G是P的一个简约,记为$G \in RED(P)$,RED(P)表示P的全体简约的集合。这里再回顾一下关系的定义,等价关系实质是对应一种对论域U的划分,所以上述(2)的相等,指的便是得到相同的划分。

知识的核

给定一个知识库K =(U,S)和知识库上的一簇等价关系,$P \subseteq S$,对$\forall R \in P$,如果R满足:

则称R为P中必要的,P中所有的必要的知识组成的集合称为P的核,记为CORE(P)。且有$CORE(P) = \cap RED(P)$。

知识的相对核和相对约简

知识的相对约简指的是在不影响一个属性(条件属性)对另一个属性(决策属性)的分类能力的情况下,对条件属性的缩减。

首先给出知识Q相对于知识P的正域的概念:

实质上,它是论域U中所有根据分类U/P的信息可以准确划分到关系Q的等价类中去的对象集合。

接着给出相对必要性和相对独立的定义:

给定一个知识库K = (U,S)和两个等价关系簇$P\,Q \subseteq S\,\forall R \in P$,若

成立,则称知识R为P中(Q不必要)(连读)的,反之则为P中(Q必要)的。简便起见,一般用$pos_{P}(Q)$代替$pos_{IND(P)}(IND(Q))$。

如果对于每个$R \in P$,R都为P中Q必要的,则称P为Q独立的,反之则是Q依赖的或者Q不独立的。

知识的相对约简

给定一个知识库k=(U,S)和知识库上的两个等价关系簇$P,Q \subseteq S$,对任意的$G \subseteq P$,若G满足以下两条:

(1)G是Q独立的,即G是P的Q独立子簇;

(2)$pos_{G}(Q) = pos_{P}(Q)$

则称G是P的一个Q约简,记为$G \in RED_{Q}(P)$,其中$RED_{Q}(P)$表示所有的P的Q约简的集合。

知识的相对核

给定一个知识库K = (U,S)和知识库上的两个等价关系簇$P\,Q\subseteq S$,对$\forall R \in P$,若R满足:

则称R为P中的Q必要的,P中所有的Q必要的知识组成的集合称为P的Q核,或P的相对于Q的核,记为$CORE_{Q}(P)$。且有$CORE_{Q}(P) = \cap RED_{Q}(P)$。如果P=Q,则相对核和相对约简的知识(这个知识不是那个知识QAQ)就退化到上一部分的内容了。

粗糙集理论中的知识表示

称四元组KRS = (U,A,V,f)是一个知识表达系统,其中,

U:论域

A:属性的非空有限集合,可记为$A_{t}$

V:全体属性的值域,$V = \bigcup_{\alpha \in A} V_{\alpha}$,$V_{\alpha}$表示属性α的值域

f:表示$U\times A\to V$的一个映射,称为信息函数

写到这里,粗糙集理论的内容已经基本和网上的博客,包括wiki一致了,概念也由“关系”、“知识”转变为了“属性”,其实道理都是一致的。

一般地,知识表达系统主要分为两种类型:一类是信息系统,也叫信息表,即不含决策属性的知识表达系统;另一类是决策系统,也叫决策表,即含有决策属性的知识表达系统。因为两种系统的知识约简算法思想是共通的,而且我主要使用的是决策表的约简算法,所以下个blog将会着重讨论决策表的知识约简算法。