[ 学习]为什么要分类

KMWorld,Why categorize? Susan Feldman 。

文中说道分类之所以重要的原因:

- 浏览和搜索是两种不同的信息搜寻的方式。在任何一个好的信息存取系统中,这两种方式应该得到协调。

- 改善搜索的准确性。通过添加主题标注、主要人、事、地等信息到元数据中,这无疑为搜索引擎提供了额外的信息提升搜索结果的关联度。

- 搜索引擎能够使用分类来判断所搜索的具有多义的关键字的准确含义。

- 将搜索结果按照主题分类呈现。用户能更快的根据自己的兴趣找到需要的内容。

三种分类形式:

- 人工分类。
- 计算机自动分类
- 混合分类

后两种分类中用到的技术:

- 群集(Clustering)。代表:Vivisimo

- Rule writing(??)。代表:Factiva

- 机器学习系统。

- 语言或语义基础系统。

- Faceted navigation(??)。Endeca and Siderean

提供分类产品或者技术的公司:

Access Innovations Autonomy ClearForest Convera
Copernic Documentum EasyAsk Endeca Entopia
Factiva Fast Search and Transfer InMagic InQuira
Interwoven Inxight Language and Computing Lexalytics
Mercado Nstein OneSource Recommind
Siderean Stratify Verity Vivisimo Zylab