神经网络、标签云和垃圾标签

美味书签中幂次分布且彼此关联的标签集总让我想起神经原和突触。

在神经系统中,神经元之间通过突触相关联,突触越多,关联越多,神经系统也就越开放,因此也活跃,所以人就越聪明,越有创造力。

(刚看到人类大脑的神经系统图像,太美了。2005/06/09)

在我的联想中,标签集中的各个标签相当于神经系统中的神经元,它和其他标签之间的关联,相当于突触地作用。所以,标签集的元素越多(神经元越多),标签彼此的关联越复杂(在操作上对应的是,使用尽可能多的标签来标注同一个URL,而不是只有一两个),那这个标签集也就越开放,由此通过它获取的新知,增强潜在的创新,促进个人知识系统的进化的可能性和能力也就越强。

所以,我觉着用户不应当畏惧标签集种元素的扩张而只有一两个标签来标注URL.

Pietra在他昨天的网志 TagsClouds hard to spam中降到使用数量更多的标签的另一个好处:

他证明标签向量维度的增加,会使得标签集所能容纳的URL对象的数量更多,也就是说有更大的空间。

其实,不只容纳量的增大。维度的增加,也使得标签系统中地位某个特定的URL变得更加高效。

这点我倒是身有体会。在Furl中的Blog目录下,如果没有全文搜索的帮助,在那里找以往的讯息是件痛苦的事情,但是同样数量的URL,在我的美味书签中,却变得异常轻松,在美味书签那里,我在blog标签下收录了260多条的URL,通过和blog关联的70多个标签的分摊,blog和另一个标签的组合平均对应的条目是3个左右,这对于能够一目十行的我来说,一下子就能辨认出来,更何况在结果的每个URL中还有标题、描述和标签向量供参考。

因此我觉着我许担心标签集中的数量。这也怪社会性标签系统,爱把标签集的元素一股脑儿呈现出来,不但起不到找寻的作用,还让用户恐惧甚至怀疑其标签系统的效率。

完全可以取消标签集的显示。因为它本来就是一个人的知识系统的“词典”,就我来说,我当然熟悉我的知识空间,知晓我的用词习惯。

当我要找一个东西的时候,我知道该用什么标签去找就足够了,看到拥挤的满满的标签,反倒干扰了原本清晰的思路。

至于一些人担心的可能会遗漏,我觉着程序可以通过找出相关标签或者通过Suggestion功能来弥补。

Pietro文章的另一个重点讲如何对付Spam。他指出美味书签系统中的垃圾制造者的行为和垃圾标签的特征能够很容易的被辨认。

正常用户的标签集呈Power law分布,而垃圾制造者,他们的标签集不存在Power law分布,他们的标签的分布是线性,甚至可能是直线的。

所以,透过对每个用户的标签分布特征的分析,能容易的滤掉那些垃圾信息制造者和他们的信息。

Pietro进一步说用标签云(对于一个特定URL来说,标签云是各个收录用户标注该URL的标签向量的集合)替代标签集可以更好的滤出垃圾信息。

对于这点,我有点不明白:垃圾信息制造者会在垃圾URL上使用热门标签,从而达到获取流量的目的,而不会在一篇有价值的URL上使用垃圾标签。奇怪的是,pietro分析的是后者的情况,而不是我认为的那种典型垃圾信息。

所以对于标签云是否能够有效地对付我所指的垃圾信息上有所保留。

不过Pietro的提议倒是可以避免生僻的标签用法的出现,他说借助系统的实现,能够让用户尽可能使用大众化的标签。

受Pietro的启发,我想是否可以通过这样的方法来对付我所致的垃圾信息:每个新用户都必须经过一段考察期,在确认其合理使用标签系统后,才允许他/她的信息进入到标签的公共空间,如果没被通过,那么他/她的垃圾就只能堆在自己家内享用。

不过这种办法也有个问题,要观测多少数据才能判断?是否会导致考察时间过长?如果过长的话,那该怎么办?