推荐系统,主要是个性化推荐系统。目前的推荐系统面临着两个重要的问题,先说技术上的。当前主流的推荐算法基本上是以统计学习为基础的,利用统计和机器学习的方法,最大限度的从数据中抽取信息,再用这些信息进行推断,进而形成对每个用户的推荐。这样做在数学上是自洽的,但实际应用过程中产生了很多问题。比如冷启动,在数据非常稀疏的情况下会放大噪声;比如随着数据的增长,越来越倾向于给出平庸的推荐;比如信息的维度单一,没有办法跟着用户一起成长;比如面对特性不同的数据集,需要花很大的力气来调节系统参数。所有这些问题,都造成了个性化推荐系统能够实际应用的场合受到很大限制,效果也很难衡量。
纯粹从技术方面来看,这些问题是存在解决的可能的。目前我把文章推荐分成三个层次,
第一层是Prediction,就是给你一个数据集,拿掉一部分,想办法用剩下的部分把拿掉的恢复起来。这部分工作是可以形式化,给出严格的定义,是个数学问题,也是目前研究的最透彻,解决的最好的。前几年的Netflix竞赛让我们看到了这里面的巨大潜力。这部分工作的意义是从数据形成信息。
第二个层次是Forecasting, 把给你的数据集看成一个系统,预测这个系统下一步的变化。用上一个层次的方法也可以来做这一层的问题,但其中有两个重要的区别,一个是时间维度,一个是形成系统的是人,人的心理和社会环境因素的作用。这两个因素的作用是使这个层次的系统比上一个层次的复杂度高了很多,原来的方法可行,但未必有效。解决这个层次的问题,仅仅从给定的数据出发是不够的,需要整合其他数据,可能需要先验知识,甚至可能需要一点用户的认知和心理模型。目前商用的推荐系统都在或多或少的解决这个问题。这部分工作的意义是从信息形成知识。
第三个层次是Recommendation,这个是真正意义的推荐。个性化阅读这个系统应该具备所推荐领域的知识,同时还要认识它的每一个用户。这个系统能够自我启动,同时能够生长和进化;这个系统是有记忆的,同时它还能够学习。这个系统没有严格的定义,同时它的基本技术架构可能也不会仅仅局限于目前流行的推荐系统的各种框架、技术和算法。这个说法有点让我们想起六七十年代人工智能最辉煌的时候的一些蓝图,那些蓝图没有一个能实现。后来人工智能领域用机器学习这个更低调的说法代替了那些听起来很有野心的目标,在实践中取得了非常大的成就。脚踏实地是非常好的态度,不过如果你总也不抬头的话,会慢慢忘了头顶上还有一片灿烂的星空。这部分工作的意义是从知识形成系统。
网友评论 ()条 查看