Archive for 十二月, 2006

豆瓣寻人 4: 算法与数据挖掘专家

星期一, 十二月 11th, 2006

豆瓣的(我们自认为算是精英的)算法团队每天都在碰到更有意思和更有挑战性的问题。无论你是这方面的新入门者、高校的研究小组,还是行业专家,我们随时都愿意和您取得联系。

基本职责:
1. 维护与改进豆瓣的推荐与数据挖掘算法
2. 为网站的改进和推广提供数据和分析支持
3. 跟踪互联网领域相关的算法进展和发展趋势

要求:
1. 热爱探索和钻研,相信算法能够改变人们的生活;
2. 本科或本科以上数学、物理、计算机或其他相关领域的训练;
3. 极佳的逻辑分析能力和学习能力,善于应对各种智力挑战;
4. 熟悉海量数据处理和挖掘的基本算法, 或有高性能科学计算的相关经验;
5. 能够使用C独立实现复杂的算法结构。

我们能提供:
1. 具有竞争力的薪水待遇,以及潜在的收益机会;
2. 具有挑战性的项目,包括处理千万条以上真实行业数据的实战机会;以及快速成长的空间;
3. 宽松、自由的工作环境。

有兴趣请发email至team@douban.com 。

(欢迎转载,谢谢)

长尾年代: 《长尾理论》的评论

星期日, 十二月 3rd, 2006

1897年夏天,意大利经济学家帕累托(Pareto)在研究英国社会分配的时候发现,百分之二十的人控制着百分之八十的财富。后人在现实世界里形形色色的分布里也看到了类似“少多众寡”的现象:大段文字里单词出现的频率、都市城镇的人口、沙粒的大小,甚至林火烧过的面积。比如,把全世界每个人拥有的财富从大到小排起来,一边是一个纤细但高耸入云的头,另一边是漫长的一望无际,低矮的让人绝望的尾。这样的分布在经济学里被灌名为“帕累托分布”,只是一直不为大众所知。但是有一个简单的版本一直在商业世界里传诵, 就是今天的“80/20原则”。

1982年春天,托夫勒的《第三次浪潮》在中国登岸。我们刚开始憧憬大工业生产的时候,托夫勒就不识时务地预言它的灭亡。“不再有大规模生产。不再有大众消费。不再有大众娱乐”。取而代之的是个性化到每个人的生产、创造和消费。为什么要有重样的产品?难道生产和消费不能是一件事吗?遗憾的是,大家激动过后,发现还没有见识过真正大众消费的时候就琢磨它的消亡实在需要太多的想像力。二十年后大众娱乐终于到来的时候,托夫勒早已经被多数人抛在了脑后。

到了2004年的秋天,终于有人把这两件事扯在了一起。美国《联线》(Wired)杂志发表了总编克里斯・安德森(Chris Anderson)的文章:长尾。副标题是“别老掂着从榜顶的几个巨无霸里多榨几百万出来。娱乐的未来在码流低浅的那头无数个细微市场那儿”。“低浅的那头”,其实就是帕累托分布的尾巴;“无数个细微市场”,其实也就是托夫勒的全民个性化消费。安德森的神来之笔,是在极其正确的时间,在极其正确的媒体上,用一个简单响亮的词向大众描绘了互联网下面高涨涌动之中的暗流。安德森一发不可收拾,开始在Long Tail Blog上公开编撰书稿。两年后,《长尾理论》(The Long Tail)问世了。

沿袭记者擅长的悬疑开局,安德森用真实发生的几件事向我们直接勾画出了长尾现象:一本六年无人过问的冷门书突然窜上《纽约时报》的排行榜,因为有人在评论类似话题的新书的时候提到了它;在线音乐店Rhapsody里下载排行十万名以后的那些歌,在任何一家最最专业的唱片店都找不到,每月下载次数只有几次、几十次,加起来却占了所有下载次数的15%;在线DVD租赁店Netflix销量占末尾21%的碟片在任何一家线下碟店都找不到。这些“多出来”的冷僻产品每样都卖得可怜,但因为品种数目庞大,加起来却能带来不小的销售。这就是长尾了。

如果你想在一刻种内比较精准地把握可能是下一个流行的谈资,读到这里也就差不多够了。对更好奇或者多疑的读者来说,有些个问题还是值得探究的。比方说,为什么线下商店没有长尾?长尾和以前说的80/20原则有什么关系? 那些长尾产品既然不畅销,会不会都是垃圾? 长尾对畅销排行榜有什么影响?长尾的泛滥会导致个人中心主义吗?还有些更功利的问题:长尾带来什么样的机会?怎样去利用它?这本书剩下来95%的篇幅里,用简单直观的方式给出了这些问题的答案。总的来说,长尾无处不在,无时不在。只是有了网络以后,各个环节的成本都大大降低,长尾的东西才有了广泛产生、传播和获取的可能。

和《引爆流行》、《世界是平的》一样,作者倾向于在讲清楚核心命题以后,开始多角度、多行业反复引申和描述。要是你和我一样对渲染容易感到困倦,看到第六章的时候我建议你提起神来。承认长尾里鱼目混杂以后,安德森用“过滤器”的概念来解释为什么直到现在长尾才开始重要起来。长尾里选择过多,所以要为每个人挑出合适的东西,需要更强大的过滤器。编辑、星探、营销者、广告是传统的“事前过滤器”。博客、评论、推荐、草根意见是“事后过滤器”,只有这些能应对长尾的低信噪比和极端个人化的兴趣取向。网络发展到今天,终于有了搜索、推荐这些强大的信息技术,可以为单个消费者提供有效的过滤。这是长尾现象和Web 2.0产生在同样年代的原因。

长尾理论》生动、易读、及时,面面俱到,这些决定了这会是一本对很多行业影响深远的书。期望更深入理解和指引的读者可能会觉得不过瘾。不过长尾是此时此刻正在发生的事情,有机会参与其中,比起任何单纯的脑力享受来,我认为是更加幸运的。