豆瓣 05-19-2015
首先非常抱歉,在将“豆邮”改称“私信”时没有提前解释原因,让大家觉得突然和不被尊重。这是我们的问题,在这里向大家道歉,请相信我们下次会做得更好。
“豆邮”改名是一个经过深思熟虑的决定,目前豆瓣网站几乎所有的功能都已经汇集在“豆瓣”这一个App里了(广播的转播也马上就会上线),越来越多的用户只在手机App里用豆瓣。豆邮需要能在App里被看到,但手机上用户一对一沟通的用法会更快、更随时随地,和“邮件”的感觉已经越来越远。另外,太多“豆”字头的小功能会让新用户摸不着头脑。十年之后,是时候给“豆邮”换个名字了。
我们考虑过包括“私信”、“消息”等在内的几个名称,最后决定用“私信”,是因为它和“设置”、“登录”一样,到处被用,不属于任何一家公司,也没有陌生感。改名私信后,我们会把它做得更好用,比如现在已经能在手机私信里发图片了。
“豆邮”陪伴过我们很长一段时间,我们理解大家的感情和不舍,我们自己也会怀念“豆邮(1)”。借用一位豆友的话:“改变,很少是愉快的,但我仍然相信你我都会变得更好。请不要忘记那些属于曾经的豆邮,好好保存在记忆中吧。” “豆瓣”的独一无二不在于这个功能的名字。豆瓣一直会是豆瓣,但豆瓣会不断成长变化。感谢大家一直以来的陪伴和包容,也请大家相信,我们会越变越好。
豆瓣 03-30-2015
在豆瓣,我们常通过机器学习的方式从各种数据中训练出模型,利用这些模型帮助我们理解用户并为大家挖掘出有价值的内容:豆瓣FM的个性化歌曲推荐、书影音的喜欢也喜欢、首页的豆瓣猜等等。
早期的时候,单机训练的程序基本就能满足需求。一方面数据量不大,另一方面有的模型算一次可以用很长时间,对性能要求就没有那么高。不过很快,随着豆瓣的壮大,我们有了分布式计算的需求。当时Spark还没有Python接口,豆瓣基于Spark的思路开发了Dpark系统。Dpark非常成功,一下子把我们能解决问题的规模扩大了不少。
Dpark的出现解决了豆瓣大部分的数据需求和一部分机器学习模型的训练需求。然而,对于那些对性能要求较高的模型,Python并不能达到预期。同时,mapreduce的计算模式对于机器学习算法来说不够灵活。因此,对于较为复杂的模型的并行训练,我们仍然采用C++加MPI这样较为费时费力的方式来开发。
2013年初,我们从Jeff Dean发表在NIPS12上的论文《Large Scale Distributed Deep Networks》中了解到Google公司用来做深度学习的训练框架DistBelief。DistBelief将巨大的深度学习模型分布存储在全局的参数服务器中,计算节点通过参数服务器进行信息传递,很好地解决了随机梯度下降和L-BFGS算法的分布式训练问题。豆瓣当时并没有做深度学习的需求,但我们意识到机器学习问题可以转化成优化问题,而解优化问题的众多方法和随机梯度下降的过程是类似的:选定初始值,按某种方向,迭代直到收敛。
为了提高分布式算法的开发效率和增强代码被复用的能力,我们决定抽象出一个比mapreduce更适合机器学习模型训练的范式做成框架。Paracel项目就是在这样的背景下产生的,自从2014年3月在豆瓣内部发布最初版本至今已一年时间,我们决定将它开源。
Paracel是一个基于参数服务器通信模型的分布式训练框架。参数服务器可以被理解成一个全局分布式的key-value存储,用来存储待训练的模型。同时,参数服务器还能通过用户定义的update函数进行分布式计算,这时它与mapreduce系统中的reducer很类似。随着数据量的增长和模型的越来越复杂,单机的内存已经装载不下许多模型的参数了。Paracel不仅支持数据并行剖分,同时支持模型的并行剖分。开发者可以将训练数据划分到各个计算节点,并将对应的模型在参数服务器端进行划分,使得算法在计算性能和内存使用上都做到可扩展。
Paracel提供了简单又通用的通信接口,计算节点可以向参数服务器读取、写入、更新模型。在更新操作时,用户可以自定义的update函数。与琐碎的MPI通信方式相比,计算节点并不需要知道参数存放的具体信息,而是通过统一的接口与参数服务器进行交互,简化了开发的复杂度。值得强调的一点是,基于Paracel来开发分布式机器学习算法非常地直观,对于开发者而言,在Paracel中实现一个分布式机器学习算法和实现一个串行算法并没有太大区别。事实上,在开发Paracel中算法库的过程中,我们通常也是先实现一个单机的版本,然后在其基础上加少量的代码完成并行化的。
Paracel解决的另一问题是straggler问题:由于一些软硬件的原因,节点的计算能力往往不尽相同。对于迭代问题来说,每一轮结束时算得快的节点都需等待算得慢的节点算完,再进行下一轮迭代。这种等待在节点数增多时将变得尤为明显,从而拖慢整体的性能。Paracel放宽了“每个迭代步都等待”这个约束:当在一轮迭代结束时,算得快的节点可以继续下一轮迭代,但不能比最慢的节点领先参数s个迭代步。当领先超过s个迭代步,Paracel才会强制进行等待。这样异步的控制方式既从整体上省去了等待时间,也能间接地帮助慢的节点赶上。从优化问题的角度来看,虽然单迭代步收敛得慢了,然而每个迭代步的时间开销变少了,总体上收敛也就变快了。
此外,我们还在Paracel项目中开源了一个基于它实现的算法工具集,用户在安装完Paracel后就可以用其中的算法工具进行数据处理。我们将会不断地在这个工具集中加入更多的算法。
最后,希望能有更多的人使用Paracel。如果你想贡献代码,不妨fork它在GitHub上的代码仓库并给我们提交pull requests.
项目主页:paracel.io
20分钟教程:paracel.io/docs/quick_tutorial.html
API文档:paracel.io/docs/api_reference.html
豆瓣 02-09-2015
根据1亿用户在过去一年的标记,我们整理了2014年口碑最好的兴趣榜单。包含图书、电影、音乐、小组、东西(商品)等。另外,在大多条目旁,会推荐一个其所在的豆列。比如沿着《星际穿越》,你可以发现“数学、物理学生可能感兴趣的电影、纪录片”;沿着小鹿木架夜灯,你可以找到“一送礼物就头疼星人只好默默的mark”豆列;跟着My Little Airport《适婚的年龄》 ,发现 “上班的路那么长,听些歌消遣吧”。通过数据的整理,在这些榜单与豆列中,你可以发现更多在过去一年中被大众所喜爱的好内容。
当然,你也可以下载豆瓣App,它汇集了一亿人的生活趣味。除了书影音外,还涵盖美食、旅行、时尚、居家等生活的方方面面。帮你发现更好的2015。
注:排序根据用户评分综合评价人数得出。
豆瓣读书-口碑图书:
豆瓣阅读-口碑原创作品
(即个人作者直接在豆瓣阅读发布的作品,综合销量和评分排序)
豆瓣阅读-口碑电子图书
(即电子版纸质图书,综合销量和评分排序)
豆瓣电影-口碑影片:
豆瓣音乐-口碑专辑
豆瓣东西-口碑商品
豆瓣小组-口碑小组
(综合小组的话题活跃度、话题质量(推荐、喜欢)和成员活跃度排序)
豆瓣 12-19-2014
豆瓣第一个用户豆列,“思维的乐趣推荐书目”,创建于2005年8月17日。以后几年里,书影音、社区和东西下衍生出七八种豆列,相册也经常被大家当作变种的图片豆列在用。上千万个豆列是豆瓣用户发现好东西之后分享“精选”的工具,它覆盖了林林总总的个人兴趣,汇集着豆瓣里历年沉积的干货。借一位友邻的话说,“在豆瓣的宇宙里一切都是豆列的不同现象”。
因为这样,豆瓣近年里最大跳跃的这一刻,我们把豆列升级成了手机上豆瓣App的第一重点,和书影音查询并列。所有豆列统一成任意内容混合的一种,看到什么好东西都能加进来。豆列会等着你按照影视、旅行、时尚、科技宅、读书、美食、居家这样的兴趣线索去发现,不再被豆瓣之前的书影音、相册、日记、东西等类型划分,但豆瓣上几亿好东西都还会在里面。而你自己关注的所有豆列,它们的更新汇总就是豆瓣App的首屏。
新的2.0版App Android版已发布,iOS版也已提交审核。希望它对你更有用、更有趣。希望新用户也会觉得更容易用起来。作为2系列第一个版本的各种不完备之处会陆续被完善。网站会晚一两个月跟随更新。广播的内容和新的个人页面会在后续的版本里进到豆瓣App里来。豆瓣App在继续搭建手机上新用法的同时,陆续会整合豆瓣下的各个其他App里对大众有用的内容。
跟着新版的App,整个豆瓣也迈入下一个生命阶段。豆瓣2.0的使命,是全面、直接、明确地服务于你个人兴趣的方方面面,不止于书、电影和音乐。新豆瓣也会把发现好东西、分享意见和发现有意思的人用最简单的方式在一处实现,一步步变成一个全面围绕个人兴趣的服务。2系列的App, 现在想做到的,是汇集一亿人的生活趣味,在你拓宽和提升个人生活、积极消灭无聊的过程里提供帮助。
搭建新豆瓣的过程可能会给你在电脑上现有的使用带来一些不便或者问题,这里我们向大家致以歉意和感谢。豆瓣历年横向的拓宽,和我们许多用户个人生活的拓宽晋级是一起的经历。希望你看到,像你迈入新的人生阶段一样,纵有不适和舍弃,新的世界还是精彩更多。
-阿北
豆瓣音乐 09-16-2014
在豆瓣音乐人上线6年后,我们带来了一个全新的项目:“金羊毛计划”。加入“金羊毛计划”,音乐人将获得切实的收益。
“金羊毛计划”是豆瓣音乐人的一次全新尝试,它将是第一个以直接、透明的方式为音乐人的作品在线播放付费的项目。在此项目中,豆瓣将与音乐人分享作品播放所带来的广告净收益,并确保音乐人获得比我们更多的收入。豆瓣会按照作品的播放次数为音乐人支付费用,这意味着,作品的播放即收入。而听众则无需支付任何费用,可以尽情享受好音乐带来的快乐。
“金羊毛计划”将是一次从零开始的尝试,我们希望能探索出一个全新的互联网音乐生态。古往今来,富有浪漫色彩的音乐人大多不擅长经营自己,在获得属于自己的收益之前,他们需要越过层层羁绊;而这一次,我们希望简化所有的中间环节,让音乐人的收益变的清晰直观。
在“金羊毛计划”的启动阶段,我们根据广告收入和运营现状,将支付标准定为:每千次播放1元,未来,随着项目模式趋于成熟及收入的增加,音乐人在豆瓣获得的作品播放收入也将会随之提升。“金羊毛计划”将为音乐人提供直观、透明的收入统计服务,每月一次的固定结算与自动转账汇款,此外还将有更好的作品发现/推广服务。我们相信,这将是一次契机,它能帮助音乐人更专注于音乐本身,从而获得更多的听众与歌迷,以及随之而来的不可预知的财富。
在财富之外,我们更希望能重拾“尊重” —— 无论是面对音乐、音乐人、用户习惯或是商业规律,尊重都不应当被忽视。
“金羊毛计划”目前还在测试状态中,首批加入测试的音乐人名单里,你可以看到孔令奇、戴佩妮、金玟岐、腰、P.K.14、顶楼的马戏团、痛仰等,项目正式上线后将开放给所有音乐人。
“金羊毛”的名字源于古希腊神话故事,它来自一只会飞、会说话的公羊,它象征着财富、冒险、尊严与不屈不挠的意志,无数英雄梦寐以求。在我们看来,这个名字的寓意与当下音乐人所面临的机遇与挑战有着太多的共同点。音乐从来都不应该被固有的条条框框限制,它应当有各种各样的奇思妙想,各种各样的可能性,在更加广袤的土地上发芽生长。
豆瓣音乐人已走过6年的时光,我们听见站在其身后的群体已经发出了巨大的声响。放眼当下的流行文化,从热播的选秀节目到各地音乐节的主舞台,随处可见豆瓣与音乐人的身影。花朵已经绽放,果实正在成熟,我们有理由相信在不久的将来,我们会见到果皮爆裂的瞬间,种子会播向四面八方。
豆瓣 08-08-2014
文/阿北
我们今天发布了一个叫做“豆瓣”的新的应用,我们希望它以后是所有人手里的“豆瓣”。
豆瓣的服务广泛多样,每个人用每项服务的次数都有不同。之前几年里,豆瓣主要的网站频道陆续都有了各自对应的App。这样每个App用法明确,用途和体验都有空间可以持续改善,而用户可以各取所需。但到了今天,手机上每个人面临成千上万App选择的时候,有用但打开次数不多的App成了所有人的装或不装的纠结。不被打开的体验其实是最差的体验。
你希望有更集中的豆瓣应用,越来越多的人也希望这样。我们需要找到办法满足这个,又避免做出一个无比复杂的应用。我们还需要它是为手机而生的应用,而不是一个手机版的豆瓣。我们还希望它是有更宽更远未来的东西。
这是一个灵魂深处搜寻的过程。最后我们找到的办法是从用跨豆瓣各频道、最多人共通的用法入手。直接访问豆瓣的所有人里,最普遍而一致的用法是围绕电影、电视、书、唱片、活动(我们叫做”条目”的东西)的评分评论、发现和讨论。我们会把和网站同步的评分评论作为一个起点和基础,在手机上重新构建围绕个人兴趣的发现和讨论。这会是手机上新豆瓣的第一步。
“豆瓣”App的第一个版本主要围绕评分和评论。它汇集了一千多万用户在豆瓣各处的几亿条评分和评论,它也是中文世界里最完整的手边书影音资料库。在你听说了一个东西之后,它通过别人的意见帮你判断到底好不好。这个版本也用最简单的方式开启了手机上特有的围绕兴趣的讨论:每一个条目下面有一个即时的讨论群。下一个大的版本里,除了评分评论和讨论会更加可用,发现新东西的用法会加进来。
这个整合的“豆瓣”App服务于所有人在手机上最普遍的那些需要。更加深入、专门和网站沿袭的用法,会继续由豆瓣下分领域的App来提供。第一版安卓用户可以马上下载,iPhone用户需要等苹果应用商店的审核,估计到八月中就可以用了。
这个App的设计和开发只用了一个多月时间,它还比较简陋,有些地方是残缺的,离我们自己的满意标准还很远。但我们希望你能第一时间就能开始用。今天开始我们会用至少两周一次的速度不断更新和完善。请从吐槽网站改版移步吐槽应用更新,我提前感谢你的关注和耐心。
这个App发布的同时,豆瓣团队在多方向探索几年之后,也重新回到集中、专注、快速的工作方式中。很多更大的想法在等着实践。“豆瓣”App不只是豆瓣在手机上的延续,它是一个新的开始。
豆瓣音乐 07-17-2014
不知不觉豆瓣FM已经陪伴大家5年的时间,而豆瓣FM App也已经上线4年多了。今天,豆瓣FM App进行了一次重要更新,
它看起来和以前好像有点不一样了。
在上线之初,我们希望豆瓣FM简单好用,熟悉每个使用者的脾气喜好,就像一个老朋友默默陪伴在身边,你无需刻意说什么或做什么,它却总能让你和喜欢的音乐不期而遇。这种被动发现音乐的方式让豆瓣FM收获了一大批忠实用户,但同时也有越来越多的使用者期待,在遇到喜欢的音乐时,我是否可以更主动的寻找更多好音乐?
在以前,如果你偶然听到一首喜欢的歌曲,你会在第一时间点上红心,之后只能祈求心情帝FM君多播放一些这种类型的歌了。而在新版
豆瓣FM中,你只需点按“听相似歌曲”,你喜欢的音乐就会源源不断地跳出来。这是对红心功能的延展,也是发现音乐最自然的步骤。在积累了大量机器学习和用户数据后的今天,我们上线了“相似歌曲”功能,这将给你的“发现音乐”之旅提供更多选择。
同时,新版
豆瓣FM里还加入了“节目”——豆友根据不同主题创建的歌单,这也是帮助你主动发现音乐的一个功能。偶然听到一首喜欢的歌曲,可以看看它在哪个节目中,说不定“顺藤摸瓜”,发现一大波喜欢的音乐。另外,不同节目还能满足你不同的收听心情和收听场景——失眠党们或许可以听听“整夜整夜不睡觉”;下雨的时候,有“等你在雨中,我却睡着了”陪伴你;当你跑步的时候,“来接鸡血去跑步”想必最适合你啦。其他新的功能(如,单曲、节目、红心兆赫都可离线收听,你也可以用豆瓣FM收听手机中的歌曲)欢迎你下载新版
豆瓣FM亲自体验哦~
目前豆瓣FM中有20多万个节目,满足你不同心情和场景下的收听需求
可查看包含这首歌的节目
单曲、节目、红心兆赫均可离线收听
PS:iPhone用户请
点此下载豆瓣FM4.0版本,Android用户请再耐心等待一段时间。
豆瓣 05-23-2014
今天我们上线了一个新的App「一刻」,我们希望通过这个App使得豆瓣上内容创造者的成果可以影响到更多的人。
豆瓣是一个有九年多历史的大型内容社区,每月独立访问用户超过2亿。一直以来,用户通过日记、评论、小组等UGC产品,创作和积累着大量高质量内容,他们在豆瓣上分享自己对事物的观点,对人生的洞察,彼此影响与被影响。
在豆瓣中,用户关注其他用户,再以豆瓣广播为载体获取内容分享,进而消费,然后再分享。这是一个自然的、成熟的、被广泛运用的内容传播模式。这个模式基于社交关系链的建立,需要足够时间,逐步发现、积累、完善。整个过程有趣,但却缓慢。
如何降低用户使用和认知豆瓣的门槛,让豆瓣中的优质内容更便捷更快速的被更多人看到?这是我们一直思考的问题。在 web 端我们已经做了很多尝试,曾有过的「豆瓣猜」首页,以及进化后的与广播融为一体的「兴趣订阅」。而「一刻」,是移动端的延展。
如大家所见,「一刻」是纯粹面向移动端的内容消费 App,产品结构非常简单,没有繁琐的交互和复杂的设计,整个 App 就是在为用户便捷的获取和消费内容服务。每天,豆瓣web端创造和产生的优质内容,通过算法筛选和人工整理之后,被推送到用户的手机上。用户在空闲的碎片时间,只需拿出手机打开「一刻」,就可以直接消费。
感谢内容创造者,希望通过「一刻」这个渠道,可以使你们的成果让更多人看到。
感谢内容消费者,你们让豆瓣上的内容变得更有意义,希望你们可以通过「一刻」更便捷的使用豆瓣。
在移动端做一个媒体性的产品,是豆瓣这个大型社区新的延伸,也是尝试。我们的经验并不充分,需要不断的学习和积累,我们也一直在努力。希望你在空闲一刻时,能想起「一刻」。
PS:Android用户请点这里下载,iOS用户请再等待一段时间,约在6月初可以下载。
豆瓣 01-21-2014
在刚刚过去的2013年底,豆瓣注册用户达7900万,月活跃用户超过2亿。从2005年以书评起步,豆瓣逐渐成长为包括图书、电影、音乐、购物、美食、时尚、娱乐等包含生活方方面面的线上社区。与此同时,也形成了中文互联网领域最广泛的用户兴趣图谱。 这一切,都得益于你的参与。
根据你在2013年的标注,我们整理了过去1年活跃在豆瓣上的兴趣榜单。它包括图书、电影、音乐、小组、线上活动等。在这里, 你可以看到2013年最受关注和最被大众喜爱的生活内容。这是通过每一个“你”的参与而来的排行榜,相比专家或编辑推荐,这份榜单会更具有参考性。
数据主要分为两部分,口碑榜与最受关注榜。其中,口碑榜是根据用户评分综合评价人数得出,最受关注榜则根据用户收藏人数和时间加权得出。口碑小组是根据新增人数和单个话题的喜欢数综合得出。
好了,话不多说。上榜单:
豆瓣读书:
口碑图书:
最受关注图书:
豆瓣阅读口碑榜:
原创作品(虚构类)
原创作品(非虚构类)
电子图书(虚构类)
电子图书(非虚构类)
豆瓣电影:
口碑影片:
最受关注影片:
豆瓣音乐:
口碑专辑:
最受关注专辑:
最受关注音乐人:
口碑小组:
最受关注线上活动:
豆瓣电影 01-21-2014
2013年,中国电影票房突破了200亿(据广电总局公开数据),达到北美市场的1/3。作为中国最大的电影社区,豆瓣电影依旧为海量用户提供全方位电影服务,覆盖范围自线上电影分享至线下电影生活。
同时我们也在完善自身。在「算法工程师如何改进豆瓣电影 TOP250 」中,你可以了解到我们如何优化了算法机制。电影问答的上线可以让你与同样感兴趣的人互动,发现更多关于电影的好内容。
现在,2013年过去了,豆瓣电影用一种有价值的形式来怀念它。我们从全年海量用户数据中筛选了一些有趣的信息,同时结合互联网公开数据,制作成了「拍电影」「看电影」「聊电影」三张主题图谱。透过这份图谱中的大数据,你将能回顾和解读2013年全球电影市场的多重面貌。同时,也会了解喜欢电影的豆友都在豆瓣做了什么有趣的事。(点击图片可查看大图)
附录:
豆瓣电影2013年度【口碑榜】Top100
豆瓣电影2013年度评价TOP 榜单(含电视剧)