Finding Pareto Optimal Blogs on Hacker News

通过Evan Sangaline.|2017年6月13日

介绍

I’ve been doing a lot of technical writing recently and, with that experience, I’ve grown to more deeply appreciate the writing of others. It’s easy to take the effort behind an article for granted when you’ve grown accustomed to there being new high-quality content posted every day on Hacker News and Twitter. The truth is that a really good article can take days or more to put together and it isn’t easy to write even one article that really takes off, let alone a steady stream of them.

我对创造始终高质量的内容的人武装令人钦佩,我一直在努力跟踪我遇到的任何特别好的博客,并在他们出来时阅读他们的新文章。Heck,我甚至可能再次开始使用RSS阅读器。谷歌仍然是最好的吗?

我的博客集合已经变得慢慢地稳定,但作为一个携带的参与奖杯千年,这对我来说根本不够好。我想找到真正的Crèmedelacrème,我需要更大,以便做到这一点。所以我转向了我最喜欢的数据集之一,黑客新闻提交历史并寻求编制最佳博客列表,通过我可以提出的最客观的指标。既不是我的个人博客也没有万博输10万怎么办Intoli博客削减,所以显然还有一些臭虫来解决,但总的来说,我对结果非常满意。开玩笑......我的完全成功了。我发现了一堆新的(对我)作家,并在项目后面的分析中获得了很多乐趣。

将数据限制为博客

原始数据集是从中获得的黑客新闻提交的故事集合官方黑客新闻API。与外部URL相关的总共有230万个故事,除URL,每个故事的分数,提交时间,提交者,标题和评论数量也是已知的。然而,大多数这些故事实际上并不来自博客。事实上,只有约12.6%的是。

为了继续进行分析,我必须以某种方式确定哪些故事是或没有博客提交的。我通过过滤以少数公共前缀开头的URL路径来完成此操作:/博客//帖子//帖子/,和/YYYY/MM/。我还包括签名的域名博客。我添加了在媒体上的特殊处理物品(medium.com/@username/)因为他们是如此普遍。

这种方法总共有56,197个不同的博客和291,801个故事,用作分析的基础。我知道那里有一些优秀的博客,不幸通过裂缝滑落的异国情调的URL方案。如果您的优秀博客是其中之一,我深表歉意,但手动检测显示,此过滤器足以识别绝大多数博客提交。

“最好的”博客

所以“最好”的概念显然有点主观。有一些指标我们可以从黑客新闻数据中收集,似乎肯定地似乎很好。我会说博客,具有更多总文章,更大的文章的较大部分,以及更高的平均值/中位/最大分数通常会更好。这当然有点等同于黑客新闻与质量的成功,但 - 鉴于数据集 - 这就是我们真正要离开的一切。

即使在决定这些一般的积极度量之后,如何将它们结合的问题仍然存在。事实证明,在某种意义上,确定了这些不同度量的“最佳”配置的方式是相当明确的方式:选择帕累托最优blogs. Pareto optimality is a concept that I think is most easily demonstrated graphically. Let’s take a look at the different configurations of the number of articles a blog has produced and the fraction of them that make the front page (using scores greater than or equal to ten as an approximation for “making the front page”).

Pareto高效博客在高分Vs数量上说明

此绘图上的每个点代表单个博客,更大的绿点是构成帕累托前沿的帕累托最佳博客。Pareto最佳博客是其中没有其他博客的博客严格更好那where strictly better means better in at least one metric while being worse in none of them. You can see that for every non-Pareto optimal blog you can find a strictly better second blog that does better in one of the metrics and is either equivalent or better in the second metric as well. For example, a blog with 100 articles that make the front page 50% of the time would be strictly better than one that had 99 articles and made the front page 50% of the time.

我们还可以查看其他指标对,并在帕累托前沿看到类似的权衡。例如,在这里,我们可以看到普通的博客在其提交的平均值和最大分数方面最佳。

Pareto高效博客平均得分与最大分数

从中心辐射出来的线性图案对应于总物品的小整数。最大分数将完全等于博客的平均分数,只有一个提交,大约是两个提交的博客的平均分数,只有一个井,只有一个井等。这个特殊的帕累托前沿将被博客占主导地位number of submissions, but this won’t be an issue when we find the frontier in a higher dimensional metric space including the number of articles.

帕累托边境将包含最佳可能性任何加权每个度量的相对重要性。这意味着它还将包括一些可能与任何人认为合理平衡的公制权重。博客最提交的博客通用电气是帕累托最优,但几乎所有的条目吗t no upvotes and many are flagged as spam. The poor guy had one submission get 80 votes eight years ago and he’s been chasing the dream ever since (2104 times to be precise). Similarly,在黑客新闻中提交的博客最高的博客肯定是为了打破一个非常重要的故事,以获得4107票,而是相当不起眼。

To get around this issue, I added an additional restriction that all blogs must be at least average in each metric: total number of articles, fraction with score greater than or equal to ten, average score, median score, and maximum article score. This eliminates some of the more extreme configurations while otherwise leaving the Pareto frontier unchanged. The means and standard deviations for each metric are shown in the table that follows.

公制 Mean 标准偏差
总物品 5.19 22.82
首页分数 0.13 0.28
平均分 10.。86. 33.86
Median Score 8.14 31.57
最高分 29.34 93.22

在申请这最小值之后,帕累托前沿由17个博客组成,该博客按照最多为最多的物品的人排序。

Blog 总物品 首页分数 平均分 Median Score 最高分
博客.Ycombinator.com. 347.00 0.56 123.17 22. 1876年
www.gabrielweinberg.com/blog. 261.00 0.61 48.15 21. 424.
www.catonmat.net/blog. 252.00 0.66 41.27 20. 478.
stripe.com/blog. 156.00 0.57 103.90 17. 943.
www.damonology.net/blog. 129.00 0.69 83.79 48. 403.
博客.samaltman.com. 114.00 0.81 224.58 169. 1163.
sheddingbikes.com/posts. 69.00 0.83 84.81 43. 394
rethinkdb.com/blog 64.00 0.58 103.33 22. 167.4
Blog.Pinboard.in. 54.00 0.54 13.4.15 10. 1236.
blog.rust-lang.org. 48.00 0.96 345.33 346 1363
www.gazehawk.com/blog. 15.00 1.00 68.93 65. 274.
Josephg.com/Blog. 11.00 0.55 189.91 15. 1519.
datanitro.com/blog. 10.00 1.00 72.60 73. 139.
www.giftrocket.com/blog. 8.00 1.00 120.75 129. 207.
blog.jenniferdewalt.com 8.00 0.62 360.25 171. 1542.
varnull.adityamukerjee.net/post. 6.00 0.50 552.33 30. 2744
keybase.io/blog. 6.00 1.00 469.50. 302. 1025.

Unsurprisingly,the official Y Combinator blogand萨姆·阿尔曼的博客两者都削减。然后,一些大多数公司博客是YC公司(例如条纹rethinkdb.Giftrocket.Datanitro.,和Gazehawk.)。不要让我错了,这些博客都含有很多优秀的材料,但有趣的是要注意,至少41%的帕累托最优博客有一些YC隶属关系。用词@Dang.,“Meta基本上是破解”,似乎有些博客由于他们的隶属关系已经收到了一点额外的爱情。

对我来说最有意思的是个人博客,特别是对我来说是新的。几个突出者,我相信我会回来的Josephg.com/Blog.www.catonmat.net/blog.,和http://www.daemonology.net/blog/。大多数其他人不再更新或目前指向破碎的链接。

老实说,真的希望有一些个人博客和我没有听说过的人。为了消除一些众所周知的博客,我决定仅在黑客新闻中的三个或更少不同用户提交的博客上运行相同的优化程序。这导致了25个帕累托最佳博客,确实似乎往往往往往往更适合利基和个人博客。

Blog 总物品 首页分数 平均分 Median Score 最高分
博客.DirctedEdge.com. 25.00 0.80 49.40 39. 167.
blog.jitbit.com. 24.00 0.54 60.75 13. 522.
博客。jazzychad.net 22.00 0.95 87.27 56. 410.
www.gazehawk.com/blog. 15.00 1.00 68.93 65. 274.
ryanleecarson.tumblr.com/post 11.00 0.91 114.18 78. 452
博客.Framebase.io. 11.00 0.73 74.82 16. 486.
datanitro.com/blog. 10.00 1.00 72.60 73. 139.
www.giftrocket.com/blog. 8.00 1.00 120.75 129. 207.
sangaline.com/post. 8.00 0.75 30.4.38 86. 1274.
博客.Benjojo.co.uk. 8.00 0.75 193.62 135. 490.
cam.ly/blog 6.00 1.00 10.0.50 49. 298
varnull.adityamukerjee.net/post. 6.00 0.50 552.33 30. 2744
adriansampson.net/blog. 6.00 0.50 182.00 141. 439.
blog.oldgeekjobs.com. 6.00 0.50 290.83 136. 1071.
blog.fiplab.com. 5.00 0.80 119.00 153. 166.
blog.Ridejoy.com. 5.00 1.00 115.80. 50. 22.8
goodfil.ms/blog. 5.00 1.00 156.80 136. 21.3
www.mattgreer.org/post. 4.00 0.75 198.75 98. 594.
aaronrandall.com/blog 4.00 0.75 143.50 165. 241.
medium.com/@aboodman 4.00 0.50 20.0.25 146. 508.
mina.naguib.ca/blog. 3.00 1.00 203.33 90. 508.
www.breck-mckye.com/blog. 3.00 1.00 268.33 66. 675.
magic.io/blog. 3.00 1.00 255.67 296. 456
blog.vellumatlanta.com. 3.00 0.67 505.33 254. 1259.
ml.berkeley.edu/blog. 3.00 1.00 241.67 337 378.

我不知道是谁sangaline.com伙计,但他肯定听起来很帅。在所有严肃性中,我做了大部分的写作Into万博输10万怎么办li博客这几天,如果你想阅读更多,那么随时都会自由地来。我们还有RSS Feed.如果您的风格更多,那么新文章的每月消化时事通讯。

万博输10万怎么办INTOLI每月文章通讯

继续......你知道你想要。

至于该第二列表中的其他博客,那里有几张拖鞋和死亡链接,但也有一些真实的发现。Aaron Randalland本Cox的博客简单棒味ML@B阿德里安桑普森Matt GreerMINA NAGUIB,和Jimmy Breck-Mckyeare also very good. Some of the smaller company blogs also seem to have a lot of great archived content:goodfil.ms/blog.cam.ly/blog/Blog.DircatedEdge.com/

结论

I’m pretty happy with the results overall. I was after a few new high quality blogs to follow and I certainly found some that I really, really like. It’s a little tricky to balance looking for blogs that you haven’t heard of with wanting to find big and popular blogs, but there were easily at least five new blogs that I’ll definitely be following now. I hope that some other people out there found one or two that are new to them as well!

哦..并且,一如既往地,随意请与我们联系如果您希望在自己的数据采购,聚合或处理中获得一些帮助。我们喜欢致力于独特的问题,很乐意聊聊你正在努力的事情!

建议的文章

If you enjoyed this article, then you might also enjoy these related ones.

用Aopic算法执行有效的广泛爬网

通过Andre Perunicic
2018年9月16日

了解如何在广泛的爬网中估算页面重要性并分配带宽。

阅读更多

用户代理 - 使用Google Analytics和Circleci生成随机用户代理

通过Evan Sangaline.
2018年8月30日

A free dataset and JavaScript library for generating random user agents that are always current.

阅读更多

How F5Bot Slurps All of Reddit

通过刘易斯van winkle.
2018年7月30日

F5BOT的创建者详细解释了它是如何运作的,以及如何每天刮掉百万冗员的评论。

阅读更多

Comments