Issue 13. 2021-07-06
- 标错的后撤步三分球和分叉的进攻效率 - The F5 (substack.com). F5 是我在最近 Substack 上发现的体育数据分析专栏之一。(名字可能是来源于看早先看体育新闻、实时比分不停按 F5 刷新的动作。)文章主要做了两件无聊而有趣的事情:第一个是把这赛季顶尖投手的 3PA 重看了一遍,并做了正确的标注;第二个则是把球员的常规赛、季后赛进攻效率做的对比。进攻效率的表现使用的是「真实命中率 (True Shooting Percentage)」 vs 「使用率 (Usage Percentage)」。
- 1万5千局象棋比赛中棋子的常见位置 - dataisbeautiful (reddit.com) 虽然不太懂象棋,但是想必「静态的位置」应该也与「棋子的走向」有着关联把?
- 分析 Bob Ross 画作的常用颜色 - (connorrothschild.github.io). Bob Ross 是美国知名的画家以及电视人物,上世纪80年代他曾在电视上录制过一档教授人们油画技巧的系列节目,广受好评。尽管他已去世多年,他在节目中亲切和蔼的声音却与近两年热炒的 ASMR 概念不谋而合,这档节目也在 YouTube 上焕发了第二春。作为一个几乎不听点什么就睡不着的人,我个人的感受是:真的很催眠。
- 百万数量级的足球传球数据 - (observablehq.com) 我的感觉是如果能把三类传球类型用不同的抛物线拟合出来,而非用一刀切的「传球飞行最高点为距离的三分之一」来做,效果可能会不同,但是会更真实一些。
- Nightingale 有了新的独立主页 - (nightingaledvs.com) 不用再被 Medium 的 paywall 所限制。
- Plot Parade,一个基于 d3.js 开发的「可视化艺术项目」,可以自己输入一些简单数据调试。
- The Five Rules of Harmony in the Art of Federica Fragapane - (medium.com) 在澎湃的美数课公众号看到了一篇译文,翻译的内容是一位法国的数据科学家对于另外一位意大利的 visualization practitioner 的作品解析。总结的这五条规则对于个人来说见仁见智把,我以为放之于任何设计相关的风格总结,都适用。不过还是很开心能找到这样一位优秀的设计者的 portfolio.
- Generating an organic grid - (andersource.dev) 自己动手实现游戏 Townscraper 中 organic grid 这一功能。整个游戏因为这种自由有如呼吸的感觉非常禅意。

- 将一个开源项目的开发活动做成动态可视化 - (reddit.com) 使用的是一款叫做 Gourcel 的版本控制可视化工具。
- 澳洲南部鼠灾的规模- Washington Post 似乎从 2019 年底起澳洲的自然灾害就一直不停,就不推荐害怕老鼠的打开看了,图片会引起不适。Fun fact: 「鼠王」是一种多只老鼠尾巴缠绕在一起的现象,而并非一只大老鼠。
- 用 Datawrapper 实现 Game of Life - (datawrapper.de) 我一直觉得 Game of Life 这种细胞自动机 (cellular automata) 是对于「规则」二字最美的诠释。足够简单,但也足够有生命的感觉。
- Data Sketches 的读书会活动 - (datawrapper.de) Data Vis Book Club 七月份的书目是之前提到过的 Nadieh Bremer 和 Shirley Wu 的新书 Data Sketches. 读书会在一个时间由读者自发举办,讨论书中的方方面面。有时候甚至能邀请到作者本人参加,这次也不例外。
- 开源统计入门资料 Introduction to Modern Statistics - (openintro.org):
The new book puts a heavy emphasis on exploratory data analysis (specifically exploring multivariate relationships using visualization, summarization, and descriptive models) and provides a thorough discussion of simulation-based inference using randomization and bootstrapping, followed by a presentation of the related Central Limit Theorem based approaches.
- RStudio 举办的第三届年度 Shiny 大赛获奖名单 这种能够告诉我们「工具的可能性」的比赛,对于学习者而言是一种莫大的鼓舞。
- EURO2020 小组赛期间的比分走势 - (twitter.com)
- A History of Data Visualization and Graphic Communication - (goodreads.com) Michael Friendly 的新书,回溯400年,以及这四百年来可视化图表的发展和它们的前世今生。
- Seeing How Much We Ate Over the Years - (flowingdata.com) Nathan Yau 把美国农业部公布的近50年国内年平均涉入食品量用 streamline 的形式做了呈现。其中一点有趣的 twist 在于:他把同一大类下的食品在不同年份都是通过数量多少排布的。这样的好处是你能直观看到某类食品排位上升的时间点。

- The Economist 用什么工具做可视化呢? Off the Charts 是《经济学人》杂志的一份订阅邮件,重在分享他们的数据团队如何用数字图表完成一份新闻报道。其中本期则是他们对于团队内常用工具的一个分享。自然,「造轮子」这样的事情他们也在做。
- 用 R 来做像素画 - (rostrum.blog) 很蠢,很低效率,但是很上瘾。为什么对于 8bit, 16bit像素化复古风的不论是游戏还是设计到今天都有人乐此不疲?我不明白,但我也是其中之一。

- Estimating win probability from best-of-7 series is not straightforward | Statistical Odds & Ends (wordpress.com)
- reddit 改进了他们的首页「最佳排序」算法 目前修改仅限于移动端 app. TL;DR 也开始基于用户的行为给推荐内容;改变的地方在于用户行为的扩大化,包容量更多;推荐的目标也从先前的 subreddit 细化到具体的 post,更为精准。
- 有意思的是最高票的回复是:
Get rid of the following/followers system. Last thing we want here is influencers.