听了这么多年民谣,大家有没有觉得很多歌都似曾相识?为了搞清楚这群民谣歌手都在唱些什么,有程序员对42万字歌词进行了数据分析。
最终他得出民谣歌手的综合画像:一个喜欢南方的北京小伙子,觉得世界很操蛋,但骂归骂,到底是对生活有希望的,憧憬着明天,在春天感到快乐,在冬天感到孤独,没有女朋友,但有几个纠缠不清的前女友,经常和她们见面,见面的地方可能是成都,昆明,南京,上海,武汉。。。。。
以下是程序员整个分析过程:
我选取了大约30个覆盖从程序员,朋克,基佬到女权主义者,中国大妈,穆斯林的能够覆盖所有人群的民谣歌手和乐队,包括李志,夭十三,赵雷,宋冬野,周云蓬,逃跑计划等等,为了设立参照,我还取了一些其他风格的乐队,比如老一些的汪峰,窦唯,朴树和新一些的低苦艾,谢天笑,反光镜,草东等等。
我首先写了一个爬虫,它可以根据歌手或乐队的名字来自动抓取这个歌手的所有歌,为了保证平衡,我最多只抓取前50首歌,老实说,大多数歌手被人熟知的歌并不会超过这个数字。
这样,我得到了小一百个装满歌词的文件,鼠标滑过就能感觉到从里面溢出来的文艺气息,我感觉一阵忧郁袭来,为了写接下来的代码,我吹掉了一瓶可乐。
接下来,我开始了对这些歌词(约42万字)的分析。
首先是情绪分析,通过对这些歌词的自然语言处理,我知道了不同歌手们吟唱的到底是开心还是不开心的事情:
数值的分布比较平均,但大致可以看得出有三个分类,一类是特别开心的,例如郝云。但是我一开始也不太懂,为什么丢火车的情绪也这么高,后来听了几遍他们的歌,发现他们虽然唱腔惨兮兮的,但是歌词还是充满正能量的,丢火车乐队歌词中出现次数最多的三个词分别是「永远」「晚安」「倔强」,这些都是正面情绪的词。第二类则是比较忧伤的,以我们熟悉的逼哥为代表,他们的歌词中充斥着孤独,沉默,泪水等词语。虽不暴力,但是多少有一些黑暗。