文本挖掘《欢乐颂》:你站对CP了吗?

 

关于《欢乐颂》的文本挖掘,请仔细阅读,内有福利哦!...



编辑推荐

听说最近大家都在看《欢乐颂》,这部热剧里,女性可谓是绝对的主角,22楼5个女房客的互动好像把男性角色们的风头都抢光了;但是热门剧中又总是不能缺了言情戏的点缀。所以,《欢乐颂》到底谁和谁堪称好闺蜜、谁和谁又最为般配呢?还是让文本挖掘为你揭晓吧……

最近老妈又缠着我给她推荐电视剧,我一个只看印度神剧的人,每次给她推荐国产剧都是上网一搜热播剧,随便推荐一下交差。这次依旧如法炮制,看到《欢乐颂》好像蛮火的,就顺势推荐给她了。没过几天,她老人家就把几十集的剧给看完了,这下好了,连我都认不全的明星,现在她老人家如数家珍,没事还跟我聊聊,她觉得谁谁特般配,谁谁相爱相杀。我为了配合她老人家的爱好,也赶紧跟着看看吧,我这一看不要紧,她老人家讲的,咋和我理解的不一样呢。关键是,意见相左时,谁都无法说服谁。好吧,是时候用我的看家本领来证明自己了,颤抖吧,人类!

方法要判断两个人的关系的密切程度,可以从他们接触的频率、交流的次数入手;反映到小说上,就是两个人出现在同一场景或同一事件里的次数很多。因此在实际分析时,我们假设一个段落是一个场景,出现在这个段落里的人物,彼此之间都是有关系的。基于这个假设,我们先对原著小说进行文本分词,再将每个段落里出现的人物抓取出来,然后统计每组人物关系出现的频数,以得到我们关注的人物之间的关系网络。

上述分析思路中蕴含的最关键的技术点就是文本分词。在本次分析中,我们使用R软件中的segmentCN函数来实现。R是一个开源软件,用于数据处理、统计分析和制图,因为可以免费下载和使用,以及包含了实现各种分析功能的程序包,被广泛认可和使用。(要调用segmentCN函数需要加载Rwordseg程序包和rJava程序包,其中Rwordseg程序包已经不能直接在R中通过install.packages直接安装,而是需要先下载到本地再在R中加载)。从加载程序包,到进行中文分词,再到初步抓取人物的程序如下图所示:
我们这次主要分析的人物包括欢乐颂22层的5位女生——安迪、曲筱绡、樊胜美、邱莹莹和关雎尔,以及在电视剧中与5位女生有密切情感纠葛,且在广大女性观众“换老公清单”里的5位男士——赵启平、魏渭、王柏川、谭宗明和包奕凡。

对于这10个人物,至多应该有45种(两两)人物关系,当然也许也有人生压根没有交集的。为了更准确更完整地抓取每一个场景中的人物,我们考虑到加上这是个人物的昵称,比如魏渭的昵称是“奇点”,如果不抓取这个名字,可能最后分析出来的结果就是安迪和魏渭从来没有爱过。
分析结果最终我们按照关系密切程度排序,排在前三名,即关系最密切的3组人物关系如下图所示:

安迪和曲筱绡在666个场景中同时出现,站到“安迪x曲筱绡”cp的你们真是太6了!樊胜美和邱莹莹在611个场景中同时出现,料想二人大概是一直处于一个挖坑一个填的模式中吧。安迪和小包总同时出现在602个场景中,算是出现频次最高的异性cp了,而安迪和奇点(安迪的第一任男朋友魏渭)在小说原著中,共同出现的场次为443次。所以安迪最后还是和小包总在一起了?从我们的分析结果来看是这样的……为奇点点蜡1秒钟。

另外我们还将人物关系网络用更直观的网络关系图的形式展现出来,如下图所示:
从图上来看,安迪俨然是人生赢家啊,左拥右抱不说,还霸占着辣么多小姑娘,简直羡煞旁人。反观奇点,人艰不拆,您老还是早觅出路的好。似乎第二女主非樊胜美莫属了,她既与各姐妹关系都十分密切,也与王柏川关系稳定,也是让大家十分欣慰。最值得关注的是,暗恋赵医生的关关,他俩的线呢?再仔仔细细端详一番,还是没找到,真考验眼神。话说,哪位小友要是找到,可否告知在下,5名在公众号里留言找到那根线的小友,在下红包伺候~

看到这里,大家可能会提出一个疑问,我们之前假设一个段落代表一个场景,但实际小说可能需要几个段落才能把一个场景讲完;按照之前的假设,我们会重复统计一些人物关系,也会遗漏一些人物关系。因此我们对方法进行改进,加入一个段落跨度的参数,用于定义一个场景。在我们的分析中,设定这个参数等于3,即在第i段出现的某个人物,除了和本段的其他人物有关系外,也和i+1段和i+2段出现的人物有关系。举个简单的例子,第i段抓取出的人物是曲筱绡和赵医生, 在第i+1段抓取的人物是安迪和奇点,在第i+2段没有抓取到这10个人物中的任何一位,于是计曲筱绡和赵医生、曲筱绡和安迪、曲筱绡和奇点、赵医生和安迪、赵医生和奇点的人物关系出现一次。

按照这种做法,最终我们得到关系密切程度排在前三名的3组人物关系如下:
安迪x樊胜美cp击败了安迪和小包总的官配,笔者不禁感叹,百合大法好!
画出的人物关系网络如下图所示:



不管怎么看,安迪都是人生赢家啊,其他人可以洗洗睡了。奇点,把你跟安迪放得再近,似乎也没多大用,哎。。。终于!换了一种算法,可以看到关关和赵医生了,不过和奇点一样,然并卵。果然本剧还是一部弘扬姐妹情的主旋律作品。
续改进方向

本文在对人物关系的紧密程度进行分析时,认为出现在几个段落内的人物,彼此之间都是有关系的,但关系的紧密程度会被认为是一致的;然而现实中在一个场景里,会有事件主要人物和次要人物,他们之间的关系的紧密程度显然是不同的。于是在未来的分析中,可以考虑识别人物在小说中出现的位置,计算人物之间的距离,识别场景/事件里的主要人物和次要人物,以及他们之间的亲疏程度,赋予差异化的权重,从而更准确地反映人物关系的紧密程度。

此外,以我们现在的分析结果,曲筱绡和樊胜美这对人物关系在小说中出现的频次还略多于曲筱绡和赵医生,但我不能下结论说曲筱绡跟“樊大姐”的关系比跟她的“唐僧”还亲密。这是由于我们没有分析人物之间的情感关系造成的,因此在未来的分析中,还可以考虑引入情感分析。

最后的最后,我们要对CP党们说一句:如果我们的分析结果和您的立场不一致,请轻拍。

关于我们

     我们是KPMG专业数据挖掘团队,在微信公众号中,我们会在每周六晚8点准时推送一篇原创文章。文章都是由项目经验丰富的博士以及资深顾问精心准备,内容也是结合实际业务的理论应用和心得体会等干货。欢迎大家关注我们的微信公众号,关注原创数据挖掘精品文章。如果想要联系我们,也可以在公众号中直接发送想说的话与我们联系交流。

长按二维码即可关注!也请随手推荐我们给你的小伙伴 ↓↓↓↓


    关注 KPMG大数据挖掘


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册