抖音python真的那么好吗_python看抖音用户画像,摩羯天蝎居然刷得最多?

抖音python真的那么好吗_python看抖音用户画像,摩羯天蝎居然刷得最多?python看抖音用户画像,摩羯天蝎居然刷得最多?

大家好,又见面了,我是你们的朋友全栈君。

日刷抖音三百条,悠悠一笑乐逍遥,夜深忽醒窗外事,不知今夕是何年。

要从上个月说起,那天晚上准备睡觉了,然后朋友突然发来一个抖音热门视频。

一向一本正经苟于工作的我,竟然沉醉于小姐姐的甜蜜的笑容,加之想到抖音好像周边的人都在玩,让我不由地也下了抖音,则立马陶醉于这抖音真对味,这世界真新鲜,这世上竟有如此光鲜亮丽的美女帅哥萌娃的感叹之中,简直没舍得合上眼。

等我准备合眼的时候,看了时间,已经早上4点半了,感叹于抖音的强大,更对抖音的用户产生了浓厚的兴趣(其实就是想看看有多少漂亮的小姐姐),也巧会一点数据分析的皮,养成了小小的职业病,什么问题都希望用数据说话,就开始爬数据分析之旅。

爬数据

爬数据用的工具都比较常见,网上大家一搜的教程一大堆,这里就简单介绍下我爬取过程。

1.引入相关python库包

首先新建python工程,引入本次爬取网页数据和写入MySQL数据库所需要的requests、pymysql、bs4这三个包:

2.获取网页数据

然后如下图所示,通过编写Python代码获取到某抖音排行榜数据网站的网页信息:

抖音python真的那么好吗_python看抖音用户画像,摩羯天蝎居然刷得最多?

3.HTML标签解析

接着再对DIV样式下的HTML数据包进行逐一解析,获取到我需要的作者ID、作者标签、作者性别、作者粉丝数量、视频标题、视频播放数、视频点赞数、视频评论数。其中对应网页的标签样式可以通过浏览器的F12开发选项进行快速获取。

抖音python真的那么好吗_python看抖音用户画像,摩羯天蝎居然刷得最多?

循环遍历该平台选择20w个热门用户的一条数据,总共得到20W+条信息数据,解析好数据之后,再将解析好的数据写入到MySQL数据库中就可以了。

可视化及分析

成功get了数据之后,就要对数据摆弄一番做一下分析,做成一个可视化大屏。作为数据分析的老司机,自然有各种手段来让我达成目的。在这里顺带安利一下我最常用的一款能够对接python数据同时做可视化分析也很强大的工具FineBI,支撑数据挖掘、对接Hadoop等多种企业数据源不在话下,让一个小白做大屏也很酷炫。当然它对个人使用完全免费,这就很nice了。

抖音python真的那么好吗_python看抖音用户画像,摩羯天蝎居然刷得最多?

1、 性别

抖音python真的那么好吗_python看抖音用户画像,摩羯天蝎居然刷得最多?

没想到抖音短视频的用户男女比例据然差别这么大,女性远远多于男性。作为一本正经苟于工作的我不禁有点小小心动,分明就是海量“小姐姐”任你挑选。不过仔细想想,抖音的入口不需要注册登录就可以直接观看视频,这部分部分非活跃的普通用户里男性应该会比女性多,因为女性可能比男性更加大胆去展现自己阳光青春的一面个人揣测,这就导致了非注册男性用户没有计算到这部分比例。

2、年龄分布

抖音python真的那么好吗_python看抖音用户画像,摩羯天蝎居然刷得最多?

在年龄分布上,24 岁以下、 25-30岁和31-35岁用户占比最高,分别占比27%、29%和26%,平均年龄在25-30岁左右。粗略推想,这个年纪的用户一般有一定经济储蓄——懂得打扮自己,观念先进——喜欢接受酷潮的东西,并在社会引领潮流。被抖音的用户年龄小小的感叹了一下,难怪可以和微信微博血拼下杀出一条血路,让各大厂奔向小视频领域。

3、地域分布

抖音python真的那么好吗_python看抖音用户画像,摩羯天蝎居然刷得最多?

抖音python真的那么好吗_python看抖音用户画像,摩羯天蝎居然刷得最多?

拉了一下用户数量TOP10的省份,广东、江苏和山东占据了前三甲。再把注册城市的信息按照线级城市人工整理之后,得到上面的线级城市分布数据。可以看到一、二线城市的用户居多,合计超过了60%的抖音用户分布在一二线城市。

4、星座分布

抖音python真的那么好吗_python看抖音用户画像,摩羯天蝎居然刷得最多?

一个意外的惊喜,居然拉到了星座标签的数据,然后得到的结论更让我震惊。天蝎座和魔蝎座两个星座最多,而狮子座、白羊座则相对占比只有旗一半不到。尽管星座是一种统计学,不过这里面看来的确有着一些星座玄学?

上面是抖音用户的一些基础属性,再来看一下抖音用户们的行为特征。

5、各时段流量分布

抖音python真的那么好吗_python看抖音用户画像,摩羯天蝎居然刷得最多?

首先是活跃用户数的活跃时间段,可以看到中午 12 点到13点之间和18 点后,抖音的用户达到两次高峰期。中午一个小时的饭后午休时间段,抖音让大家有了放松的一个良好手段,将碎片化的时间集中起来在抖音上进行消费,而晚上饭后的闲暇时光,便是将抖音作为饭后娱乐项目了。而这个时间段的发布视频数量也达到了高峰。

6、关键词分布

抖音python真的那么好吗_python看抖音用户画像,摩羯天蝎居然刷得最多?

对视频标题的关键词汇进行了统计。可以看到整体词频方面,除了“小哥哥”、“小姐姐”以及“小助手”以外,具备强烈生活色彩的“爸爸”、“我妈”、“弟弟”、“老公”、“我家”这些词同样被高频率使用。可以看到用户们发布的内容相当贴近生活和家庭,而且都比较正能量。抖音的内容门槛很低,软件上手门槛也很低,难怪这么受大众喜欢。

7、视频时长平均点赞数

抖音python真的那么好吗_python看抖音用户画像,摩羯天蝎居然刷得最多?

可以看到用户们发布的视频时长也是有规律的,时长过长过短都不适宜,10-15s的视频时长点赞都不错,其中10s的视频时长最佳。看来比较考验用户们如何把包袱压缩在10s内,过长用户可能就直接跳过了。

8、视频分类TOP5

抖音python真的那么好吗_python看抖音用户画像,摩羯天蝎居然刷得最多?

最后再看一下视频分类,名人明星、娱乐、搞笑幽默、旅游和美食占据TOP5.

最终用户画像

通过以上,我们就可以直接或者间接地了解抖音的用户画像:一个25-30岁左右一二线城市的天蝎座魔蝎座的大概率女性用户,喜欢在13点和下午6点后,发布名人明星、美食类别的“吃”和”家庭“相关内容的时长在10-15s左右视频。

很好,我的目的达成。

不过这么分析完,似乎我并不能成为抖音的用户,我可能更喜欢在现实生活里吧。借用他人一句话:“抖音,却是一个有几分疗愈的地方,因为在日常生活中,就算你从不曾被取悦,在抖音,却似乎每个人都在努力取悦你”,不过对于我而言,比起活在虚无的世界里满足于娱乐活动,还是做一个活在真实世界里的人更加令我满足。当然,也可能因为我是金牛座,你呢?

最后,如果你也想尝试一下分析的话,可以下载finebi体验下~

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/136652.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • 雨课堂和微助教哪个好_舞蹈助教老师跟课总结

    雨课堂和微助教哪个好_舞蹈助教老师跟课总结1.分析产品:雨课堂与微助教雨课堂地址:https://www.yuketang.cn/web微助教地址:http://portal.teachermate.com.cn/2.PSP表格项目

  • java注解演示 映射生成表 示例 来自thinking in java 4 20章部分代码

    java注解演示 映射生成表 示例 来自thinking in java 4 20章部分代码

  • mysql 10051_Zabix的10051端口无法启动如何解决?

    mysql 10051_Zabix的10051端口无法启动如何解决?启动zabbix是显示启动成功,查看端口,却发现没有10051端口1、查看zabbix的日志[root@bogonldap]#cat/tmp/zabbix_server.log’/var/lib/mysql/mysql.sock'(2)2848:20181204:084007.165databaseisdown:reconnectingin10seconds2848:2018…

    2022年10月24日
  • uIP介绍[通俗易懂]

    uIP介绍[通俗易懂]下面内容都是参考英文文档uip是一个开源的微型协议栈,主要用于8位,16位MCU,占用内存少,并且代码少,容易移植。它既可以用于多任务的操作系统中,如ucos。也能单独存在,传说中的裸奔。uip的主循环uip主循环中重复做着两件事情。查看是否收到数据包查看周期性超时是否发生如果有数据包到达,则会在主循环中调用输入处理函数,uip_input(),

  • 常用排序算法:直接选择排序[通俗易懂]

    常用排序算法:直接选择排序[通俗易懂]常用排序算法:直接选择排序

  • 程序员java_java多线程的实现方式

    程序员java_java多线程的实现方式引言:“作为一名工作了十五年的老程序员,我深知编程行业的不容易,不仅需要应对高强度的工作,还需要学习大量的技术知识,而且不像医生、律师这些知识相对稳定的行业越老越吃香,软件行业的技术每隔一段时间就会更新换代,让你清零,逼着你从头再来。所谓“活到老,学到老”,用到程序员身上再合适不过了。在不断学习的过程中,我“痛恨”那些采用bottom-up方式来讲解技术的资料和文章,一上来就是技术细节、安装步骤、配置方法,让初学者晕头转向、不知所云,看完了以后也不知道为什么有这个东西、解决了什么问题、它有什么来龙去

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号