python抓取抖音用户画像,摩羯天蝎居然刷得最多?「建议收藏」

python抓取抖音用户画像,摩羯天蝎居然刷得最多?「建议收藏」日刷抖音三百条,悠悠一笑乐逍遥,夜深忽醒窗外事,不知今夕是何年。要从上个月说起,那天晚上准备睡觉了,然后朋友突然发来一个抖音热门视频。一向一本正经苟于工作的我,竟然沉醉于小姐姐的甜蜜的笑容,加之想到抖音好像周边的人都在玩,让我不由地也下了抖音,则立马陶醉于这抖音真对味,这世界真新鲜,这世上竟有如此光鲜亮丽的美女帅哥萌娃的感叹之中,简直没舍得合上眼。等我准备合眼的时候,看了时间,已经早上4点半…

大家好,又见面了,我是你们的朋友全栈君。

日刷抖音三百条,悠悠一笑乐逍遥,夜深忽醒窗外事,不知今夕是何年。

要从上个月说起,那天晚上准备睡觉了,然后朋友突然发来一个抖音热门视频。

一向一本正经苟于工作的我,竟然沉醉于小姐姐的甜蜜的笑容,加之想到抖音好像周边的人都在玩,让我不由地也下了抖音,则立马陶醉于这抖音真对味,这世界真新鲜,这世上竟有如此光鲜亮丽的美女帅哥萌娃的感叹之中,简直没舍得合上眼。

等我准备合眼的时候,看了时间,已经早上4点半了,感叹于抖音的强大,更对抖音的用户产生了浓厚的兴趣(其实就是想看看有多少漂亮的小姐姐),也巧会一点数据分析的皮,养成了小小的职业病,什么问题都希望用数据说话,就开始爬数据分析之旅。

爬数据

爬数据用的工具都比较常见,网上大家一搜的教程一大堆,这里就简单介绍下我爬取过程。

1.引入相关python库包

首先新建python工程,引入本次爬取网页数据和写入MySQL数据库所需要的requests、pymysql、bs4这三个包:

image

2.获取网页数据

然后如下图所示,通过编写Python代码获取到某抖音排行榜数据网站的网页信息:

image

3.HTML标签解析

接着再对DIV样式下的HTML数据包进行逐一解析,获取到我需要的作者ID、作者标签、作者性别、作者粉丝数量、视频标题、视频播放数、视频点赞数、视频评论数。其中对应网页的标签样式可以通过浏览器的F12开发选项进行快速获取。

image

循环遍历该平台选择20w个热门用户的一条数据,总共得到20W+条信息数据,解析好数据之后,再将解析好的数据写入到MySQL数据库中就可以了。

可视化及分析

成功get了数据之后,就要对数据摆弄一番做一下分析,做成一个可视化大屏。作为数据分析的老司机,自然有各种手段来让我达成目的。在这里顺带安利一下我最常用的一款能够对接python数据同时做可视化分析也很强大的工具FineBI,支撑数据挖掘、对接Hadoop等多种企业数据源不在话下,让一个小白做大屏也很酷炫。当然它对个人使用完全免费,这就很nice了。

image

1、 性别

image

没想到抖音短视频的用户男女比例据然差别这么大,女性远远多于男性。作为一本正经苟于工作的我不禁有点小小心动,分明就是海量“小姐姐”任你挑选。不过仔细想想,抖音的入口不需要注册登录就可以直接观看视频,这部分部分非活跃的普通用户里男性应该会比女性多,因为女性可能比男性更加大胆去展现自己阳光青春的一面个人揣测,这就导致了非注册男性用户没有计算到这部分比例。

2、年龄分布

image

在年龄分布上,24 岁以下、 25-30岁和31-35岁用户占比最高,分别占比27%、29%和26%,平均年龄在25-30岁左右。粗略推想,这个年纪的用户一般有一定经济储蓄——懂得打扮自己,观念先进——喜欢接受酷潮的东西,并在社会引领潮流。被抖音的用户年龄小小的感叹了一下,难怪可以和微信微博血拼下杀出一条血路,让各大厂奔向小视频领域。

3、地域分布

image

4、省份分布

image

一二三线级城市分布

拉了一下用户数量TOP10的省份,广东、江苏和山东占据了前三甲。再把注册城市的信息按照线级城市人工整理之后,得到上面的线级城市分布数据。可以看到一、二线城市的用户居多,合计超过了60%的抖音用户分布在一二线城市。

5、星座分布

image

一个意外的惊喜,居然拉到了星座标签的数据,然后得到的结论更让我震惊。天蝎座和魔蝎座两个星座最多,而狮子座、白羊座则相对占比只有旗一半不到。尽管星座是一种统计学,不过这里面看来的确有着一些星座玄学?

上面是抖音用户的一些基础属性,再来看一下抖音用户们的行为特征。

6、各时段流量分布

image

首先是活跃用户数的活跃时间段,可以看到中午 12 点到13点之间和18 点后,抖音的用户达到两次高峰期。中午一个小时的饭后午休时间段,抖音让大家有了放松的一个良好手段,将碎片化的时间集中起来在抖音上进行消费,而晚上饭后的闲暇时光,便是将抖音作为饭后娱乐项目了。而这个时间段的发布视频数量也达到了高峰。

7、关键词分布

image

对视频标题的关键词汇进行了统计。可以看到整体词频方面,除了“小哥哥”、“小姐姐”以及“小助手”以外,具备强烈生活色彩的“爸爸”、“我妈”、“弟弟”、“老公”、“我家”这些词同样被高频率使用。可以看到用户们发布的内容相当贴近生活和家庭,而且都比较正能量。抖音的内容门槛很低,软件上手门槛也很低,难怪这么受大众喜欢。

8、视频时长平均点赞数

image

可以看到用户们发布的视频时长也是有规律的,时长过长过短都不适宜,10-15s的视频时长点赞都不错,其中10s的视频时长最佳。看来比较考验用户们如何把包袱压缩在10s内,过长用户可能就直接跳过了。

9、视频分类TOP5

image

最后再看一下视频分类,名人明星、娱乐、搞笑幽默、旅游和美食占据TOP5.

最终用户画像

通过以上,我们就可以直接或者间接地了解抖音的用户画像:一个25-30岁左右一二线城市的天蝎座魔蝎座的大概率女性用户,喜欢在13点和下午6点后,发布名人明星、美食类别的“吃”和”家庭“相关内容的时长在10-15s左右视频。

很好,我的目的达成。

不过这么分析完,似乎我并不能成为抖音的用户,我可能更喜欢在现实生活里吧。借用他人一句话:“抖音,却是一个有几分疗愈的地方,因为在日常生活中,就算你从不曾被取悦,在抖音,却似乎每个人都在努力取悦你”,不过对于我而言,比起活在虚无的世界里满足于娱乐活动,还是做一个活在真实世界里的人更加令我满足。当然,也可能因为我是金牛座,你呢?

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/133073.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • Python中的基本list操作[通俗易懂]

    Python中的基本list操作[通俗易懂]List是python中的基本数据结构之一,和Java中的ArrayList有些类似,支持动态的元素的增加。list还支持不同类型的元素在一个列表中,ListisanObject。最基本的创建一

  • 数据分析师面试准备

    数据分析师面试准备数据分析师面试准备惊醒。突然发现再要一个月就要过年了,过了年再过个两周就三月了。三月……又到了招聘季。

  • 基于单片机的水位检测系统_51单片机温度传感器程序

    基于单片机的水位检测系统_51单片机温度传感器程序开发前的准备:LCD1602一块51单片机开发板一块(这里我用的是普中的板子)霍尔水流量传感器一块(红色接5V黑色接GND黄色是数据传接口)霍尔传感器流量经验公式:Q=(F+3)/8.1Q表示流量…

  • python3.9多线程_python创建多线程

    python3.9多线程_python创建多线程什么是线程?线程也叫轻量级进程,是操作系统能够进行运算调度的最小单位,它被包涵在进程之中,是进程中的实际运作单位。线程自己不拥有系统资源,只拥有一点儿在运行中必不可少的资源,但它可与同属一个进程的其

  • Java的定时器_JAVA定时任务

    Java的定时器_JAVA定时任务总结一下我使用过的4种类型的定时器:@Scheduled注解、quartz、newTimer().schedule、使用线程控制。1.@Scheduled注解@Scheduled注解是最简单的方式,只需要启用定时器,在方法上添加注解即可。在spring配置中加入:<!–启用注解定时器–> <task:annotation-driven/>…

  • idea Tomcat日志乱码问题

    idea Tomcat日志乱码问题找到tomcat日志文件修改编码格式即可全部改成GBK编码格式,重启idea即可

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号