【资料图】
假设通过爬虫获得了一个自媒体.txt
想要从这些关键词中提取流量最大的关键词
可以通过如下算法实现:
from smoothnlp.algorithm.phrase import extract_phrase import re class_name = "自媒体" class_name_low = class_name.lower() top_k = 100 with open("%s.txt" % class_name,"r",encoding="utf-8") as file: data_str = file.read() keyword_list = data_str.split("\n") with open("dont.txt","r",encoding="utf-8") as file: dont_set = set(file.read().split("\n")) word_count_dict = dict() new_word_list = extract_phrase(keyword_list,top_k=top_k) for new_word in new_word_list: if new_word in dont_set: continue new_word_low = new_word.lower() if class_name_low in new_word_low or class_name_low == new_word_low: word_count_dict[new_word] = len(re.findall(new_word_low,data_str)) continue add_l = re.findall("%s%s" % (class_name_low,new_word_low),data_str) add_r = re.findall("%s%s" % (new_word_low,class_name_low),data_str) if len(add_l) >= len(add_r): word_count_dict["%s%s" % (class_name,new_word)] = len(add_l) else: word_count_dict["%s%s" % (new_word,class_name)] = len(add_r) for word,count in word_count_dict.items(): print("%s\t%s" % (word,count))
其中:
自媒体.txt
就是需要的关键词库
dont.txt
就是过滤掉一些没有用的词汇
获得的结果如下,下面的这些词就是流量很大的词汇 可以用于注册账号去获取流量
自媒体领域 702
自媒体软件 502
自媒体身份证 68
自媒体推荐 450
自媒体研究 199
自媒体素材 378
自媒体原创 1147
自媒体审核 417
浏览器自媒体 110
自媒体阅读量 378
自媒体app 346
自媒体工具 222
自媒体图片 416
自媒体电脑 112
自媒体管理 824
自媒体内容 1083
自媒体电视剧 48
自媒体申请 742
自媒体注册 1597
百度自媒体 545
自媒体同步 89
自媒体电影片段 14
自媒体检测 36
自媒体抄袭 130
自媒体选择 215
自媒体产品 105
自媒体信息 355
自媒体粉丝 474
自媒体下载 173
企业自媒体 789
自媒体收益 1296
自媒体数据 317
淘宝自媒体 263
自媒体手机 568
自媒体剪辑 367
自媒体电影 380
自媒体服务 167
自媒体采集 234
自媒体变现 246
自媒体修改 65
自媒体风险 43
中国自媒体 533
自媒体兼职 182
自媒体定位 143
自媒体英语 53
自媒体传播 776
抖音自媒体 686
自媒体渠道 212
自媒体影响力 130
0万粉丝自媒体 18
自媒体绑定 47
自媒体免费 205
自媒体认证 1662
自媒体流量 595
自媒体播放量 164
万粉丝自媒体 42
自媒体评论 116
自媒体邀请码 137
健康自媒体 96
自媒体问题 35
自媒体收入 826
自媒体垂直 129
自媒体招聘 665
自媒体奖励 26
自媒体教程 312
自媒体盈利模式 140
自媒体热点 104
自媒体标题 561
自媒体经营范围 20
自媒体意识形态 13
自媒体ppt 70
自媒体品牌 219
自媒体竞争 45
自媒体社会 235
自媒体现状 123
开通自媒体 219
2018自媒体 443
国外自媒体 350
自媒体公司 2862
自媒体介绍 311
自媒体生活 180
自媒体模式 56
自媒体故事 55
自媒体分析 168
自媒体策划 244
自媒体版权 123
自媒体推广 1893
自媒体考核 38
自媒体情况 32
自媒体搬运 958
音乐自媒体 337
最后的所有项目代码如下:
到此这篇关于基于Python实现抢注大词的提词工具的文章就介绍到这了,更多相关Python提词工具内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
X 关闭
X 关闭
- 15G资费不大降!三大运营商谁提供的5G网速最快?中国信通院给出答案
- 2联想拯救者Y70发布最新预告:售价2970元起 迄今最便宜的骁龙8+旗舰
- 3亚马逊开始大规模推广掌纹支付技术 顾客可使用“挥手付”结账
- 4现代和起亚上半年出口20万辆新能源汽车同比增长30.6%
- 5如何让居民5分钟使用到各种设施?沙特“线性城市”来了
- 6AMD实现连续8个季度的增长 季度营收首次突破60亿美元利润更是翻倍
- 7转转集团发布2022年二季度手机行情报告:二手市场“飘香”
- 8充电宝100Wh等于多少毫安?铁路旅客禁止、限制携带和托运物品目录
- 9好消息!京东与腾讯续签三年战略合作协议 加强技术创新与供应链服务
- 10名创优品拟通过香港IPO全球发售4100万股 全球发售所得款项有什么用处?