环球微速讯:pandas重复行删除操作df.drop_duplicates和df.duplicated的区别
(资料图片仅供参考)
目录
概念df.duplicated()df.dropduplicates(’col‘,keep=‘first’,inplace=False)实例概念
df.duplicated()
使用df.cuplicated()来查看重复数据,返回True,False,数据类型是bool.
也可以指定某一列是否有重复值df.cuplidated(‘colname’),不指定则默认为第一列。
df.dropduplicates(’col‘,keep=‘first’,inplace=False)
用来删除重复行。
实例
读取数据
# %% 提取数据 从sqlite import pandas as pd from sqlalchemy import create_engine """创建sqlite3连接""" eg = create_engine("sqlite:///I:/jianguoyun/Udoc/WorkDb/dataset2022.db") #创建数据库连接 # 读取数据库文件 q_store = """ select * from pj_store20220525 """ # 读取表 cols= ["货号","品类","节庆","库位","合格","换包装","错码","维修","总数量" ] df = pd.read_sql(q_store,eg)[cols]
计算重复项
# df.duplicated 计算重复项 cond = df.duplicated("货号") # 查看货号相同的项 df.duplicated返回的是布尔值 def_line = df[cond] def_line
计算有多少个重复行
#有多少个重复行 dep_data = df.duplicated("货号").sum() dep_data
用df.drop_duplicates提取夏季品类
# 用df.drop_duplicates提取夏季品类 df_category = df.query("节庆=="夏季"").drop_duplicates("品类",keep="last",inplace=False) df_category["品类"].sort_values()
参数:
keep ,保留最后last还是第一行first,inplace:是否替换原列表,false:不替换,True,替换。到此这篇关于pandas重复行删除操作df.drop_duplicates和df.duplicated的区别的文章就介绍到这了,更多相关pandas df.drop_duplicates df.duplicated内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
X 关闭
X 关闭
- 1联想拯救者Y70发布最新预告:售价2970元起 迄今最便宜的骁龙8+旗舰
- 2亚马逊开始大规模推广掌纹支付技术 顾客可使用“挥手付”结账
- 3现代和起亚上半年出口20万辆新能源汽车同比增长30.6%
- 4如何让居民5分钟使用到各种设施?沙特“线性城市”来了
- 5AMD实现连续8个季度的增长 季度营收首次突破60亿美元利润更是翻倍
- 6转转集团发布2022年二季度手机行情报告:二手市场“飘香”
- 7充电宝100Wh等于多少毫安?铁路旅客禁止、限制携带和托运物品目录
- 8好消息!京东与腾讯续签三年战略合作协议 加强技术创新与供应链服务
- 9名创优品拟通过香港IPO全球发售4100万股 全球发售所得款项有什么用处?
- 10亚马逊云科技成立量子网络中心致力解决量子计算领域的挑战