Python使用PyJanitor的fill_missing、fillna、replace函数做数据填充
环境搭建和准备工作:
1. 安装Python:前往Python官网下载并安装Python的最新版本。
2. 安装PyJanitor:使用以下命令安装PyJanitor库。
shell
pip install pyjanitor
依赖的类库:
- pandas:用于数据处理和分析的常用Python库。
数据样例:
假设我们有一个包含缺失值的数据集,该数据集包含以下列:`col1, col2, col3`。
完整的Python代码:
python
import pandas as pd
import janitor
# 创建示例数据集
data = {
'col1': [1, 2, None, 4, None],
'col2': [None, 6, 7, None, 9],
'col3': [None, 11, None, None, 14]
}
df = pd.DataFrame(data)
# 使用fillna函数填充缺失值
df_filled = df.fillna(0)
print("使用fillna函数填充缺失值:")
print(df_filled)
# 使用replace函数替换特定值
df_replaced = df.replace(4, 10)
print("
使用replace函数替换特定值:")
print(df_replaced)
# 使用fill_missing函数填充缺失值
df_filled_missing = df.fill_missing({"col1": 5, "col2": 8, "col3": 12})
print("
使用fill_missing函数填充缺失值:")
print(df_filled_missing)
输出结果:
使用fillna函数填充缺失值:
col1 col2 col3
0 1.0 0.0 0.0
1 2.0 6.0 11.0
2 0.0 7.0 0.0
3 4.0 0.0 0.0
4 0.0 9.0 14.0
使用replace函数替换特定值:
col1 col2 col3
0 1.0 NaN NaN
1 2.0 6.0 11.0
2 NaN 7.0 NaN
3 10.0 NaN NaN
4 NaN 9.0 14.0
使用fill_missing函数填充缺失值:
col1 col2 col3
0 1.0 8.0 12.0
1 2.0 6.0 11.0
2 5.0 7.0 12.0
3 4.0 8.0 12.0
4 5.0 9.0 14.0
总结:
PyJanitor是一个基于pandas库的扩展库,它提供了一些方便的函数来处理数据。在本例中,我们使用了PyJanitor库的fill_missing、fillna和replace函数来进行数据填充。通过使用这些函数,我们可以轻松地处理缺失值和替换特定值,从而准备数据进行进一步的分析和处理。