CS Notes
  • CS-Notes文档说明
  • 机器学习
    • 频率派和贝叶斯学派
    • 机器学习中的分类指标
    • 数学基础
    • 数据清洗
    • SVM
    • 线性模型
    • 拉格朗日乘子法和KKT条件
    • 集成学习
    • 贝叶斯分类器
    • 降维和度量学习
    • 决策树
    • 神经网络
    • 神经网络优化器
    • Autoencoders & GANs
    • IoU
    • EM算法
    • ML问题总结
    • 机器学习&深度学习学习资料汇总
    • 如何阅读论文
    • 如何写好一篇论文
  • 语言、算法相关
    • 背包问题 - 01背包&完全背包
    • 平衡二叉树AVL
    • 红黑树RB-Tree
    • STL容器
    • STL 常用算法
    • Markdown总结
    • 问题总结
    • 代码汇总
    • PAT手册
  • MIT 6.828 OS课程
  • ImGui
Powered by GitBook
On this page
  • 缺失值处理
  • 时间特征的处理

Was this helpful?

  1. 机器学习

数据清洗

缺失值处理

针对sklearn 0.22.x版本与之前的版本不太一样,0.16.x是放在preprocessing模块下,而0.22.x版本则是放在了impute模块下面,要注意!

ref: https://scikit-learn.org/stable/modules/impute.html

# 处理数值类型的
import numpy as np
from sklearn.impute import SimpleImputer
imp = SimpleImputer(missing_values=np.nan, strategy='mean')
imp.fit([[1, 2], [np.nan, 3], [7, 6]])
X = [[np.nan, 2], [6, np.nan], [7, 6]]
print(imp.transform(X))
"""
[[4.          2.        ]
 [6.          3.666...]
 [7.          6.        ]]
"""
# 处理类别类型的
import pandas as pd
df = pd.DataFrame([["a", "x"],
                   [np.nan, "y"],
                   ["a", np.nan],
                   ["b", "y"]], dtype="category")

imp = SimpleImputer(strategy="most_frequent")
print(imp.fit_transform(df))
""" output:
[['a' 'x']
 ['a' 'y']
 ['a' 'y']
 ['b' 'y']]
"""

时间特征的处理

# 使用pandas的to_datetime函数
date_test = data[['Date']]
date_test = pd.to_datetime(data['Date'][0], format='%Y-%m-%d',errors = 'coerce')
date_test.year

Previous数学基础NextSVM

Last updated 5 years ago

Was this helpful?

特征工程:时间特征处理方式_沐雨金鳞-CSDN博客_时间特征处理
Logo
https://towardsdatascience.com/machine-learning-with-datetime-feature-engineering-predicting-healthcare-appointment-no-shows-5e4ca3a85f96towardsdatascience.com