import matplotlib as plt
plt.rcParams['font.sas-serig']=['SimHei'] # 用来正确显示中文标签
plt.rcParams['axes.unicode_minus']=False # 用来争取显示正负号
np.r是按列连接两个矩阵,就是把两矩阵上下相加,要求列数相等,类似于pandas中的concat()。 np.c是按行连接两个矩阵,就是把两矩阵左右相加,要求行数相等,类似于pandas中的merge()。
import pandas as pd
data = pd.read_csv('train.csv')
data['occupation'] # 返回的格式是:pandas.core.series.Series
data[['occupation']] # 返回的格式是:pandas.core.frame.DataFrame
import pandas as pd
import numpy as np
x = np.nan
# x = pd.NA
pd.isnull(x)
import pandas as pd
df = pd.DataFrame([],columns=['one','two'])
# df = df.append才可以生效,直接是df.append不可以
# ignore_index=True,表示的是让index从0开始依次递增
df = df.append([{'one':10.0, 'two': 90}],ignore_index = True)
df.append([{'one':"11.0", 'two': 90}], ignore_index = True)
# data['China'] # 假定该变量为Series类型
# reshape的方式如下, .values得到的是一个ndarray
data['China'].values.reshape(-1, 1)