在我的第一篇文章中,我给出了一些函数的教程,这些函数将帮助您使用 Pandas DataFrame 显示数据。在这里,我将继续本教程,并向您展示如何给我们一个DataFrame来操作和可视化数据。

行和列操作

获取列的不同值

要获取列的不同值,可以使用 Numpy 库。不要忘记先”以 np 身份导入 numpy”。”np”是命名代码中库的传统方法。

import numpy as np

print("Distinct Values for Overall Qualification&Condition")
overall_qual = np.unique(df['OverallQual'])
print(overall_qual)

您可能希望将所有列名称作为列表,并循环访问该列表以执行每个列的计算。这可以通过以下代码完成:

all_columns_list = df.columns.tolist() #get a list of all the column names
for col in all_columns_list: print(col) #just print the names, but you can do other jobs here

重命名列

您可以重命名列,如以下代码中。在此示例中,我从 DataFrame 中随机选择了三列。

#Just Rondomly Select 3 column from the main data set
df_rename_columns = df[['Id','MSSubClass','OverallQual']]
df_rename_columns.head(5)

Image title

具有旧列名称的新数据帧

df_renamed = df_rename_columns.rename(
    columns = 
            {'Id'          : 'TransactionId', 
             'MSSubClass'  : 'BuildingClass',
             'OverallQual' : 'OverallQuality'} , 
)
df_renamed.head()

New DataFrame with altered column names

具有新列名称的新数据帧

添加列

有时,您可能希望向 DataFrame 添加列。只需使用以下代码即可执行此操作:

#Creates a new column with all the values equal to "0" (zero)
df_renamed['AddedNewColum'] = 0
df_renamed.head()

Adding a column to the DataFrame

向 DataFrame 添加列

放置列

以下代码将删除”MapBsmtCond”列。

df = df.drop(columns="MapBsmtCond")

您还可以将列列表传递给放置函数。通过使用列创建动态列表,可以获取主 DataFrame 的不同子集。

df_renamed.drop(columns=['BuildingClass','TransactionId'])

查看数据帧的缺失值

要获取列中缺少的值数,应完成以下操作:

df_sum = pd.DataFrame(df.isnull().sum())

Number of missing values by column

按列表示的缺失值数

您还可以重命名自动生成的列,并仅获取 DataFrame 的缺失值:

df_sum

头()
df_sum_df_sum_sum.iloc_:0= 0.排序=值(“缺失值”,升序=假)

Summation of missing values by column

按列表示缺失值的总和

只需使用 Matplotlib 中的绘图条函数来可视化缺失值,如下所示:

%matplotlib inline
import matplotlib.pyplot as plt
df_sum[df_sum.iloc[:,0] != 0].sort_values('MissingValues', ascending=False).plot.bar()

输出如下所示:

Missing values by column

按列缺少值

感谢您的阅读!

Comments are closed.