- 数据科学与机器学习:数学与统计方法
- (澳)迪尔克·P.克洛泽等
- 308字
- 2024-11-03 18:26:35
1.3 汇总表
通常情况下,将大型电子表格以更简洁的形式进行汇总是很有用的。计数表或频率表可以让我们更轻松地了解变量的基本分布,特别是对于定性数据。这种表格可以使用describe和value_counts方法获得。
作为第一个例子,我们将加载DataFrame对象nutri——1.2节对nutri进行了重构并保存为'nutri.csv',然后对'fat'特征(列)进行汇总。
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/19_03.jpg?sign=1739176573-JKqYe67zOlN53tAsVXeqt0QewS343smd-0-bab7108fc923a7abf68949cb43ff94bf)
我们看到,烹调用油有8种,葵花籽油的食用频率最高,226人中有68人使用葵花籽油。value_counts方法给出了不同类型烹调用油的计数结果。
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/19_04.jpg?sign=1739176573-Yx1EP1pJK8TwggKElOQTokKRvgdw8iRT-0-7c6b4464df756f30b0f0389bf458f372)
列标签也是DataFrame的属性,例如,nutri.fat与nutri['fat']返回的对象完全相同。
也可以使用crosstab方法对两个或多个变量进行交叉汇总,给出一个列联表(contingency table):
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/19_05.jpg?sign=1739176573-jLJaVmfwzInMyNRo4N5Yj5WorY66OUz9-0-2c80883ad0c22b474799571bb40f075a)
我们从老年人营养数据集中看到,单身男性的比例远远小于单身女性的比例。设置参数margins=True,可以在表格中添加汇总的行和列。
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/20_01.jpg?sign=1739176573-WQPqCvVdpi0WrU2xRXleXAsjFXXD6qJs-0-31dc3ca8f530f3dc7860756864fff63f)