数据分析工具：Pandas架构分析

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

我是产品张

2024-07-16

0 评论 1181 浏览 3 收藏

18 分钟

在工作中，我们一般用excel或者SQL来处理和分析数据，本文分享了Pandas框架，给出该工具的使用方法，供大家参考。

以往数据分析常使用的工具是excel和sql，用这两个工具做过大数据分析的网友都能感受到那种痛苦，本文对Python的Pandas大数据分析工具做架构分析，以方便掌握该强大的工具。

本文的架构分析是通过阅读pandas中文出版物教程、互联网搜索、代码验证的基础上得到的结构猜想，并没有深入源代码分析，实际架构与本分析可能略有出入，请知悉。

1. 结构概览

Pandas就是数据容器，容器好不好用，不仅取决于容器能装多少东西，更取决于，取出来是否方便。Pandas的Series和DataFrame作为数据容器就像一本书。

数组容器：就是这本书只有页码。如果书本不超过几百页，或者使用的很少，使用起来并没有问题，如果书本有十万页，频繁找东西时肯定就麻烦了。数据分析就像在几十万、几百万页的书本里，找数据，只有页码是不够用的。
Index容器：Index是对数组容器页码的拓展，在原页码的基础上增加了文本描述，读者对频繁使用的章节可以夹个标签。Index容器有很多子类型，可以简化索引的使用，如：DatetimeIndex、PeriodIndex、IntervalIndex等
MultiIndex容器：是对Index容器的组合，不仅支持一层便签，可以支持任意层便签，通过该容器可以实现目录管理。

Series是一列数据值，DataFrame是N列数据是，是N个Series的组合。Series和DataFrame从容器的角度，主要拓展的是索引部分，两者的分为index和values两部分，其中index是索引，有复杂的各种实现类。values仍是ndarray类型。

2. Series

Series是对数组的封装，比普通数组新增index的属性。不考虑MultIndex的场景该图是准确的，考虑MultiIndex，书签信息可以有无数列数据。

2.1 数据初始化

Series的两列位置信息，页码信息是系统自动编码，无法人工介入。书签信息是手动编码，可以指定也可以不指定。

索引列和对象可以单独起名字。value没有名字

2.2 通过Index定位值

数组支持按位置访问，比如s[1]

Series支持按位置和按index访问两种方式。

Series传入的标签参数可以换算为位置信息。
loc和iloc返回值是向量
at和iat返回值为标量

位置信息的使用，用SQL表达就是：from 原表 where index.loc in() or index.lable in()

2.3 通过值定位Index

函数返回值为bool类型的Series
要得到index值或者数据向量，需要再调用一次se.loc[]

此处函数的使用，用SQL表达就是:from 原表 y left join BoolSeries yi where y.index = yi.index and yi.value =True

2.4 MultiIndex构建

Index和MultiIndex都是数组，数组的个数=数据的行数。Index数组的元素是标量数值。MultiIndex的数组元素是元组，可以是二元组、三元组、四元组等。

这里的目录操作，也是人工智能算法打标签的地方，打好标签就可以分群，就可以推荐了。

对于Series由于只有一列数据，所有列的层级就没有建目录的功能，DataFrame有此功能。

2.5 时间构建目录

时间可以按年、月、日、时、分这五个维度构成一个目录层级结构，可以用目录实现。直接使用DatetimeIndex对象构建：

3. DataFrame

DataFrame是有多个Series或数组联表而成的组装表。

Series和数组的组装方式分为三种场景，每种场景有几种存在的组合，如图，绿色的组合场景是合法的，白色的组合场景是非法的。

3.1 多个数组合并

数组和DataFrame的维度信息对照：

数组是有序的，所以有位置信息，位置信息是隐含的。隐式对应于DataFrame的index属性。
数组是有值的，所以有数值信息，数值信息是显式的。显式对应DataFrame的value属性。

数组和DataFrame的存储值对照：

数组的值存储的是地址，所以数组可容纳数值、字符串、对象等任意类型。
DataFrame每列存储的类型是固定的，所以DataFrame组装时，会自动转换数据类型。

组装关系用SQL表示为：

原则猜测：

之所以数组组装要求严格，是因为数组本身很灵活，数据清洗程度低，数据脏乱差的概率更大，所以此处严格校验，可以降低数据错误的风险。

3.2 多个Series合并

多个series组成DataFrame实际执行的是连表操作，效果等同于Sql语句的全连接。

3.3 Series和数组合并

只要有数组存在，就必须完全对齐，索引列使用Series的索引列。系统默认Series和数组的索引列按照所在顺序建立联表关系。

当Series和数组组成DataFrame时，按照从严法则，必须上下对齐。

4. 数据分组

分组是根据索引将数据聚合，两种方法：

显式声明索引，可以直接使用索引分组
不声明索引，调用groupby后自动创建索引

分组有三个维度：

行维度分组：groupby
行维度分组+列维度分组：数据透视表 pivot
按顺序，固定行数组成窗口分组：rolling、expanding

4.1 显式声明索引后分组

4.2 分组后自动创建索引

4.3 行维度分组

4.4 行列两维度分组

4.4.1 单行单列写法

4.4.2 多行单列写法

4.4.3 多行多列写法

4.5 窗口滚动分组

滚动分组是按照位置数量分组，实际工作中常说的过去1年，过去一个月，过去一周，以及时间函数都使用滚动计算的理念。

窗口函数与窗口累计函数都可以使用apply函数拿到窗口的值数组，可以使用该值，做任意匹配的运算。

4.6 窗口累计分组

5. 改变数据形状

Pandas中，处理的数据基本都是按表格组织，数据输入有两种方式，按行输入，按列输入。为了输入方便基本会按长轴维度输入数据。

比如8行两列的数据，可以按照行的顺序写，也可以按照列的顺序写。对于该数据，肯定是按列的顺序书写，需要输入的中括号最少。数据输入后再处理即可。

图中可知，数据调用zip分组后，从数据分组的角度看：zip和数据转置的效果是一致的。

6. 数据查询逻辑

Series和DataFrame作为数据容器，数据查询是很重要的逻辑，此处再系统梳理一下流程。

6.1 按索引取值

按索引取值，类比于select的按照主键取值。Pandas接受到入参索引后，会构建一个与被查询数据，相同索引的Series，其中被查询的索引对应值为True，未被查询的索引对应值为False，将该Series作为入参，查询效果与直接输入索引查询效果相同。

代码如下：

6.2 按值取值

按照值取值时，每个运算符对应一个Bool。如果Bool之间是and关系，就执行b1*b2如果Bool之间是or关系，就执行b1+b2

7. 不同数据类型之间的转换逻辑

8. Index展开详解

8.1 概述

index是比数组更大的容器，数组内的元素可以是不同的类型，index统一定义了数组的类型，必须是obj、Datetime、int、Period等其中的一种。index会猜测数组内存储的数据类型，如果是数值，会自动转换为对应的类型,否则统一定义为object类型。

定义object类型的好处是：可以存储任意类型的数据。
定义object类型的缺点是：大而全，就没有操作数据的方法。小而精，才可以使用对应的操作方法。
为了调用int、Datetime类型数据对应的操作方法，需要显式的转换为对应的类型。

8.2 DatetimeIndex

DatetimeIndex就是Datetime格式的index。日期是一组连续的数字，默认可以按照年、月、日、时、分、秒分组，也可以自定义时间段分组。如果某Series或者DataFrame需要使用年月日时分秒做分组依据，有两个方案：

8.2.1 年月日时分组成5列数组，通过MultiIndex赋值

将字符数组转为

8.2.2 直接将日期转为Datetimeindex赋值，用方法取值

两个对比，显然第二个方案更简单灵活。

9 .常用函数说明

9.1 map与replace的等价写法

map可以将任意值改名其他值，此处主要介绍将Bool转成文本。因为在查询函数返回的值都为bool类型，所以此场景使用map函数的频率更高。

map的传参是集合，是因为这里传值是映射关系。

调用多次replace函数的效果与调用map函数的结果相同。

9.2 isna与isin的等价写法

isna与isin(pd.NA)是等价的。fillna与replace(pd.Na)是等价的。

9.3 notna与notin的等价写法

pandas没有not in函数。但是有波浪线表示取反，即True取反后是False，False取反后是True

9.4 列拆分函数split

Series分列，默认是将内容分成，数组，不会展开。

9.4.1 默认为Series格式

9.4.2 数据自动变成DataFrame格式

本文由 @我是产品张原创发布于人人都是产品经理。未经许可，禁止转载

题图来自Unsplash，基于CC0协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

我是产品张

互联网从业十年，做过销售、写过代码、做过产品经理，阅历丰富，爱读书不拘学科。

32篇作品 78129总阅读量

种草易vs电商难，对于小红书来说是必然存在的问题

08-233909 浏览

一键生成元宇宙，AI又杀疯了

04-113296 浏览

MAPI功能：我是如何管理2000个账户的？

10-302111 浏览

GMV比什么都重要！

05-156504 浏览

如何搭建产品屋？

05-176473 浏览

目前还没评论，等你发挥！