Python数据分析 - PolarsBook中文版: https://www.pythondataanalysis.com/docs/polars_book_cn/ - Polars快速入门: https://www.pythondataanalysis.com/docs/polars_book_cn/quickstart/ - Polars表达式: https://www.pythondataanalysis.com/docs/polars_book_cn/dsl/ - Polars表达式: https://www.pythondataanalysis.com/docs/polars_book_cn/dsl/expressions/ - Polars上下文: https://www.pythondataanalysis.com/docs/polars_book_cn/dsl/contexts/ - Polars分组: https://www.pythondataanalysis.com/docs/polars_book_cn/dsl/groupby/ - Polars折叠: https://www.pythondataanalysis.com/docs/polars_book_cn/dsl/folds/ - Polars自定义函数: https://www.pythondataanalysis.com/docs/polars_book_cn/dsl/custom_functions/ - Polars实例: https://www.pythondataanalysis.com/docs/polars_book_cn/dsl/introduction_polars/ - Polars表达式方法: https://www.pythondataanalysis.com/docs/polars_book_cn/dsl/api/ - Polars视频介绍: https://www.pythondataanalysis.com/docs/polars_book_cn/dsl/video_intro/ - Polars与Numpy交互: https://www.pythondataanalysis.com/docs/polars_book_cn/dsl/numpy/ - Polars窗口函数: https://www.pythondataanalysis.com/docs/polars_book_cn/dsl/window_functions/ - Polars索引: https://www.pythondataanalysis.com/docs/polars_book_cn/indexing/ - Polars数据类型: https://www.pythondataanalysis.com/docs/polars_book_cn/datatypes/ - 来自Pandas: https://www.pythondataanalysis.com/docs/polars_book_cn/coming_from_pandas/ - 来自ApacheSpark: https://www.pythondataanalysis.com/docs/polars_book_cn/coming_from_spark/ - Polars性能: https://www.pythondataanalysis.com/docs/polars_book_cn/performance/ - 字符串: https://www.pythondataanalysis.com/docs/polars_book_cn/performance/strings/ - Polars优化: https://www.pythondataanalysis.com/docs/polars_book_cn/optimizations/ - Polars惰性方法: https://www.pythondataanalysis.com/docs/polars_book_cn/optimizations/lazy/ - 谓词下推: https://www.pythondataanalysis.com/docs/polars_book_cn/optimizations/lazy/predicate-pushdown/ - 投影下推: https://www.pythondataanalysis.com/docs/polars_book_cn/optimizations/lazy/projection-pushdown/ - 其它优化: https://www.pythondataanalysis.com/docs/polars_book_cn/optimizations/lazy/other-optimizations/ - Polars参考指南: https://www.pythondataanalysis.com/docs/polars_book_cn/references/ - Polars时间序列: https://www.pythondataanalysis.com/docs/polars_book_cn/timeseries/ - Polars时间序列实例: https://www.pythondataanalysis.com/docs/polars_book_cn/timeseries/time-series/ - Polars使用范围: https://www.pythondataanalysis.com/docs/polars_book_cn/howcani/ - IO: https://www.pythondataanalysis.com/docs/polars_book_cn/howcani/io/ - Polars操作CSV文件: https://www.pythondataanalysis.com/docs/polars_book_cn/howcani/io/csv/ - Polars操作Parquet文件: https://www.pythondataanalysis.com/docs/polars_book_cn/howcani/io/parquet/ - Polars处理多个文件: https://www.pythondataanalysis.com/docs/polars_book_cn/howcani/io/multiple_files/ - Polars读取数据库: https://www.pythondataanalysis.com/docs/polars_book_cn/howcani/io/read_db/ - Polars与AWS交互: https://www.pythondataanalysis.com/docs/polars_book_cn/howcani/io/aws/ - Polars与Google BigQuery交互: https://www.pythondataanalysis.com/docs/polars_book_cn/howcani/io/google-big-query/ - Polars与Postgres交互: https://www.pythondataanalysis.com/docs/polars_book_cn/howcani/io/postgres/ - 互通性: https://www.pythondataanalysis.com/docs/polars_book_cn/howcani/interop/ - Arrow: https://www.pythondataanalysis.com/docs/polars_book_cn/howcani/interop/arrow/ - Numpy: https://www.pythondataanalysis.com/docs/polars_book_cn/howcani/interop/numpy/ - 数据: https://www.pythondataanalysis.com/docs/polars_book_cn/howcani/data/ - 字符串: https://www.pythondataanalysis.com/docs/polars_book_cn/howcani/data/strings/ - 时间戳: https://www.pythondataanalysis.com/docs/polars_book_cn/howcani/data/timestamps/ - 数据帧: https://www.pythondataanalysis.com/docs/polars_book_cn/howcani/df/ - 选中行或列: https://www.pythondataanalysis.com/docs/polars_book_cn/howcani/df/row_col_selection/ - 常用操作: https://www.pythondataanalysis.com/docs/polars_book_cn/howcani/df/common-manipulations/ - 聚合: https://www.pythondataanalysis.com/docs/polars_book_cn/howcani/df/aggregate/ - 分组: https://www.pythondataanalysis.com/docs/polars_book_cn/howcani/df/groupby/ - 过滤: https://www.pythondataanalysis.com/docs/polars_book_cn/howcani/df/filter/ - 连接: https://www.pythondataanalysis.com/docs/polars_book_cn/howcani/df/join/ - 重塑: https://www.pythondataanalysis.com/docs/polars_book_cn/howcani/df/melt/ - 条件应用: https://www.pythondataanalysis.com/docs/polars_book_cn/howcani/df/conditionally-apply/ - 排序: https://www.pythondataanalysis.com/docs/polars_book_cn/howcani/df/sorting/ - 透视: https://www.pythondataanalysis.com/docs/polars_book_cn/howcani/df/pivot/ - 应用: https://www.pythondataanalysis.com/docs/polars_book_cn/howcani/apply/ - Polars自定义函数: https://www.pythondataanalysis.com/docs/polars_book_cn/howcani/apply/udfs/ - Polars窗口函数: https://www.pythondataanalysis.com/docs/polars_book_cn/howcani/apply/window-functions/ - Python数据分析 第二版: https://www.pythondataanalysis.com/docs/Python_Data_Analysis_2nd_Editon/ - 第 1 章 准备工作: https://www.pythondataanalysis.com/docs/Python_Data_Analysis_2nd_Editon/Chapter-01/ - 第 2 章 Python 语法基础: https://www.pythondataanalysis.com/docs/Python_Data_Analysis_2nd_Editon/Chapter-02/ - 第 3 章 Python 的数据结构、函数和文件: https://www.pythondataanalysis.com/docs/Python_Data_Analysis_2nd_Editon/Chapter-03/ - 第 4 章 NumPy 基础:数组和向量计算: https://www.pythondataanalysis.com/docs/Python_Data_Analysis_2nd_Editon/Chapter-04/ - 第 5 章 Pandas 入门: https://www.pythondataanalysis.com/docs/Python_Data_Analysis_2nd_Editon/Chapter-05/ - 第 6 章 数据加载、存储与文件格式: https://www.pythondataanalysis.com/docs/Python_Data_Analysis_2nd_Editon/Chapter-06/ - 第 7 章 数据清洗和准备: https://www.pythondataanalysis.com/docs/Python_Data_Analysis_2nd_Editon/Chapter-07/ - 第 10 章 数据聚合与分组运算: https://www.pythondataanalysis.com/docs/Python_Data_Analysis_2nd_Editon/Chapter-10/ - 第 11 章 时间序列: https://www.pythondataanalysis.com/docs/Python_Data_Analysis_2nd_Editon/Chapter-11/ - 第 12 章 pandas 高级应用: https://www.pythondataanalysis.com/docs/Python_Data_Analysis_2nd_Editon/Chapter-12/ - 第 13 章 Python 建模库介绍: https://www.pythondataanalysis.com/docs/Python_Data_Analysis_2nd_Editon/Chapter-13/ - 第 14 章 数据分析案例: https://www.pythondataanalysis.com/docs/Python_Data_Analysis_2nd_Editon/Chapter-14/ - 附录 A NumPy 高级应用: https://www.pythondataanalysis.com/docs/Python_Data_Analysis_2nd_Editon/Appendix-A/ - 附录 B 更多关于 IPython 的内容: https://www.pythondataanalysis.com/docs/Python_Data_Analysis_2nd_Editon/Appendix-B/ - 第 8 章 数据规整:聚合、合并和重塑: https://www.pythondataanalysis.com/docs/Python_Data_Analysis_2nd_Editon/Chapter-08/ - 第 9 章 绘图和可视化: https://www.pythondataanalysis.com/docs/Python_Data_Analysis_2nd_Editon/Chapter-09/ - Polars用户指南: https://www.pythondataanalysis.com/docs/Polars_user_guide/ - Polars入门: https://www.pythondataanalysis.com/docs/Polars_user_guide/polars_getting_started/ - 安装Polars: https://www.pythondataanalysis.com/docs/Polars_user_guide/polars_installation/ - Polars核心概念: https://www.pythondataanalysis.com/docs/Polars_user_guide/concepts/ - Polars数据类型和结构: https://www.pythondataanalysis.com/docs/Polars_user_guide/concepts/data-types-and-structures/ - Polars表达式和上下文: https://www.pythondataanalysis.com/docs/Polars_user_guide/concepts/expressions-and-contexts/ - Polars延迟API: https://www.pythondataanalysis.com/docs/Polars_user_guide/concepts/lazy-api/ - Streaming: https://www.pythondataanalysis.com/docs/Polars_user_guide/concepts/_streaming/ - Polars表达式: https://www.pythondataanalysis.com/docs/Polars_user_guide/expressions/ - Polars基本操作: https://www.pythondataanalysis.com/docs/Polars_user_guide/expressions/basic-operations/ - Aggregation: https://www.pythondataanalysis.com/docs/Polars_user_guide/expressions/aggregation/ - Casting: https://www.pythondataanalysis.com/docs/Polars_user_guide/expressions/casting/ - Categorical Data and Enums: https://www.pythondataanalysis.com/docs/Polars_user_guide/expressions/categorical-data-and-enums/ - Expression Expansion: https://www.pythondataanalysis.com/docs/Polars_user_guide/expressions/expression-expansion/ - Folds: https://www.pythondataanalysis.com/docs/Polars_user_guide/expressions/folds/ - Lists and Arrays: https://www.pythondataanalysis.com/docs/Polars_user_guide/expressions/lists-and-arrays/ - Missing Data: https://www.pythondataanalysis.com/docs/Polars_user_guide/expressions/missing-data/ - Numpy Functions: https://www.pythondataanalysis.com/docs/Polars_user_guide/expressions/numpy-functions/ - Strings: https://www.pythondataanalysis.com/docs/Polars_user_guide/expressions/strings/ - Structs: https://www.pythondataanalysis.com/docs/Polars_user_guide/expressions/structs/ - User Defined Python Functions: https://www.pythondataanalysis.com/docs/Polars_user_guide/expressions/user-defined-python-functions/ - Window Functions: https://www.pythondataanalysis.com/docs/Polars_user_guide/expressions/window-functions/ - Reference: https://www.pythondataanalysis.com/docs/Polars_user_guide/api/reference/ - Index: https://www.pythondataanalysis.com/docs/Polars_user_guide/development/contributing/ - Versioning: https://www.pythondataanalysis.com/docs/Polars_user_guide/development/versioning/ - Index: https://www.pythondataanalysis.com/docs/Polars_user_guide/polars-cloud/ - Ecosystem: https://www.pythondataanalysis.com/docs/Polars_user_guide/user-guide/ecosystem/ - Gpu Support: https://www.pythondataanalysis.com/docs/Polars_user_guide/user-guide/gpu-support/ - Index: https://www.pythondataanalysis.com/docs/Polars_user_guide/user-guide/io/ - Index: https://www.pythondataanalysis.com/docs/Polars_user_guide/user-guide/lazy/ - Pandas: https://www.pythondataanalysis.com/docs/Polars_user_guide/user-guide/migration/pandas/ - Spark: https://www.pythondataanalysis.com/docs/Polars_user_guide/user-guide/migration/spark/ - Arrow: https://www.pythondataanalysis.com/docs/Polars_user_guide/user-guide/misc/arrow/ - Comparison: https://www.pythondataanalysis.com/docs/Polars_user_guide/user-guide/misc/comparison/ - Multiprocessing: https://www.pythondataanalysis.com/docs/Polars_user_guide/user-guide/misc/multiprocessing/ - Polars Llms: https://www.pythondataanalysis.com/docs/Polars_user_guide/user-guide/misc/polars_llms/ - Styling: https://www.pythondataanalysis.com/docs/Polars_user_guide/user-guide/misc/styling/ - Visualization: https://www.pythondataanalysis.com/docs/Polars_user_guide/user-guide/misc/visualization/ - Index: https://www.pythondataanalysis.com/docs/Polars_user_guide/user-guide/plugins/ - Create: https://www.pythondataanalysis.com/docs/Polars_user_guide/user-guide/sql/create/ - Cte: https://www.pythondataanalysis.com/docs/Polars_user_guide/user-guide/sql/cte/ - Intro: https://www.pythondataanalysis.com/docs/Polars_user_guide/user-guide/sql/intro/ - Select: https://www.pythondataanalysis.com/docs/Polars_user_guide/user-guide/sql/select/ - Show: https://www.pythondataanalysis.com/docs/Polars_user_guide/user-guide/sql/show/ - Index: https://www.pythondataanalysis.com/docs/Polars_user_guide/user-guide/transformations/ # 第 4 章 NumPy 基础:数组和向量计算 NumPy(Numerical Python 的简称)是 Python 数值计算最重要的基础包。大多数提供科学计算的包都是用 NumPy 的数组作为构建基础。 NumPy 的部分功能如下: - `ndarray`,一个具有向量算术运算和复杂广播能力的快速且节省空间的多维数组。 - 用于对整组数据进行快速运算的标准数学函数(无需编写循环)。 - 用于读写磁盘数据的工具以及用于操作内存映射文件的工具。 - 线性代数、随机数生成以及傅里叶变换功能。 - 用于集成由 C、C++、Fortran 等语言编写的代码的 C API。 由于 NumPy 提供了一个简单易用的 C API,因此很容易将数据传递给由低级语言编写的外部库,外部库也能以 NumPy 数组的形式将数据返回给 Python。这个功能使 Python 成为一种包装 C/C++/Fortran 历史代码库的选择,并使被包装库拥有一个动态的、易用的接口。 NumPy 本身并没有提供多么高级的数据分析功能,理解 NumPy 数组以及面向数组的计算将有助于你更加高效地使用诸如 pandas 之类的工具。因为 NumPy 是一个很大的题目,我会在附录 A 中介绍更多 NumPy 高级功能,比如广播。 对于大部分数据分析应用而言,我最关注的功能主要集中在: - 用于数据整理和清理、子集构造和过滤、转换等快速的向量化数组运算。 - 常用的数组算法,如排序、唯一化、集合运算等。 - 高效的描述统计和数据聚合/摘要运算。 - 用于异构数据集的合并/连接运算的数据对齐和关系型数据运算。 - 将条件逻辑表述为数组表达式(而不是带有`if-elif-else`分支的循环)。 - 数据的分组运算(聚合、转换、函数应用等)。。 虽然 NumPy 提供了通用的数值数据处理的计算基础,但大多数读者可能还是想将 pandas 作为统计和分析工作的基础,尤其是处理表格数据时。pandas 还提供了一些 NumPy 所没有的领域特定的功能,如时间序列处理等。 > 笔记:Python 的面向数组计算可以追溯到 1995 年,Jim Hugunin 创建了 Numeric 库。接下来的 10 年,许多科学编程社区纷纷开始使用 Python 的数组编程,但是进入 21 世纪,库的生态系统变得碎片化了。2005 年,Travis Oliphant 从 Numeric 和 Numarray 项目整了出了 NumPy 项目,进而所有社区都集合到了这个框架下。 NumPy 之于数值计算特别重要的原因之一,是因为它可以高效处理大数组的数据。这是因为: - NumPy 是在一个连续的内存块中存储数据,独立于其他 Python 内置对象。NumPy 的 C 语言编写的算法库可以操作内存,而不必进行类型检查或其它前期工作。比起 Python 的内置序列,NumPy 数组使用的内存更少。 - NumPy 可以在整个数组上执行复杂的计算,而不需要 Python 的`for`循环。 要搞明白具体的性能差距,考察一个包含一百万整数的数组,和一个等价的 Python 列表: ```python In [7]: import numpy as np In [8]: my_arr = np.arange(1000000) In [9]: my_list = list(range(1000000)) ``` 各个序列分别乘以 2: ```python In [10]: %time for _ in range(10): my_arr2 = my_arr * 2 CPU times: user 20 ms, sys: 50 ms, total: 70 ms Wall time: 72.4 ms In [11]: %time for _ in range(10): my_list2 = [x * 2 for x in my_list] CPU times: user 760 ms, sys: 290 ms, total: 1.05 s Wall time: 1.05 s ``` 基于 NumPy 的算法要比纯 Python 快 10 到 100 倍(甚至更快),并且使用的内存更少。 # 4.1 NumPy 的`ndarray`:一种多维数组对象 NumPy 最重要的一个特点就是其 N 维数组对象(即`ndarray`),该对象是一个快速而灵活的大数据集容器。你可以利用这种数组对整块数据执行一些数学运算,其语法跟标量元素之间的运算一样。 要明白 Python 是如何利用与标量值类似的语法进行批次计算,我先引入 NumPy,然后生成一个包含随机数据的小数组: ```python In [12]: import numpy as np # Generate some random data In [13]: data = np.random.randn(2, 3) In [14]: data Out[14]: array([[-0.2047, 0.4789, -0.5194], [-0.5557, 1.9658, 1.3934]]) ``` 然后进行数学运算: ```python In [15]: data * 10 Out[15]: array([[ -2.0471, 4.7894, -5.1944], [ -5.5573, 19.6578, 13.9341]]) In [16]: data + data Out[16]: array([[-0.4094, 0.9579, -1.0389], [-1.1115, 3.9316, 2.7868]]) ``` 第一个例子中,所有的元素都乘以 10。第二个例子中,每个元素都与自身相加。 > 笔记:在本章及全书中,我会使用标准的 NumPy 惯用法``import numpy as np``。你当然也可以在代码中使用``from numpy import *``,但不建议这么做。``numpy``的命名空间很大,包含许多函数,其中一些的名字与 Python 的内置函数重名(比如`min`和`max`)。 `ndarray`是一个通用的同构数据多维容器,也就是说,其中的所有元素必须是相同类型的。每个数组都有一个`shape`(一个表示各维度大小的元组)和一个`dtype`(一个用于说明数组数据类型的对象): ```python In [17]: data.shape Out[17]: (2, 3) In [18]: data.dtype Out[18]: dtype('float64') ``` 本章将会介绍 NumPy 数组的基本用法,这对于本书后面各章的理解基本够用。虽然大多数数据分析工作不需要深入理解 NumPy,但是精通面向数组的编程和思维方式是成为 Python 科学计算牛人的一大关键步骤。 > 笔记:当你在本书中看到“数组”、“NumPy 数组”、`ndarray`时,基本上都指的是同一样东西,即`ndarray`对象。 ## 创建`ndarray` 创建数组最简单的办法就是使用`array`函数。它接受一切序列型的对象(包括其他数组),然后产生一个新的含有传入数据的 NumPy 数组。以一个列表的转换为例: ```python In [19]: data1 = [6, 7.5, 8, 0, 1] In [20]: arr1 = np.array(data1) In [21]: arr1 Out[21]: array([ 6. , 7.5, 8. , 0. , 1. ]) ``` 嵌套序列(比如由一组等长列表组成的列表)将会被转换为一个多维数组: ```python In [22]: data2 = [[1, 2, 3, 4], [5, 6, 7, 8]] In [23]: arr2 = np.array(data2) In [24]: arr2 Out[24]: array([[1, 2, 3, 4], [5, 6, 7, 8]]) ``` 因为`data2`是列表的列表,NumPy 数组`arr2`的两个维度的`shape`是从`data2`引入的。可以用属性`ndim`和`shape`验证: ```python In [25]: arr2.ndim Out[25]: 2 In [26]: arr2.shape Out[26]: (2, 4) ``` 除非特别说明(稍后将会详细介绍),`np.array`会尝试为新建的这个数组推断出一个较为合适的数据类型。数据类型保存在一个特殊的`dtype`对象中。比如说,在上面的两个例子中,我们有: ```python In [27]: arr1.dtype Out[27]: dtype('float64') In [28]: arr2.dtype Out[28]: dtype('int64') ``` 除`np.array`之外,还有一些函数也可以新建数组。比如,`zeros`和`ones`分别可以创建指定长度或形状的全 0 或全 1 数组。`empty`可以创建一个没有任何具体值的数组。要用这些方法创建多维数组,只需传入一个表示形状的元组即可: ```python In [29]: np.zeros(10) Out[29]: array([ 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]) In [30]: np.zeros((3, 6)) Out[30]: array([[ 0., 0., 0., 0., 0., 0.], [ 0., 0., 0., 0., 0., 0.], [ 0., 0., 0., 0., 0., 0.]]) In [31]: np.empty((2, 3, 2)) Out[31]: array([[[ 0., 0.], [ 0., 0.], [ 0., 0.]], [[ 0., 0.], [ 0., 0.], [ 0., 0.]]]) ``` > 注意:认为`np.empty`会返回全 0 数组的想法是不安全的。很多情况下(如前所示),它返回的都是一些未初始化的垃圾值。 `arange`是 Python 内置函数`range`的数组版: ```python In [32]: np.arange(15) Out[32]: array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]) ``` 表 4-1 列出了一些数组创建函数。由于 NumPy 关注的是数值计算,因此,如果没有特别指定,数据类型基本都是`float64`(浮点数)。 ![表 4-1 数组创建函数](/imgs2/7178691-78ab11f67e7077a6.png) ## `ndarray`的数据类型 `dtype`(数据类型)是一个特殊的对象,它含有`ndarray`将一块内存解释为特定数据类型所需的信息: ```python In [33]: arr1 = np.array([1, 2, 3], dtype=np.float64) In [34]: arr2 = np.array([1, 2, 3], dtype=np.int32) In [35]: arr1.dtype Out[35]: dtype('float64') In [36]: arr2.dtype Out[36]: dtype('int32') ``` `dtype`是 NumPy 灵活交互其它系统的源泉之一。多数情况下,它们直接映射到相应的机器表示,这使得“读写磁盘上的二进制数据流”以及“集成低级语言代码(如 C、Fortran)”等工作变得更加简单。数值型`dtype`的命名方式相同:一个类型名(如`float`或`int`),后面跟一个用于表示各元素位长的数字。标准的双精度浮点值(即 Python 中的`float`对象)需要占用 8 字节(即 64 位)。因此,该类型在 NumPy 中就记作`float64`。表 4-2 列出了 NumPy 所支持的全部数据类型。 > 笔记:记不住这些 NumPy 的`dtype`也没关系,新手更是如此。通常只需要知道你所处理的数据的大致类型是浮点数、复数、整数、布尔值、字符串,还是普通的 Python 对象即可。当你需要控制数据在内存和磁盘中的存储方式时(尤其是对大数据集),那就得了解如何控制存储类型。 ![](/imgs2/7178691-2f2d7406a8bc076c.png) ![](/imgs2/7178691-5cc31115615737b7.png) 你可以通过`ndarray`的`astype`方法明确地将一个数组从一个`dtype`转换成另一个`dtype`: ```python In [37]: arr = np.array([1, 2, 3, 4, 5]) In [38]: arr.dtype Out[38]: dtype('int64') In [39]: float_arr = arr.astype(np.float64) In [40]: float_arr.dtype Out[40]: dtype('float64') ``` 在本例中,整数被转换成了浮点数。如果将浮点数转换成整数,则小数部分将会被截取删除: ```python In [41]: arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1]) In [42]: arr Out[42]: array([ 3.7, -1.2, -2.6, 0.5, 12.9, 10.1]) In [43]: arr.astype(np.int32) Out[43]: array([ 3, -1, -2, 0, 12, 10], dtype=int32) ``` 如果某字符串数组表示的全是数字,也可以用`astype`将其转换为数值形式: ```python In [44]: numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_) In [45]: numeric_strings.astype(float) Out[45]: array([ 1.25, -9.6 , 42. ]) ``` > 注意:使用`numpy.string_`类型时,一定要小心,因为 NumPy 的字符串数据是大小固定的,发生截取时,不会发出警告。pandas 提供了更多非数值数据的便利的处理方法。 如果转换过程因为某种原因而失败了(比如某个不能被转换为`float64`的字符串),就会引发一个`ValueError`。这里,我比较懒,写的是`float`而不是`np.float64`;NumPy 很聪明,它会将 Python 类型映射到等价的`dtype`上。 数组的`dtype`还有另一个属性: ```python In [46]: int_array = np.arange(10) In [47]: calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64) In [48]: int_array.astype(calibers.dtype) Out[48]: array([ 0., 1., 2., 3., 4., 5., 6., 7., 8., 9.]) ``` 你还可以用简洁的类型代码来表示`dtype`: ```python In [49]: empty_uint32 = np.empty(8, dtype='u4') In [50]: empty_uint32 Out[50]: array([ 0, 1075314688, 0, 1075707904, 0, 1075838976, 0, 1072693248], dtype=uint32) ``` > 笔记:调用`astype`总会创建一个新的数组(一个数据的备份),即使新的`dtype`与旧的`dtype`相同。 ## NumPy 数组的运算 数组很重要,因为它使你不用编写循环即可对数据执行批量运算。NumPy 用户称其为向量化(vectorization)。大小相等的数组之间的任何算术运算都会将运算应用到元素级: ```python In [51]: arr = np.array([[1., 2., 3.], [4., 5., 6.]]) In [52]: arr Out[52]: array([[ 1., 2., 3.], [ 4., 5., 6.]]) In [53]: arr * arr Out[53]: array([[ 1., 4., 9.], [ 16., 25., 36.]]) In [54]: arr - arr Out[54]: array([[ 0., 0., 0.], [ 0., 0., 0.]]) ``` 数组与标量的算术运算会将标量值传播到各个元素: ```python In [55]: 1 / arr Out[55]: array([[ 1. , 0.5 , 0.3333], [ 0.25 , 0.2 , 0.1667]]) In [56]: arr ** 0.5 Out[56]: array([[ 1. , 1.4142, 1.7321], [ 2. , 2.2361, 2.4495]]) ``` 大小相同的数组之间的比较会生成布尔值数组: ```python In [57]: arr2 = np.array([[0., 4., 1.], [7., 2., 12.]]) In [58]: arr2 Out[58]: array([[ 0., 4., 1.], [ 7., 2., 12.]]) In [59]: arr2 > arr Out[59]: array([[False, True, False], [ True, False, True]], dtype=bool) ``` 不同大小的数组之间的运算叫做广播(broadcasting),将在附录 A 中对其进行详细讨论。本书的内容不需要对广播机制有多深的理解。 ## 基本的索引和切片 NumPy 数组的索引是一个内容丰富的主题,因为选取数据子集或单个元素的方式有很多。一维数组很简单。从表面上看,它们跟 Python 列表的功能差不多: ```python In [60]: arr = np.arange(10) In [61]: arr Out[61]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) In [62]: arr[5] Out[62]: 5 In [63]: arr[5:8] Out[63]: array([5, 6, 7]) In [64]: arr[5:8] = 12 In [65]: arr Out[65]: array([ 0, 1, 2, 3, 4, 12, 12, 12, 8, 9]) ``` 如上所示,当你将一个标量值赋值给一个切片时(如`arr[5:8]=12`),该值会自动传播(也就说后面将会讲到的“广播”)到整个选区。跟列表最重要的区别在于,数组切片是原始数组的视图。这意味着数据不会被复制,视图上的任何修改都会直接反映到源数组上。 作为例子,先创建一个`arr`的切片: ```python In [66]: arr_slice = arr[5:8] In [67]: arr_slice Out[67]: array([12, 12, 12]) ``` 现在,当我修改`arr_slice`中的值,变动也会体现在原始数组`arr`中: ```python In [68]: arr_slice[1] = 12345 In [69]: arr Out[69]: array([ 0, 1, 2, 3, 4, 12, 12345, 12, 8, 9]) ``` 切片`[:]`会给数组中的所有值赋值: ```python In [70]: arr_slice[:] = 64 In [71]: arr Out[71]: array([ 0, 1, 2, 3, 4, 64, 64, 64, 8, 9]) ``` 如果你刚开始接触 NumPy,可能会对此感到惊讶(尤其是当你曾经用过其他热衷于复制数组数据的编程语言)。由于 NumPy 的设计目的是处理大数据,所以你可以想象一下,假如 NumPy 坚持要将数据复制来复制去的话会产生何等的性能和内存问题。 > 注意:如果你想要得到的是`ndarray`切片的一份副本而非视图,就需要明确地进行复制操作,例如``arr[5:8].copy()``。 对于高维度数组,能做的事情更多。在一个二维数组中,各索引位置上的元素不再是标量而是一维数组: ```python In [72]: arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]) In [73]: arr2d[2] Out[73]: array([7, 8, 9]) ``` 因此,可以对各个元素进行递归访问,但这样需要做的事情有点多。你可以传入一个以逗号隔开的索引列表来选取单个元素。也就是说,下面两种方式是等价的: ```python In [74]: arr2d[0][2] Out[74]: 3 In [75]: arr2d[0, 2] Out[75]: 3 ``` 图 4-1 说明了二维数组的索引方式。轴 0 作为行,轴 1 作为列。 ![图 4-1 NumPy 数组中的元素索引](/imgs2/7178691-0a641536f73f560e.png) 在多维数组中,如果省略了后面的索引,则返回对象会是一个维度低一点的`ndarray`(它含有高一级维度上的所有数据)。因此,在`2×2×3`数组`arr3d`中: ```python In [76]: arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]]) In [77]: arr3d Out[77]: array([[[ 1, 2, 3], [ 4, 5, 6]], [[ 7, 8, 9], [10, 11, 12]]]) ``` `arr3d[0]`是一个`2×3`数组: ```python In [78]: arr3d[0] Out[78]: array([[1, 2, 3], [4, 5, 6]]) ``` 标量值和数组都可以被赋值给`arr3d[0]`: ```python In [79]: old_values = arr3d[0].copy() In [80]: arr3d[0] = 42 In [81]: arr3d Out[81]: array([[[42, 42, 42], [42, 42, 42]], [[ 7, 8, 9], [10, 11, 12]]]) In [82]: arr3d[0] = old_values In [83]: arr3d Out[83]: array([[[ 1, 2, 3], [ 4, 5, 6]], [[ 7, 8, 9], [10, 11, 12]]]) ``` 相似的,`arr3d[1,0]`可以访问索引以`(1,0)`开头的那些值(以一维数组的形式返回): ```python In [84]: arr3d[1, 0] Out[84]: array([7, 8, 9]) ``` 虽然是用两步进行索引的,表达式是相同的: ```python In [85]: x = arr3d[1] In [86]: x Out[86]: array([[ 7, 8, 9], [10, 11, 12]]) In [87]: x[0] Out[87]: array([7, 8, 9]) ``` 注意,在上面所有这些选取数组子集的例子中,返回的数组都是视图。 ## 切片索引 `ndarray`的切片语法跟 Python 列表这样的一维对象差不多: ```python In [88]: arr Out[88]: array([ 0, 1, 2, 3, 4, 64, 64, 64, 8, 9]) In [89]: arr[1:6] Out[89]: array([ 1, 2, 3, 4, 64]) ``` 对于之前的二维数组`arr2d`,其切片方式稍显不同: ```python In [90]: arr2d Out[90]: array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]) In [91]: arr2d[:2] Out[91]: array([[1, 2, 3], [4, 5, 6]]) ``` 可以看出,它是沿着第 0 轴(即第一个轴)切片的。也就是说,切片是沿着一个轴向选取元素的。表达式`arr2d[:2]`可以被认为是“选取`arr2d`的前两行”。 你可以一次传入多个切片,就像传入多个索引那样: ```python In [92]: arr2d[:2, 1:] Out[92]: array([[2, 3], [5, 6]]) ``` 像这样进行切片时,只能得到相同维数的数组视图。通过将整数索引和切片混合,可以得到低维度的切片。 例如,我可以选取第二行的前两列: ```python In [93]: arr2d[1, :2] Out[93]: array([4, 5]) ``` 相似的,还可以选择第三列的前两行: ```python In [94]: arr2d[:2, 2] Out[94]: array([3, 6]) ``` 图 4-2 对此进行了说明。注意,“只有冒号”表示选取整个轴,因此你可以像下面这样只对高维轴进行切片: ```python In [95]: arr2d[:, :1] Out[95]: array([[1], [4], [7]]) ``` ![图 4-2 二维数组切片](/imgs2/7178691-9da32d2f4629c304.png) 自然,对切片表达式的赋值操作也会被扩散到整个选区: ```python In [96]: arr2d[:2, 1:] = 0 In [97]: arr2d Out[97]: array([[1, 0, 0], [4, 0, 0], [7, 8, 9]]) ``` ## 布尔型索引 来看这样一个例子,假设我们有一个用于存储数据的数组以及一个存储姓名的数组(含有重复项)。在这里,我将使用`numpy.random`中的`randn`函数生成一些正态分布的随机数据: ```python In [98]: names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe']) In [99]: data = np.random.randn(7, 4) In [100]: names Out[100]: array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype=' 注意:如果布尔型数组的长度不对,布尔型选择就会出错,因此一定要小心。 下面的例子,我选取了``names == 'Bob'``的行,并索引了列: ```python In [104]: data[names == 'Bob', 2:] Out[104]: array([[ 0.769 , 1.2464], [-0.5397, 0.477 ]]) In [105]: data[names == 'Bob', 3] Out[105]: array([ 1.2464, 0.477 ]) ``` 要选择除"Bob"以外的其他值,既可以使用不等于符号(!=),也可以通过~对条件进行否定: ```python In [106]: names != 'Bob' Out[106]: array([False, True, True, False, True, True, True], dtype=bool) In [107]: data[~(names == 'Bob')] Out[107]: array([[ 1.0072, -1.2962, 0.275 , 0.2289], [ 1.3529, 0.8864, -2.0016, -0.3718], [ 3.2489, -1.0212, -0.5771, 0.1241], [ 0.3026, 0.5238, 0.0009, 1.3438], [-0.7135, -0.8312, -2.3702, -1.8608]]) ``` ~操作符用来反转条件很好用: ```python In [108]: cond = names == 'Bob' In [109]: data[~cond] Out[109]: array([[ 1.0072, -1.2962, 0.275 , 0.2289], [ 1.3529, 0.8864, -2.0016, -0.3718], [ 3.2489, -1.0212, -0.5771, 0.1241], [ 0.3026, 0.5238, 0.0009, 1.3438], [-0.7135, -0.8312, -2.3702, -1.8608]]) ``` 选取这三个名字中的两个需要组合应用多个布尔条件,使用&(和)、|(或)之类的布尔算术运算符即可: ```python In [110]: mask = (names == 'Bob') | (names == 'Will') In [111]: mask Out[111]: array([ True, False, True, True, True, False, False], dtype=bool) In [112]: data[mask] Out[112]: array([[ 0.0929, 0.2817, 0.769 , 1.2464], [ 1.3529, 0.8864, -2.0016, -0.3718], [ 1.669 , -0.4386, -0.5397, 0.477 ], [ 3.2489, -1.0212, -0.5771, 0.1241]]) ``` 通过布尔型索引选取数组中的数据,将总是创建数据的副本,即使返回一模一样的数组也是如此。 > 注意:Python 关键字`and`和`or`在布尔型数组中无效。要使用`&`与`|`。 通过布尔型数组设置值是一种经常用到的手段。为了将`data`中的所有负值都设置为 0,我们只需: ```python In [113]: data[data < 0] = 0 In [114]: data Out[114]: array([[ 0.0929, 0.2817, 0.769 , 1.2464], [ 1.0072, 0. , 0.275 , 0.2289], [ 1.3529, 0.8864, 0. , 0. ], [ 1.669 , 0. , 0. , 0.477 ], [ 3.2489, 0. , 0. , 0.1241], [ 0.3026, 0.5238, 0.0009, 1.3438], [ 0. , 0. , 0. , 0. ]]) ``` 通过一维布尔数组设置整行或列的值也很简单: ```python In [115]: data[names != 'Joe'] = 7 In [116]: data Out[116]: array([[ 7. , 7. , 7. , 7. ], [ 1.0072, 0. , 0.275 , 0.2289], [ 7. , 7. , 7. , 7. ], [ 7. , 7. , 7. , 7. ], [ 7. , 7. , 7. , 7. ], [ 0.3026, 0.5238, 0.0009, 1.3438], [ 0. , 0. , 0. , 0. ]]) ``` 后面会看到,这类二维数据的操作也可以用 pandas 方便的来做。 ## 花式索引 花式索引(Fancy indexing)是一个 NumPy 术语,它指的是利用整数数组进行索引。假设我们有一个`8×4`数组: ```python In [117]: arr = np.empty((8, 4)) In [118]: for i in range(8): .....: arr[i] = i In [119]: arr Out[119]: array([[ 0., 0., 0., 0.], [ 1., 1., 1., 1.], [ 2., 2., 2., 2.], [ 3., 3., 3., 3.], [ 4., 4., 4., 4.], [ 5., 5., 5., 5.], [ 6., 6., 6., 6.], [ 7., 7., 7., 7.]]) ``` 为了以特定顺序选取行子集,只需传入一个用于指定顺序的整数列表或`ndarray`即可: ```python In [120]: arr[[4, 3, 0, 6]] Out[120]: array([[ 4., 4., 4., 4.], [ 3., 3., 3., 3.], [ 0., 0., 0., 0.], [ 6., 6., 6., 6.]]) ``` 这段代码确实达到我们的要求了!使用负数索引将会从末尾开始选取行: ```python In [121]: arr[[-3, -5, -7]] Out[121]: array([[ 5., 5., 5., 5.], [ 3., 3., 3., 3.], [ 1., 1., 1., 1.]]) ``` 一次传入多个索引数组会有一点特别。它返回的是一个一维数组,其中的元素对应各个索引元组: ```python In [122]: arr = np.arange(32).reshape((8, 4)) In [123]: arr Out[123]: array([[ 0, 1, 2, 3], [ 4, 5, 6, 7], [ 8, 9, 10, 11], [12, 13, 14, 15], [16, 17, 18, 19], [20, 21, 22, 23], [24, 25, 26, 27], [28, 29, 30, 31]]) In [124]: arr[[1, 5, 7, 2], [0, 3, 1, 2]] Out[124]: array([ 4, 23, 29, 10]) ``` 附录 A 中会详细介绍`reshape`方法。 最终选出的是元素`(1,0)`、`(5,3)`、`(7,1)`和`(2,2)`。无论数组是多少维的,花式索引总是一维的。 这个花式索引的行为可能会跟某些用户的预期不一样(包括我在内),选取矩阵的行列子集应该是矩形区域的形式才对。下面是得到该结果的一个办法: ```python In [125]: arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]] Out[125]: array([[ 4, 7, 5, 6], [20, 23, 21, 22], [28, 31, 29, 30], [ 8, 11, 9, 10]]) ``` 记住,花式索引跟切片不一样,它总是将数据复制到新数组中。 ## 数组转置和轴对换 转置是重塑的一种特殊形式,它返回的是源数据的视图(不会进行任何复制操作)。数组不仅有`transpose`方法,还有一个特殊的`T`属性: ```python In [126]: arr = np.arange(15).reshape((3, 5)) In [127]: arr Out[127]: array([[ 0, 1, 2, 3, 4], [ 5, 6, 7, 8, 9], [10, 11, 12, 13, 14]]) In [128]: arr.T Out[128]: array([[ 0, 5, 10], [ 1, 6, 11], [ 2, 7, 12], [ 3, 8, 13], [ 4, 9, 14]]) ``` 在进行矩阵计算时,经常需要用到该操作,比如利用`np.dot`计算矩阵内积: ```python In [129]: arr = np.random.randn(6, 3) In [130]: arr Out[130]: array([[-0.8608, 0.5601, -1.2659], [ 0.1198, -1.0635, 0.3329], [-2.3594, -0.1995, -1.542 ], [-0.9707, -1.307 , 0.2863], [ 0.378 , -0.7539, 0.3313], [ 1.3497, 0.0699, 0.2467]]) In [131]: np.dot(arr.T, arr) Out[131]: array([[ 9.2291, 0.9394, 4.948 ], [ 0.9394, 3.7662, -1.3622], [ 4.948 , -1.3622, 4.3437]]) ``` 对于高维数组,`transpose`需要得到一个由轴编号组成的元组才能对这些轴进行转置(比较费脑子): ```python In [132]: arr = np.arange(16).reshape((2, 2, 4)) In [133]: arr Out[133]: array([[[ 0, 1, 2, 3], [ 4, 5, 6, 7]], [[ 8, 9, 10, 11], [12, 13, 14, 15]]]) In [134]: arr.transpose((1, 0, 2)) Out[134]: array([[[ 0, 1, 2, 3], [ 8, 9, 10, 11]], [[ 4, 5, 6, 7], [12, 13, 14, 15]]]) ``` 这里,第一个轴被换成了第二个,第二个轴被换成了第一个,最后一个轴不变。 简单的转置可以使用`.T`,它其实就是进行轴对换而已。`ndarray`还有一个`swapaxes`方法,它需要接受一对轴编号: ```python In [135]: arr Out[135]: array([[[ 0, 1, 2, 3], [ 4, 5, 6, 7]], [[ 8, 9, 10, 11], [12, 13, 14, 15]]]) In [136]: arr.swapaxes(1, 2) Out[136]: array([[[ 0, 4], [ 1, 5], [ 2, 6], [ 3, 7]], [[ 8, 12], [ 9, 13], [10, 14], [11, 15]]]) ``` swapaxes 也是返回源数据的视图(不会进行任何复制操作)。 # 4.2 通用函数:快速的元素级数组函数 通用函数(即`ufunc`)是一种对`ndarray`中的数据执行元素级运算的函数。你可以将其看做简单函数(接受一个或多个标量值,并产生一个或多个标量值)的向量化包装器。 许多`ufunc`都是简单的元素级变体,如`sqrt`和`exp`: ```python In [137]: arr = np.arange(10) In [138]: arr Out[138]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) In [139]: np.sqrt(arr) Out[139]: array([ 0. , 1. , 1.4142, 1.7321, 2. , 2.2361, 2.4495, 2.6458, 2.8284, 3. ]) In [140]: np.exp(arr) Out[140]: array([ 1. , 2.7183, 7.3891, 20.0855, 54.5982, 148.4132, 403.4288, 1096.6332, 2980.958 , 8103.0839]) ``` 这些都是一元(unary)`ufunc`。另外一些(如`add`或`maximum`)接受 2 个数组(因此也叫二元(binary)`ufunc`),并返回一个结果数组: ```python In [141]: x = np.random.randn(8) In [142]: y = np.random.randn(8) In [143]: x Out[143]: array([-0.0119, 1.0048, 1.3272, -0.9193, -1.5491, 0.0222, 0.7584, -0.6605]) In [144]: y Out[144]: array([ 0.8626, -0.01 , 0.05 , 0.6702, 0.853 , -0.9559, -0.0235, -2.3042]) In [145]: np.maximum(x, y) Out[145]: array([ 0.8626, 1.0048, 1.3272, 0.6702, 0.853 , 0.0222, 0.7584, -0.6605]) ``` 这里,`numpy.maximum`计算了`x`和`y`中元素级别最大的元素。 虽然并不常见,但有些`ufunc`的确可以返回多个数组。`modf`就是一个例子,它是 Python 内置函数`divmod`的向量化版本,它会返回浮点数数组的小数和整数部分: ```python In [146]: arr = np.random.randn(7) * 5 In [147]: arr Out[147]: array([-3.2623, -6.0915, -6.663 , 5.3731, 3.6182, 3.45 , 5.0077]) In [148]: remainder, whole_part = np.modf(arr) In [149]: remainder Out[149]: array([-0.2623, -0.0915, -0.663 , 0.3731, 0.6182, 0.45 , 0.0077]) In [150]: whole_part Out[150]: array([-3., -6., -6., 5., 3., 3., 5.]) ``` `Ufuncs`可以接受一个`out`可选参数,这样就能在数组原地进行操作: ```python In [151]: arr Out[151]: array([-3.2623, -6.0915, -6.663 , 5.3731, 3.6182, 3.45 , 5.0077]) In [152]: np.sqrt(arr) Out[152]: array([ nan, nan, nan, 2.318 , 1.9022, 1.8574, 2.2378]) In [153]: np.sqrt(arr, arr) Out[153]: array([ nan, nan, nan, 2.318 , 1.9022, 1.8574, 2.2378]) In [154]: arr Out[154]: array([ nan, nan, nan, 2.318 , 1.9022, 1.8574, 2.2378]) ``` 表 4-3 和表 4-4 分别列出了一些一元和二元`ufunc`。 ![](/imgs2/7178691-1d494e73b61c7ced.png) ![](/imgs2/7178691-2be79faf68ab6ff8.png) ![](/imgs2/7178691-4e38d02a66481530.png) ![](/imgs2/7178691-eff1e61e5464159f.png) ![](/imgs2/7178691-236dba83b6a420cc.png) # 4.3 利用数组进行数据处理 NumPy 数组使你可以将许多种数据处理任务表述为简洁的数组表达式(否则需要编写循环)。用数组表达式代替循环的做法,通常被称为向量化。一般来说,向量化数组运算要比等价的纯 Python 方式快上一两个数量级(甚至更多),尤其是各种数值计算。在后面内容中(见附录 A)我将介绍广播,这是一种针对向量化计算的强大手段。 作为简单的例子,假设我们想要在一组值(网格型)上计算函数``sqrt(x^2+y^2)``。`np.meshgrid`函数接受两个一维数组,并产生两个二维矩阵(对应于两个数组中所有的`(x,y)`对): ```python In [155]: points = np.arange(-5, 5, 0.01) # 1000 equally spaced points In [156]: xs, ys = np.meshgrid(points, points) In [157]: ys Out[157]: array([[-5. , -5. , -5. , ..., -5. , -5. , -5. ], [-4.99, -4.99, -4.99, ..., -4.99, -4.99, -4.99], [-4.98, -4.98, -4.98, ..., -4.98, -4.98, -4.98], ..., [ 4.97, 4.97, 4.97, ..., 4.97, 4.97, 4.97], [ 4.98, 4.98, 4.98, ..., 4.98, 4.98, 4.98], [ 4.99, 4.99, 4.99, ..., 4.99, 4.99, 4.99]]) ``` 现在,对该函数的求值运算就好办了,把这两个数组当做两个浮点数那样编写表达式即可: ```python In [158]: z = np.sqrt(xs ** 2 + ys ** 2) In [159]: z Out[159]: array([[ 7.0711, 7.064 , 7.0569, ..., 7.0499, 7.0569, 7.064 ], [ 7.064 , 7.0569, 7.0499, ..., 7.0428, 7.0499, 7.0569], [ 7.0569, 7.0499, 7.0428, ..., 7.0357, 7.0428, 7.0499], ..., [ 7.0499, 7.0428, 7.0357, ..., 7.0286, 7.0357, 7.0428], [ 7.0569, 7.0499, 7.0428, ..., 7.0357, 7.0428, 7.0499], [ 7.064 , 7.0569, 7.0499, ..., 7.0428, 7.0499, 7.0569]]) ``` 作为第 9 章的先导,我用 matplotlib 创建了这个二维数组的可视化: ```python In [160]: import matplotlib.pyplot as plt In [161]: plt.imshow(z, cmap=plt.cm.gray); plt.colorbar() Out[161]: In [162]: plt.title("Image plot of $\sqrt{x^2 + y^2}$ for a grid of values") Out[162]: ``` 见图 4-3。这张图是用 matplotlib 的`imshow`函数创建的。 ![图 4-3 根据网格对函数求值的结果](/imgs2/7178691-3b22000d4cd38650.png) ## 将条件逻辑表述为数组运算 `numpy.where`函数是三元表达式`x if condition else y`的向量化版本。假设我们有一个布尔数组和两个值数组: ```python In [165]: xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5]) In [166]: yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5]) In [167]: cond = np.array([True, False, True, True, False]) ``` 假设我们想要根据`cond`中的值选取`xarr`和`yarr`的值:当`cond`中的值为`True`时,选取`xarr`的值,否则从`yarr`中选取。列表推导式的写法应该如下所示: ```python In [168]: result = [(x if c else y) .....: for x, y, c in zip(xarr, yarr, cond)] In [169]: result Out[169]: [1.1000000000000001, 2.2000000000000002, 1.3, 1.3999999999999999, 2.5] ``` 这有几个问题。第一,它对大数组的处理速度不是很快(因为所有工作都是由纯 Python 完成的)。第二,无法用于多维数组。若使用`np.where`,则可以将该功能写得非常简洁: ```python In [170]: result = np.where(cond, xarr, yarr) In [171]: result Out[171]: array([ 1.1, 2.2, 1.3, 1.4, 2.5]) ``` `np.where`的第二个和第三个参数不必是数组,它们都可以是标量值。在数据分析工作中,`where`通常用于根据另一个数组而产生一个新的数组。假设有一个由随机数据组成的矩阵,你希望将所有正值替换为 2,将所有负值替换为 -2。若利用`np.where`,则会非常简单: ```python In [172]: arr = np.random.randn(4, 4) In [173]: arr Out[173]: array([[-0.5031, -0.6223, -0.9212, -0.7262], [ 0.2229, 0.0513, -1.1577, 0.8167], [ 0.4336, 1.0107, 1.8249, -0.9975], [ 0.8506, -0.1316, 0.9124, 0.1882]]) In [174]: arr > 0 Out[174]: array([[False, False, False, False], [ True, True, False, True], [ True, True, True, False], [ True, False, True, True]], dtype=bool) In [175]: np.where(arr > 0, 2, -2) Out[175]: array([[-2, -2, -2, -2], [ 2, 2, -2, 2], [ 2, 2, 2, -2], [ 2, -2, 2, 2]]) ``` 使用`np.where`,可以将标量和数组结合起来。例如,我可用常数 2 替换`arr`中所有正的值: ```python In [176]: np.where(arr > 0, 2, arr) # set only positive values to 2 Out[176]: array([[-0.5031, -0.6223, -0.9212, -0.7262], [ 2. , 2. , -1.1577, 2. ], [ 2. , 2. , 2. , -0.9975], [ 2. , -0.1316, 2. , 2. ]]) ``` 传递给`where`的数组大小可以不相等,甚至可以是标量值。 ## 数学和统计方法 可以通过数组上的一组数学函数对整个数组或某个轴向的数据进行统计计算。`sum`、`mean`以及标准差`std`等聚合计算(aggregation,通常叫做约简(reduction))既可以当做数组的实例方法调用,也可以当做顶级 NumPy 函数使用。 这里,我生成了一些正态分布随机数据,然后做了聚类统计: ```python In [177]: arr = np.random.randn(5, 4) In [178]: arr Out[178]: array([[ 2.1695, -0.1149, 2.0037, 0.0296], [ 0.7953, 0.1181, -0.7485, 0.585 ], [ 0.1527, -1.5657, -0.5625, -0.0327], [-0.929 , -0.4826, -0.0363, 1.0954], [ 0.9809, -0.5895, 1.5817, -0.5287]]) In [179]: arr.mean() Out[179]: 0.19607051119998253 In [180]: np.mean(arr) Out[180]: 0.19607051119998253 In [181]: arr.sum() Out[181]: 3.9214102239996507 ``` `mean`和`sum`这类的函数可以接受一个`axis`选项参数,用于计算该轴向上的统计值,最终结果是一个少一维的数组: ```python In [182]: arr.mean(axis=1) Out[182]: array([ 1.022 , 0.1875, -0.502 , -0.0881, 0.3611]) In [183]: arr.sum(axis=0) Out[183]: array([ 3.1693, -2.6345, 2.2381, 1.1486]) ``` 这里,`arr.mean(1)`是“计算行的平均值”,`arr.sum(0)`是“计算每列的和”。 其他如`cumsum`和`cumprod`之类的方法则不聚合,而是产生一个由中间结果组成的数组: ```python In [184]: arr = np.array([0, 1, 2, 3, 4, 5, 6, 7]) In [185]: arr.cumsum() Out[185]: array([ 0, 1, 3, 6, 10, 15, 21, 28]) ``` 在多维数组中,累加函数(如`cumsum`)返回的是同样大小的数组,但是会根据每个低维的切片沿着标记轴计算部分聚类: ```python In [186]: arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]]) In [187]: arr Out[187]: array([[0, 1, 2], [3, 4, 5], [6, 7, 8]]) In [188]: arr.cumsum(axis=0) Out[188]: array([[ 0, 1, 2], [ 3, 5, 7], [ 9, 12, 15]]) In [189]: arr.cumprod(axis=1) Out[189]: array([[ 0, 0, 0], [ 3, 12, 60], [ 6, 42, 336]]) ``` 表 4-5 列出了全部的基本数组统计方法。后续章节中有很多例子都会用到这些方法。 ![](/imgs2/7178691-a6c6df3ca8e0b98e.png) ![](/imgs2/7178691-866fcde885b1d357.png) ## 用于布尔型数组的方法 在上面这些方法中,布尔值会被强制转换为 1(`True`)和 0(`False`)。因此,`sum`经常被用来对布尔型数组中的`True`值计数: ```python In [190]: arr = np.random.randn(100) In [191]: (arr > 0).sum() # Number of positive values Out[191]: 42 ``` 另外还有两个方法`any`和`all`,它们对布尔型数组非常有用。`any`用于测试数组中是否存在一个或多个`True`,而`all`则检查数组中所有值是否都是`True`: ```python In [192]: bools = np.array([False, False, True, False]) In [193]: bools.any() Out[193]: True In [194]: bools.all() Out[194]: False ``` 这两个方法也能用于非布尔型数组,所有非 0 元素将会被当做`True`。 ## 排序 跟 Python 内置的列表类型一样,NumPy 数组也可以通过`sort`方法就地排序: ```python In [195]: arr = np.random.randn(6) In [196]: arr Out[196]: array([ 0.6095, -0.4938, 1.24 , -0.1357, 1.43 , -0.8469]) In [197]: arr.sort() In [198]: arr Out[198]: array([-0.8469, -0.4938, -0.1357, 0.6095, 1.24 , 1.43 ]) ``` 多维数组可以在任何一个轴向上进行排序,只需将轴编号传给`sort`即可: ```python In [199]: arr = np.random.randn(5, 3) In [200]: arr Out[200]: array([[ 0.6033, 1.2636, -0.2555], [-0.4457, 0.4684, -0.9616], [-1.8245, 0.6254, 1.0229], [ 1.1074, 0.0909, -0.3501], [ 0.218 , -0.8948, -1.7415]]) In [201]: arr.sort(1) In [202]: arr Out[202]: array([[-0.2555, 0.6033, 1.2636], [-0.9616, -0.4457, 0.4684], [-1.8245, 0.6254, 1.0229], [-0.3501, 0.0909, 1.1074], [-1.7415, -0.8948, 0.218 ]]) ``` 顶级方法`np.sort`返回的是数组的已排序副本,而就地排序则会修改数组本身。计算数组分位数最简单的办法是对其进行排序,然后选取特定位置的值: ```python In [203]: large_arr = np.random.randn(1000) In [204]: large_arr.sort() In [205]: large_arr[int(0.05 * len(large_arr))] # 5% quantile Out[205]: -1.5311513550102103 ``` 更多关于 NumPy 排序方法以及诸如间接排序之类的高级技术,请参阅附录 A。在 pandas 中还可以找到一些其他跟排序有关的数据操作(比如根据一列或多列对表格型数据进行排序)。 ## 唯一化以及其它的集合逻辑 NumPy 提供了一些针对一维`ndarray`的基本集合运算。最常用的可能要数`np.unique`了,它用于找出数组中的唯一值并返回已排序的结果: ```python In [206]: names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe']) In [207]: np.unique(names) Out[207]: array(['Bob', 'Joe', 'Will'], dtype=' 0, 1, -1) In [254]: walk = steps.cumsum() ``` 有了这些数据之后,我们就可以沿着漫步路径做一些统计工作了,比如求取最大值和最小值: ```python In [255]: walk.min() Out[255]: -3 In [256]: walk.max() Out[256]: 31 ``` 现在来看一个复杂点的统计任务——首次穿越时间,即随机漫步过程中第一次到达某个特定值的时间。假设我们想要知道本次随机漫步需要多久才能距离初始 0 点至少 10 步远(任一方向均可)。`np.abs(walk)>=10`可以得到一个布尔型数组,它表示的是距离是否达到或超过 10,而我们想要知道的是第一个 10 或 -10 的索引。可以用`argmax`来解决这个问题,它返回的是该布尔型数组第一个最大值的索引(`True`就是最大值): ```python In [257]: (np.abs(walk) >= 10).argmax() Out[257]: 37 ``` 注意,这里使用`argmax`并不是很高效,因为它无论如何都会对数组进行完全扫描。在本例中,只要发现了一个`True`,那我们就知道它是个最大值了。 ## 一次模拟多个随机漫步 如果你希望模拟多个随机漫步过程(比如 5000 个),只需对上面的代码做一点点修改即可生成所有的随机漫步过程。只要给`numpy.random`的函数传入一个二元元组就可以产生一个二维数组,然后我们就可以一次性计算 5000 个随机漫步过程(一行一个)的累计和了: ```python In [258]: nwalks = 5000 In [259]: nsteps = 1000 In [260]: draws = np.random.randint(0, 2, size=(nwalks, nsteps)) # 0 or 1 In [261]: steps = np.where(draws > 0, 1, -1) In [262]: walks = steps.cumsum(1) In [263]: walks Out[263]: array([[ 1, 0, 1, ..., 8, 7, 8], [ 1, 0, -1, ..., 34, 33, 32], [ 1, 0, -1, ..., 4, 5, 4], ..., [ 1, 2, 1, ..., 24, 25, 26], [ 1, 2, 3, ..., 14, 13, 14], [ -1, -2, -3, ..., -24, -23, -22]]) ``` 现在,我们来计算所有随机漫步过程的最大值和最小值: ```python In [264]: walks.max() Out[264]: 138 In [265]: walks.min() Out[265]: -133 ``` 得到这些数据之后,我们来计算 30 或 -30 的最小穿越时间。这里稍微复杂些,因为不是 5000 个过程都到达了 30。我们可以用`any`方法来对此进行检查: ```python In [266]: hits30 = (np.abs(walks) >= 30).any(1) In [267]: hits30 Out[267]: array([False, True, False, ..., False, True, False], dtype=bool) In [268]: hits30.sum() # Number that hit 30 or -30 Out[268]: 3410 ``` 然后我们利用这个布尔型数组选出那些穿越了 30(绝对值)的随机漫步(行),并调用`argmax`在轴 1 上获取穿越时间: ```python In [269]: crossing_times = (np.abs(walks[hits30]) >= 30).argmax(1) In [270]: crossing_times.mean() Out[270]: 498.88973607038122 ``` 请尝试用其他分布方式得到漫步数据。只需使用不同的随机数生成函数即可,如`normal`用于生成指定均值和标准差的正态分布数据: ```python In [271]: steps = np.random.normal(loc=0, scale=0.25, .....: size=(nwalks, nsteps)) ``` # 4.8 结论 虽然本书剩下的章节大部分是用 pandas 规整数据,我们还是会用到相似的基于数组的计算。在附录 A 中,我们会深入挖掘 NumPy 的特点,进一步学习数组的技巧。