首页 涨停板 正文

华章科技(华章科技被清盘了吗)

wx头像 wx 2022-02-08 08:42:09 6
...

导读:Python中常会用到一些专门的库,如NumPy、SciPy、Pandas和Matplotlib。数据处理常用到NumPy、SciPy和Pandas,数据剖析常用到Pandas和Scikit-Learn,数据可视化常用到Matplotlib,而对大规模数据进行分布式发掘时则能够运用Pyspark来调用Spark集群的资源。

犇牛聚财牢靠吗,犇牛聚财牢靠吗

从必定程度上来说,学习Python数据剖析首要便是学习运用这些剖析库。

广东省自然科学基金?广东省自然科学基金

作者:刘鹏 高中强 王一凡 等

期货查询,期货查询

来历:篇章科技

01 NumPy

关于NumPy,本节首要介绍ndarray多维数组目标和数组特点。

1. ndarray 多维数组目标

NumPy库中的ndarray是一个多维数组目标,由两部分组成:实践的数据值和描绘这些值的元数据。大部分的数组操作只是触及修改元数据的部分,并不改动底层的实践数据。

数组中的一切元素类型有必要是一起的,所以假如知道其间一个元素的类型,就很简略确认该数组需求的存储空间。能够用array()函数创立数组,并经过dtype获取其数据类型。

import numpy as npa = np.array(6)a.dtypeoutput: dtype('int64')

上例中,数组a的数据类型为int64,假如运用的是32位Python,则得到的数据类型可能是int32。

2. 数组特点

NumPy数组有一个重要的特点——维度(dimension),它的维度被称作秩(rank)。以二维数组为例,一个二维数组相当于两个一维数组。只看最外面一层,它相当于一个一维数组,该一维数组中的每个元素也是一维数组。那么,这个一维数组即二维数组的轴。

了解了以上概念,接着来看NumPy数组中比较重要的ndarray目标的特点:

ndarray.ndim:秩,即轴的数量或维度的数量ndarray.shape:数组的维度,假如存的是矩阵,如n×m矩阵则输出为n行m列ndarray.size:数组元素的总个数,相当于.shape中n×m的值ndarray.dtype:ndarray目标的元素类型ndarray.itemsize:ndarray目标中每个元素的巨细,以字节为单位ndarray.flags:ndarray目标的内存信息ndarray.real:ndarray元素的实部ndarray.imag:ndarray元素的虚部ndarray.data:包含实践数组元素的缓冲区,因为一般经过数组的索引获取元素,所以一般不需求运用这个特点02 Matplotlib

Matplotlib是Python数据剖析中常用的一个绘图库,常用来制作各种数据的可视化效果图。其间,matplotlib.pyplot包含了简略的绘图功用。

1. 实战:制作多项式函数

为了阐明绘图的原理,下面来制作多项式函数的图画。运用NumPy的多项式函数poly1d()来创立多项式。

# 引进所需求的库import numpy as npimport matplotlib.pyplot as plt# 运用 polyld() 函数创立多项式 func=1x3+2x2+3x+4func = np.poly1d(np.array([1,2,3,4]).astype(f?loat))# 运用 NumPy 的 linspace() 函数在 -10 和 10 之间发生 30 个均匀分布的值,作为函数 x 轴的取值x = np.linspace(-10, 10 , 30)# 将 x 的值代入 func() 函数,核算得到 y 值y=func(x)# 调用 pyplot 的 plot 函数 (),制作函数图画plt.plot(x, y)# 运用 xlable() 函数增加 x 轴标签plt.xlabel('x')# 运用 ylabel() 函数增加 y 轴标签plt.ylabel('y(x)')# 调用 show() 函数显现函数图画plt.show()

多项式函数的制作成果如图2-13所示。

▲图2-13 多项式函数制作

2. 实战:制作正弦和余弦值

为了显着看到两个效果图的差异,能够将两个效果图放到一张图中显现。Matplotlib中的subplot()函数答应在一张图中显现多张子图。subplot()常用的3个整型参数别离为子图的行数、子图的列数以及子图的索引。

下面的实例将制作正弦和余弦两个函数的图画。

# 导入相关包import numpy as npimport matplotlib.pyplot as pltfrom matplotlib.pyplot import f?iguref?igure(num=None, f?igsize=(12, 8), dpi=80, facecolor='w', edgecolor='k')# 核算正弦和余弦曲线上点的 x 和 y 坐标x = np.arange(0, 3 * np.pi, 0.1)y_sin = np.sin(x)y_cos = np.cos(x)# subplot的3个参数,2、1、1 ,表明制作2行1列图画中的榜首个子图plt.subplot(2, 1, 1)# 制作榜首个子图# 制作榜首个图画plt.plot(x, y_sin) plt.title('Sin')plt.subplot(2, 1, 2)# 制作2行1 列图画中的第二个子图plt.plot(x, y_cos) plt.title('Cos')plt.show()# 显现图画

正弦和余弦函数的制作成果如图2-14所示。

▲图2-14 正弦和余弦函数制作

03 PySpark

在大数据运用场景中,当咱们面临海量的数据和杂乱模型巨大的核算需求时,单机的环境现已难以承载,需求用到分布式核算环境来完结机器学习使命。

Apache Spark是一个快速而强壮的结构,能够对弹性数据集履行大规模分布式处理。经过图2-15所示的Apache Spark架构图能够十分明晰地看到它的组成。

▲图2-15 Apache Spark架构图

Spark支撑丰厚的数据源,能够符合绝大部分大数据运用场景,一起,经过Spark中心对核算资源一起调度,因为核算的数据都在内存中存储,使得核算功率大大提高。Spark原生支撑的言语是Scala,但为了丰厚运用场景和满意各研制人员的言语偏好,Spark一起支撑Java、Python与R。

PySpark是Spark社区发布的在Spark结构中支撑Python的东西包,它的核算速度和才能与Scala相似。经过PySpark调用Spark的API,合作MLlib与ML库,能够轻松进行分布式数据发掘。

MLlib库是Spark传统的机器学习库,现在支撑4种常见的机器学习问题:分类、回归、聚类和协同过滤。MLlib的一切算法皆根据Spark特有的RDD(Resilient Distributed Dataset,弹性分布式数据集)数据结构进行运算。因为RDD并不能很好地满意更为杂乱的建模需求,ML库应运而生。

ML库相较MLlib库更新,它全面选用根据数据帧(Data Frame)的API进行操作,能够供给更为全面的机器学习算法,且支撑静态类型剖析,能够在编程过程中及时发现过错,而不需求等代码运转。

Python中除了包含上面介绍的库,还有其他一些常用库。下面别离进行介绍。

04 SciPy

SciPy是一个开源算法库和数学东西包,它根据NumPy构建,并扩展了NumPy的功用。SciPy包含线性代数、积分、插值、特别函数、快速傅里叶变换等常用函数,功用与软件MATLAB、Scilab和GNU Octave相似。Scipy常常结合Numpy运用,能够说Python的大多数机器学习库都依赖于这两个模块。

05 Pandas

Pandas供给了强壮的数据读写功用、高档的数据结构和各种剖析东西。该库的一大特点是能用一两个指令完结杂乱的数据操作。

Pandas中最根底的数据结构是Series,用于表明一行数据,能够理解为一维的数组。另一个要害的数据结构为DataFrame,用于表明二维数组,效果和R言语里的data.frame很像。

Pandas内置了许多函数,用于分组、过滤和组合数据,这些函数的履行速度都很快。Pandas关于时刻序列数据有一套一起的剖析机制,可对时刻数据做灵敏的剖析与办理。

06 Scikit-Learn

Scikit-Learn是一个根据NumPy、SciPy、Matplotlib的开源机器学习东西包,功用强壮,运用简略,是Kaggle选手常常运用的学习库。它首要包含分类、回归和聚类算法,例如SVM、逻辑回归、朴素贝叶斯、随机森林、K均值以及数据降维处理算法等,官方文档完全,更新及时。

Scikit-Learn根据Numpy和SciPy等Python数值核算库,供给了高效的算法完成,并针对一切算法供给了一起的接口调用规矩,包含KNN、K均值、PCA等,接口易用。

07 TensorFlow

TensorFlow是谷歌开源的数值核算结构,也是现在最为盛行的神经网络剖析体系。它选用数据流图的方法,可灵敏建立多种机器学习和深度学习模型。

08 Keras

Keras是一个用于处理神经网络的高档库,能够运转在TensorFlow和Theano上,现在发布的新版本能够运用CNTK或MxNet作为后端。Keras简化了许多特定使命,并大大减少了样板代码数,现在首要用于深度学习范畴。

关于作者:刘鹏,教授,清华大学博士,云核算、大数据和人工智能范畴的闻名专家,南京云创大数据科技股份有限公司总裁、我国大数据运用联盟人工智能专家委员会主任。我国电子学会云核算专家委员会云存储组组长、工业和信息化部云核算研究中心专家。

高中强,人工智能与大数据范畴技能专家,有十分深沉的堆集,拿手机器学习和自然言语处理,尤其是深度学习,了解Tensorflow、PyTorch等深度学习开发结构。曾获“2019年全国大学生数学建模优异出题人奖”。参加钟南山院士辅导新式冠状病毒人工智能猜测体系研制项目,与钟南山院士团队一起宣布学术论文。

本文摘编自《Python金融数据发掘与剖析实战》,经出书方授权发布。(ISBN:9787111696506)

《Python金融数据发掘与剖析实战》

引荐语:云创大数据(上市公司)总裁编撰,零根底学会金融数据发掘,配有事例、视频、代码、数据、习题及答案。

本文地址:https://www.changhecl.com/83132.html

退出请按Esc键