安排上!数据科学中必须了解的Python基础库

安排上!数据科学中必须了解的Python基础库

你在学习数据科学吗?你想抄近路解决这些问题吗?那我们一定要看看蟒蛇。本文将介绍一些基础数据科学库。学习后,你可以从6点到6点飞行。

核心库

Python有三个核心数据科学库,许多其他库都是在这些库上创建的。三个核心数据科学库是:

为简单起见,Numpy可以被视为首选阵列。Numpy数组在许多方面不同于标准的Python列表,但是有几点需要记住,Numpy数组比标准的Python列表更快、占用空间更少、功能更多。但是,还应该注意的是,这些数组的大小和类型是固定的,可以在创建数组时定义。同时,它不会像列表一样无限期地添加新值。

Scipy基于Numpy提供了优化、统计和线性代数处理等功能。虽然Numpy有类似的功能,但我更喜欢Scipy的功能。您想计算相关系数还是创建一些正态分布数据?Scipy只是为你量身定做的。

Matplotlib可能稍逊于其他数据科学库,但它是Python中绘图的核心库。它功能强大,需要时可以有效控制。

第二代库

核心库既伟大又普通。然而,有三个基于核心库的第二代库,它们提供更多的功能,使用更少的代码。

如果你一直在研究数据科学,但没有听说过Scikit-learn,那么我无话可说。Scikit-learn是Python中的一个机器学习库。它具有强大的社区支持、归档功能和统一且易于使用的应用编程接口。该图书馆侧重于“核心”机器学习,包括结构化数据的回归、分类和聚类。然而,它不能用于深度学习或贝叶斯机器学习。

熊猫是为了简化蟒蛇的数据分析而创建的。熊猫使得加载结构化数据、计算统计数据和剪切数据变得非常容易。在数据挖掘和分析阶段,它是不可或缺的工具。然而,我个人不建议在数据生成阶段使用熊猫,因为它通常不能很好地扩展到大型数据集。然而,熊猫代码可以转换成原始的Numpy数组,这可以显著提高数据产生的速度。

虽然Matplotlib不是最好的可视化工具,但Seaborn可以轻松创建漂亮的可视化数据。海鸟是基于Matplotlib创建的,所以您仍然可以使用Matplotlib来添加或编辑海鸟图表。它还使创建复杂的图表类型变得更加容易。看下面的图片,我们可以找到一些灵感:

深度学习

随着深入学习的快速发展,不提及这个领域更好的Python包是不明智的。

我是Pytorch的超级粉丝。如果你想在学习数据科学库的同时开始深度学习,Pytorch是最好的选择,这样高级深度学习算法就相对容易了。Pytorch逐渐成为研究和实现大量功能的标准深度学习库,使其在数据生成用例中更加完善。这些例子还提供了许多很好的入门教程。

就个人而言,喀拉斯是第一个真正让深入学习触手可及的数据科学图书馆。你可以创建和训练一个有10行代码的深度学习模型,这些代码非常容易阅读和理解。然而,它的缺点是高级抽象很难实现Keras目前不支持的新研究(尽管它们在这个领域不断改进)。它还支持多个后端,即张量流和碳纳米管。

Tensorflow由谷歌创建,为深度学习产品提供强大支持。就个人而言,Tensorflow的原始版本相当笨拙,但他们学到了很多。张量流2.0使得深入学习的门槛越来越低。虽然Pytorch为深度学习提供了更多的生产支持,但Tensorflow极大地提高了深度学习的可用性。

统计

我想用Python中的两个统计模型库来结束本文。

如果您使用了r,您可能会奇怪为什么Scikit-learn在计算回归系数时没有给出p值。如果是这样,您需要查看stats模型。就个人而言,statsmodels为统计模型和测试提供了很好的支持,甚至支持许多R语法。

概率编程和建模非常有趣。如果你不熟悉这个领域,你可以检查黑客的贝叶斯方法或使用PyMC3。PyMC3使定义的概率模型非常直观,并为许多高级模型提供了很多支持。

飞起来

在我之前,没有人相信蟒蛇有许多惊人的数据科学库。本文的目的是关注最基础的数据科学数据库。有了Python和这些优秀的数据科学库,您会对自己的成就感到惊讶。我希望这篇文章能成为你参与数据科学的一个好的起点,而这仅仅是你发现所有惊人的数据科学库的开始。

 

极牛网精选文章《安排上!数据科学中必须了解的Python基础库》文中所述为作者独立观点,不代表极牛网立场。如若转载请注明出处:https://geeknb.com/3398.html

(34)
打赏 微信公众号 微信公众号 微信小程序 微信小程序
主编的头像主编认证作者
上一篇 2019年11月26日 上午9:00
下一篇 2019年11月26日 上午9:12

相关推荐

发表回复

登录后才能评论
扫码关注
扫码关注
分享本页
返回顶部