不久前,巨蟒谷歌全球搜索索引已经超过了爪哇(巨蟒之王来了?Python谷歌搜索索引已经超过了Java)。这表明蟒蛇变得越来越重要。同时,对于数据科学家来说,Python也是一个必不可少的工具。最近,分析维迪亚总结了24个蟒蛇库,24个数据科学家不能错过。这也是一个非常好的列表。让我们看看。这也是初学者学习和选择的方向。
这24个库包含在以下区域中。本文主要介绍前四种情况:
用于数据收集的Python库用于数据清理和操作的Python库用于数据可视化的Python库用于建模@
数据收集的Python
您是否遇到过没有足够数据来解决您想要解决的问题的情况?这是数据科学中一个永恒的问题。这就是为什么学习如何提取和收集数据是数据科学家的一项关键技能。它开辟了以前不可能的途径。
这里有三个有用的Python库用于提取和收集数据。
Beautiful Soup
美丽汤是一个超文本标记语言和可扩展标记语言的解析器,它为解析的页面创建一个解析树,从网页中提取数据。也就是说,它主要对爬虫抓取的网页数据执行数据提取功能。
Scrapy
Sparky是另一个非常有用的网络爬行Python库。这是一个开源和协作框架,用于从网站中提取您需要的数据。它使用起来又快又简单。
Selenium
硒是自动化浏览器的流行工具。它主要用于工业测试,但也非常便于网络捕获。事实上,硒在信息技术领域已经变得非常受欢迎。
数据清理和表示的Python库
好的——那么您已经收集了数据,准备继续挖掘。是时候清理我们可能面临的任何混乱数据,并学习如何操作它,以便我们的数据可以用于建模。
这里有四个Python库可以帮助您实现这个目标。请记住,我们将处理现实世界中的结构化(数字)和文本性(非结构化)数据——这个库列表涵盖了所有这些。
Pandas
在数据处理和分析方面没有什么比熊猫更好的了。这是* * *的蟒蛇图书馆。熊猫是用Python语言编写的,特别适合于操作和分析任务。
这个名字来源于术语“面板数据”,它是一个数据集的个人资本度量,包括对同一个人在多个时间段的观察——维基百科
PyOD
努力发现异常值?你并不孤单。对于有抱负的(甚至是公认的)数据科学家来说,这是一个常见的问题。你如何定义异常值?
别担心,PyOD图书馆可以帮你。
PyOD是一个用于检测异常对象的全面且可扩展的Python工具包。异常检测是为了识别与大多数数据明显不同的稀有项目或观察值。
NumPy
像熊猫一样,NumPy是另一个非常受欢迎的蟒蛇库。NumPy引入了支持大型多维数组和矩阵的函数。它还引入了高级数学函数来处理这些数组和矩阵。
Spacy
# #
到目前为止,我们已经讨论了如何清理和处理数字数据。但是如果你在处理文本数据呢?
使用SpaCy。这是一个非常有用和灵活的自然语言处理(NLP)库和框架,用于清理文本文档以创建模型。SpaCy比用于类似任务的其他库更快。
数据可视化的Python库
下一步是什么?数据可视化,当然!这就是我们的假设被检验的地方,隐藏的洞察力被挖掘出来,模式被发现。
这里有三个用于数据可视化的大型Python库。
Matplotlib
Matplolib是Python中的* * *数据可视化库。它允许我们生成和构建各种图表。它可以用Seaborn可视化地探索数据(稍后将详细描述)。
Seaborn
Seaborn是另一个基于matplotlib的映射库。这是一个python库,提供高级界面来绘制有吸引力的图形。matplotlib能做的是,Seaborn只是以一种更具视觉吸引力的方式来做。
Bokeh
# *
Bokeh是一个供现代网络浏览器演示的交互式可视化库。它为大量数据集提供了各种图表的优雅构造。
Bokeh可用于创建交互式图表、仪表板和数据应用程序。
建立数据挖掘模型的Python库
我们已经达到了本文最期待的部分——构建模型!这就是为什么我们大多数人首先进入数据科学,不是吗?
让我们通过这三个Python库探索模型构建。
Scikit-Learn
像熊猫一样用于数据处理,matplotlib用于可视化,scikit-learn是Python***。没有比这更好的了。
事实上,scikit-learn是建立在NumPy、SciPy和matplotlib之上的。它是开源的,每个人都可以访问,并且可以在各种环境中重用。
TensorFlow
TensorFlow,由谷歌开发,是一个受欢迎的深度学习库,帮助您构建和训练不同的模型。这是一个开源的端到端平台。TensorFlow提供简单的模型构建、强大的机器学习生成以及强大的实验工具和库。
极牛网精选文章《只知道Pandas吗?数据科学家不能错过的24个Python库(上)》文中所述为作者独立观点,不代表极牛网立场。如若转载请注明出处:https://geeknb.com/3895.html