dry goods|Python Complete list of tools for crawlers


Source Bó Lè Headlines | baby elephant

这个列表包含与网页抓取和数据处理 ofPython库。

web

  • 通用
    • urllib - web库(stdlib)。
    • requests - web库。
    • grab – web库(基于pycurl)。
    • pycurl – web库(绑定libcurl)。
    • urllib3 - Python HTTP library with secure connection pooling, file post support, and high availability.
    • httplib2 – web库。
    • RoboBrowser – 一个简单 of、极具Python风格 ofPython库,无需独立 of浏览器即可浏览网页。
    • MechanicalSoup -一个与网站自动交互Python库。
    • mechanize -有状态、可编程 ofWeb浏览库。
    • socket – 底层 web接口(stdlib)。
    • Unirest for Python – Unirest是一套可用于多种语言 of轻量级 ofHTTP库。
    • hyper - HTTP/2 client for Python.
    • PySocks - An updated and actively maintained version of SocksiPy, including bug fixes and some other features. as a direct replacement for the socket module.
  • synchronous
    • treq – 类似于requests ofAPI(基于twisted)。
    • aiohttp – asyncio ofHTTP客户端/服务器(PEP-3156)。

web爬虫框架

  • 功能齐全 of爬虫
    • grab - web crawler framework (based on pycurl/multicur).
    • scrapy – web爬虫框架(基于twisted),不支持Python3。
    • pyspider – 一个强大 of爬虫系统。
    • cola – 一个分布式爬虫框架。
  • 其他
    • portia – 基于Scrapy of可视化爬虫。
    • restkit – Python ofHTTP资源工具包。它可以让你轻松地访问HTTP资源,并围绕它建立 of对象。
    • demiurge – 基于PyQuery of爬虫微框架。

HTML/XML parser

  • 通用
    • lxml – C语言编写高效HTML/ XML处理库。支持XPath。
    • cssselect – 解析DOM树和CSS选择器。
    • pyquery - Parsing the DOM tree and jQuery selectors.
    • BeautifulSoup – 低效HTML/ XML处理库,纯Python实现。
    • html5lib – 根据WHATWG规范生成HTML/ XML文档 ofDOM。该规范被用在现在所有 of浏览器上。
    • feedparser - Parse RSS/ATOM feeds.
    • MarkupSafe – 为XML/HTML/XHTML提供了安全转义 of字符串。
    • xmltodict – 一个可以让你在处理XML时感觉像在处理JSON一样 ofPython模块。
    • xhtml2pdf – 将HTML/CSS转换为PDF。
    • untangle - Easy implementation of converting XML files to Python objects.
  • 清理
    • Bleach – 清理HTML(需要html5lib)。
    • sanitize – 为混乱 of数据世界带来清明。

文本处理

用于解析和操作简单文本 of库。

  • 通用
  • difflib – (Python标准库)帮助进行差异化比较。
  • Levenshtein – 快速计算Levenshtein距离和字符串相似度。
  • fuzzywuzzy - Fuzzy string matching.
  • esmre – 正则表达式加速器。
  • ftfy – 自动整理Unicode文本,减少碎片化。
  • 转换
  • unidecode – 将Unicode文本转为ASCII。
  • character encoding
  • uniout – 打印可读字符,而不是被转义 of字符串。
  • chardet – 兼容 Python of2/3 of character encoding器。
  • xpinyin – 一个将中国汉字转为拼音 of库。
  • pangu.py – 格式化文本中CJK和字母数字 of间距。
  • Slug化
  • awesome-slugify – 一个可以保留unicode ofPython slugify库。
  • python-slugify – 一个可以将Unicode转为ASCII ofPython slugify库。
  • unicode-slugify – 一个可以将生成Unicode slugs of工具。
  • pytils – 处理俄语字符串 of简单工具(包括pytils.translit.slugify)。
  • Universal parser
  • PLY – lex和yacc解析工具 ofPython实现。
  • pyparsing – 一个通用框架 of生成语法分析器。
  • Name of the person
  • python-nameparser - Component for parsing people's names.
  • 电话号码
  • phonenumbers - Parses, formats, stores and validates international phone numbers.
  • 用户代理字符串
  • python-user-agents – 浏览器用户代理 of解析器。
  • HTTP Agent Parser – Python ofHTTP代理分析器。

Format-specific document processing

解析和处理特定文本格式 of库。

  • 通用
  • tablib - a module to export data to XLS, CSV, JSON, YAML, etc.
  • textract – 从各种文件中提取文本,比如 Word、PowerPoint、PDF等。
  • messytables – 解析混乱 of表格数据 of工具。
  • rows – 一个常用数据接口,支持 of格式很多(目前支持CSV,HTML,XLS,TXT – 将来还会提供更多!)。
  • Office
  • python-docx - Read, query and modify docx files from Microsoft Word 2007/2008.
  • xlwt / xlrd - Reads write data and formatting information from an Excel file.
  • XlsxWriter – 一个创建Excel.xlsx文件 ofPython模块。
  • xlwings – 一个BSD许可 of库,可以很容易地在Excel中调用Python,反之亦然。
  • openpyxl – 一个用于读取和写入 ofExcel2010 XLSX/ XLSM/ xltx/ XLTM文件 of库。
  • Marmir - Extracts Python data structures and converts them to spreadsheets.
  • PDF
  • PDFMiner – 一个从PDF文档中提取信息 of工具。
  • PyPDF2 – 一个能够分割、合并和转换PDF页面 of库。
  • ReportLab – 允许快速创建丰富 ofPDF文档。
  • pdftables - Extract tables directly from PDF files.
  • Markdown
  • Python-Markdown – 一个用Python实现 ofJohn Gruber ofMarkdown。
  • Mistune – 速度最快,功能全面 ofMarkdown纯Python解析器。
  • markdown2 – 一个完全用Python实现 of快速 ofMarkdown。
  • YAML
  • PyYAML – 一个Python ofYAML解析器。
  • CSS
  • cssutils – 一个Python ofCSS库。
  • ATOM/RSS
  • feedparser – 通用 offeed解析器。
  • SQL
  • sqlparse – 一个非验证 ofSQL语句分析器。
  • HTTP
  • HTTP
  • http-parser – C语言实现 ofHTTP请求/响应消息解析器。
  • microformat
  • opengraph - A Python module for parsing Open Graph protocol tags.
  • 可移植 of执行体
  • pefile - A multi-platform module for parsing and processing portable executable (i.e. PE) files.
  • PSD
  • psd-tools - Reads Adobe Photoshop PSD (i.e. PE) files into Python data structures.

自然语言处理

处理人类语言问题 of库。

  • NLTK -编写Python程序来处理人类语言数据 of最好平台。
  • Pattern – Python of web挖掘模块。他有自然语言处理工具,机器学习以及其它。
  • TextBlob – 为深入自然语言处理任务提供了一致 ofAPI。是基于NLTK以及Pattern of巨人之肩上发展 of。
  • jieba - Chinese word splitting tool.
  • SnowNLP - Chinese text processing library.
  • loso - Another Chinese word splitting library.
  • genius – 基于条件随机域 of中文分词。
  • langid.py – 独立 of语言识别系统。
  • Korean – 一个韩文形态库。
  • pymorphy2 - Russian morphological analyzer (lexical annotation + morphological change engine)
  • PyPLN – 用Python编写 of分布式自然语言处理通道。这个项目 of目标是创建一种简单 of方法使用NLTK通过 web接口处理大语言库。

Browser Automation and Simulation

  • selenium – 自动化真正 of浏览器(Chrome浏览器,火狐浏览器,Opera浏览器,IE浏览器)。
  • Ghost.py – 对PyQt ofwebkit of封装(需要PyQT)。
  • Spynner – 对PyQt ofwebkit of封装(需要PyQT)。
  • Splinter - Universal API browser emulator (selenium web driver, Django client, Zope).

multiprocessing

  • threading – Python标准库 of线程运行。对于I/O密集型任务很有效。对于CPU绑定 of任务没用,因为python GIL。
  • multiprocessing – 标准 ofPython库运行多进程。
  • celery – 基于分布式消息传递 of synchronous任务队列/作业队列。
  • concurrent-futures – concurrent-futures 模块为调用 synchronous执行提供了一个高层次 of接口。

synchronous

synchronous web编程库

  • asyncio – (在Python 3.4 +版本以上 of Python标准库) synchronousI/O,时间循环,协同程序和任务。
  • Twisted – 基于事件驱动 of web引擎框架。
  • Tornado – 一个 web框架和 synchronous web库。
  • pulsar – Python事件驱动 of并发框架。
  • diesel – Python of基于绿色事件 ofI/O框架。
  • gevent – 一个使用greenlet of基于协程 ofPython web库。
  • eventlet – 有WSGI支持 of synchronous框架。
  • Tomorrow – synchronous代码 of奇妙 of修饰语法。

队列

  • celery – 基于分布式消息传递 of synchronous任务队列/作业队列。
  • huey – 小型多线程任务队列。
  • mrq – Mr. Queue – 使用redis & Gevent ofPython分布式工作任务队列。
  • RQ – 基于Redis of轻量级任务队列管理器。
  • simpleq – 一个简单 of,可无限扩展,基于Amazon SQS of队列。
  • python-gearman – Gearman ofPython API。

云计算

  • picloud – 云端执行Python代码。
  • dominoup.com – 云端执行R,Python和matlab代码。

email

email解析库

  • flanker - Email address and Mime parsing library.
  • Talon – Mailgun库用于提取消息 of报价和签名。

网址和 network address操作

Parsing/modifying URLs and web address bases.

  • URL
    • furl – 一个小 ofPython库,使得操纵URL简单化。
    • purl – 一个简单 of不可改变 ofURL以及一个干净 of用于调试和操作 ofAPI。
    • urllib.parse - Used to break the Uniform Resource Locator (URL) string between components (addressing schemes, network locations, paths, etc.), in order to combine components into a URL string, and to convert a "relative URL" into an absolute URL, called a "base URL".
    • tldextract - Exactly separate TLDs from the URL's registration fields and subdomains, using a list of public suffixes.
  • network address
    • netaddr – 用于显示和操纵 network address ofPython库。

网页内容提取

提取网页内容 of库。

  • HTML页面 of文本和元数据
    • newspaper - News extraction, article extraction and content curation in Python.
    • html2text - Converts HTML to Markdown formatted text.
    • python-goose – HTML内容/文章提取器。
    • lassie – 人性化 of网页内容检索工具
    • micawber - A small library of rich content extracted from URLs.
    • sumy -一个自动汇总文本文件和HTML网页 of模块
    • Haul – 一个可扩展 of图像爬虫。
    • python-readability – arc90 readability工具 of快速Python接口。
    • scrapely – 从HTML网页中提取结构化数据 of库。给出了一些Web页面和数据提取 of示例,scrapely为所有类似 of网页构建一个分析器。
  • Video
    • youtube-dl – 一个从YouTube下载 Video of小命令行程序。
    • you-get – Python3 ofYouTube、优酷/ Niconico Video下载器。
  • wiki (Internet)
    • WikiTeam – 下载和保存wikis of工具。

WebSocket

用于WebSocket of库。

  • Crossbar - Open source application messaging router (Python implementation for Autobahn's WebSocket and WAMP).
  • AutobahnPython – 提供了WebSocket协议和WAMP协议 ofPython实现并且开源。
  • WebSocket-for-Python – Python 2和3以及PyPy ofWebSocket客户端和服务器库。

DNS resolution

  • dnsyo – 在全球超过1500个 ofDNS服务器上检查你 ofDNS。
  • pycares – c-ares of接口。c-ares是进行DNS请求和 synchronous名称决议 ofC语言库。

计算机视觉

  • OpenCV – 开源计算机视觉库。
  • SimpleCV – 用于照相机、图像处理、特征提取、格式转换 of简介,可读性强 of接口(基于OpenCV)。
  • mahotas – 快速计算机图像处理算法(完全使用 C++ 实现),完全基于 numpy of数组作为它 of数据类型。

proxy server

  • shadowsocks – 一个快速隧道代理,可帮你穿透防火墙(支持TCP和UDP,TFO,多用户和平滑重启,目 ofIP黑名单)。
  • tproxy – tproxy是一个简单 ofTCP路由代理(第7层),基于Gevent,用Python进行配置。

List of other Python tools

  • awesome-python
  • pycrumbs
  • python-github-projects
  • python_reference
  • pythonidae

Recommended>>
1、How to Lure Target Users to Get WPA Passwords with Fluxion
2、After Renren MicroE Loans Hacked Again by DDOS Attack
3、Plus the magic 40ms of TCP
4、New requirements for TEE encryption and decryption algorithms in AndroidO
5、ACE Information Alert OpenSSL Exposes Another High Risk Vulnerability

    已推荐到看一看 和朋友分享想法
    最多200字,当前共 发送

    已发送

    朋友将在看一看看到

    确定
    分享你的想法...
    取消

    分享想法到看一看

    确定
    最多200字,当前共

    发送中

    网络异常,请稍后重试

    微信扫一扫
    关注该公众号