1,如何查看http表头 查看网站的编程语言? 2,如何取了解一个网站使用什么语言开发的?
在网页上点击右键,查看源文件,里面便是该网页的html源代码。
网页的后缀可以看出用什么语言开发的,例:http://zhidaobaiducom/question/311112715html
后缀是html。还有像asp、php、aspx之类的很多。
最全Python爬虫库
Python爬虫库推荐
通用:
1urllib-网络库(stdlib) 。
2requests-网络库。
3grab-网络库(基于py curl) 。
4py curl-网络库(绑定libcurl) 。
5urllib 3-Python HTTP库, 安全连接池、支持文件post
、可用性高。
6httplib 2-网络库。
7Robo Browser-一个简单的、极具Python风格的
Python库, 无需独立的浏览器即可浏览网页。
8Mechanical Soup一一个与网站自动交互Python库。
9mechanize-有状态、可编程的Web浏览库。
10socket-底层网络接口(stdlib) 。
11Uni rest for Python-Uni rest是一套可用于多种语言的
轻量级的HTTP库。
12hyper-Python的HTTP/2客户端。
13Py Socks-Socks iPy更新并积极维护的版本, 包括错误
修复和一些其他的特征。作为socket模块的直接替换。
网络爬虫框架
1功能齐全的爬虫
·grab-网络爬虫框架(基于py curl/multi cur) 。
·scrap y-网络爬虫框架(基于twisted) , 不支持
Python 3。
mpy spider-一个强大的爬虫系统。
·cola-一个分布式爬虫框架。
2其他
·portia-基于Scrap y的可视化爬虫。
rest kit-Python的HTTP资源工具包。它可以让你轻松地
访问HTTP资源, 并围绕它建立的对象。
·demiurge-基于Py Query的爬虫微框架。
HTML/XML解析器
1通用
·lxml-C语言编写高效HTML/XML处理库。支持XPath。
·css select-解析DOM树和CSS选择器。
py query-解析DOM树和j Query选择器。
Beautiful Soup-低效HTML/XML处理库, 纯Python实
现。
·html5lib-根据WHATWG规范生成HTML/XML文档的
DOM。该规范被用在现在所有的浏览器上。
·feedparser-解析RSS/ATOM feeds。
·Markup Safe-为XML/HTML/XHTML提供了安全转义的
字符串。
·xml to dict-一个可以让你在处理XML时感觉像在处理
JSON一样的Python模块。
·xhtml 2pdf-将HTML/CSS转换为PDF。
·untangle-轻松实现将XML文件转换为Python对象。
HTML/XML解析器
1通用
·lxml-C语言编写高效HTML/XML处理库。支持XPath。
·css select-解析DOM树和CSS选择器。
·py query-解析DOM树和j Query选择器。
·Beautiful Soup-低效HTML/XML处理库, 纯Python实
现。
·html5lib-根据WHATWG规范生成HTML/XML文档的
DOM。该规范被用在现在所有的浏览器上。
·feedparser-解析RSS/ATOM feeds。
·Markup Safe-为XML/HTML/XHTML提供了安全转义的
字符串。
·xml to dict-一个可以让你在处理XML时感觉像在处理
JSON一样的Python模块。
·xhtml 2pdf-将HTML/CSS转换为PDF。
·untangle-轻松实现将XML文件转换为Python对象。
文本处理
用于解析和操作简单文本的库。
1通用
2diff lib-(Python标准库) 帮助进行差异化比较。
3Levenshtein-快速计算Levenshtein距离和字符串相似度。
4fuzzy wuzzy-模糊字符串匹配。
5esm re-正则表达式加速器。
6ft fy-自动整理Unicode文本, 减少碎片化。
自然语言处理
处理人类语言问题的库。
·NL TK-编写Python程序来处理人类语言数据的最好平台。
·Pattern-Python的网络挖掘模块。他有自然语言处理工具
,机器学习以及其它。
·Text Blob-为深入自然语言处理任务提供了一致的API。是
基于NL TK以及Pattern的巨人之肩上发展的。
·jie ba-中文分词工具。
·Snow NLP-中文文本处理库。
·los o-另一个中文分词库。
浏览器自动化与仿真
·selenium-自动化真正的浏览器(Chrome浏览器, 火狐浏
览器, Opera浏览器, IE浏览器) 。
·Ghostpy-对PyQt的webkit的封装(需要PyQT) 。
·Spy nner-对PyQt的webkit的封装(需要PyQT) 。
·Splinter-通用API浏览器模拟器(selenium web驱动,
Django客户端, Zope) 。
多重处理
·threading-Python标准库的线程运行。对于I/O密集型任
务很有效。对于CPU绑定的任务没用, 因为python GIL。
multiprocessing-标准的Python库运行多进程。
·celery-基于分布式消息传递的异步任务队列/作业队列。
·concurrent-futures-concurrent-futures模块为调
用异步执行提供了一个高层次的接口。
异步
异步网络编程库
·async io-(在Python 34+版本以上的Python标准库
)异步/O,时间循环,协同程序和任务。
·Twisted-基于事件驱动的网络引擎框架。
·Tornado-一个网络框架和异步网络库。
·pulsar-Python事件驱动的并发框架。
·diesel-Python的基于绿色事件的I/O框架。
g event-一个使用green let的基于协程的Python网络库
·event let-有WSGI支持的异步框架。
·Tomorrow-异步代码的奇妙的修饰语法。
队列
·celery-基于分布式消息传递的异步任务队列/作业队列。
·huey-小型多线程任务队列。
·mrq-MrQueue-使用red is&G event的Python分
布式工作任务队列。
·RQ-基于Red is的轻量级任务队列管理器。
·simple q-一个简单的, 可无限扩展, 基于Amazon SQS
的队列。
·python-gear man-Gear man的Python API。
云计算
·pic loud-云端执行Python代码。
·dominoupcom-云端执行R, Python和matlab代码
网页内容提取
提取网页内容的库。
·HTML页面的文本和元数据
·newspaper-用Python进行新闻提取、文章提取和内容策
展。
·html2 text-将HTML转为Markdown格式文本。
·python-goose-HTML内容/文章提取器。
·lassie-人性化的网页内容检索工具
Web Socket
用于Web Socket的库。
·Crossbar-开源的应用消息传递路由器(Python实现的用
于Autobahn的Web Socket和WAMP) 。
·Autobahn Python-提供了Web Socket协议和WAMP
协议的Python实现并且开源。
·Web Socket-for-Python-Python 2和3以及PyPy的
Web Socket客户端和服务器库。
1建议你可以用PHP,http://www123yitaocom这个网站也是用的PHP语言,容易上手和开源的项目多;
2如果擅长ASP(后缀ASP)的话也是可以的,只是当流量很大的时候,服务器负担会较重,建议ASPnet(后缀ASPX)会比ASP好,ASPnet扩展功能比较好。
3至于JSP有一定的难度,如果你想挑战一下也未尝不可,关键是你自己的基础和擅长的语言!
1确定服务器品牌,现在市场上主流服务器IBM、HP、DELL、联想、华硕等,然后将服务器自带的Server Guide 引导盘放在光驱进行引导,设置服务器语言,raid及引导程序。
2查看服务器的光驱类型,是CD还是DVD。如果是DVD则没有多大问题,如果是CD光驱,则不能读取光盘,这时需要外接光驱,FTP,HTTP等安装方式。如果是老一点的服务器基本上都是CD光驱,例如IBM X365基本上IBM的服务器04年以前光驱都是CD-ROM。
3确定安装方式,如果不能用外接光驱,则采取FTP网络安装方式咯。在此小弟以自身安装服务器为例。服务器型号:IBM X365;光驱:CD-ROM;磁盘做的raid1由于小弟第一次碰这么古老的服务器,想着肯定和现在市场上的新款服务器没多大区别,没想到一个服务器折腾了两天,废话不多说了,切入正题。
a直接塞入RHEL 55的系统盘,重启服务器,发现不引导。又尝试了几遍,还是不引导。
b这时怀疑是不是系统盘不能引导,或者光驱坏掉有问题(因为服务器上的第一启动项是光驱嘛,就不需要改Bios,如果改了bios,系统安装完成后第一启动项设为光驱引导,第二启动项设为硬盘引导)。就将系统盘在PC上安装,发现没有任何问题,确定系统盘没有问题。接下来则测试光驱了,将Server Guide引导盘放在光驱里,发现能够正常引导,说明光驱是正常的。于是就上网查看服务器的型号,才发现IBM X365的光驱是CD-ROM,不支持DVD格式。然后采用外接光驱引导安装操作系统,RHEL在安装过程中要检测光驱,有下面几个安装方式:Local cd-rom;FTP;HTTP;hard disk。于是就选择了Local cd-rom,服务器就弹出了自身的光驱,未能检测到外接光驱。由于安装服务器的时候要求将磁盘格式掉,不能选择hard disk,那就只能选择FTP网络安装了。
4确定了安装方式之后,在个人PC上用Server-U搭建了一个FTP服务器,设置FTP的目录,连接方式。将RHEL 55的系统盘放入光驱拷贝到D盘下的FTP的子目录Linux下。搭建好FTP服务器之后,匿名登录然后在本地上测试,在Server-U服务器上查看连接记录,证明FTP是好的就OK了。目录结构如下所示:
5选择FTP安装方式以后,首先会让你给服务器配置IP,配置同一网段即可,用ping命令测试网络是否联通。(在此注意,由于服务器比较古老,用平行线可能不能联通,用交叉线就ok了;另一种方法就是那一个小HUB将服务器和FTP服务器连接在一起,配置同一网段,相当于一个小局域网)。网络配置好以后,会让你填写FTP的服务器地址和路径以及选择登录方式,以本人安装为例,IP:10102024,路径:linux,选择下面的登录方式为匿名登录。接下来会让你输入用户名和密码,匿名登录用户名和密码均为FTP。下图为在FTP服务器上看到现在正在安装linux系统访问FTP资源日志。
6根据提示安装linux系统。
0条评论