C++实现http简易代理服务器
我正在做与你同样的工作,我选择了mongoose,一款开源的http服务器。
http://codegooglecom/p/mongoose/
这是它的网站,可以下载源码,并且协议非常自由。
有不明白之处可以联系我。我正在基于mongoose进行开发。
=========================================
源码在这里可以下载到,http://codegooglecom/p/mongoose/downloads/list
我也只是一个c程序员,不太会网络编程。但用mongoose的确非常简单,因为就是c++写的,你应该看起来不费劲。
HTTP工作原理
HTTP报文大致分为 报文首部 和 报文主体 两块,中间用 空行 来划分。通常,不一定有报文主体。
举个栗子,浏览器地址栏输入 wwwbaiducom ,打开控制台,查看 Request Headers ,看到如下信息:
第一行为请求行: GET / HTTP/11 方法是GET,协议版本http11
HOST :请求资源所在服务器
Connection keep-alive :一般情况下,一旦web服务器向浏览器发送了请求数据,他就要关闭TCP连接,然后如果浏览器或者服务器在其头信息加入了Connection:keep-alive,则TCP连接在发送后仍将保持打开状态,于是,浏览器可以继续通过相同的连接发送请求,保持连接节省了为每个请求建立新连接所需要的时间,还节约了网络带宽。
User-Agent :客户端程序的信息,就是我发送请求的浏览器信息。
Accept :列出了浏览器可以接收的媒体数据类型:
Accept-Encoding: 是浏览器用来告知服务器它能够支持的内容编码及内容编码的优先级顺序,可一次性指定多种内容编码。gzip:有文件压缩程序gzip生成的编码格式。deflate:组合使用zlib格式和deflate压缩算法生成的编码格式。sdch: Shared Dictionary Compression over HTTP字典压缩算法。
Accept-Language: 告知服务器浏览器能够处理的自然语言集(中文、英文等)。zh-CN中文简体。
Cookie :浏览器记录的用户相关信息。
浏览器控制台给出了相应的 Reponse Headers :
第一行状态行:给出了 状态码200 ,表示请求已被正常处理。
Server: 这是服务器用来告诉客户端当前服务器上安装的HTTP服务器应用程序的信息,可能包含服务器上的软件应用名称,版本号等。
Content-Type: 此字段标明了服务器返回给浏览器的实体内容的类型是text/html,charset为UTF-8。这部分与请求头中的Accept相对应。
Transfer-Encoding: chunked 表示输出的内容长度不能确定,普通的静态页面、之类的基本上都用不到这个。动态页面中可能会用到。
Cache-Control: 缓存控制,默认值为private,表示内容只缓存到私有缓存中(仅客户端可以缓存,代理服务器不可缓存)。
Expires: 告知客户端资源失效的日期。当浏览器看到响应中有一个Expires头时,它会和相应的组件一起保存到其缓存中,只要组件没有过期,浏览器就会使用缓存版本而不会进行任何的HTTP请求。Expires设置的日期格式必须为GMT(格林尼治标准时间)。
X-UA-Compatible: 设置浏览器兼容模式。 IE=Edge 指定IE浏览器以最新的标准来渲染页面,chrome=1 则可以激活Chrome Frame,将允许站点在使用了谷歌浏览器内嵌框架(Chrome Frame)的客户端渲染,对于没有使用的,则没有任何影响。
在刚才访问 wwwbaiducom 的例子中,控制台点击Response,我们就可以看到服务器返回给浏览器的数据(如图),数据格式为html,浏览器拿到数据后解析渲染成我们所看到的百度首页。
在百度的搜索栏输入我们想要搜索的数据,例如我输入了百科,刷新观察Network给出的报文信息,我们会发现请求头(Request Headers)后面多了一串数据Query String Parameters(查询字符串参数列表),如图所示,
这表示当我们想要查询一些数据的时候,浏览器将查询的数据信息一并打包到HTTP请求报文中发送给了服务器。服务器处理完成后,返回给浏览器一串JavaScript的字符串:
1需求
了解服务端如何处理http请求,了解基本的处理流程
2实战
处理http请求分为7个步骤
21 Tcp连接
建立一条tcp链接,(若之前不存在持久链接keep-alive),把客户端的ip和port,服务端的ip和port数据放到web服务器连接表中。服务器随时监听链接表中的链接,看有没有数据变化
22 接收http请求
一旦我们发送http请求了,这条tcp链接就开始工作了。因为web服务器链接表中有许多链接需要被处理,处理的方式有单线程,多线程这些(这些涉及操作系统的知识)。
23 处理http请求
处理的过程大致是把请求的信息解析出来,如下图
24 访问资源
访问资源可以是访问静态资源,这个就直接根据url地址去服务器里找就好了。
访问动态资源的话要经过一个叫cgi的东西,再用服务端脚本处理,再返回给前端。如下图所示
25 构建响应
要是找到资源,则构建响应信息,包括响应的对象类型,长度,状态码。
另一个情况是重定向响应,就是直接返回一个重定向,客户端看到之后,立刻再向重定向的地址发起请求。重定向的响应的状态码一般是3xx。
26 发送响应
把构建的响应发送给客户端
27 记录日志
服务端对这个请求响应过程进行记录。(另外专门再讲)
3总结
以上是服务端处理http请求的大致过程。能让大家有个大致轮廓,当然里面有很多细节的知识没讲到,要另外查询资料并学习
Java8种值得学习优秀技能
1 Git
Git 是 Java 开发人员需要掌握的基础工具之一,每一位 Java 从业者都应该学会用它。Git 使用一套版本控制系统来管理各种项目集合。这是一个完全免费的开源系统,专注干非线性工作流、完整性和速度。分布式扩展:存储库可用来创建开发历史的副本。链接方法: Git 具有基于工具箱的设计,可提供定义明确的模型。
基干工具箱的设计:基于工具箱的设计可减少复合组件。
分布式扩展: 存储库可用来创建开发历史的副本。链接方法:Git 具有基于工具箱的设计,可提供定义明确的模型。
基干工具箱的设计:基于工具箱的设计可减少复合组件。
2Selenium
Java 中的 Selenium Web 驱动程序是 Java 开发人员在 2021 年应该了解的重要技术之一。
Selenium 提供了使用测试框架测试 Web 应用程序的一组工具; Selenium Web 驱动提供了一个开源API。它包括了用于 Web 应用程序的一些自动化特性。Selenium 的关键元素包括:
IDE(集成开发环境)
远程控制 /Selenium10
Web 控制器 /Selenium20/30
Selenium网格
3Jenkins
Jenkins 是源自 JAVA 编程的技术,其开源自动化的持续交付和集成可以自动化软件开发流程,支持多种版本控制工具。
Jenkins的插件可与另一种语言编写的代码集成。以下是你应该选择 Jenkins 的三大原因: 它提供了比其他软件更好的质量;其自动化系统可以管理集成;Jenkins的开发速度要快得多。
4用户友好的 Web 服务
REST 的全称是Representative Translation ofState(表述性状态转移),它代表了一种架构风格,是Java 开发人员必须掌握的知识。它提升了 Web 服务性能,还定义了可伸缩性和性能约束。这是 2022年Java 开发人员最理想的选项之一。
它的可重建 API用于 Web 服务开发中的通信需求。如果你了解 HTML、CSS 等,那么你将从RESTfulWeb 服务中获益匪浅。以下是 RESTful 服务的特性:
基干客户端 - 服务器的架构提供了服务器的管理、部署和托管等特性,还可以帮助用户使用服务和资源。它本质上是一种共享资源的共享计算模型。
5 Spring security
它的主要功能是应用程序身份验证。其 J2EE servlet规范和 EJB规范是JAVA 开发人员常用的两个关键安全特性。
Spring Security 支持多种身份验证模型,并与HTTP、Kerberos、JOSSO、CAS、LDAP 等技术集成。Spring Security 与 Java 深度关联,强烈建议Java 开发人员学习它。
6SpringBoot2
Spring Boot 发布了一个名为 Spring Boot 2的新版本。其中 Spring 框架负责控制,Spring Boot 负责生成具有常规配置的独立解决方案。
它主要依赖JAVA Baseline、BOM 材质和 cradle插件,其自动配置可提供安全性和响应性。它还提供了技术支持并改善了开发体验。它是 JAVA 程序员应了解的基本工具之一,其关键特性包括:
直接部署 Undertow、Jetty 或 Tomcat
减少构建配置,提供依赖项
在 Spring 中创建独立的应用程序
7Angular 或响应式 JS
ReactJS 是一个专门用于 UI开发的 JavaScript库,而 Angular 是一个框架。JAVA 开发人员应该很熟悉这两大关键技术了。微信搜索readdot,关注后回复编程资源,领取各种经典学习资料
Angular 2是开源 We 应用程序框架,Angular 的主要特性包括指令、范围、模板、注解、高级依赖项注入和子路由器: ReactJS 用于开发移动应用程序。ReactJS的主要特性包括与服务器的免费开源侧通信功能等。
8ApacheSpark 和 Kafka
Apache Spark 和 Kafka 是2021年Java开发人员一定要掌握的两项技术;它们在 2018 年底已发布稳定版本。Apache Spark 是用于集群计算的框架已开源。
Spark 提供了用于执行基本 1/0、调度和分派等任务的应用程序接口,并提供了同样开源的流处理平台。特别要提的是 Apache Kafka 代码是 Java 和 Scala 编写的。
Kafka 可以使用一些基本 API,例如 Producer APIConsumer APl、Connector API 和 Stream APl。
如何逼自己在一个月学好python
一、Python入门门
如果学习能力还不错的话,这一阶段,只需要一个多月的时间
1、linux基本命令
2、Pytho语法基础
3、Python字符串解析
4、Python时间和日历
5、Pytho操作文件
6、Pytho面向对象
7、设计模式
8、异常
9、模块
10、项目实战:飞机大战
二、知识运用
1、Scrapy视频教程:
(1)Scrapy的简介。
主要知识点:Scrapy的架构和运作流程
(2)搭建开发环境
主要知识点:Windows及Linux环境下Scrapy的安装
(3)ScrapyShell以及ScrapySelectors的使用。
(4)使用Scrapy完成网站信息的爬取。
主要知识点:
创建Scrapy项目(scrapystartproject)、定义提取的结构化数据(ltem)、编写爬取网站的Spider并提取出结构化数据(ltem)、编写ltemPipelines来存储提取到的ltem(即结构化数据)。
2、Django教程
(1)Django的简介。
主要知识点:MVC设计模式以及Diango的MVT。
(2)搭建开发环境:
主要知识点:Linux的虚拟环境搭建和应用Django的安装。
(3)利用Diango框架完成简单的图书项目:
主要知识点:
编写模型,使用API与数据库交互、使用Django的后台管理管理数据、通过视图接收请求,通过模型获
3、Python全栈教程:
(1)HTTP协议的分析:HTTP格式。
包含知识点:HTTPGET请求的格式
HTTPPOST请求的格式、HTTP响应的格式。(2)HTTP协议的使用(实现Web静态服务器)利用HTTP协议实现Web静态服务器包含知识点:浏览器首先向服务器发送HTTP请求、服务器向浏览器返回HTTP响应、使用类(3)服务器动态资源请求(实现Web动态服务器):利用WSGI实现Web动态服务器。
第三阶段:Web全栈
可以掌握掌握Web前端技术内容、Web后端框架,并熟练使用FlaskTornado、Django。整理好的电子笔记有:
《Python web开发》
《基于Django快速开发Web应用》
《Django绝对简明教程》
《Python学习笔记》
《Python漫画书》
第四阶段:数据分析+人工智能
可以掌握爬虫、数据采集,数据机构与算法进阶和人工智能技术,学完后可以完成爬虫攻防、马赛克、**推荐系统、地震预测、人工智能项目等阶段项目。整理好的电子笔记有:
《利用Python进行数据分析》《游戏人工智能编程案例精粹》《Python数据分析基础》
第五阶段:高级进阶
可以掌握自动化运维与区块链开发技术,可以完成自动化运维项目、区块链等阶段项目。整理好的电子笔记有:
《Python应用发布技术》《Python核心编程》《Python数据分析基础》
《Python深度学习》《Python自动化运维》
Apache HTTP Server 20 安装和配置 Install and Run Apache 2 as a Service
双击文件apache_2048-win32-x86-no_sslmsi将自动安装Apache HTTP Server 2048,假设安装目录是%APACHE2_HOME%。安装过程中有以下选项:
for All Users, on Port 80, as a Service
only for the Current User, on Port 8080, when started Manually
推荐将Apache安装成启动服务(as a Service),在端口80侦听。如果安装成手动启动并在端口8080侦听,一来会和Tomcat占用的端口号冲突,二来在手动启动和停止Apache服务器的时候我遇到了一些麻烦。
如果已经有一个老版本的Apache服务器(如Apache 13)被安装成了启动服务并占用了端口80,可以进入老版本Apache服务器的安装目录(Apacheexe文件所在的目录),用以下命令将之关闭和移除:
apache -k shutdown
apache -k uninstall
如果没有把Apache 2安装成启动服务,可以使用以下命令增加Apache2启动服务:
%APACHE2_HOME%\bin\apache -k install
Apache 2安装成功后会在Windows启动时自动在端口80启动。同时启动的还有ApacheMonitor(该程序被加在开始/程序/启动菜单中)。ApacheMonitor可以监视Apache 2的运行状况,并提供方便的启动,关闭和重启操作,类似于Apache 13中的apmgrexe。对于热中于手动操作的用户来说,也可以退出ApacheMonitor,并将之从开始/程序/启动菜单中删除,这并不影响Apache 2的运行。
手动启动、关闭和重启Apache 2的方法如下:
%APACHE2_HOME%\bin\apache -k start
%APACHE2_HOME%\bin\apache -k restart
%APACHE2_HOME%\bin\apache -k shutdown
可能出现的问题和解决方法:
当启动、重启或关闭Apache 2时出现提示:No installed service named apache2 - Apache 2没有被安装成启动服务,需使用命令 %APACHE2_HOME%\bin\apache -k install 将之安装成启动服务。
当启动Apache 2时出现提示:Could not bind to address 0000:80 - 有其它程序占用了80端口,它们可能是老版本的Apache,也可能是其它的HTTP服务器(如Windows的IIS),需要将它们先关闭才能在端口80启动Apache 2
或者,由于是IIS在运行,IIS使用了80端口号,要把apache改成Port 8080,
改httpdconf文件中的listen 80-->listen 8080,
改完-->remove apache-->reinstall apache,
然后restart apache services,
在浏览器上输入http://localhost:8080/indexhtmlen一定成功了。
Apache 2 Configuration
通过修改Apache的配置文件%APACHE2_HOME%/conf/httpdconf可以定置自己的Apache服务器。注意修改该配置文件前要先停止正在运行的Apache服务器。
在相应位置增加以下行可以定义自己的文件系统容器,设置自己的本地文件系统到网络空间的映射:
Alias /homepage "D:/heavyz/homepage"
<Directory "D:/heavyz/homepage">
Options Indexes FollowSymLinks -ExecCGI
DirectoryIndex indexphp indexhtml home/indexphp home/indexhtml
Order allow,deny
Allow from all
Deny from enpcfr
</Directory>
以上语句通过<Directory>标签定义了一个文件系统容器,并使用Alias指令把该容器映射到/homepage的URL上去。在该文件系统容器中还定义了一系列属性。对上述配置的解释如下:
<Directory "D:/heavyz/homepage"> and </Directory> : 定义本地文件系统容器,该容器位于D:/heavyz/homepage中。
Alias /homepage "D:/heavyz/homepage" : 当URL中的路径名为/homepage时,将映射到该文件系统容器中。
Options Indexes FollowSymLinks -ExecCGI : 当搜索不到默认首页时,允许列出目录的内容;允许目录中的符号链;不允许执行CGI脚本。
DirectoryIndex indexphp indexhtml home/indexphp home/indexhtml : 按照列出的四个本地URL搜索默认首页,最先找到的文件作为首页返回。
Order allow,deny : Order规定了HTTP客户的访问权限。先允许再禁止(allow,deny)表明allow中允许的访问权限优先级低于deny中禁止的访问权限。
Allow from all : 先允许来自任何地方的HTTP客户的访问请求。
Deny from enpcfr : 再禁止域名为enpcfr的HTTP客户的访问请求(国立路桥学校ENPC的主机不允许访问该页面),对于这些客户,服务器返回403 Forbidden信息。注意Order中定义了deny的优先级高于allow,故该指令将生效。
假设在本地文件系统上存在文件D:\heavyz\homepage\indexhtml,重新启动Apache服务器,并访问页面:http://localhost/homepage将可以访问到上述文件(前提是你不在ENPC的网络内)。
关于Apache配置的更详细的说明可以参考Apache HTTP Server Documentation Project。
Comments
Apache返回的页面总是ISO-8859-1编码,在显示gb2312中文或者UTF-8 unicode时很不方便,如何修正?
修改配置文件%APACHE2_HOME%/conf/httpdconf,将以下行注释掉:
AddDefaultCharset ISO-8859-1
怎样让Apache在另一个端口上(比如81)侦听?
首先卸载Apache Service:
%APACHE2_HOME%\bin\apache -k uninstall
然后修改配置文件%APACHE2_HOME%\conf\httpdconf的以下行:
Listen 80 --> Listen 81
重新安装Apache Service:
%APACHE2_HOME%\bin\apache -k install
可以直接在浏览器里贴地址进行下载。
http是超文本传输协议,信息是明文传输;https是在http上建立SSL加密层,并对传输数据进行加密,是http协议的安全版。所以如果是http和https链接下载,两者并无差异。
可以直接在浏览器里贴地址进行下载。如果是流地址,大部分浏览器会直接提示下载,若不是可右击选择另存为进行下载。
设计HTTP最初的目的是为了提供一种发布和接收HTML页面的方法。目前的应用主要除了HTML网页外还被用来传输超文本数据例如:、音频文件(MP3等)、视频文件(rm、avi等)、压缩包(zip、rar等),基本上只要是文件数据均可以利用HTTP进行传输。
HTTP请求/响应的步骤
1、客户端连接到Web服务器:一个HTTP客户端,通常是浏览器,与Web服务器的HTTP端口(默认为80)建立一个TCP套接字连接。
2、发送HTTP请求:通过TCP套接字,客户端向Web服务器发送一个文本的请求报文,一个请求报文由请求行、请求头部、空行和请求数据4部分组成。
3、服务器接受请求并返回HTTP响应:Web服务器解析请求,定位请求资源。服务器将资源复本写到TCP套接字,由客户端读取。一个响应由状态行、响应头部、空行和响应数据4部分组成。
4、释放连接TCP连接:若connection模式为close,则服务器主动关闭TCP连接,客户端被动关闭连接,释放TCP连接;若connection模式为keepalive,则该连接会保持一段时间,在该时间内可以继续接收请求。
5、客户端浏览器解析HTML内容:客户端浏览器首先解析状态行,查看表明请求是否成功的状态代码。然后解析每一个响应头,响应头告知以下为若干字节的HTML文档和文档的字符集。客户端浏览器读取响应数据HTML,根据HTML的语法对其进行格式化,并在浏览器窗口中显示。
0条评论