网络文件传输方式详解程序员

一般有以下几种：

FTP，全称：File transmission protocol（文件传输协议）
HTTP，全称：Hypertext transimission protocol（超文本传输协议）
SMTP，全称：Simple Mail Transfer Protocol（简单邮件转换协议）
POP3，全称：Post Office Protocol – Version 3（邮局协议版本3）
BT，全称：Bit Torrent（比特流）
P2P，全称：Peer to Peer（对等网络）

Transmission Control Protocol/Internet Protocol的简写，中译名为传输控制协议/因特网互联协议，又名网络通讯协议，是Internet最基本的协议、Internet国际互联网络的基础，由网络层的IP协议和传输层的TCP协议组成。TCP/IP 定义了电子设备如何连入因特网，以及数据如何在它们之间传输的标准。协议采用了4层的层级结构，每一层都呼叫它的下一层所提供的协议来完成自己的需求。通俗而言：TCP负责发现传输的问题，一有问题就发出信号，要求重新传输，直到所有数据安全正确地传输到目的地。而IP是给因特网的每一台联网设备规定一个地址。

其它常用方式也是基于以上协议：飞秋、飞鸽（局域网，可能P2P）；QQ、MSN、微信（可能FTP）；网盘、云服务器（可能HTTP）；邮箱盘（可能SMTP）等。

一、FTP

FTP 是File Transfer Protocol（文件传输协议）的英文简称，而中文简称为“文传协议”。用于Internet上的控制文件的双向传输。同时，它也是一个应用程序（Application）。基于不同的操作系统有不同的FTP应用程序，而所有这些应用程序都遵守同一种协议以传输文件。在FTP的使用当中，用户经常遇到两个概念：”下载” （Download）和”上传”（Upload）。”下载”文件就是从远程主机拷贝文件至自己的计算机上；”上传”文件就是将文件从自己的计算机中拷贝至远程主机上。用Internet语言来说，用户可通过客户机程序向（从）远程主机上传（下载）文件。

FTP可用多种格式传输文件，通常由系统决定。大多数系统（包括UNIX系统）只有两种模式：文本模式和二进制模式。文本传输器使用ASCII字符，并由回车键和换行符分开，而二进制不用转换或格式化就可传字符，二进制模式比文本模式更快，并且可以传输所有ASCII值，所以系统管理员一般将 FTP设置成二进制模式。

一般来说：如果你用错误的模式传输你的图片，你将无法看到图片，看到的会是乱码。如果你用错误模式上传CGI脚本，那么就将无法运行你的脚本，会看到类似 Server 500 Error的出错信息。所以，必须使用正确的模式，图片和执行文件必须用BINARY模式，CGI脚本和普通HTML文件用ASCII模式上传。

ASCII和BINARY模式的区别：

用HTML和文本编写的文件必须用ASCII模式上传，用BINARY模式上传会破坏文件，导致文件执行出错。BINARY模式用来传送可执行文件，压缩文件，和图片文件。如果你用ASCII模式传，会显示一堆乱码，你必须重新用BINARY模式传。对于第二种情况，是因为有很多ftp服务器和客户端软件能自动识别文件类型，并采取相应的传输方式。

ftp是应用层协议，和具体的操作系统无关。ASCII模式和BINARY模式的区别是回车换行的处理，BINARY模式不对数据进行任何处理，ASCII模式将回车换行转换为本机的回车字符，比如Unix下是/n，Windows下是/r/n，Mac下是/r。

ASCII模式下会转换文件，不能说是不同系统对回车换行解释不同，而是不同系统有不同的行结束符，UNIX系统下行结束符是一个字节，即十六进制的 0A，而MS的系统是两个字节，即十六进制的0D0A。所以当你用ASCII方式从UNIX的ftp server下载文件时（不管是二进制或者文本文件），每检测到一个字节是0A，就会自动插入一个0D，所以如果你的文件是二进制文件比如可执行文件、压缩包什么的，就肯定不能用了。如果你的文件就是UNIX下的文本文件，你用ASCII模式是正确的，要是误用了BINARY模式，你在Windows上看这个文件是没有换行的，里面是一个个的黑方块。

一般来说，我们最好都用BINARY方式，这样可以保证不出错。如果有文本格式转换的问题，即UNIX格式的文本和DOS格式的文本之间的转换，有很多工具可以做，不要在ftp传输的时候冒险，尤其是你如果对这些东西不是非常清楚的话。

可以使用MIME，把所有的字符，转换成0~128之间的字符，然后传送，在接收方再将接收到的字符MIME反向转换。通常我们发送邮件，就是使用这样的字符转换方式。

补充：文本模式和二进制模式传文本文件的具体区别可以通过在Linux下使用cat -A 文件名看到两者的区别，当然前提是在windows下上传的文本为DOS格式，这个可以用高级的文本编译器看，如ultraedit等。两者的区别是，二进制模式上传的文本比文本模式多一个^M符号，这个就是windows下DOS格式的/r回车符号，也就是上面提到的十六进制OD，在vi下使用全局替换：%s /^M//g [^M使用Ctrl+V+M而不是直接输入^M]，去掉所有的回车符或者使用dos2unix file进行转换，这样保存后或者生成后的文件就和文本模式上传的文件一样了。

二、HTTP

HTTP是一个
客户端和
服务器端请求和应答的标准（TCP）。客户端是终端用户，服务器端是网站。通过使用
Web浏览器、
网络爬虫或者其它的工具，客户端发起一个到服务器上指定端口（默认
端口为80）的HTTP请求。（我们称这个客户端）叫用户代理（user agent）。应答的服务器上存储着（一些）资源，比如HTML文件和图像。（我们称）这个应答服务器为源服务器（origin server）。在用户代理和源服务器中间可能存在

http和其他几种网络协议

多个中间层，比如代理，网关，或者隧道（tunnels）。尽管
TCP/IP协议是互联网上最流行的应用，HTTP协议并没有规定必须使用它和（基于）它支持的层。事实上，HTTP可以在任何其他互联网协议上，或者在其他网络上实现。HTTP只假定（其下层协议提供）可靠的传输，任何能够提供这种保证的协议都可以被其使用。

通常，由HTTP客户端发起一个请求，建立一个到服务器指定端口（默认是
80端口）的TCP连接。HTTP服务器则在那个端口监听客户端发送过来的请求。一旦收到请求，服务器（向客户端）发回一个状态行，比如”HTTP/1.1 200 OK”，和（响应的）消息，消息的消息体可能是请求的文件、错误消息、或者其它一些信息。

HTTP协议的网页

HTTP使用TCP而不是UDP的原因在于（打开）一个网页必须传送很多数据，而TCP协议提供传输控制，按顺序组织数据，和错误纠正。

通过HTTP或者HTTPS协议请求的资源由统一资源标示符（Uniform Resource Identifiers）（或者，更准确一些，URLs）来标识。

HTTP 文件上传的基本原理：

使用html 的<input type=”file” name=”xxx”> 标签，提交form 的几个属性必须为： method=post encType=multipart/form-data;

method 属性必须设为post的原因是：值不是放在URL之后传递到服务器的；

encType属性：这个属性管理的是表单的MIME编码

几个属性详解：

application/x-www-form-urlencoded 在发送前编码所有字符（默认）

multipart/form-data 不对字符编码，在使用包含文件上传控件的表单时，必须使用该值；对于“multipart/form-data”类型的form表单，浏览器上传的实体内容中的每个表单字段元素的数据之间用字段分隔界线进行分割，两个分隔界线间的内容称为一个分区，每个分区中的内容可以被看作两部分，一部分是对表单字段元素进行描述的描述头，另外一部是表单字段元素的主体内容

text/plain 空格转换为“+”，不对特殊字符编码

服务器端：

WEB服务器端程序接收到“multipart/form-data”类型的HTTP请求消息后，其核心和基本的编程工作就是读取请求消息中的实体内容，然后解析出每个分区的数据，接着再从每个分区中解析出描述头和主体内容部分。

要在jsp里获得上传的文件，就是通过request.getInputStream()来得到上传的整个post实体的流，用 request.getHeader(“Content-Type”)来取得实体内容的分界字符串，然后根据http协议，分析取得的上传的实体流，把文件部分给筛出来，然后在服务器端保存到磁盘文件中，另外因为上传文件时，form的属性enctype=”multipart/form-data”，所以其他表单参数在上传文件时也无法得到，除了筛出文件进行保存，还应该把其他的参数一起取出保存，以便在jsp程序中调用。

具体方法如下：

1、根据request获得文件输入流；

2、依次读取行，此时进行两部分内容的处理，

a:获取文件名

以 filename=”xxxxx”来标识一个文件头，

b:获取其他表单值（因为其流是按照multipart/form-data方式来编码的，所以在服务器端，不能直接用request.getParameter()来获得）;

以name=”xxxx”来标识一个表单头

都以流头的字符标识为值的结束；

实体内容内部的字段分隔界线是在content-type头中指定的字段分隔界线前面增加了两个减号（-）字符而形成的（由浏览器随机生成，由浏览器保证不会与用户上传的文件内容重复）

当找到一个分区的开始位置后，程序还需要分辨出分区中的描述头和主体内容，并对这两部分内容分开存储。如何分辨出一个分区的描述头和主体部分呢？每个分区中的描述头和主体内容之间有一空行，再加上描述头后面的换行，这就说明描述头和主体部分之间是使用“/n”、“/r”、“/n”、“/r”这四个连续的字节内容进行分隔。因此，程序需要把“/n”、“/r”、“/n”、“/r”这四个连续的字节内容作为描述头和主体部分之间的分隔界线，并在字节数组缓冲区buffer中寻找这个特殊的分隔界线来识别描述头和主体部分。

3、根据读到的文件信息（文件名，文件大小等），判断是否合法（文件类型、文件大小判断）。如果合适则返回，如果不合适则创建同名文件并将其删除；

三、Web Service 的工作原理

Web Service基本概念

Web Service也叫XML Web Service WebService是一种可以接收从Internet或者Intranet上的其它系统中传递过来的请求，轻量级的独立的通讯技术。是:通过SOAP在 Web上提供的软件服务，使用WSDL文件进行说明，并通过UDDI进行注册。

XML：(Extensible Markup Language)扩展型可标记语言。面向短期的临时数据处理、面向万维网络，是Soap的基础。

Soap：(Simple Object Access Protocol)简单对象存取协议。是XML Web Service 的通信协议。当用户通过UDDI找到你的WSDL描述文档后，他通过可以SOAP调用你建立的Web服务中的一个或多个操作。SOAP是XML文档形式的调用方法的规范，它可以支持不同的底层接口，像HTTP(S)或者SMTP。

WSDL：(Web Services Description Language) WSDL 文件是一个 XML 文档，用于说明一组 SOAP 消息以及如何交换这些消息。大多数情况下由软件自动生成和使用。

UDDI (Universal Description, Discovery, and Integration) 是一个主要针对Web服务供应商和使用者的新项目。在用户能够调用Web服务之前，必须确定这个服务内包含哪些商务方法，找到被调用的接口定义，还要在服务端来编制软件，UDDI是一种根据描述文档来引导系统查找相应服务的机制。UDDI利用SOAP消息机制（标准的XML/HTTP）来发布，编辑，浏览以及查找注册信息。它采用XML格式来封装各种不同类型的数据，并且发送到注册中心或者由注册中心来返回需要的数据。

调用原理：

Web服务有两层含义：1、是指封装成单个实体并发布到网络上的功能集合体；2、是指功能集合体被调用后所提供的服务。简单地讲，Web服务是一个URL资源，客户端可以通过编程方式请求得到它的服务，而不需要知道所请求的服务是怎样实现的，这一点与传统的分布式组件对象模型不同。

Web服务的体系结构是基于Web服务提供者、Web服务请求者、Web服务中介者三个角色和发布、发现、绑定三个动作构建的。简单地说，Web服务提供者就是Web服务的拥有者，它耐心等待为其他服务和用户提供自己已有的功能；Web服务请求者就是Web服务功能的使用者，它利用SOAP消息向Web服务提供者发送请求以获得服务;Web服务中介者的作用是把一个Web服务请求者与合适的Web服务提供者联系在一起，它充当管理者的角色，一般是UDDI。这三个角色是根据逻辑关系划分的，在实际应用中，角色之间很可能有交叉：一个Web服务既可以是Web服务提供者，也可以是Web服务请求者，或者二者兼而有之。显示了Web服务角色之间的关系:其中，“发布”是为了让用户或其他服务知道某个Web服务的存在和相关信息;“查找（发现）”是为了找到合适的Web服务;“绑定”则是在提供者与请求者之间建立某种联系。

图2-1 Web service的体系结构

实现一个完整的Web服务包括以下步骤：

◆ Web服务提供者设计实现Web服务，并将调试正确后的Web服务通过Web服务中介者发布，并在UDDI注册中心注册；（发布）

◆ Web服务请求者向Web服务中介者请求特定的服务，中介者根据请求查询UDDI注册中心，为请求者寻找满足请求的服务；（发现）

◆ Web服务中介者向Web服务请求者返回满足条件的Web服务描述信息，该描述信息用WSDL写成，各种支持Web服务的机器都能阅读；（发现）

◆ 利用从Web服务中介者返回的描述信息生成相应的SOAP消息，发送给Web服务提供者，以实现Web服务的调用；（绑定）

◆ Web服务提供者按SOAP消息执行相应的Web服务，并将服务结果返回给Web服务请求者。（绑定）

调用方式：

1. Net下采用GET/POST/SOAP方式动态调用WebService的简易灵活方法(C#)

webservice 的调用有3种方式

1). httpget
2). httppost
3). httpsoap

soap 的优点是可以传递结构化的数据，而前两种不行。
btw, soap 最终也是使用 HTTP 传送 XML

安全：

Webservice为作为方便的服务被用广大领域使用的同时，也成为了黑客们的美食。在这里，本文将就目前对Webservice安全所能做的改进做简单介绍。

在Webservice中的安全主要分为以下三个方面。

传输 SSL/HTTPS 对连接加密，而不是传输数据

消息数据加密(XML Encryption) 数字签名(XML-DSIG)

底层架构利用应用服务安全机制

传输时的安全是最容易被加入到你的Webservice应用中的，利用现有的SSL 和HTTPS协议，就可以很容易的获得连接过程中的安全。

然而这种安全实现方法有两个弱点。一是它只能保证数据传输的安全，而不是数据本身的安全，数据一旦到达某地，那么就可以被任何人所查看。而在 Webservice中，一份数据可能到达多个地方，而这份数据却不该被所有的接受者所查看。二是它提供的是要么全有要么全无的保护，你不能选择哪部分数据要被保护，而这种可选择性也是在Webservice中所常要用到的。

第二层的保护是对于消息本身的保护。你可以使用已有的XML安全扩展标准，实现数字签名的功能，从而保证你的消息是来自特定方并没有被修改过。XML文件的加密技术从更大程度上加强了Webservice的安全，它能够定制数据传输到后，能否被接受者所查看，进一步完善了传输后的安全，业界也在不断的制定Webservice的安全标准，比如SAML 和 WS-Security。

最后一层保护就是依靠底层架构的安全，这更多的来自于操作系统和某些中间件的保护。比如在J2EE中，主持 Webservice的应用服务器。目前很多的J2EE应用服务器都支持Java Authentication and Authorization Service (JAAS)，这是最近被加入到J2SE 1.4当中的。利用主持Webservice的服务器，实现一些安全机制这是很自然的做法。另一种利用底层架构的安全方法就是，做一个独立的负责安全的服务器，Webservice的使用者和创建者都需要与之取得安全信任。

特点：

Web Service的主要目标是跨平台的可互操作性。为了实现这一目标，Web Service 完全基于XML（可扩展标记语言）、XSD（XML Schema）等独立于平台、独立于软件供应商的标准，是创建可互操作的、分布式应用程序的新平台。因此使用Web Service有许多优点:

1、跨防火墙的通信

如果应用程序有成千上万的用户，而且分布在世界各地，那么客户端和服务器之间的通信将是一个棘手的问题。因为客户端和服务器之间通常会有防火墙或者代理服务器。传统的做法是，选择用浏览器作为客户端，写下一大堆ASP页面，把应用程序的中间层暴露给最终用户。这样做的结果是开发难度大，程序很难维护。要是客户端代码不再如此依赖于HTML表单，客户端的编程就简单多了。如果中间层组件换成Web Service的话，就可以从用户界面直接调用中间层组件，从而省掉建立ASP页面的那一步。要调用Web Service，可以直接使用Microsoft SOAP Toolkit或.net这样的SOAP客户端，也可以使用自己开发的SOAP客户端，然后把它和应用程序连接起来。不仅缩短了开发周期，还减少了代码复杂度，并能够增强应用程序的可维护性。同时，应用程序也不再需要在每次调用中间层组件时，都跳转到相应的”结果页”。

2、应用程序集成

企业级的应用程序开发者都知道，企业里经常都要把用不同语言写成的、在不同平台上运行的各种程序集成起来，而这种集成将花费很大的开发力量。应用程序经常需要从运行的一台主机上的程序中获取数据；或者把数据发送到主机或其它平台应用程序中去。即使在同一个平台上，不同软件厂商生产的各种软件也常常需要集成起来。通过Web Service，应用程序可以用标准的方法把功能和数据”暴露”出来，供其它应用程序使用。

XML Web services 提供了在松耦合环境中使用标准协议（HTTP、XML、SOAP 和 WSDL）交换消息的能力。消息可以是结构化的、带类型的，也可以是松散定义的。

3、B2B的集成

B2B 指的是Business to Business，as in businesses doing business with other businesses,商家(泛指企业)对商家的电子商务，即企业与企业之间通过互联网进行产品、服务及信息的交换。通俗的说法是指进行电子商务交易的供需双方都是商家(或企业、公司)，她们使用了Internet的技术或各种商务网络平台，完成商务交易的过程。

Web Service是B2B集成成功的关键。通过Web Service，公司可以只需把关键的商务应用”暴露”给指定的供应商和客户，就可以了，Web Service运行在Internet上，在世界任何地方都可轻易实现，其运行成本就相对较低。Web Service只是B2B集成的一个关键部分，还需要许多其它的部分才能实现集成。用Web Service来实现B2B集成的最大好处在于可以轻易实现互操作性。只要把商务逻辑”暴露”出来，成为Web Service，就可以让任何指定的合作伙伴调用这些商务逻辑，而不管他们的系统在什么平台上运行，使用什么开发语言。这样就大大减少了花在B2B集成上的时间和成本。

4、软件和数据重用

Web Service在允许重用代码的同时，可以重用代码背后的数据。使用Web Service，再也不必像以前那样，要先从第三方购买、安装软件组件，再从应用程序中调用这些组件；只需要直接调用远端的Web Service就可以了。另一种软件重用的情况是，把好几个应用程序的功能集成起来，通过Web Service “暴露”出来，就可以非常容易地把所有这些功能都集成到你的门户站点中，为用户提供一个统一的、友好的界面。可以在应用程序中使用第三方的Web Service 提供的功能，也可以把自己的应用程序功能通过Web Service 提供给别人。两种情况下，都可以重用代码和代码背后的数据。

从以上论述可以看出，Web Service 在通过Web进行互操作或远程调用的时候是最有用的。不过，也有一些情况，Web Service根本不能带来任何好处，Web Service有一下缺点：

1、单机应用程序

目前，企业和个人还使用着很多桌面应用程序。其中一些只需要与本机上的其它程序通信。在这种情况下，最好就不要用Web Service，只要用本地的API就可以了。COM非常适合于在这种情况下工作，因为它既小又快。运行在同一台服务器上的服务器软件也是这样。当然 Web Service 也能用在这些场合，但那样不仅消耗太大，而且不会带来任何好处。

2、局域网的一些应用程序

在许多应用中，所有的程序都是在Windows平台下使用COM，都运行在同一个局域网上。在这些程序里，使用DCOM会比SOAP/HTTP有效得多。与此相类似，如果一个.net程序要连接到局域网上的另一个.net程序，应该使用.net Remoting。其实在.net Remoting中，也可以指定使用SOAP/HTTP来进行Web Service 调用。不过最好还是直接通过TCP进行RPC调用，那样会有效得多。

1.3、XML Web Service的应用

1.最初的 XML Web Service 通常是可以方便地并入应用程序的信息来源，如股票价格、天气预报、体育成绩等等。

2.以 XML Web Service 方式提供现有应用程序，可以构建新的、更强大的应用程序，并利用 XML Web Service 作为构造块。

例如，用户可以开发一个采购应用程序，以自动获取来自不同供应商的价格信息，从而使用户可以选择供应商，提交订单，然后跟踪货物的运输，直至收到货物。而供应商的应用程序除了在Web上提供服务外，还可以使用XML Web Service检查客户的信用、收取货款，并与货运公司办理货运手续。

原创文章，作者：奋斗，如若转载，请注明出处：https://blog.ytso.com/7169.html

网络文件传输方式详解程序员

相关推荐

发表回复