首页 > 代码库 > Node.js具体解析

Node.js具体解析

介绍

JavaScript 高涨的人气带来了非常多变化。以至于现在使用其进行网络开发的形式也变得截然不同了。就如同在浏览器中一样,现在我们也能够在server上执行 JavaScript ,从前端跨越到后端,这样巨大的反差让人难以想象。由于只在几年前 Javascript 还如同 Flash 或者 Java applet 那样嵌入网页在沙箱环境中执行。

在深入Node.js之前。你可能须要阅读和了解使用跨栈式JavaScript(JavaScript across the stack)带来的优点,它统一了编程语言和数据格式(JSON),让你能最佳地重用开发者资源。因为这很多其它的是关于 JavaScript 的特点。这里就只是多讨论它。

但它确实是一个让人在开发环节中使用 Node 的关键的长处。

正如维基百科 所说:“Node.js 是谷歌 V8 引擎、libuv平台抽象层 以及主体使用 Javscript 编写的核心库三者集合的一个包装外壳。” 除此之外,值得注意的是,Node.js 的作者瑞恩·达尔 (Ryan Dahl) 的目标是创建具有实时推送能力的站点。在 Node.js 中,他给了开发人员一个使用事件驱动来实现异步开发的优秀解决方式。

(注:V8是谷歌开发的,眼下公认最快的 Javascript 解析引擎,libuv 是一个开源的、为 Node 定制而生的跨平台的异步 IO 库。)

简而言之:Node.js 在实时的 Web应用上採用了基于 WebSocket 的推送技术。

这意味着什么样的革命性?Well,在经过了20多年的基于无状态的请求-返机制的无状态交互之后,我们最终有了实时的。双向连接的web应用。client和server端都可以发起通信。可以自由地交换数据。与此形成鲜明对照的是传统的 web响应模式,client总是主动发起通信而服务端被动返回。

此外,这些都是基于执行在标准80port上的开放Web组件(HTML、CSS和JS)。

可能有人会说,我们已经使用 Flash 和 Java Applet 的形式非常多年了——但实际上。这些方式仅仅是使用网络将数据传递到client上的沙箱环境。他们都是隔离执行的。并且常常操作到须要额外的权限之类的非标准port。

凭借其独特的优势,Node.js的如今已经在很多著名公司的产品中起到了关键作用。

在这篇文章中。我们不仅将讨论这些优势是怎样实现的,并且也会讨论为什么你使用 Node.js 来替代一些经典的Web应用程序模型。

Node.js 是怎样工作的?

Node.js 的主要思路是:使用非堵塞的,事件驱动的 I/O 操作来保持在处理跨平台 (across distributed devices) 数据密集型实时应用时的轻巧高效。这听起来有点绕口。

它的真正含义是,Node.js 不是一个即将主导Web开发的世界的银弹级的平台。

相反,它是一个满足特别需求的平台。你肯定不会希望使用 Node.js 去做 CPU密集型操作。其实,使用它进行繁重的计算等于摒弃 Node 差点儿全部的长处。Node 真正的亮点在于建设高性能,高扩展性的互联网应用——由于它可以处理庞大的而且高吞吐量的并发连接。

它的工作原理是相当有趣的。传统的网络服务技术,是每一个新增一个连接(请求)便生成一个新的线程,这个新的线程会占用系统内存,终于会占掉全部的可用内存。

而 Node.js 只只执行在一个单线程中,使用非堵塞的异步 I/O 调用,全部连接都由该线程处理,在 libuv 的加分下,能够同意其支持数万并发连接(全部挂在该线程的事件循环中)。

技术分享

做一个简单的计算: 如果是普通的Web程序,新接入一个连接会占用 2M 的内存,在有 8GB RAM的系统上执行时, 算上线程之间上下文切换的成本,并发连接的最大理论值则为 4000 个。这是在传统 Web服务端技术下的处理情况。

而 Node.js 则达到了约 1M 一个并发连接的拓展级别 (相关证明).

当然。在全部client的请求共享单一线程时也会有问题, 这也是一个编写 Node.js 应用的潜在缺陷. 首先, 大量的计算可能会使得 Node 的单线程临时失去反应, 并导致全部的其它client的请求一直堵塞, 直到计算结束才恢复正常。 其次,开发者须要很小心,不要让一个 Exception 堵塞核心的事件循环,由于这将导致 Node.js 实例的终止(实际上就是程序崩溃)。( 笔者注:如 PHP 中某个页面挂掉是不会影响站点执行的,可是 Nodejs 是一个线程一个线程来处理全部的链接,所以不论是计算卡了或者是被异常堵塞了都可能会影响到其它全部的链接。解决方式在稍后讨论。)

用来避免异常抛出时中断进程的方法是将异常使用回调传递出去(而不是抛出他们。就像在其它环境中一样)。即使一些未处理的异常堵塞了程序,依然有多种应对的解决方式,并且也有非常多可用于监视 Node 进程来运行必要的崩溃后恢复工作的策略和工具(尽管你将无法恢复用户的 Session )。最常见的是使用 Forever 模块。或者採用其它的外部系统工具如 upstart and monit。

NPM: The Node Package Manager

当我们讨论 Node.js 的时候,一个绝对不应该忽略地方就是默认内置的模块管理工具 —— NPM。 其灵感来源与 Ruby Gems(具有版本号和依赖管理功能。能够通过在线资料库便捷安装可重用的组件的管理工具)。

一个完整的公用模块列表能够在 NPM 的站点上找到(https:://npmjs.org/),或者通过使用与 Node.js 一同安装的 NPM CLI 工具放问到。该模块的生态系统向全部人开放,不论什么人都能够公布自己的模块,全部的模块都能够在 NPM 资料库中找到。你能够在 http://howtonode.org/introduction-to-npm 页面找到 NPM 的一个简要介绍(有点旧,但依然能看)。

眼下很流行的一些 NPM 模块有:

  • express – Express.js,是一个简洁而灵活的 node.js Web应用框架, 而且已经是如今大多数 Node.js 应用的标准框架。你已经能够在非常多 Node.js 的书籍中看到它了。
  • connect – Connect 是一个 Node.js 的 HTTP 服务拓展框架,提供一个高性能的“插件”集合,以中间件闻名,是 Express 的基础部分之中的一个。

  • socket.io 和 sockjs – 眼下服务端最流行的两个 websocket 组件。
  • Jade – 流行的模板引擎之中的一个,而且是 Express.js 的默认模板引擎。其灵感来源于 HAML。

  • mongo 和 mongojs – 封装了 MongoDB 的的各种 API,只是笔者寻常工作用的是 mongoose 也非常推荐。
  • redis – Redis 的client函数库.
  • coffee-script – CoffeeScript 编译器,同意开发人员使用 Coffee 来编写他们的 Node.js 程序。
  • underscore (lodash, lazy) – 最流行的 JavaScript 工具库 , 用于 Node.js 的封装包,以及两个採取略有不同的实现方法来获得更好性能的同行。
  • forever – 可能是用来确保 node 脚本持续执行的最流行的工具。

还有非常多好的模块。这里就不一一列举了(希望没有冒犯到没列举的)。

Node.js 应该用在什么地方

聊天

聊天是最典型的多用户实时交互的应用。从 IRC 開始,有很多开源或者不开源的协议都执行在非标准port上,而如今,使用 Node.js 则能够解决这些问题——在标准的80port执行 WebSockets。

聊天应用程序是最能体现 Node.js 长处的样例:轻量级、高流量而且能良好的应对跨平台设备上执行密集型数据(尽管计算能力低)。

同一时候。聊天也是一个非常值得学习的用例。由于它非常easy,而且涵盖了眼下为止一个典型的 Node.js 会用到的大部分解决方式。

让我们试着来描绘它怎样工作。

在最简单的情况下。我们布置了一个聊天室在我们的站点上,用户能够在上面发消息,当然是一对多的形式。

比如,如果总共同拥有三个人连接到我们的站点上。

在服务端这边。 我们有一个使用 Express.js 搭建的简单网站,该网站实现了两件事 1) 处理路径为 ‘/’ 的GET请求时,下发包含一个留言板以及一个发送信息的 ‘发送’ button的页面 2) 一个监听client发送新消息的 websockets 服务。

在client这边,我们有一个 HTML 页面,上面有个两个 js 方法,一个是用于触发事件的 “发送” button,这会把把输入的消息通过 webscoket 发送,还有一个方法是用 webscoket 在client上监听服务端来的推送(比如。其它用户发送的消息)。

当有一个client发送消息的时候,发生的事情是:

  1. 浏览器上,点击发送button触发了 js 函数。将输入框中的文字通过 websocket 消息发送到server的 websocket client(页面初始化载入的时候连接的)。
  2. 服务端的 websocket 组件收到 消息,然后通过广播方法转发到其它全部连接的client。

  3. 通过页面上执行的 websocket client组件,全部的client都能收到这条推送的新消息。接着 js 处理函数能够把这个消息加入到文字框内。

技术分享

这是一个最简单的样例。假设要更好的解决方式。你能够使用 Redis 数据库做一个简单的缓存。在一个更高级的解决方式中,你可能须要一个消息路由来专门处理消息队列。而且须要一个更强健的发送机制。比方发送的时候覆盖上临时离线的用户或者为离线的注冊用户存储尚未接收的消息等等。可是不论你做了怎么样的改进,Node.js 都将遵循一个基本原则:响应事件,处理多个并发连接,并保持流动性的用户体验。

对象数据库接口(API ON TOP OF AN OBJECT DB)

虽然,Node.js 确实很擅长实时交互的应用,同一时候它也十分适合通过对象数据库(object DB)来查询数据(如 MongoDB)。

以 JSON 格式存储的数据同意 Node.js 直接处理。不须要纠结数据转换和匹配的问题。

举个样例。假设你正在使用 Rails。你会将 JSON 数据转成 二进制的 model,当数据再被 Backbone.js, Angular.js 或者 jQuery AJAX 之类的调用又要转回 JSON。假设是 Nodejs 的话,你能够通过一个 REST API 简单的导出 JSON 对象以供client使用。

另外,从数据库读写时候假设使用的是 MongoDB 的话。你也不用操心的 JSON 与不论什么数据之间的格式问题。

总之。你能够避免多元的数据转换问题,不论是在client、服务端还是数据库。

队列输入

假设你正在接收一个高量并发的数据,你的数据库可能会成为你处理的瓶颈。正如上面的描写叙述。Node.js 能够轻松的处理并发连接。

可是,因为数据库操作是一个堵塞的操作(在这样的情况下),这就是麻烦的地方。Node.js的解决方式是,在数据真正的写入之前就承认client的数据是真实的。

用这样的方法,在高负载的时候系统继续维持它的响应。这在当client不须要严格确认一个数据是否成功的被写入时特别实用。典型的样例包含:日志记录或者用户跟踪数据(user-tracking data)的记录,这会被分批处理而且在稍后才使用;同一时候也包含终于一致性(so, 经常使用于 NoSQL)能够接受,不须要马上反应的操作(比如 Facebook 上更新点赞的数目)。

数据通过某些缓存或者消息队列的基础组件(比如 RabbitMQ, ZeroMQ)进入队列。而且通过一个独立的数据库批量写入进程来一一消化。或者通过一个更高性能的计算密集型后端服务来进行处理。其它的语言/框架也能够实现相似的操作。但在同样的配置下是达不到 nodejs 的高吞吐量与高并发。

技术分享

简单的说:使用 Node,你能够把数据库操作扔到一边并在稍后处理它们,如果他们成功了一样继续运行下去。

(笔者注:在开发中通常的情况一般是,种耗时的操作通过回调函数来异步处理,主线程继续往下运行)

数据流

在较为传统的网络平台上。HTTP 的请求和响应更像是孤立的事件;然而其实,他们都是数据流。这一观察结果在 Nodejs 上能够用来建立一些非常酷的功能。由于数据通以流的形式接收,而我们能够在站点上在线处理正在上传中的文件。这种话,就能够实现实时的音频和视频编码,以及在不同数据源之间进行代码(代理见下一段)。

(笔者注:Node 有取代如 apache 这种 webserver 处理数据。所以开发人员能够直接收到client一份一份上传的数据,并实时处理。上面这段话听起来有点抽象。只是各位能够简单的想象一下不须要开 YY 或者 QQ。打开网页就能进行语音视频的功能。)

代理

Node.js 能够通过异步的方式处理大量的并发连接,所以非常easy作为服务端的代理来使用。这在与不同响应时间的不同服务之间进行代理。或者是收集来自多个来源的数据时尤事实上用。

举个样例:考虑一个server端的应用程序和第三方资源进行通信以更新自不同来源的数据,或者将服务端上的一些图像和视频资源存储到第三方云服务。

尽管专用代理server确实存在,可是假设你还没有专用的代理server,或者你须要一个本地开发的解决方式,那么使用 Node 来做代理可能是更好的选择。关于这个解决方式。我的意思是指当你在开发的时候,你能够使用Node.js的开发环境搭建一个服务来处理对资源和代理的请求。而在生产环境下,你能够使用专用的代理服务(比方nginx。HAProxy等)来处理这些交互。

股票操盘手的仪表盘

让我们继续讨论应用程序这块。

实时网络的解决方式能够非常轻松的实现证券交易软件——用于跟踪股票的价格,运行计算、做技术分析,同一时候生成报表。

使用一个实时的的基于网页的解决方式。将会同意操盘手轻松的切换工作软件以及工作地点。相信不久,我们也许会在 佛罗里达州、伊维萨岛又或者是巴厘岛的海滩上看到他们。

应用监听仪盘表

还有一种常见的用例中,使用 Node+Web+Socket 很适合:跟踪站点訪问者而且可视化实时它们之间的实时交互。

(假设你有兴趣,能够去看看 Hummingbird)

你可能须要採集用户的实时状态, 或者甚至当他们到达渠道中某个特定的点时, 打开一个交流频道, 通过有针对性的互动介绍移动到下一个阶段. (假设你感兴趣的话。推荐你看看 CANDDi)

想象一下。假设你知道你的訪客的实时操作。并可以形象化地看到他们的交互,这将对你的业务带来多大的提升。随着实时的、双向 socket 通信的 Node.js ,如今你可以做到了。

系统监控仪表

如今,让我们看看事情的基础设施方面。想象一下,比方,希望为其用户提供服务监控页面(比如,GitHub上的状态页)的 SaaS 运营商 。通过 Node.js 的事件循环,我们能够创建一个基于 Web 的功能强大的仪表板,以异步方式检查服务状态而且使用的 WebSockets 将数据推送到client。

内部(公司内部)和公共服务的状态都能够使用该项技术实现实时的上报。让我们把这一想法延伸的远一点,试着想象一个电信运营商中网络运营中心(NOC)的监控应用。云/网络/server运营商,或者一些金融机构。全都执行在这个由 Node.js 和 WebSocket 组成的应用上,而不是 Java 和/或 Java Applet。

注意:不要尝试使用 Node 打造硬实时系统(即,响应时间要求一致的系统)。 Erlang是可能是该类应用程序的更好的选择。

什么地方能够使用 Node.js

服务端 WEB 应用

通过 Node.js 使用 Express.js 也能够用来创建服务端上的典型的网页应用。然而,尽管有可能,使用 Node.js 来进行请求+响应的形式来呈现 HTML 并非最典型的用例。

有人赞成也有人反对这一做法。这里有一些看法以供參考:

长处:

  • 假设你不须要进行 CPU密集型计算,你能够从头到尾甚至是数据库(比方 MongoDB)都使用 Javascript 来开发。这显著地减轻了开发工序(包含成本)。
  • 对于一个使用 Node.js 作为服务端的单页应用或者 websocket 应用,爬虫能够收到一个全然 HTML 呈现的响应,这是更为SEO友好的。

缺点:

  • 不论什么CPU密集型的计算都将阻碍 Node.js 的反应,所以使用多线程的平台是一个更好的方法。或者,您也能够尝试向外扩展的计算[*]。
  • Node.js 使用关系型数据库依然十分痛苦(具体见下方)。

    拜托了。假设你想运行关系型数据操作。请考虑别的环境:Rails, Django 甚至 ASP.NET MVC 。。。。

【*】还有一种解决方式是,为这些CPU密集型的计算建立一个高度可扩展的MQ支持的环境与后端处理。以保持 Node 作为一个前台专员来异步处理client请求。

Node.js 不应该在什么地方使用

使用关系型数据库的服务端 WEB 应用

对照 Node.js 上的 Express.js 和 Ruby on Rails。当你使用关系型数据库的时候请毫不犹豫的选择后者。

Node.js 的关系数据库工具仍处于早期阶段,眼下还没有成熟到让人可以愉快地使用它。

而与此同一时候。Rails天生自带了数据訪问组件。连同DB schema迁移的支持工具和一些Gems(一语双关,一指这些如同珍宝的工具,二指ruby的gems程序包)。

Rails和它的搭档框架们拥有很成熟且被证明了的活动记录(Active Record)或数据映射(Data Mapper)的数据訪问层的实现,而这些是当你在使用纯JavaScript来复制这些应用的时候会很想要使用的东西。

只是,假设你真的倾向于所有使用 JS(而且做好可能抓狂的准备),那么请继续关注 Sequelize 和 Node ORM2 。尽管这两者仍然不成熟的。但他们终于会迎头赶上。

[*] 使用 Node 光是作为前端而 Rails 做后端来连接关系型数据库,这是全然有可能也并不少见的。(笔者注:国外有种说法。PHP这一类程序猿也能够算作是前端)

繁重的服务端的计算和处理

当涉及到大量的计算,Node.js 就不是最佳的解决方式。你肯定不希望使用 Node.js 建立一个斐波那契数的计算服务。

普通情况下,不论什么 CPU密集型操作 会削弱掉 Node通过事件驱动, 异步 I/O 模型等等带来的在吞吐量上的优势,由于当线程被非异步的高计算量占用时不论什么传入的请求将被堵塞。

正如前面所说,Node.js 是单线程的。仅仅使用一个单一的CPU核心。

至于,涉及到server上多核并发处理。Node 的核心团队已经使用 cluster 模块的形式在这一方面做了一些工作 (參考:http://nodejs.org/api/cluster.html)。

当然。您也能够非常easy的通过 nginx 的反向代理执行多个 Node.js 的server实例来避免单一线程堵塞的问题。

关于集群(clustering) ,你应该将全部繁重的计算转移到更合适的语言写的后台进程来处理,同一时候让他们通过像 RabbitMQ 那样通过消息队列server来进行通信。

即使你的后台处理可能最初执行在同一台server上时看不出什么长处,可是这种做法具有很高的可扩展性的潜力。这些后台处理服务能够easy地切割出去。作为单独的 worker server,而不须要配置入口 webserver的负载。

当然。你也能够在其它语言平台上用相同的方法,但使用 Node.js 你能够得到非常高的吞吐量,每一个请求都作为一个小任务非常迅速和高效地处理。这一点我们已经讨论过了。

结论

我们已经从理论到实践讨论过 Node.js 了,从它的目标和野心,到其长处和缺点。

在 Node.js 的开发中99%的问题是由误用堵塞操作而造成的。

请记住:Node.js 从来不是用于解决大规模计算问题而创建的。

它的出现是为了解决大规模I/O 的问题,而且在这一点上做的很好。

综上,假设你项目需求中不包括CPU密集型操作,也不须要訪问不论什么堵塞的资源。那么你就能够利用的 Node.js 的长处,尽情的享受高速、可扩展的网络应用。

Node.js具体解析