ECMAScript ArrayBuffer
ECMAScript ArrayBuffer
DiebugArrayBuffer
ArrayBuffer
对象、TypedArray
视图和DataView
视图是
JavaScript
操作二进制数据的一个接口。这些对象早就存在,属于独立的规格(2011 年 2
月发布),ES6 将它们纳入了 ECMAScript
规格,并且增加了新的方法。它们都是以数组的语法处理二进制数据,所以统称为二进制数组。
这个接口的原始设计目的,与 WebGL 项目有关。所谓 WebGL,就是指浏览器与显卡之间的通信接口,为了满足 JavaScript 与显卡之间大量的、实时的数据交换,它们之间的数据通信必须是二进制的,而不能是传统的文本格式。文本格式传递一个 32 位整数,两端的 JavaScript 脚本与显卡都要进行格式转化,将非常耗时。这时要是存在一种机制,可以像 C 语言那样,直接操作字节,将 4 个字节的 32 位整数,以二进制形式原封不动地送入显卡,脚本的性能就会大幅提升。
二进制数组就是在这种背景下诞生的。它很像 C 语言的数组,允许开发者以数组下标的形式,直接操作内存,大大增强了 JavaScript 处理二进制数据的能力,使得开发者有可能通过 JavaScript 与操作系统的原生接口进行二进制通信。
二进制数组由三类对象组成。
(1)ArrayBuffer
对象:代表内存之中的一段二进制数据,可以通过“视图”进行操作。“视图”部署了数组接口,这意味着,可以用数组的方法操作内存。
(2)TypedArray
视图:共包括 9
种类型的视图,比如Uint8Array
(无符号 8 位整数)数组视图,
Int16Array
(16 位整数)数组视图,
Float32Array
(32 位浮点数)数组视图等等。
(3)DataView
视图:可以自定义复合格式的视图,比如第一个字节是
Uint8(无符号 8 位整数)、第二、三个字节是 Int16(16
位整数)、第四个字节开始是 Float32(32
位浮点数)等等,此外还可以自定义字节序。
简单说,ArrayBuffer
对象代表原始的二进制数据,TypedArray
视图用来读写简单类型的二进制数据,DataView
视图用来读写复杂类型的二进制数据。
TypedArray
视图支持的数据类型一共有 9
种(DataView
视图支持除Uint8C
以外的其他 8
种)。
数据类型
字节长度
含义
对应的 C 语言类型
Int8
1
8 位带符号整数
signed char
Uint8
1
8 位不带符号整数
unsigned char
Uint8C
1
8 位不带符号整数(自动过滤溢出)
unsigned char
Int16
2
16 位带符号整数
short
Uint16
2
16 位不带符号整数
unsigned short
Int32
4
32 位带符号整数
int
Uint32
4
32 位不带符号的整数
unsigned int
Float32
4
32 位浮点数
float
Float64
8
64 位浮点数
double
注意,二进制数组并不是真正的数组,而是类似数组的对象。
很多浏览器操作的 API,用到了二进制数组操作二进制数据,下面是其中的几个。
ArrayBuffer 对象
概述
ArrayBuffer
对象代表储存二进制数据的一段内存,它不能直接读写,只能通过视图(TypedArray
视图和DataView
视图)来读写,视图的作用是以指定格式解读二进制数据。
ArrayBuffer
也是一个构造函数,可以分配一段可以存放数据的连续内存区域。
1 | const buf = new ArrayBuffer(32); |
上面代码生成了一段 32 字节的内存区域,每个字节的值默认都是
0。可以看到,ArrayBuffer
构造函数的参数是所需要的内存大小(单位字节)。
为了读写这段内容,需要为它指定视图。DataView
视图的创建,需要提供ArrayBuffer
对象实例作为参数。
1 | const buf = new ArrayBuffer(32); |
上面代码对一段 32
字节的内存,建立DataView
视图,然后以不带符号的 8
位整数格式,从头读取 8 位二进制数据,结果得到
0,因为原始内存的ArrayBuffer
对象,默认所有位都是 0。
另一种TypedArray
视图,与DataView
视图的一个区别是,它不是一个构造函数,而是一组构造函数,代表不同的数据格式。
1 | const buffer = new ArrayBuffer(12); |
上面代码对同一段内存,分别建立两种视图:32
位带符号整数(Int32Array
构造函数)和 8
位不带符号整数(Uint8Array
构造函数)。由于两个视图对应的是同一段内存,一个视图修改底层内存,会影响到另一个视图。
TypedArray
视图的构造函数,除了接受ArrayBuffer
实例作为参数,还可以接受普通数组作为参数,直接分配内存生成底层的ArrayBuffer
实例,并同时完成对这段内存的赋值。
1 | const typedArray = new Uint8Array([0,1,2]); |
上面代码使用TypedArray
视图的Uint8Array
构造函数,新建一个不带符号的
8
位整数视图。可以看到,Uint8Array
直接使用普通数组作为参数,对底层内存的赋值同时完成。
ArrayBuffer.prototype.byteLength
ArrayBuffer
实例的byteLength
属性,返回所分配的内存区域的字节长度。
1 | const buffer = new ArrayBuffer(32); |
如果要分配的内存区域很大,有可能分配失败(因为没有那么多的连续空余内存),所以有必要检查是否分配成功。
1 | if (buffer.byteLength === n) { |
ArrayBuffer.prototype.slice()
ArrayBuffer
实例有一个slice
方法,允许将内存区域的一部分,拷贝生成一个新的ArrayBuffer
对象。
1 | const buffer = new ArrayBuffer(8); |
上面代码拷贝buffer
对象的前 3 个字节(从 0 开始,到第 3
个字节前面结束),生成一个新的ArrayBuffer
对象。slice
方法其实包含两步,第一步是先分配一段新内存,第二步是将原来那个ArrayBuffer
对象拷贝过去。
slice
方法接受两个参数,第一个参数表示拷贝开始的字节序号(含该字节),第二个参数表示拷贝截止的字节序号(不含该字节)。如果省略第二个参数,则默认到原ArrayBuffer
对象的结尾。
除了slice
方法,ArrayBuffer
对象不提供任何直接读写内存的方法,只允许在其上方建立视图,然后通过视图读写。
ArrayBuffer.isView()
ArrayBuffer
有一个静态方法isView
,返回一个布尔值,表示参数是否为ArrayBuffer
的视图实例。这个方法大致相当于判断参数,是否为TypedArray
实例或DataView
实例。
1 | const buffer = new ArrayBuffer(8); |
TypedArray 视图
概述
ArrayBuffer
对象作为内存区域,可以存放多种类型的数据。同一段内存,不同数据有不同的解读方式,这就叫做“视图”(view)。ArrayBuffer
有两种视图,一种是TypedArray
视图,另一种是DataView
视图。前者的数组成员都是同一个数据类型,后者的数组成员可以是不同的数据类型。
目前,TypedArray
视图一共包括 9
种类型,每一种视图都是一种构造函数。
Int8Array
:8 位有符号整数,长度 1 个字节。Uint8Array
:8 位无符号整数,长度 1 个字节。Uint8ClampedArray
:8 位无符号整数,长度 1 个字节,溢出处理不同。Int16Array
:16 位有符号整数,长度 2 个字节。Uint16Array
:16 位无符号整数,长度 2 个字节。Int32Array
:32 位有符号整数,长度 4 个字节。Uint32Array
:32 位无符号整数,长度 4 个字节。Float32Array
:32 位浮点数,长度 4 个字节。Float64Array
:64 位浮点数,长度 8 个字节。
这 9
个构造函数生成的数组,统称为TypedArray
视图。它们很像普通数组,都有length
属性,都能用方括号运算符([]
)获取单个元素,所有数组的方法,在它们上面都能使用。普通数组与
TypedArray 数组的差异主要在以下方面。
- TypedArray 数组的所有成员,都是同一种类型。
- TypedArray 数组的成员是连续的,不会有空位。
- TypedArray 数组成员的默认值为
0。比如,
new Array(10)
返回一个普通数组,里面没有任何成员,只是 10 个空位;new Uint8Array(10)
返回一个 TypedArray 数组,里面 10 个成员都是 0。 - TypedArray
数组只是一层视图,本身不储存数据,它的数据都储存在底层的
ArrayBuffer
对象之中,要获取底层对象必须使用buffer
属性。
构造函数
TypedArray 数组提供 9 种构造函数,用来生成相应类型的数组实例。
构造函数有多种用法。
(1)TypedArray(buffer, byteOffset=0, length?)
同一个ArrayBuffer
对象之上,可以根据不同的数据类型,建立多个视图。
1 | // 创建一个8字节的ArrayBuffer |
上面代码在一段长度为 8
个字节的内存(b
)之上,生成了三个视图:v1
、v2
和v3
。
视图的构造函数可以接受三个参数:
- 第一个参数(必需):视图对应的底层
ArrayBuffer
对象。 - 第二个参数(可选):视图开始的字节序号,默认从 0 开始。
- 第三个参数(可选):视图包含的数据个数,默认直到本段内存区域结束。
因此,v1
、v2
和v3
是重叠的:v1[0]
是一个
32 位整数,指向字节 0 ~字节 3;v2[0]
是一个 8
位无符号整数,指向字节 2;v3[0]
是一个 16 位整数,指向字节 2
~字节
3。只要任何一个视图对内存有所修改,就会在另外两个视图上反应出来。
注意,byteOffset
必须与所要建立的数据类型一致,否则会报错。
1 | const buffer = new ArrayBuffer(8); |
上面代码中,新生成一个 8
个字节的ArrayBuffer
对象,然后在这个对象的第一个字节,建立带符号的
16 位整数视图,结果报错。因为,带符号的 16
位整数需要两个字节,所以byteOffset
参数必须能够被 2
整除。
如果想从任意字节开始解读ArrayBuffer
对象,必须使用DataView
视图,因为TypedArray
视图只提供
9 种固定的解读格式。
(2)TypedArray(length)
视图还可以不通过ArrayBuffer
对象,直接分配内存而生成。
1 | const f64a = new Float64Array(8); |
上面代码生成一个 8 个成员的Float64Array
数组(共 64
字节),然后依次对每个成员赋值。这时,视图构造函数的参数就是成员的个数。可以看到,视图数组的赋值操作与普通数组的操作毫无两样。
(3)TypedArray(typedArray)
TypedArray
数组的构造函数,可以接受另一个TypedArray
实例作为参数。
1 | const typedArray = new Int8Array(new Uint8Array(4)); |
上面代码中,Int8Array
构造函数接受一个Uint8Array
实例作为参数。
注意,此时生成的新数组,只是复制了参数数组的值,对应的底层内存是不一样的。新数组会开辟一段新的内存储存数据,不会在原数组的内存之上建立视图。
1 | const x = new Int8Array([1, 1]); |
上面代码中,数组y
是以数组x
为模板而生成的,当x
变动的时候,y
并没有变动。
如果想基于同一段内存,构造不同的视图,可以采用下面的写法。
1 | const x = new Int8Array([1, 1]); |
(4)TypedArray(arrayLikeObject)
构造函数的参数也可以是一个普通数组,然后直接生成TypedArray
实例。
1 | const typedArray = new Uint8Array([1, 2, 3, 4]); |
注意,这时TypedArray
视图会重新开辟内存,不会在原数组的内存上建立视图。
上面代码从一个普通的数组,生成一个 8
位无符号整数的TypedArray
实例。
TypedArray 数组也可以转换回普通数组。
1 | const normalArray = [...typedArray]; |
数组方法
普通数组的操作方法和属性,对 TypedArray 数组完全适用。
TypedArray.prototype.copyWithin(target, start[, end = this.length])
TypedArray.prototype.entries()
TypedArray.prototype.every(callbackfn, thisArg?)
TypedArray.prototype.fill(value, start=0, end=this.length)
TypedArray.prototype.filter(callbackfn, thisArg?)
TypedArray.prototype.find(predicate, thisArg?)
TypedArray.prototype.findIndex(predicate, thisArg?)
TypedArray.prototype.forEach(callbackfn, thisArg?)
TypedArray.prototype.indexOf(searchElement, fromIndex=0)
TypedArray.prototype.join(separator)
TypedArray.prototype.keys()
TypedArray.prototype.lastIndexOf(searchElement, fromIndex?)
TypedArray.prototype.map(callbackfn, thisArg?)
TypedArray.prototype.reduce(callbackfn, initialValue?)
TypedArray.prototype.reduceRight(callbackfn, initialValue?)
TypedArray.prototype.reverse()
TypedArray.prototype.slice(start=0, end=this.length)
TypedArray.prototype.some(callbackfn, thisArg?)
TypedArray.prototype.sort(comparefn)
TypedArray.prototype.toLocaleString(reserved1?, reserved2?)
TypedArray.prototype.toString()
TypedArray.prototype.values()
上面所有方法的用法,请参阅数组方法的介绍,这里不再重复了。
注意,TypedArray 数组没有concat
方法。如果想要合并多个
TypedArray 数组,可以用下面这个函数。
1 | function concatenate(resultConstructor, ...arrays) { |
另外,TypedArray 数组与普通数组一样,部署了 Iterator 接口,所以可以被遍历。
1 | let ui8 = Uint8Array.of(0, 1, 2); |
字节序
字节序指的是数值在内存中的表示方式。
1 | const buffer = new ArrayBuffer(16); |
上面代码生成一个 16
字节的ArrayBuffer
对象,然后在它的基础上,建立了一个 32
位整数的视图。由于每个 32 位整数占据 4 个字节,所以一共可以写入 4
个整数,依次为 0,2,4,6。
如果在这段数据上接着建立一个 16 位整数的视图,则可以读出完全不一样的结果。
1 | const int16View = new Int16Array(buffer); |
由于每个 16 位整数占据 2
个字节,所以整个ArrayBuffer
对象现在分成 8 段。然后,由于
x86 体系的计算机都采用小端字节序(little
endian),相对重要的字节排在后面的内存地址,相对不重要字节排在前面的内存地址,所以就得到了上面的结果。
比如,一个占据四个字节的 16
进制数0x12345678
,决定其大小的最重要的字节是“12”,最不重要的是“78”。小端字节序将最不重要的字节排在前面,储存顺序就是78563412
;大端字节序则完全相反,将最重要的字节排在前面,储存顺序就是12345678
。目前,所有个人电脑几乎都是小端字节序,所以
TypedArray
数组内部也采用小端字节序读写数据,或者更准确的说,按照本机操作系统设定的字节序读写数据。
这并不意味大端字节序不重要,事实上,很多网络设备和特定的操作系统采用的是大端字节序。这就带来一个严重的问题:如果一段数据是大端字节序,TypedArray
数组将无法正确解析,因为它只能处理小端字节序!为了解决这个问题,JavaScript
引入DataView
对象,可以设定字节序,下文会详细介绍。
下面是另一个例子。
1 | // 假定某段buffer包含如下字节 [0x02, 0x01, 0x03, 0x07] |
下面的函数可以用来判断,当前视图是小端字节序,还是大端字节序。
1 | const BIG_ENDIAN = Symbol('BIG_ENDIAN'); |
总之,与普通数组相比,TypedArray 数组的最大优点就是可以直接操作内存,不需要数据类型转换,所以速度快得多。
BYTES_PER_ELEMENT 属性
每一种视图的构造函数,都有一个BYTES_PER_ELEMENT
属性,表示这种数据类型占据的字节数。
1 | Int8Array.BYTES_PER_ELEMENT // 1 |
这个属性在TypedArray
实例上也能获取,即有TypedArray.prototype.BYTES_PER_ELEMENT
。
ArrayBuffer 与字符串的互相转换
ArrayBuffer
和字符串的相互转换,使用原生
TextEncoder
和 TextDecoder
方法。为了便于说明用法,下面的代码都按照 TypeScript
的用法,给出了类型签名。
1 | /** |
上面代码中,ab2str()
的第二个参数outputEncoding
给出了输出编码的编码,一般保持默认值(utf-8
),其他可选值参见官方文档或 Node.js
文档。
溢出
不同的视图类型,所能容纳的数值范围是确定的。超出这个范围,就会出现溢出。比如,8 位视图只能容纳一个 8 位的二进制值,如果放入一个 9 位的值,就会溢出。
TypedArray 数组的溢出处理规则,简单来说,就是抛弃溢出的位,然后按照视图类型进行解释。
1 | const uint8 = new Uint8Array(1); |
上面代码中,uint8
是一个 8 位视图,而 256
的二进制形式是一个 9
位的值100000000
,这时就会发生溢出。根据规则,只会保留后 8
位,即00000000
。uint8
视图的解释规则是无符号的
8 位整数,所以00000000
就是0
。
负数在计算机内部采用“2
的补码”表示,也就是说,将对应的正数值进行否运算,然后加1
。比如,-1
对应的正值是1
,进行否运算以后,得到11111110
,再加上1
就是补码形式11111111
。uint8
按照无符号的
8 位整数解释11111111
,返回结果就是255
。
一个简单转换规则,可以这样表示。
- 正向溢出(overflow):当输入值大于当前数据类型的最大值,结果等于当前数据类型的最小值加上余值,再减去 1。
- 负向溢出(underflow):当输入值小于当前数据类型的最小值,结果等于当前数据类型的最大值减去余值的绝对值,再加上 1。
上面的“余值”就是模运算的结果,即 JavaScript
里面的%
运算符的结果。
1 | 12 % 4 // 0 |
上面代码中,12 除以 4 是没有余值的,而除以 5 会得到余值 2。
请看下面的例子。
1 | const int8 = new Int8Array(1); |
上面例子中,int8
是一个带符号的 8
位整数视图,它的最大值是
127,最小值是-128。输入值为128
时,相当于正向溢出1
,根据“最小值加上余值(128
除以 127 的余值是 1),再减去
1”的规则,就会返回-128
;输入值为-129
时,相当于负向溢出1
,根据“最大值减去余值的绝对值(-129
除以-128 的余值的绝对值是 1),再加上
1”的规则,就会返回127
。
Uint8ClampedArray
视图的溢出规则,与上面的规则不同。它规定,凡是发生正向溢出,该值一律等于当前数据类型的最大值,即
255;如果发生负向溢出,该值一律等于当前数据类型的最小值,即 0。
1 | const uint8c = new Uint8ClampedArray(1); |
上面例子中,uint8C
是一个Uint8ClampedArray
视图,正向溢出时都返回
255,负向溢出都返回 0。
TypedArray.prototype.buffer
TypedArray
实例的buffer
属性,返回整段内存区域对应的ArrayBuffer
对象。该属性为只读属性。
1 | const a = new Float32Array(64); |
上面代码的a
视图对象和b
视图对象,对应同一个ArrayBuffer
对象,即同一段内存。
TypedArray.prototype.byteLength,TypedArray.prototype.byteOffset
byteLength
属性返回 TypedArray
数组占据的内存长度,单位为字节。byteOffset
属性返回
TypedArray
数组从底层ArrayBuffer
对象的哪个字节开始。这两个属性都是只读属性。
1 | const b = new ArrayBuffer(8); |
TypedArray.prototype.length
length
属性表示 TypedArray
数组含有多少个成员。注意将 length
属性和
byteLength
属性区分,前者是成员长度,后者是字节长度。
1 | const a = new Int16Array(8); |
TypedArray.prototype.set()
TypedArray 数组的set
方法用于复制数组(普通数组或
TypedArray 数组),也就是将一段内容完全复制到另一段内存。
1 | const a = new Uint8Array(8); |
上面代码复制a
数组的内容到b
数组,它是整段内存的复制,比一个个拷贝成员的那种复制快得多。
set
方法还可以接受第二个参数,表示从b
对象的哪一个成员开始复制a
对象。
1 | const a = new Uint16Array(8); |
上面代码的b
数组比a
数组多两个成员,所以从b[2]
开始复制。
TypedArray.prototype.subarray()
subarray
方法是对于 TypedArray
数组的一部分,再建立一个新的视图。
1 | const a = new Uint16Array(8); |
subarray
方法的第一个参数是起始的成员序号,第二个参数是结束的成员序号(不含该成员),如果省略则包含剩余的全部成员。所以,上面代码的a.subarray(2,3)
,意味着
b 只包含a[2]
一个成员,字节长度为 2。
TypedArray.prototype.slice()
TypeArray
实例的slice
方法,可以返回一个指定位置的新的TypedArray
实例。
1 | let ui8 = Uint8Array.of(0, 1, 2); |
上面代码中,ui8
是 8
位无符号整数数组视图的一个实例。它的slice
方法可以从当前视图之中,返回一个新的视图实例。
slice
方法的参数,表示原数组的具体位置,开始生成新数组。负值表示逆向的位置,即-1
为倒数第一个位置,-2 表示倒数第二个位置,以此类推。
TypedArray.of()
TypedArray
数组的所有构造函数,都有一个静态方法of
,用于将参数转为一个TypedArray
实例。
1 | Float32Array.of(0.151, -8, 3.7) |
下面三种方法都会生成同样一个 TypedArray 数组。
1 | // 方法一 |
TypedArray.from()
静态方法from
接受一个可遍历的数据结构(比如数组)作为参数,返回一个基于这个结构的TypedArray
实例。
1 | Uint16Array.from([0, 1, 2]) |
这个方法还可以将一种TypedArray
实例,转为另一种。
1 | const ui16 = Uint16Array.from(Uint8Array.of(0, 1, 2)); |
from
方法还可以接受一个函数,作为第二个参数,用来对每个元素进行遍历,功能类似map
方法。
1 | Int8Array.of(127, 126, 125).map(x => 2 * x) |
上面的例子中,from
方法没有发生溢出,这说明遍历不是针对原来的
8 位整数数组。也就是说,from
会将第一个参数指定的 TypedArray
数组,拷贝到另一段内存之中,处理之后再将结果转成指定的数组格式。
复合视图
由于视图的构造函数可以指定起始位置和长度,所以在同一段内存之中,可以依次存放不同类型的数据,这叫做“复合视图”。
1 | const buffer = new ArrayBuffer(24); |
上面代码将一个 24
字节长度的ArrayBuffer
对象,分成三个部分:
- 字节 0 到字节 3:1 个 32 位无符号整数
- 字节 4 到字节 19:16 个 8 位整数
- 字节 20 到字节 23:1 个 32 位浮点数
这种数据结构可以用如下的 C 语言描述:
1 | struct someStruct { |
DataView 视图
如果一段数据包括多种类型(比如服务器传来的 HTTP
数据),这时除了建立ArrayBuffer
对象的复合视图以外,还可以通过DataView
视图进行操作。
DataView
视图提供更多操作选项,而且支持设定字节序。本来,在设计目的上,ArrayBuffer
对象的各种TypedArray
视图,是用来向网卡、声卡之类的本机设备传送数据,所以使用本机的字节序就可以了;而DataView
视图的设计目的,是用来处理网络设备传来的数据,所以大端字节序或小端字节序是可以自行设定的。
DataView
视图本身也是构造函数,接受一个ArrayBuffer
对象作为参数,生成视图。
1 | new DataView(ArrayBuffer buffer [, 字节起始位置 [, 长度]]); |
下面是一个例子。
1 | const buffer = new ArrayBuffer(24); |
DataView
实例有以下属性,含义与TypedArray
实例的同名方法相同。
DataView.prototype.buffer
:返回对应的 ArrayBuffer 对象DataView.prototype.byteLength
:返回占据的内存字节长度DataView.prototype.byteOffset
:返回当前视图从对应的 ArrayBuffer 对象的哪个字节开始
DataView
实例提供 8 个方法读取内存。
getInt8
:读取 1 个字节,返回一个 8 位整数。getUint8
:读取 1 个字节,返回一个无符号的 8 位整数。getInt16
:读取 2 个字节,返回一个 16 位整数。getUint16
:读取 2 个字节,返回一个无符号的 16 位整数。getInt32
:读取 4 个字节,返回一个 32 位整数。getUint32
:读取 4 个字节,返回一个无符号的 32 位整数。getFloat32
:读取 4 个字节,返回一个 32 位浮点数。getFloat64
:读取 8 个字节,返回一个 64 位浮点数。
这一系列get
方法的参数都是一个字节序号(不能是负数,否则会报错),表示从哪个字节开始读取。
1 | const buffer = new ArrayBuffer(24); |
上面代码读取了ArrayBuffer
对象的前 5 个字节,其中有一个 8
位整数和两个十六位整数。
如果一次读取两个或两个以上字节,就必须明确数据的存储方式,到底是小端字节序还是大端字节序。默认情况下,DataView
的get
方法使用大端字节序解读数据,如果需要使用小端字节序解读,必须在get
方法的第二个参数指定true
。
1 | // 小端字节序 |
DataView 视图提供 8 个方法写入内存。
setInt8
:写入 1 个字节的 8 位整数。setUint8
:写入 1 个字节的 8 位无符号整数。setInt16
:写入 2 个字节的 16 位整数。setUint16
:写入 2 个字节的 16 位无符号整数。setInt32
:写入 4 个字节的 32 位整数。setUint32
:写入 4 个字节的 32 位无符号整数。setFloat32
:写入 4 个字节的 32 位浮点数。setFloat64
:写入 8 个字节的 64 位浮点数。
这一系列set
方法,接受两个参数,第一个参数是字节序号,表示从哪个字节开始写入,第二个参数为写入的数据。对于那些写入两个或两个以上字节的方法,需要指定第三个参数,false
或者undefined
表示使用大端字节序写入,true
表示使用小端字节序写入。
1 | // 在第1个字节,以大端字节序写入值为25的32位整数 |
如果不确定正在使用的计算机的字节序,可以采用下面的判断方式。
1 | const littleEndian = (function() { |
如果返回true
,就是小端字节序;如果返回false
,就是大端字节序。
二进制数组的应用
大量的 Web API 用到了ArrayBuffer
对象和它的视图对象。
AJAX
传统上,服务器通过 AJAX
操作只能返回文本数据,即responseType
属性默认为text
。XMLHttpRequest
第二版XHR2
允许服务器返回二进制数据,这时分成两种情况。如果明确知道返回的二进制数据类型,可以把返回类型(responseType
)设为arraybuffer
;如果不知道,就设为blob
。
1 | let xhr = new XMLHttpRequest(); |
如果知道传回来的是 32 位整数,可以像下面这样处理。
1 | xhr.onreadystatechange = function () { |
Canvas
网页Canvas
元素输出的二进制像素数据,就是 TypedArray
数组。
1 | const canvas = document.getElementById('myCanvas'); |
需要注意的是,上面代码的uint8ClampedArray
虽然是一个
TypedArray
数组,但是它的视图类型是一种针对Canvas
元素的专有类型Uint8ClampedArray
。这个视图类型的特点,就是专门针对颜色,把每个字节解读为无符号的
8 位整数,即只能取值 0 ~
255,而且发生运算的时候自动过滤高位溢出。这为图像处理带来了巨大的方便。
举例来说,如果把像素的颜色值设为Uint8Array
类型,那么乘以一个
gamma 值的时候,就必须这样计算:
1 | u8[i] = Math.min(255, Math.max(0, u8[i] * gamma)); |
因为Uint8Array
类型对于大于 255
的运算结果(比如0xFF+1
),会自动变为0x00
,所以图像处理必须要像上面这样算。这样做很麻烦,而且影响性能。如果将颜色值设为Uint8ClampedArray
类型,计算就简化许多。
1 | pixels[i] *= gamma; |
Uint8ClampedArray
类型确保将小于 0 的值设为 0,将大于 255
的值设为 255。注意,IE 10 不支持该类型。
WebSocket
WebSocket
可以通过ArrayBuffer
,发送或接收二进制数据。
1 | let socket = new WebSocket('ws://127.0.0.1:8081'); |
Fetch API
Fetch API 取回的数据,就是ArrayBuffer
对象。
1 | fetch(url) |
File API
如果知道一个文件的二进制数据类型,也可以将这个文件读取为ArrayBuffer
对象。
1 | const fileInput = document.getElementById('fileInput'); |
下面以处理 bmp 文件为例。假定file
变量是一个指向 bmp
文件的文件对象,首先读取文件。
1 | const reader = new FileReader(); |
然后,定义处理图像的回调函数:先在二进制数据之上建立一个DataView
视图,再建立一个bitmap
对象,用于存放处理后的数据,最后将图像展示在Canvas
元素之中。
1 | function processimage(e) { |
具体处理图像数据时,先处理 bmp 的文件头。具体每个文件头的格式和定义,请参阅有关资料。
1 | bitmap.fileheader = {}; |
接着处理图像元信息部分。
1 | bitmap.infoheader = {}; |
最后处理图像本身的像素信息。
1 | const start = bitmap.fileheader.bfOffBits; |
至此,图像文件的数据全部处理完成。下一步,可以根据需要,进行图像变形,或者转换格式,或者展示在Canvas
网页元素之中。
SharedArrayBuffer
JavaScript 是单线程的,Web worker
引入了多线程:主线程用来与用户互动,Worker
线程用来承担计算任务。每个线程的数据都是隔离的,通过postMessage()
通信。下面是一个例子。
1 | // 主线程 |
上面代码中,主线程新建了一个 Worker
线程。该线程与主线程之间会有一个通信渠道,主线程通过w.postMessage
向
Worker 线程发消息,同时通过message
事件监听 Worker
线程的回应。
1 | // 主线程 |
上面代码中,主线程先发一个消息hi
,然后在监听到 Worker
线程的回应后,就将其打印出来。
Worker
线程也是通过监听message
事件,来获取主线程发来的消息,并作出反应。
1 | // Worker 线程 |
线程之间的数据交换可以是各种格式,不仅仅是字符串,也可以是二进制数据。这种交换采用的是复制机制,即一个进程将需要分享的数据复制一份,通过postMessage
方法交给另一个进程。如果数据量比较大,这种通信的效率显然比较低。很容易想到,这时可以留出一块内存区域,由主线程与
Worker
线程共享,两方都可以读写,那么就会大大提高效率,协作起来也会比较简单(不像postMessage
那么麻烦)。
ES2017 引入SharedArrayBuffer
,允许
Worker 线程与主线程共享同一块内存。SharedArrayBuffer
的 API
与ArrayBuffer
一模一样,唯一的区别是后者无法共享数据。
1 | // 主线程 |
上面代码中,postMessage
方法的参数是SharedArrayBuffer
对象。
Worker 线程从事件的data
属性上面取到数据。
1 | // Worker 线程 |
共享内存也可以在 Worker 线程创建,发给主线程。
SharedArrayBuffer
与ArrayBuffer
一样,本身是无法读写的,必须在上面建立视图,然后通过视图读写。
1 | // 分配 10 万个 32 位整数占据的内存空间 |
Worker 线程收到数据后的处理如下。
1 | // Worker 线程 |
Atomics 对象
多线程共享内存,最大的问题就是如何防止两个线程同时修改某个地址,或者说,当一个线程修改共享内存以后,必须有一个机制让其他线程同步。SharedArrayBuffer
API
提供Atomics
对象,保证所有共享内存的操作都是“原子性”的,并且可以在所有线程内同步。
什么叫“原子性操作”呢?现代编程语言中,一条普通的命令被编译器处理以后,会变成多条机器指令。如果是单线程运行,这是没有问题的;多线程环境并且共享内存时,就会出问题,因为这一组机器指令的运行期间,可能会插入其他线程的指令,从而导致运行结果出错。请看下面的例子。
1 | // 主线程 |
上面代码中,主线程的原始顺序是先对 42 号位置赋值,再对 37
号位置赋值。但是,编译器和 CPU
为了优化,可能会改变这两个操作的执行顺序(因为它们之间互不依赖),先对
37 号位置赋值,再对 42 号位置赋值。而执行到一半的时候,Worker
线程可能就会来读取数据,导致打印出123456
和191
。
下面是另一个例子。
1 | // 主线程 |
上面代码中,Worker
线程直接改写共享内存ia[112]++
是不正确的。因为这行语句会被编译成多条机器指令,这些指令之间无法保证不会插入其他进程的指令。请设想如果两个线程同时ia[112]++
,很可能它们得到的结果都是不正确的。
Atomics
对象就是为了解决这个问题而提出,它可以保证一个操作所对应的多条机器指令,一定是作为一个整体运行的,中间不会被打断。也就是说,它所涉及的操作都可以看作是原子性的单操作,这可以避免线程竞争,提高多线程共享内存时的操作安全。所以,ia[112]++
要改写成Atomics.add(ia, 112, 1)
。
Atomics
对象提供多种方法。
(1)Atomics.store(),Atomics.load()
store()
方法用来向共享内存写入数据,load()
方法用来从共享内存读出数据。比起直接的读写操作,它们的好处是保证了读写操作的原子性。
此外,它们还用来解决一个问题:多个线程使用共享内存的某个位置作为开关(flag),一旦该位置的值变了,就执行特定操作。这时,必须保证该位置的赋值操作,一定是在它前面的所有可能会改写内存的操作结束后执行;而该位置的取值操作,一定是在它后面所有可能会读取该位置的操作开始之前执行。store()
方法和load()
方法就能做到这一点,编译器不会为了优化,而打乱机器指令的执行顺序。
1 | Atomics.load(typedArray, index) |
store()
方法接受三个参数:typedArray
对象(SharedArrayBuffer
的视图)、位置索引和值,返回typedArray[index]
的值。load()
方法只接受两个参数:typedArray
对象(SharedArrayBuffer
的视图)和位置索引,也是返回typedArray[index]
的值。
1 | // 主线程 main.js |
上面代码中,主线程的Atomics.store()
向 42
号位置的赋值,一定是早于 37 位置的赋值。只要 37 号位置等于 163,Worker
线程就不会终止循环,而对 37 号位置和 42
号位置的取值,一定是在Atomics.load()
操作之后。
下面是另一个例子。
1 | // 主线程 |
上面代码中,主线程用Atomics.store()
方法写入数据。下面是
Worker 线程用Atomics.load()
方法读取数据。
1 | // worker.js |
(2)Atomics.exchange()
Worker
线程如果要写入数据,可以使用上面的Atomics.store()
方法,也可以使用Atomics.exchange()
方法。它们的区别是,Atomics.store()
返回写入的值,而Atomics.exchange()
返回被替换的值。
1 | // Worker 线程 |
上面代码将共享内存的偶数位置的值改成1
,奇数位置的值改成2
。
(3)Atomics.wait(),Atomics.notify()
使用while
循环等待主线程的通知,不是很高效,如果用在主线程,就会造成卡顿,Atomics
对象提供了wait()
和notify()
两个方法用于等待通知。这两个方法相当于锁内存,即在一个线程进行操作时,让其他线程休眠(建立锁),等到操作结束,再唤醒那些休眠的线程(解除锁)。
Atomics.notify()
方法以前叫做Atomics.wake()
,后来进行了改名。
1 | // Worker 线程 |
上面代码中,Atomics.wait()
方法等同于告诉 Worker
线程,只要满足给定条件(sharedArray
的0
号位置等于50
),就在这一行
Worker 线程进入休眠。
主线程一旦更改了指定位置的值,就可以唤醒 Worker 线程。
1 | // 主线程 |
上面代码中,sharedArray
的0
号位置改为100
,然后就执行Atomics.notify()
方法,唤醒在sharedArray
的0
号位置休眠队列里的一个线程。
Atomics.wait()
方法的使用格式如下。
1 | Atomics.wait(sharedArray, index, value, timeout) |
它的四个参数含义如下。
- sharedArray:共享内存的视图数组。
- index:视图数据的位置(从0开始)。
- value:该位置的预期值。一旦实际值等于预期值,就进入休眠。
- timeout:整数,表示过了这个时间以后,就自动唤醒,单位毫秒。该参数可选,默认值是
Infinity
,即无限期的休眠,只有通过Atomics.notify()
方法才能唤醒。
Atomics.wait()
的返回值是一个字符串,共有三种可能的值。如果sharedArray[index]
不等于value
,就返回字符串not-equal
,否则就进入休眠。如果Atomics.notify()
方法唤醒,就返回字符串ok
;如果因为超时唤醒,就返回字符串timed-out
。
Atomics.notify()
方法的使用格式如下。
1 | Atomics.notify(sharedArray, index, count) |
它的三个参数含义如下。
- sharedArray:共享内存的视图数组。
- index:视图数据的位置(从0开始)。
- count:需要唤醒的 Worker
线程的数量,默认为
Infinity
。
Atomics.notify()
方法一旦唤醒休眠的 Worker
线程,就会让它继续往下运行。
请看一个例子。
1 | // 主线程 |
上面代码中,视图数组ia
的第 37
号位置,原来的值是163
。Worker
线程使用Atomics.wait()
方法,指定只要ia[37]
等于163
,就进入休眠状态。主线程使用Atomics.store()
方法,将123456
写入ia[37]
,然后使用Atomics.notify()
方法唤醒
Worker 线程。
另外,基于wait
和notify
这两个方法的锁内存实现,可以看
Lars T Hansen 的 js-lock-and-condition
这个库。
注意,浏览器的主线程不宜设置休眠,这会导致用户失去响应。而且,主线程实际上会拒绝进入休眠。
(4)运算方法
共享内存上面的某些运算是不能被打断的,即不能在运算过程中,让其他线程改写内存上面的值。Atomics 对象提供了一些运算方法,防止数据被改写。
1 | Atomics.add(sharedArray, index, value) |
Atomics.add
用于将value
加到sharedArray[index]
,返回sharedArray[index]
旧的值。
1 | Atomics.sub(sharedArray, index, value) |
Atomics.sub
用于将value
从sharedArray[index]
减去,返回sharedArray[index]
旧的值。
1 | Atomics.and(sharedArray, index, value) |
Atomics.and
用于将value
与sharedArray[index]
进行位运算and
,放入sharedArray[index]
,并返回旧的值。
1 | Atomics.or(sharedArray, index, value) |
Atomics.or
用于将value
与sharedArray[index]
进行位运算or
,放入sharedArray[index]
,并返回旧的值。
1 | Atomics.xor(sharedArray, index, value) |
Atomic.xor
用于将vaule
与sharedArray[index]
进行位运算xor
,放入sharedArray[index]
,并返回旧的值。
(5)其他方法
Atomics
对象还有以下方法。
Atomics.compareExchange(sharedArray, index, oldval, newval)
:如果sharedArray[index]
等于oldval
,就写入newval
,返回oldval
。Atomics.isLockFree(size)
:返回一个布尔值,表示Atomics
对象是否可以处理某个size
的内存锁定。如果返回false
,应用程序就需要自己来实现锁定。
Atomics.compareExchange
的一个用途是,从
SharedArrayBuffer
读取一个值,然后对该值进行某个操作,操作结束以后,检查一下
SharedArrayBuffer
里面原来那个值是否发生变化(即被其他线程改写过)。如果没有改写过,就将它写回原来的位置,否则读取新的值,再重头进行一次操作。