celsius的个人博客

星星之火可以燎原

0%

JS反混淆相关知识

前言

最近学习了一下JS反混淆的知识,记录一下


一、JSA加密

  • 比较基础的加密,只对变量进行了修改,通常与代码压缩一起使用

  • JSA加密示例:

    1
    2
    3
    4
    5
    6
    7
    8
    function o00($) {
    console.log("\x1b[32m%s\x1b[0m", $)
    }
    function o01($) {
    console.log("\x1b[41m%s\x1b[0m", $)
    }
    o00("logR");
    o01("logG")
  • 这种加密直接丢给JS NICE

    二、JS NICE

  • JS Nice 是一款让经过混淆处理的 JavaScript 代码可读性更好的工具。它使用一种新型的用于 JavaScript 代码美化的去混淆和去压缩引擎。JSNice 采用先进的机器学习和程序分析技术,从可用的开源项目学习命名和类型规律。

  • 经过测试,其只能做到通用型的一些格式化,重命名等操作,不过试试也可能会有惊喜

  • 地址:http://jsnice.org/

    三、base62编码

  • 最明显的特征是生成的代码以 eval(function(p,a,c,k,e,r)) 开头

  • 这类混淆的关键思想在于将需要执行的代码进行一次编码,在执行的时候还原出浏览器可执行的合法的脚本,然后执行之。看上去和可执行文件的加壳有那么点类似。Javascript 提供了将字符串当作代码执行(evaluate)的能力,可以通过 Function 构造器、eval、setTimeout、setInterval 将字符串传递给 js 引擎进行解析执行。

  • 无论代码如何进行变形,其最终都要调用一次 eval 等函数。解密的方法不需要对其算法做任何分析,只需要简单地找到这个最终的调用,改为 console.log 或者其他方式,将程序解码后的结果按照字符串输出即可

    四、OB混淆

  • 现在 JavaScript 混淆主流的实现是 javascript-obfuscator 这个库,也就是OB混淆,其能实现代码压缩,变量名混淆,字符串混淆,代码自我保护,控制流平坦化,僵尸代码注入,对象键名替换,调试保护,特殊编码等。其中每一个拿出来都很棘手,组合在一起就更难搞了。

  • OB混淆网站:https://obfuscator.io/

  • ob混淆特征:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
// 开头一个大数组
var _0xa441 = ['\x49\x63\x4b\x72\x77\x70\x2f\x44\x6c\x67\x3d\x3d', ···]
// 自执行函数对数组进行位移
(function (_0x56a234, _0xa44115) {
var _0x532345 = function (_0x549d7c) {
while (--_0x549d7c) {
_0x56a234['push'](_0x56a234['shift']());
}
};
_0x532345(++_0xa44115);
}(_0xa441, 0x1d0));
// 解密函数
var _0x5323 = function (_0x56a234, _0xa44115) {
// 里面有段自执行函数生成atob函数
······
}
// 下方多处调用解密函数,如
var _0x239123 = _0x5323('\x30\x78\x32\x30', '\x70\x59\x48\x73');
  • 对于OB混淆还原,没有找到在线网站,因此我结合node环境的还原工具写了一个。当然,因为OB混淆的版本以及配置项很多,并不能做到完美还原,需要搭配其他方式一起使用。

  • 在线地址:http://celsius.icu/web/deOb/index.html

    五、控制流平坦化

  • 这里需要把控制流平坦化单独拿出来说说,因为大部分混淆工具都会用到,加密效果显著。控制流平坦化,简单来讲就是将代码块之间的关系打断,由一个分发器来控制代码块的跳转。

  • 如果看到代码里出现for循环while循环switch执行等方式来控制代码的执行顺序,八成就是控制流平坦化:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
// 混淆前
window = {};
window.atob = function(r) {
e = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/=";
var o = String(r).replace(/=+$/, "");
if(o.length % 4 == 1) throw new t("'atob' failed: The string to be decoded is not correctly encoded.");
for(var n, a, i = 0, c = 0, d = ""; a = o.charAt(c++); ~a && (n = i % 4 ? 64 * n + a : a, i++ % 4) ? d += String.fromCharCode(255 & n >> (-2 * i & 6)) : 0) a = e.indexOf(a);
return d
}
// 混淆后
window = {};
window.atob = function (_0xc0750g) {
var _0xfbb16d = "4|1|2|3|0"["split"]("|"),
_0xec2868 = 0;
while (!![]) {
switch (_0xfbb16d[_0xec2868++]) {
case "0":
return _0xec4345;
continue;
case "1":
var _0x1adc16 = String(_0xc0750g).replace(/=+$/, "");
continue;
case "2":
if (_0x1adc16.length % 4 == 1) throw new t("'atob' failed: The string to be decoded is not correctly encoded.");
continue;
case "3":
for (var _0xb342a5, _0x7ecb47, _0xc54a87 = 0, _0xa14d1g = 0, _0xec4345 = ""; _0x7ecb47 = _0x1adc16.charAt(_0xa14d1g++); ~_0x7ecb47 && (_0xb342a5 = _0xc54a87 % 4 ? 64 * _0xb342a5 + _0x7ecb47 : _0x7ecb47, _0xc54a87++ % 4) ? _0xec4345 += String.fromCharCode(255 & _0xb342a5 >> (-2 * _0xc54a87 & 6)) : 0) _0x7ecb47 = e.indexOf(_0x7ecb47);
continue;
case "4":
e = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/=";
continue;
}
break;
}
};
  • 要对这种混淆后的代码进行分析,AST语法树是最好的选择,当然也可以灵活使用浏览器调试工具的debugger功能,直接调试运行结果

  • 示例博客:https://security.tencent.com/index.php/blog/msg/112

    六、AST语法树

  • 基于AST语法树对代码进行分析是最直接的,当然也是最考验代码能力的

  • 以esprima为例,其提供了js代码与语法树之间的转换能力,再结合estools的几个辅助库即可对js进行静态代码分析:

    escope Javascript 作用域分析工具

     esutil 辅助函数库,检查语法树节点是否满足某些条件
     estraverse 语法树遍历辅助库,接口有一点类似 SAX 方式解析 XML
     esrecurse 另一个语法树遍历工具,使用递归
     esquery 使用 css 选择器的语法从语法树中提取符合条件的节点
     escodegen 与 esprima 功能互逆,将语法树还原为代码
    
  • JS代码解析为AST在线地址:http://esprima.org/demo/parse.html

  • AST语法树的东西比较多,这里说不完,感兴趣可以深入学习

    七、隐写术

  • 一种比较少见的代码加密方法,严格来说的话也不算加密,只是将 js 代码隐藏到了特定的介质当中。如通过最低有效位(LSB)算法嵌入到图片的 RGB 通道、隐藏在图片 EXIF 元数据、隐藏在 HTML 空白字符等。

  • 隐写的方式同样需要解码程序和动态执行,所以破解的方式和base62编码相同,在浏览器上下文中劫持替换关键函数调用的行为,改为文本输出即可得到载体中隐藏的代码。

  • 其特点是执行代码在哪里都要花时间来找,不过在WebAssembly出现之后就被其全面碾压

    八、黑盒加密:Emscripten与WebAssembly

  • Emscripten:某些 JavaScript 的核心功能可以使用 C/C++ 语言实现,然后通过 Emscripten 编译成 asm.js,再由 JavaScript 调用执行,如果要对其进行分析,就需要将JS反编译成C/C++,难度无疑是直线上升

  • WebAssembly:WebAssembly 是经过编译器编译之后的字节码,可以从 C/C++ 编译而来,得到的字节码具有和 JavaScript 相同的功能,但它体积更小,而且在语法上完全脱离 JavaScript,同时具有沙盒化的执行环境。也就是说对其分析需要分析二进制码,这几乎是无法做到的事情,代码示例:

1
2
3
4
5
6
7
8
9
10
11
12
13
WebAssembly.compile(new Uint8Array(`
00 61 73 6d 01 00 00 00 01 0c 02 60 02 7f 7f 01
7f 60 01 7f 01 7f 03 03 02 00 01 07 10 02 03 61
64 64 00 00 06 73 71 75 61 72 65 00 01 0a 13 02
08 00 20 00 20 01 6a 0f 0b 08 00 20 00 20 00 6c
0f 0b`.trim().split(/[\s\r\n]+/g).map(str => parseInt(str, 16))
)).then(module => {
const instance = new WebAssembly.Instance(module)
const { add, square } = instance.exports
console.log('2 + 4 =', add(2, 4))
console.log('3^2 =', square(3))
console.log('(2 + 5)^2 =', square(add(2 + 5)))
})

九、反混淆实操学习

  • 实践是检验真理的唯一标准,这里我推荐一个反混淆实操学习平台,在实际操作中学习应用。
  • 猿人学在线地址:https://match.yuanrenxue.cn/list