一、python加密概述

本篇提及的内容是PyCon China 2018 杭州站阿里的大牛提及的内容,不过本篇所写的内容并不太多新意,已经是业务普通已知的解决方法。关键后面还会有一篇,另一篇通过修改解释器的才是干货,不过后一篇提到的方法对于一般人来说难度太大,这篇介绍的内容通用性更强一些。

由于 Python 的动态特性和开源特点,导致 Python 代码很难做到很好的加密。社区中的一些声音认为这样的限制是事实,应该通过法律手段而不是加密源码达到商业保护的目的;而还有一些声音则是不论如何都希望能有一种手段来加密。于是乎,人们想出了各种或加密、或混淆的方案,借此来达到保护源码的目的。常见的源码保护手段有如下几种:

1发行 .pyc 文件
2代码混淆
3使用 py2exe
4使用 Cython

二、发行 .pyc 文件

Python 解释器在执行代码的过程中会首先生成 .pyc 文件,然后解释执行 .pyc 文件中的内容。当然了,Python 解释器也能够直接执行 .pyc 文件。而 .pyc 文件是二进制文件,无法直接看出源码内容。如果发行代码到客户环境时都是 .pyc 而非 .py 文件的话,就可以达到保护 Python 代码的目的。pyc文件的生成分单个文件和多个文件,先来看单个pyc文件的生成:

1python -m foo.py
2# 或通过代码来生成pyc文件
3import py_compile
4py_compile.compile('/path/to/foo.py')

批量pyc文件的生成,可以引用 compileall模块 ,执行如下命令python -m compileall 能够将遍历 目录下的所有 .py 文件编译为 .pyc 文件。然后删除 目录下所有 .py 文件就可以打包发布了:

1$ find  -name '*.py' -type f -print -exec rm {} \;

优缺点

优点:简单方便,提高了一点源码破解门槛。平台兼容性好,.py 能在哪里运行,.pyc 就能在哪里运行。

缺点:解释器兼容性差,.pyc 只能在特定版本的解释器上运行。有现成的反编译工具,破解成本低。

破解这个我之前在 《python反编译工具--Easy Python Decompiler》篇中有提到过。除了提到的这个工具,还有 python-uncompyle6 这个工具也可以做这个事情。

三、代码混淆

混淆,就是通过一系列的转换,让代码逐渐不让人那么容易明白,那就可以这样下手:

  • 移除注释和文档。没有这些说明,在一些关键逻辑上就没那么容易明白了。
  • 改变缩进。完美的缩进看着才舒服,如果缩进忽长忽短,看着也一定闹心。
  • 在tokens中间加入一定空格。这就和改变缩进的效果差不多。
  • 重命名函数、类、变量。命名直接影响了可读性,乱七八糟的名字可是阅读理解的一大障碍。
  • 在空白行插入无效代码。这就是障眼法,用无关代码来打乱阅读节奏。这里说两种常用的混淆库:oxyry 、pyobfuscate 。

1、使用 oxyry 进行混淆

是一个在线混淆 Python 代码的网站,使用它可以方便地进行混淆。假定我们有这样一段 Python 代码,涉及到了类、函数、参数等内容:

 1# coding: utf-8
 2class A(object):
 3    """
 4    Description
 5    """
 6    def __init__(self, x, y, default=None):
 7        self.z = x + y
 8        self.default = default
 9    def name(self):
10        return 'No Name'
11def always():
12    return True
13num = 1
14a = A(num, 999, 100)
15a.name()
16always()

经过 Oxyry 的混淆,得到如下代码:

 1class A (object ):#line:4
 2    ""#line:7
 3    def __init__ (O0O0O0OO00OO000O0 ,OO0O0OOOO0000O0OO ,OO0OO00O00OO00OOO ,OO000OOO0O000OOO0 =None ):#line:9
 4        O0O0O0OO00OO000O0 .z =OO0O0OOOO0000O0OO +OO0OO00O00OO00OOO #line:10
 5        O0O0O0OO00OO000O0 .default =OO000OOO0O000OOO0 #line:11
 6    def name (O000O0O0O00O0O0OO ):#line:13
 7        return 'No Name'#line:14
 8def always ():#line:17
 9    return True #line:18
10num =1 #line:21
11a =A (num ,999 ,100 )#line:22
12a .name ()#line:23
13always ()

混淆后的代码主要在注释、参数名称和空格上做了些调整,稍微带来了点阅读上的障碍。

2、使用 pyobfuscate 库进行混淆

pyobfuscate 算是一个颇具年头的 Python 代码混淆库了,对上述同样一段 Python 代码,经 pyobfuscate 混淆后效果如下:

 1# coding: utf-8
 2if 64 - 64: i11iIiiIii
 3if 65 - 65: O0 / iIii1I11I1II1 % OoooooooOO - i1IIi
 4class o0OO00 ( object ) :
 5 if 78 - 78: i11i . oOooOoO0Oo0O
 6 if 10 - 10: IIiI1I11i11
 7 if 54 - 54: i11iIi1 - oOo0O0Ooo
 8 if 2 - 2: o0 * i1 * ii1IiI1i % OOooOOo / I11i / Ii1I
 9 def __init__ ( self , x , y , default = None ) :
10  self . z = x + y
11  self . default = default
12  if 48 - 48: iII111i % IiII + I1Ii111 / ooOoO0o * Ii1I
13 def name ( self ) :
14  return 'No Name'
15  if 46 - 46: ooOoO0o * I11i - OoooooooOO
16  if 30 - 30: o0 - O0 % o0 - OoooooooOO * O0 * OoooooooOO
17def Oo0o ( ) :
18 return True
19 if 60 - 60: i1 + I1Ii111 - I11i / i1IIi
20 if 40 - 40: oOooOoO0Oo0O / O0 % ooOoO0o + O0 * i1IIi
21I1Ii11I1Ii1i = 1
22Ooo = o0OO00 ( I1Ii11I1Ii1i , 999 , 100 )
23Ooo . name ( )
24Oo0o ( ) # dd678faae9ac167bc83abf78e5cb2f3f0688d3a3

相比于方法一,方法二的效果看起来更好些。除了类和函数进行了重命名、加入了一些空格,最明显的是插入了若干段无关的代码,变得更加难读了。

优缺点

优点:简单方便,提高了一点源码破解门槛。兼容性好,只要源码逻辑能做到兼容,混淆代码亦能;

缺点:只能对单个文件混淆,无法做到多个互相有联系的源码文件的联动混淆。代码结构未发生变化,也能获取字节码,破解难度不大。

四、使用 py2exe

py2exe 是一款将 Python 脚本转换为 Windows 平台上的可执行文件的工具。其原理是将源码编译为 .pyc 文件,加之必要的依赖文件,一起打包成一个可执行文件。最终 py2exe 打包出的是二进制文件。这个我在pyinstaller打包exe文件 篇有提到过类似的操作。

1、py2exe打包示例

编写入口文件。本示例中取名为 hello.py:

1print 'Hello World'

编写 setup.py:

1from distutils.core import setup
2import py2exe
3setup(console=['hello.py'])

生成可执行文件:

1python setup.py py2exe

生成的可执行文件位于 dist\hello.exe。

2、优缺点

优点:能够直接打包成 exe,方便分发和执行。破解门槛比 .pyc 更高一些。

缺点:兼容性差,只能运行在 Windows 系统上。生成的可执行文件内的布局是明确、公开的,可以找到源码对应的 .pyc 文件,进而反编译出源码。

五、使用 Cython

虽说 Cython 的主要目的是带来性能的提升,但是基于它的原理:将 .py/.pyx 编译为 .c 文件,再将 .c 文件编译为 .so(Unix) 或 .pyd(Windows),其带来的另一个好处就是难以破解。使用前需要使用pip installl cython 安装模块。操作步骤如下:

1# 用cython将核心代码py模块文件转化成.c 文件
2cython  hello.py
3或者 cython  *.py
4#gcc 编译成so文件
5gcc -c  -fPIC -I/usr/include/python.2.7/  hello.c
6gcc -shared hello.o -o hello.so

使用so 文件 就像使用py模块一样引入就可以使用了:

1import hello.hello as h
2if __name__=="__main__":
3    h.print()

当然也可以文件引用,一步到位生成so文件,如下:

 1# 编写文件 hello.pyx 或 hello.py:
 2def hello():
 3    print('hello')
 4# 编写 setup.py:
 5from distutils.core import setup
 6from Cython.Build import cythonize
 7setup(name='Hello World app',
 8     ext_modules=cythonize('hello.pyx'))
 9# 编译为 .c,再进一步编译为 .so 或 .pyd:
10python setup.py build_ext --inplace

执行 python -c “from hello import hello;hello()” 即可直接引用生成的二进制文件中的 hello() 函数。

优缺点

优点:生成的二进制 .so 或 .pyd 文件难以破解。同时带来了性能提升。

缺点:兼容性稍差,对于不同版本的操作系统,可能需要重新编译。虽然支持大多数 Python 代码,但如果一旦发现部分代码不支持,完善成本较高。