当前位置：首页 > 每日看点

为何有那么多盗版软件却没人把这些软件开源了？

卡卷网1年前 (2025-01-12)每日看点262

这问题问的……你又搞不到人家的源码，怎么给人家开源啊？

你，或者盗版者，能得到的软件是这样的：

这是Windows自带的notepad.exe。你能懂它写了什么吗？

这个格式谁都看不懂。那么，转换成16进制，让我们看懂它，如何？

喏，现在你看懂了吗？

你得到的软件，多半是这样编译后的机器码集合体。这玩意儿只有CPU能看懂，人？

洗洗睡吧。

当然，你可以“反汇编”它。这样如果你懂汇编，大概就能看懂了。

比如，这个网站就可以把C/C++等很多语言的代码翻译到汇编、并给你展示出来：

Compiler Explorer

让我们看一个示例。

这是C源码：

这是编译后、用户看到的汇编码：

我们可以看到，C源码里面的input、length、sum、i等等变量名称统统不见了。

这是因为，这些玩意儿是C语言里面、帮助程序员识别和记忆相关功能的；到了CPU层面，它们都是内存里面的几个格子而已——它们，最终就变成了二进制指令里面的DWORD PTR [rbp-8]之类玩意儿。

DWORD PTR意思是这是一个指向四字节整数的指针；rbp-8是这个指针的具体值。

不仅如此，C语言里面、写在前面的for循环语句被放在了最后面、然后直接一个jmp .L2跳过去；for里面的<判断也成了……19行到21行的三条指令。其中mov行读取其中一个变量的值到eax，cmp行比较eax值和另一个变量的大小、然后设置标志位；21行的jl就是根据标志位，如果是less就跳转到.L3，执行循环体；否则执行22行，也就是准备返回值、退出循环、恢复现场、执行返回指令。

很显然，看着这段汇编，是无法恢复C源码的——变量名肯定是没了；甚至，连for循环和while循环都未必能区分。

尤其是，现代编译器会自动执行极多、极夸张的优化；优化之后的机器码会和C源码差距更大——除法给你改移位、连续的if-else给你改成表驱动，这些都只能算小打小闹；整个函数都给你“吞”了（内联掉或者直接计算成一个常量固定进代码）也都是家常便饭。

此外，现代CPU会有极多的特有指令；而很多编译器可以把满足条件的一些代码编译到SIMD指令，从而尽可能加快程序执行速度……此时，想要反编译出源码就更困难了。

而且，即便能够“反编译”，搞出来的C源码往往也仅仅是“语法正确”而已，经常是无法通过编译、转换回汇编代码的。

最最梦幻的情况下，从机器码反编译到C，你会得到这个：