我们是怎么发现C++异常从堆栈追踪中消失的原因的
每当我的程序崩溃的时候,我都会用核心转储 (core dump) 文件来找出来崩溃发生的具体位置。(关于怎么产生和使用核心转储可以看我之前的文章。)一直以来我调程序的时候都是很开心的……直到我遇到了这个新的 bug。当我把它的核心转储文件载入到 GDB 之后,我很失望地发现所有的堆栈追踪 (stack trace) 都是关于系统库的,没有一行是关于我的代码的。
太长不看:那就看看这个补丁就好了。
让我们踏上探索未知的旅程吧。
背景介绍
为了帮助我亲爱的读者朋友们理解我日常的调程序过程,让我们来看看这个简短的 C++ 代码:
// compile with:
// g++ -g -std=c++11 sigsegv.cc -o sigsegv -pthread
#include <thread>
#include <vector>
#include <iostream>
void foo() {
std::vector<int> v;
std::cout << v[100] << std::endl;
}
int main() {
std::thread t(foo);
t.join();
}
不出意外,这里应该要有一个段错误 (segmentation fault)。想要知道哪里触发了段错误,如果这个问题不是很容易触发的话,你可以把核心转储文件载入到 GDB 里面,或者如果这个问题很容易重现的话,你也可以直接在 GDB 里面重新跑一遍。那这里就让我们直接在 GDB 里面跑一遍:
$ gdb ./sigsegv
GNU gdb (Ubuntu 7.11.1-0ubuntu1~16.5) 7.11.1
Reading symbols from ./sigsegv...done.
(gdb) r
Starting program: /tmp/sigsegv
[Thread debugging using libthread_db enabled]
Using host libthread_db library "/lib/x86_64-linux-gnu/libthread_db.so.1".
[New Thread 0x7ffff6f4e700 (LWP 68189)]
Thread 2 "sigsegv" received signal SIGSEGV, Segmentation fault.
[Switching to Thread 0x7ffff6f4e700 (LWP 68189)]
0x0000000000400f5d in foo () at sigsegv.cc:8
8 std::cout << v[100] << std::endl;
(gdb) bt
#0 0x0000000000400f5d in foo () at sigsegv.cc:8
#1 0x00000000004027dd in std::_Bind_simple<void (*())()>::_M_invoke<>(std::_Index_tuple<>) (this=0x617c48)
at /usr/include/c++/5/functional:1531
#2 0x0000000000402736 in std::_Bind_simple<void (*())()>::operator()() (this=0x617c48)
at /usr/include/c++/5/functional:1520
#3 0x00000000004026c6 in std::thread::_Impl<std::_Bind_simple<void (*())()> >::_M_run() (this=0x617c30)
at /usr/include/c++/5/thread:115
#4 0x00007ffff7b0dc80 in ?? () from /usr/lib/x86_64-linux-gnu/libstdc++.so.6
#5 0x00007ffff76296ba in start_thread (arg=0x7ffff6f4e700) at pthread_create.c:333
#6 0x00007ffff735f41d in clone () at ../sysdeps/unix/sysv/linux/x86_64/clone.S:109
可以看到,GDB 一如既往能够显示出来是在我们代码中的哪一行崩溃的。
到目前为止一切正常。但是在这一次的 bug 里面,我的代码用了 vector::at
来访问数组元素。如果访问越界,它会抛出 std::out_of_range
异常。
// compile with:
// g++ -g -std=c++11 exception.cc -o exception -pthread
#include <thread>
#include <vector>
#include <iostream>
void foo() {
std::vector<int> v;
std::cout << v.at(100) << std::endl;
}
int main() {
std::thread t(foo);
t.join();
}
看起来使用 at
是一个比 operator[]
更安全的写法。然而,这一次 GDB 却不会告诉我程序在哪里崩溃了:
$ gdb ./exception
GNU gdb (Ubuntu 7.11.1-0ubuntu1~16.5) 7.11.1
Reading symbols from ./exception...done.
(gdb) r
Starting program: /tmp/exception
[Thread debugging using libthread_db enabled]
Using host libthread_db library "/lib/x86_64-linux-gnu/libthread_db.so.1".
[New Thread 0x7ffff6f4e700 (LWP 68143)]
terminate called after throwing an instance of 'std::out_of_range'
what(): vector::_M_range_check: __n (which is 100) >= this->size() (which is 0)
Thread 2 "exception" received signal SIGABRT, Aborted.
[Switching to Thread 0x7ffff6f4e700 (LWP 68143)]
0x00007ffff728d428 in __GI_raise (sig=sig@entry=6) at ../sysdeps/unix/sysv/linux/raise.c:54
54 ../sysdeps/unix/sysv/linux/raise.c: No such file or directory.
(gdb) bt
#0 0x00007ffff728d428 in __GI_raise (sig=sig@entry=6) at ../sysdeps/unix/sysv/linux/raise.c:54
#1 0x00007ffff728f02a in __GI_abort () at abort.c:89
#2 0x00007ffff7ae484d in __gnu_cxx::__verbose_terminate_handler() () from /usr/lib/x86_64-linux-gnu/libstdc++.so.6
#3 0x00007ffff7ae26b6 in ?? () from /usr/lib/x86_64-linux-gnu/libstdc++.so.6
#4 0x00007ffff7ae2701 in std::terminate() () from /usr/lib/x86_64-linux-gnu/libstdc++.so.6
#5 0x00007ffff7b0dd38 in ?? () from /usr/lib/x86_64-linux-gnu/libstdc++.so.6
#6 0x00007ffff76296ba in start_thread (arg=0x7ffff6f4e700) at pthread_create.c:333
#7 0x00007ffff735f41d in clone () at ../sysdeps/unix/sysv/linux/x86_64/clone.S:109
乍一看一切正常,我的程序在临死之前告诉我 vector
抛出了 std::out_of_range
异常。我简直被我的程序感动了。但是我想知道具体是那哪里抛出了异常。
让我们看看这个堆栈追踪,里面竟然没有一行是我的代码。虽然说在这个例子里面,直接看一眼代码你就可以看出来问题出现在哪里了,但是在我真正的项目里面有1万行 C++ 代码,我真的需要 GDB 来告诉我具体是在哪一行出了问题。
现在你应该明白为什么我对这个事情这么执着了。
系统库里面有 Bug?
坐在我边上的哥们 Niel 告诉我这有可能是因为底层的库里面有 bug。
说实话,我一般来说不相信编译器、操作系统或者底层库会出现大到足以影响到我日常使用的 bug。我觉得这几乎是不可能发生的事情,因为这些都是广泛使用的基础设施。
但是 Niel 说他以前有遇到过底层库的 bug,而且他说他愿意帮我看一下这个问题,而且他人又超级好的,所以我们就一起开始看这个问题了。
恢复 ??
符号
盯着 GDB 里面的 ??
符号看是不会有任何帮助的。所以我决定把这些符号的名字找出来。我自以为我对 Ubuntu 已经有了足够的了解,所以我很自然地就打出来了 sudo apt install libstdc++-gdb
。然而这个包并不存在。我花了点时间才找到了这个包正确的名字叫做 libstdc++6-5-dbg
,其中6
对应了 libstdc++.so.6
,5
指的是 GCC 5.4,因为我用的是 Ubuntu 16.04。
在安装好了调试符号之后,GDB 就给了我们更多的线索:
$ gdb ./exception
GNU gdb (Ubuntu 7.11.1-0ubuntu1~16.5) 7.11.1
Reading symbols from ./exception...done.
(gdb) r
Starting program: /tmp/exception
[Thread debugging using libthread_db enabled]
Using host libthread_db library "/lib/x86_64-linux-gnu/libthread_db.so.1".
[New Thread 0x7ffff6f4e700 (LWP 68314)]
terminate called after throwing an instance of 'std::out_of_range'
what(): vector::_M_range_check: __n (which is 100) >= this->size() (which is 0)
Thread 2 "exception" received signal SIGABRT, Aborted.
[Switching to Thread 0x7ffff6f4e700 (LWP 68314)]
0x00007ffff728d428 in __GI_raise (sig=sig@entry=6) at ../sysdeps/unix/sysv/linux/raise.c:54
54 ../sysdeps/unix/sysv/linux/raise.c: No such file or directory.
(gdb) bt
#0 0x00007ffff728d428 in __GI_raise (sig=sig@entry=6) at ../sysdeps/unix/sysv/linux/raise.c:54
#1 0x00007ffff728f02a in __GI_abort () at abort.c:89
#2 0x00007ffff7ae484d in __gnu_cxx::__verbose_terminate_handler ()
at ../../../../src/libstdc++-v3/libsupc++/vterminate.cc:95
#3 0x00007ffff7ae26b6 in __cxxabiv1::__terminate (handler=<optimized out>)
at ../../../../src/libstdc++-v3/libsupc++/eh_terminate.cc:47
#4 0x00007ffff7ae2701 in std::terminate () at ../../../../src/libstdc++-v3/libsupc++/eh_terminate.cc:57
#5 0x00007ffff7b0dd38 in std::execute_native_thread_routine (__p=<optimized out>)
at ../../../../../src/libstdc++-v3/src/c++11/thread.cc:92
#6 0x00007ffff76296ba in start_thread (arg=0x7ffff6f4e700) at pthread_create.c:333
#7 0x00007ffff735f41d in clone () at ../sysdeps/unix/sysv/linux/x86_64/clone.S:109
Glibc
我们决定跟着堆栈追踪从底向上地一层一层看过去。clone()
听起来并不十分有趣,所以我们就跳过了它。所以我们现在要看的是 pthread_create.c:333
。一番搜索之后,我意识到了它是在 glibc
里面的。但是我用的是哪个版本的 glibc
呢?我的想法是用 ldd
先把 .so
文件找出来:
$ ldd ./exception
linux-vdso.so.1 => (0x00007ffc77f54000)
libstdc++.so.6 => /usr/lib/x86_64-linux-gnu/libstdc++.so.6 (0x00007f23ae730000)
libgcc_s.so.1 => /lib/x86_64-linux-gnu/libgcc_s.so.1 (0x00007f23ae51a000)
libc.so.6 => /lib/x86_64-linux-gnu/libc.so.6 (0x00007f23ae150000)
libm.so.6 => /lib/x86_64-linux-gnu/libm.so.6 (0x00007f23ade47000)
/lib64/ld-linux-x86-64.so.2 (0x00007f23aeab2000)
现在我们知道 .so
文件在哪里了,那具体是哪个版本呢?
$ ls -la /lib/x86_64-linux-gnu/libc.so.6
lrwxrwxrwx 1 root root 12 Mar 4 18:36 /lib/x86_64-linux-gnu/libc.so.6 -> libc-2.23.so
好了,现在我们就可以在 glibc 2.23
的源代码里面看一眼 pthread_create.c:333
:
THREAD_SETMEM (pd, result, CALL_THREAD_FCT (pd)); // pthread_create.c:333
现在我想知道 CALL_THREAD_FCT
是做什么的,这看起来像是一个宏,我得找到这个宏的定义:
$ grep '#define CALL_THREAD_FCT' -r glibc-2.23
glibc-2.23/sysdeps/i386/nptl/tls.h:#define CALL_THREAD_FCT(descr) \
很幸运的是,这个符号真的是用 #define CALL_THREAD_FCT
定义出来的,但不幸的是我找到的结果跟我的机器并不是一个架构。但又非常幸运的是,我成功地猜到了我想要的在 glibc-2.23/sysdeps/x86_64/nptl/tls.h
:
# define CALL_THREAD_FCT(descr) \
({ void *__res; \
asm volatile ("movq %%fs:%P2, %%rdi\n\t" \
"callq *%%fs:%P1" \
: "=a" (__res) \
: "i" (offsetof (struct pthread, start_routine)), \
"i" (offsetof (struct pthread, arg)) \
: "di", "si", "cx", "dx", "r8", "r9", "r10", "r11", \
"memory", "cc"); \
__res; })
我不太懂汇编,这看起来像是在调用 start_routine
并把 args
作为参数传进去。看起来也不是很有趣。
我们决定看一下下一层调用堆栈。
libstdc++
所以说我们需要找到 libstdc++
的源代码。我意识到 libstdc++
其实是 GCC 的一部分,所以说我们需要的是 GCC 5.4 的源代码。让我们看一看 ../../../../../src/libstdc++-v3/src/c++11/thread.cc:92
:
extern "C"
{
static void*
execute_native_thread_routine(void* __p)
{
thread::_Impl_base* __t = static_cast<thread::_Impl_base*>(__p);
thread::__shared_base_type __local;
__local.swap(__t->_M_this_ptr);
__try
{
__t->_M_run();
}
__catch(const __cxxabiv1::__forced_unwind&)
{
__throw_exception_again;
}
__catch(...)
{
std::terminate(); // line 92
}
return nullptr;
}
} // extern "C"
当我打开这个文件的时候,我已经惊呆了。为什么 libstdc++
想要捕获所有的异常?!就不能直接让用户程序崩溃吗!
这段代码说明了一切。我的代码肯定是跑在 try
代码块里面的。当它抛出一个异常之后,它会被92行的 catch
代码块捕获。但是到了程序的控制流已经被 catch
代码块捕获了的时候,所有的堆栈都已经被展开了 (stack unwind),所有能帮助我调试程序的信息都被扔掉了。
Bug 报告
对我来说这看起来可以被称作 libstdc++
的 bug。我搜索了一下,然后发现有人在2013年就报告了这个 Bug #55917,但是这个问题直到 GCC 8 才被修复。而且补丁本身非常简单,就是把 try
-catch
删掉,直接让用户代码崩溃。
升级到 GCC 8
既然我们知道了这个问题已经在 GCC 8 里面修好了,我们就可以重新把程序用 GCC 8 编译一遍。因为 Ubuntu 16.04 的软件源里面没有包含 GCC 8,所以我们得用 ubuntu-toolchain-r/test
PPA:
sudo add-apt-repository ppa:ubuntu-toolchain-r/test
sudo apt-get update
sudo apt-get install g++-8
现在让我们重新编译一下之前的代码然后放到 GDB 里面试试:
$ g++-8 -g -std=c++11 exception.cc -o exception -pthread
$ gdb ./exception
GNU gdb (Ubuntu 7.11.1-0ubuntu1~16.5) 7.11.1
Reading symbols from ./exception...done.
(gdb) r
Starting program: /tmp/exception
[Thread debugging using libthread_db enabled]
Using host libthread_db library "/lib/x86_64-linux-gnu/libthread_db.so.1".
[New Thread 0x7ffff6f42700 (LWP 69463)]
terminate called after throwing an instance of 'std::out_of_range'
what(): vector::_M_range_check: __n (which is 100) >= this->size() (which is 0)
Thread 2 "exception" received signal SIGABRT, Aborted.
[Switching to Thread 0x7ffff6f42700 (LWP 69463)]
0x00007ffff7281428 in __GI_raise (sig=sig@entry=6) at ../sysdeps/unix/sysv/linux/raise.c:54
54 ../sysdeps/unix/sysv/linux/raise.c: No such file or directory.
(gdb) bt
#0 0x00007ffff7281428 in __GI_raise (sig=sig@entry=6) at ../sysdeps/unix/sysv/linux/raise.c:54
#1 0x00007ffff728302a in __GI_abort () at abort.c:89
#2 0x00007ffff7ad78f7 in ?? () from /usr/lib/x86_64-linux-gnu/libstdc++.so.6
#3 0x00007ffff7adda46 in ?? () from /usr/lib/x86_64-linux-gnu/libstdc++.so.6
#4 0x00007ffff7adda81 in std::terminate() () from /usr/lib/x86_64-linux-gnu/libstdc++.so.6
#5 0x00007ffff7addcb4 in __cxa_throw () from /usr/lib/x86_64-linux-gnu/libstdc++.so.6
#6 0x00007ffff7ad97f5 in ?? () from /usr/lib/x86_64-linux-gnu/libstdc++.so.6
#7 0x0000000000401274 in std::vector<int, std::allocator<int> >::_M_range_check (this=0x7ffff6f41e00, __n=100)
at /usr/include/c++/8/bits/stl_vector.h:960
#8 0x0000000000401033 in std::vector<int, std::allocator<int> >::at (this=0x7ffff6f41e00, __n=100)
at /usr/include/c++/8/bits/stl_vector.h:981
#9 0x0000000000400dd7 in foo () at exception.cc:8
#10 0x00000000004013a7 in std::__invoke_impl<void, void (*)()>(std::__invoke_other, void (*&&)()) (
__f=<unknown type in /tmp/exception, CU 0x0, DIE 0x6a01>) at /usr/include/c++/8/bits/invoke.h:60
#11 0x0000000000401093 in std::__invoke<void (*)()>(void (*&&)()) (__fn=<unknown type in /tmp/exception, CU 0x0, DIE 0x6e68>)
at /usr/include/c++/8/bits/invoke.h:95
#12 0x00000000004019da in std::thread::_Invoker<std::tuple<void (*)()> >::_M_invoke<0ul> (this=0x615c28)
at /usr/include/c++/8/thread:234
#13 0x000000000040199b in std::thread::_Invoker<std::tuple<void (*)()> >::operator() (this=0x615c28)
at /usr/include/c++/8/thread:243
#14 0x0000000000401970 in std::thread::_State_impl<std::thread::_Invoker<std::tuple<void (*)()> > >::_M_run (this=0x615c20)
at /usr/include/c++/8/thread:186
#15 0x00007ffff7b0857f in ?? () from /usr/lib/x86_64-linux-gnu/libstdc++.so.6
#16 0x00007ffff761d6ba in start_thread (arg=0x7ffff6f42700) at pthread_create.c:333
#17 0x00007ffff735341d in clone () at ../sysdeps/unix/sysv/linux/x86_64/clone.S:109
注意看堆栈9,里面就是我们的代码!问题解决了!
经验教训
尽管底层的软件和库自身的问题影响到一般的程序的可能性很低,但它确实发生了,而且未来还有可能继续发生。所以说,不要害怕去深入底层看一看。
最后再次感谢 Niel 老哥。要不是有他帮我,我肯定不会深挖这个问题的。