记一次修复MiniGUI相关Bug的过程

多线程环境下libcurl的一个Bug

fool posted @ 2011年3月26日 11:33 in C/C++ with tags c++ bug 嵌入式竞赛 , 11096 阅读

今天运气不错,解决了两个非常棘手的Bug,这一个是关于libcurl的。

我的程序在一个线程中执行主循环,需要从网络下载东西时,就开启另一个线程,执行curl_easy_perform。问题是,程序在执行一段时间后会自己崩溃掉,backtrack如下:

#0  0x4001e416 in __kernel_vsyscall ()
#1  0x40491941 in raise (sig=6) at ../nptl/sysdeps/unix/sysv/linux/raise.c:64
#2  0x40494e42 in abort () at abort.c:92
#3  0x404c9305 in __libc_message (do_abort=2, 
    fmt=0x4059f36a "*** %s ***: %s terminated\n")
    at ../sysdeps/unix/sysv/linux/libc_fatal.c:189
#4  0x4054c970 in __fortify_fail (msg=<value optimized out>)
    at fortify_fail.c:32
#5  0x4054c8da in ____longjmp_chk ()
    at ../sysdeps/unix/sysv/linux/i386/____longjmp_chk.S:76
#6  0x4054c849 in __longjmp_chk (env=<value optimized out>, val=1)
    at ../setjmp/longjmp.c:40
#7  0x4020dd08 in alarmfunc () from /usr/lib/libcurl-gnutls.so.4
#8  <signal handler called>
#9  0x4001e416 in __kernel_vsyscall ()
#10 0x4004b930 in sem_wait@GLIBC_2.0 ()
    at ../nptl/sysdeps/unix/sysv/linux/i386/i686/../i486/sem_wait.S:318
#11 0x400fa7ac in PeekMessageEx (pMsg=0xbffff0b8, hWnd=134580240, 
    iMsgFilterMin=0, iMsgFilterMax=0, bWait=1, uRemoveMsg=1) at message.c:628
#12 0x0804b45f in GetMessage (this=0xbffff104)
    at /usr/local/include/minigui/window.h:1935
#13 WeiboUI::Application::run (this=0xbffff104) at application.cc:99
#14 0x08049df0 in MiniGUIAppMain (argc=1, argv=0xbffff274) at main.cc:56
#15 0x08049f4c in main (args=1, argv=0xbffff274) at main.cc:56

简单说明一下,就是主循环在执行sem_wait時,被一个信号打断,然后导致整个程序的崩溃。问题的关键就在那个alarmfunc (),是libcurl打断了我的循环。

最后以alarmfunc为关键词搜索后才发现,原来libcurl居然使用alarm来实现超时的判断!在多线程环境里,alarm产生的信号会打断一切主循环,然后导致非常难以察觉的Bug。

解决方法很简单,把CURLOPT_NOSIGNAL设为1就行了,这样libcurl将不会产生任何信号:

http://curl.haxx.se/libcurl/c/curl_easy_setopt.html#CURLOPTNOSIGNAL


登录 *


loading captcha image...
(输入验证码)
or Ctrl+Enter