分享

微信账号和语音文件的结构再分析(2)

 anyyss 2018-06-24

 案例

随笔

知识

声音

其他


编者按

前几天的《微信账号和语音文件的结构分析》一文留下了几道思考题,本文尝试回答其中的一部分。当然,所有结论仍然基于逆向实证。感谢热心读者的深入细致分析。



问题一、关于微信账号


这里提到的微信内部账号(UIN)有三种可能的结构:9位数、10位数、1个负号拼接10位数。


UIN记录在/data/data/com.tencent.mm/shared_prefs/文件夹下的若干文件内,包括com.tencent.mm_preferences.xml、app_brand_global_sp.xml等。


例如:在system_config_prefs.xml文件里的


auth_info_key_prefs.xml文件里的


网上盛传的chrome://net-internals/#events抓包法也能得到UIN,通常与上述UIN相同,但只有两种可能的结构:9位数、10位数。如果10位数溢出了32位整型空间,就相当于“1个负号拼接10位数”的情况。


例如:数据包的UIN是233333333,实际的UIN是-1961633963(即233333333减去4294967296)。


接下来,如前文所述,“mm”直接拼接UIN,算出MD5值后得到该账号的文件夹名称。例如:UIN是-1961633963时,MD5(mm-1961633963) = b883740d5f568c04e488befca16eed50。


问题二、微信语音文件夹的命名规则


前文已经介绍过了,微信的语音文件存储在“voice2”下的两层目录下,而这两层的目录名称非常奇怪,都是两位字符,如“voice\3d\27\……”,既然如此,'voice2”文件夹之下的二级目录名是如何选择的呢?




以这里的“msg_480948061918919ac9300d9102.amr”文件为例,只要把“msg_”去掉,对基本名称的剩余部分(480948061918919ac9300d9102)计算MD5值,得到3d278f649bece4ff979a26db4e50d147,取第1-2位为第一层目录名,第3-4位为第二层目录名,这个文件就在/voice2/3d/27/文件夹下。




问题三、微信语音文件的命名规则



前文留下了一个思考题,这里的发送者标识“919ac93”是什么含义呢?


首先要明确,微信号包括缺省微信号自定义微信号。缺省微信号通常以“wxid_”(个人号)或“gh_”(公众号)开头,就像身份证号一样。


当用户自行选择自定义微信号后,缺省微信号不被删除或覆盖。而发送者标识就是缺省微信号的MD5值的前7位即使修改自定义微信号后也不变化


另外再说一句,保存头像时,得到的图片文件名称也由缺省微信号的MD5值构成例如:大家可以关注一下“新闻哥”这个订阅号做个实验。(非推荐行为)




该公众号的缺省微信号是gh_faa35168f414




该公众号的自定义微信号是newsbro


那么,应该对gh_faa35168f414计算MD5值,其头像图片将被保存为hdImg_aaf7752298514c9eeae37e7610181061.jpg,并且其发送者标识是“aaf7752”,即:缺省微信号的md5值,取前面七位。


问题四、待解决的新问题


1、发送者标识为什么只取7位呢?笔者猜测是为了压缩文件名、节省数据空间。容易想到,这样做可能导致哈希冲突。对于最常见的缺省微信号格式(wxid_14位小写字母和数字),理论上有36^14种可能(6.14094E+21),而7位哈希只有16^7种可能(2.68435E+8)。


当然在操作中,可以在生成wxid时就丢弃冲突的wxid,直到微信用户数接近2.7亿。然而,马化腾在今年全国人大“代表通道”上透露,微信全球月使用活跃用户数在春节突破十亿大关。那么,怎样判别用户的唯一性?


2、语音文件名称里的发送时间由手机时间决定,不依赖于服务器的标准时间。那么,怎样确定时间的正确性?




    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多