大牛?无他,唯手熟尔!

明星乱码“锟斤拷”

摘要:锟斤拷,是一串经常在搜索引擎页面和其他网站上看到的乱码字符。乱码源于GBK字符集和Unicode字符集之间的转换问题。“锟届瀿锟斤拷雮傡锟斤拷直锟斤拷锟”、“锟斤拷锟斤拷之锟斤拷锟窖э拷锟 ”……上面这些字句是毫无实际意义的,但它们却形象地表达出了一些莫名其妙的问题。这是一个很经典的乱码,最容易出现的地方就是搜索引擎。

本文由草根java提供,转载请注明出处https://www.caogenjava.com/detail/42.html

锟斤拷,是一串经常在搜索引擎页面和其他网站上看到的乱码字符。乱码源于GBK字符集和Unicode字符集之间的转换问题。

 

 

示例

“锟届瀿锟斤拷雮傡锟斤拷直锟斤拷锟”、“锟斤拷锟斤拷之锟斤拷锟窖э拷锟 ”……

上面这些字句是毫无实际意义的,但它们却形象地表达出了一些莫名其妙的问题。这是一个很经典的乱码,最容易出现的地方就是搜索引擎。

例如这个招聘就非常经典[1] :

单位性质:外商独资企业 所属行业:线缆

单位规模:100 - 499人 注册资金:1299万

联 系 人:锟斤拷锟斤拷 联系人职位:锟斤拷锟斤拷

传 真:xxx-xxxxxxxx 联系电话:

电子信箱:xxxx_xxx@xxxxxx.xxx

通信地址:

邮 编:

单位网址:

单位介绍:台锟斤拷锟斤拷业锟斤拷台锟斤拷锟斤拷锟侥碉拷f锟斤拷锟斤拷锟斤拷锟?锟斤拷锟斤拷/锟斤拷锟斤拷

招聘职位:锟斤拷锟斤拷 人数:20人

发布日期:2007-07-17

联 系 人:锟斤拷锟斤拷

 

原因

我们上网的时候不用去关心网站采用了什么编码格式,但是页面中不时出现的乱码还是会让我们头疼。在这点上,Firefox的用户更是深有体会,用Firefox浏览网页看到乱码的机会要比Internet Explorer多得多。 乱码主要与字符编码系统有关。例如一个网页中常出现的乱码“锟斤拷”(百度,Google),它就是新老编码系统转换中出现的。网友est专门写了一篇文章来考证问题来源:

Unicode和老编码体系的转化过程中,肯定有一些字,用Unicode是没法表示的,Unicode官方用了一个占位符来表示这些文字,这就是:U+FFFD REPLACEMENT CHARACTER。

那么U+FFFD的UTF-8编码出来,恰好是 '\xef\xbf\xbd'。如果这个'\xef\xbf\xbd',重复多次,例如 '\xef\xbf\xbd\xef\xbf\xbd',然后放到GBK/CP936/GB2312/GB18030的环境中显示的话,一个汉字2个字节,最终的结果就是:锟斤拷——锟(0xEFBF),斤(0xBDEF),拷(0xBFBD)[1] 。

Python代码:

1.>>>u'\uFFFD'.encode('utf-8')*2
2.'\xef\xbf\xbd\xef\xbf\xbd'
3.>>>
4.>>>printu'\uFFFD'.encode('utf-8')*2

输出结果:“锟斤拷”。

 

出现

2011年2月2日零时出现,百度推出搜“红包”,每一次搜索都有惊喜活动,锟斤拷乱码就出现了。

2012年8月31日又出现。通过IE内核的浏览器搜索网页,无论点开什么贴吧的超链接都会进入锟斤拷锟斤拷锟斤拷吧。抓包查看发现原因可能是百度bug

2012年12月27日,神一样的锟斤拷再度出现。在百度新闻首页的太原市地陷新闻图片中锟斤拷重复出现。

2013年6月11日零时11分,百度新闻:神舟十号11日17时38分发射 三位航天员公布链接指向神奇的“锟斤拷锟斤拷锟”,零时51分,恢复正常。

2014年2月13日,使用Google Chrome、Firefox等搜索“李毅”、“dota2”等词条,点击贴吧相关链接,会自动跳转到锟斤拷吧。

2014年8月,打开百度浏览器贴吧助手,贴吧名字显示乱码,无论点开什么贴吧,都会直接跳转到锟斤拷吧。

 

来源:http://baike.baidu.com/view/2638658.htm

 

双11云服务器热购推广(腾讯云):2核+4G内存+3M带宽=688元/3年(仅限新用户)

除非注明,文章均为草根java原创,转载请注明本文地址: https://www.caogenjava.com/detail/42.html

上一篇:程序员的常见健康问题        下一篇:并非所有Win7/8.1都能免费升级到Win10
网友评论,共0 发表评论
昵称:
评论:
验证码: 刷新验证码
双11云服务器热购
    购买建议:带宽不用太高了,1M就够用,多考虑内存。