明星乱码“锟斤拷”
锟斤拷,是一串经常在搜索引擎页面和其他网站上看到的乱码字符。乱码源于GBK字符集和Unicode字符集之间的转换问题。
示例
“锟届瀿锟斤拷雮傡锟斤拷直锟斤拷锟”、“锟斤拷锟斤拷之锟斤拷锟窖э拷锟 ”……
上面这些字句是毫无实际意义的,但它们却形象地表达出了一些莫名其妙的问题。这是一个很经典的乱码,最容易出现的地方就是搜索引擎。
单位性质:外商独资企业 所属行业:线缆
单位规模:100 - 499人 注册资金:1299万
联 系 人:锟斤拷锟斤拷 联系人职位:锟斤拷锟斤拷
传 真:xxx-xxxxxxxx 联系电话:
电子信箱:xxxx_xxx@xxxxxx.xxx
通信地址:
邮 编:
单位网址:
单位介绍:台锟斤拷锟斤拷业锟斤拷台锟斤拷锟斤拷锟侥碉拷f锟斤拷锟斤拷锟斤拷锟?锟斤拷锟斤拷/锟斤拷锟斤拷
招聘职位:锟斤拷锟斤拷 人数:20人
发布日期:2007-07-17
联 系 人:锟斤拷锟斤拷
原因
我们上网的时候不用去关心网站采用了什么编码格式,但是页面中不时出现的乱码还是会让我们头疼。在这点上,Firefox的用户更是深有体会,用Firefox浏览网页看到乱码的机会要比Internet Explorer多得多。 乱码主要与字符编码系统有关。例如一个网页中常出现的乱码“锟斤拷”(百度,Google),它就是新老编码系统转换中出现的。网友est专门写了一篇文章来考证问题来源:
Unicode和老编码体系的转化过程中,肯定有一些字,用Unicode是没法表示的,Unicode官方用了一个占位符来表示这些文字,这就是:U+FFFD REPLACEMENT CHARACTER。
那么U+FFFD的UTF-8编码出来,恰好是 '\xef\xbf\xbd'。如果这个'\xef\xbf\xbd',重复多次,例如 '\xef\xbf\xbd\xef\xbf\xbd',然后放到GBK/CP936/GB2312/GB18030的环境中显示的话,一个汉字2个字节,最终的结果就是:锟斤拷——锟(0xEFBF),斤(0xBDEF),拷(0xBFBD)[1] 。
Python代码:
1.>>>u'\uFFFD'.encode('utf-8')*2 2.'\xef\xbf\xbd\xef\xbf\xbd' 3.>>> 4.>>>printu'\uFFFD'.encode('utf-8')*2
输出结果:“锟斤拷”。
出现
2011年2月2日零时出现,百度推出搜“红包”,每一次搜索都有惊喜活动,锟斤拷乱码就出现了。
2012年8月31日又出现。通过IE内核的浏览器搜索网页,无论点开什么贴吧的超链接都会进入锟斤拷锟斤拷锟斤拷吧。抓包查看发现原因可能是百度bug。
2012年12月27日,神一样的锟斤拷再度出现。在百度新闻首页的太原市地陷新闻图片中锟斤拷重复出现。
2013年6月11日零时11分,百度新闻:神舟十号11日17时38分发射 三位航天员公布链接指向神奇的“锟斤拷锟斤拷锟”,零时51分,恢复正常。
2014年2月13日,使用Google Chrome、Firefox等搜索“李毅”、“dota2”等词条,点击贴吧相关链接,会自动跳转到锟斤拷吧。
2014年8月,打开百度浏览器的贴吧助手,贴吧名字显示乱码,无论点开什么贴吧,都会直接跳转到锟斤拷吧。
来源:http://baike.baidu.com/view/2638658.htm
双11云服务器热购推广(腾讯云):2核+4G内存+3M带宽=688元/3年(仅限新用户)
-
1微信开发errcode:45015,errmsg:response out of time limit之完美解决
-
2archive is not a ZIP archive之解决
-
3火狐每次启动都弹出迅雷提示下载openh264之解决
-
4Eclipse中提示Could not find the main class之解决
-
5XML document structures must start and end within the same entity报错解决
-
6以小米6为例图说安卓手机如何安装谷歌四件套
-
7在微信中调用外部浏览器实现文件下载之解决
-
8U盘安装CentOS 7终极方案,简单有效
-
9POI合并单元格时CellRangeAddress类提示过时之解决
-
10java web项目代码不报错但是项目左上角有个红叉之解决