This article was last updated on days ago, the information described in the article may be outdated.
1. 太长不看版
compart 发现新的字符,排列组合出更多花样
Charbase 用法同上,效果见下
Unicode 了解最前沿的字符相关资讯,不过很难在普通人生活里用上
2. 好奇心重的可以继续
2.1 什么是字符与字符集
字符简单来讲就是一个汉字、假名,或是一个英文、俄语等语言的字母,甚至是一个音标符号,还有一些不可见的字符,比如空格,比如换行。这些纷繁的字符,通过一套统一的标准归集到一起就组成了了字符集,比如国内常用的 GBK(汉字内码扩展规范),或更加有名的也是下面将要讲的 Unicode
2.2 什么是 Unicode
Unicode(万国码、国际码)是计算机领域里的一项国际标准。它对世界上大部分的文字系统进行了整理、编码,使得电脑可以用更为简单的方式来呈现和处理文字。通过它,你就能在电脑上显示世界各地的文字以及各种稀奇古怪的符号,现在的 Unicode 字符数量已在百万量级,涵盖几千种语言与行业符号。通过这些符号的排列组合,就能产生各种各样的神奇变化
2.3 实例分析
ส็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็
这是通过一个泰文字符组合错位产生的有趣现象。泰文由元音字母、辅音字母、修饰字母组成,在泰文中一个音节可能由下列元素组成
声调符号 | ||||
---|---|---|---|---|
母音符号 | ||||
母音符号 | 前引字 | 中心辅音 | 母音符号 | 尾音 |
母音符号 |
也就是说,泰文是可以穿鞋戴帽的文字,这里的例子就是给正确的泰文戴上了很多个元音字母◌็的帽子。这种错误的产生,根源是一种人机矛盾。如果将泰语的所有可能组合全部转换成字符将会有六千多个;但只将基础字母字转换成字符,则只有几十个,再通过排列组合还原成日常使用的泰文,将会大大简化泰文字符的存储与使用过程。人们在日常生活里可以轻松的辨认这样的组合是否正确,但计算机则需要复杂的计算程序来辨认正误,有些输入法可以禁止错误的输入产生,但是聪明的人们通过多次的复制黏贴,硬生生地造出了这个泰语戴帽子的效果ส็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็。还有这个;̷̸̨̀͒̏̃ͦ̈́̾̀́̎͢҉̵̶͚̼͉͖̺̥͔͇̰̹̮͙͉̻̼̭̻͕̮͇ͨͬͪ͗̇̑̽͋̀̋̊͌ͧͨͭ̓̅͐ͥ̂̔̊ͧ͊҉̶̵̷̞̩̦̳̺̳̬̬̩̣̫͇̯̥͖͍͕̠̦̼̗ͯ̽͌̔ͪͯ́́͋̍ͨ̿̿̎͒ͤ̓̅̀͂ͧ͋̏ͫͣ̔͘͜͠͏̶̵̸̧̧̥̺͓̘̺͎̜̥͕͈̝̫͎̺̮̱̤̠̠͖̳̻̥̣̪͍͕͇̮͙̹̪ͮͧͫ͂͒ͤͣ̌̽ͨͪ͒̄̄̉̒̊ͩ̅͆͘̚͘͘̚͟͟͝ͅ也是一堆组合用的字符堆叠造成的人为错误
颜文字( ఠൠఠ )ノ 来自日本的礼物
1982年9月19日,史考特·法尔曼率先于卡内基美隆大学的计算机科学电子布告栏上使用:-)
及:-(
作为颜文字,是颜文字出现于网络世界的开端。它在日本得到极大的发展,创造出丰富的变种。它也是种种字符组合的产物。本节标题的( ఠൠఠ )ノ 中的ఠ
就是泰卢固文字母 Ttha,ൠ
则是马拉雅拉姆语字母元音 Rr。当然,我不是语言学家,我是通过Unicode编码转换转换成 Unicode 编码,再通过Unicode 字符百科找出它是什么而已
再举几例
ヽ(*。>Д<)o゜中的Д
是西里尔文大写字母 De
(o≖◡≖)中的≖
是一个数学运算符号
( ͡° ͜ʖ ͡°) °
是度数符号ʖ
是拉丁文字母竖翻喉塞音符͜
是组合用下双短音符͡
是组合用双竖翻短音符
让你的文字换个方向
文字的开始处加一个阿拉伯文字符ر
,你的所有文字就会换个方向,其实不仅仅是这个字符,阿拉伯文的所有字符都可以达到同样的效果,因为阿拉伯文是自右开始书写的,换一种别的右边起始的文字,效果是一样的
热҈的҈字҈都҈出҈汗҈了҈
这里的字符是错位的,因为在汉语字符里插入了不相容的西里尔文百千符号҈
。本来҈
要与西里尔数字结合使用,但是我们硬把它放在汉字里,就产生了这样的错位现象
进一步的发展
Unicode 字符集是依旧在发展当中的,最新一次的更新来自于 2020 年 3 月,它进一步支持了花剌子模语等小语种。我们常用的 Emoji 也在 2010 年发布的 Unicode 6.0 版中首次被收录。我们期待着 Unicode 的一步步完善,也期待更多的有趣衍生产品的发明
Author: CaryC
文章默认使用 CC BY-NC-SA 4.0 协议进行许可,使用时请注意遵守协议。
Permalink: https://blog.wdsxhb.club/2020/05/09/unicode/
Comments