🅩🅔🅝、𝐌𝐄、𝓧𝓘𝓐𝓝𝓖、🆆🅾、𝕐𝕀、𝐘𝐀𝐍𝐆,以及原理浅析

2020-05-09 分享
Cover Image

This article was last updated on days ago, the information described in the article may be outdated.

1. 太长不看版

Unicode Text Converter 效果见下

compart 发现新的字符,排列组合出更多花样

Charbase 用法同上,效果见下

Unicode 了解最前沿的字符相关资讯,不过很难在普通人生活里用上

2. 好奇心重的可以继续

2.1 什么是字符与字符集

字符简单来讲就是一个汉字、假名,或是一个英文、俄语等语言的字母,甚至是一个音标符号,还有一些不可见的字符,比如空格,比如换行。这些纷繁的字符,通过一套统一的标准归集到一起就组成了了字符集,比如国内常用的 GBK(汉字内码扩展规范),或更加有名的也是下面将要讲的 Unicode

2.2 什么是 Unicode

Unicode(万国码、国际码)是计算机领域里的一项国际标准。它对世界上大部分的文字系统进行了整理、编码,使得电脑可以用更为简单的方式来呈现和处理文字。通过它,你就能在电脑上显示世界各地的文字以及各种稀奇古怪的符号,现在的 Unicode 字符数量已在百万量级,涵盖几千种语言与行业符号。通过这些符号的排列组合,就能产生各种各样的神奇变化

2.3 实例分析

ส็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็

这是通过一个泰文字符组合错位产生的有趣现象。泰文由元音字母、辅音字母、修饰字母组成,在泰文中一个音节可能由下列元素组成

声调符号
母音符号
母音符号 前引字 中心辅音 母音符号 尾音
母音符号

也就是说,泰文是可以穿鞋戴帽的文字,这里的例子就是给正确的泰文戴上了很多个元音字母◌็的帽子。这种错误的产生,根源是一种人机矛盾。如果将泰语的所有可能组合全部转换成字符将会有六千多个;但只将基础字母字转换成字符,则只有几十个,再通过排列组合还原成日常使用的泰文,将会大大简化泰文字符的存储与使用过程。人们在日常生活里可以轻松的辨认这样的组合是否正确,但计算机则需要复杂的计算程序来辨认正误,有些输入法可以禁止错误的输入产生,但是聪明的人们通过多次的复制黏贴,硬生生地造出了这个泰语戴帽子的效果ส็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็็。还有这个;̷̸̨̀͒̏̃ͦ̈́̾̀́̎͢҉̵̶͚̼͉͖̺̥͔͇̰̹̮͙͉̻̼̭̻͕̮͇ͨͬͪ͗̇̑̽͋̀̋̊͌ͧͨͭ̓̅͐ͥ̂̔̊ͧ͊҉̶̵̷̞̩̦̳̺̳̬̬̩̣̫͇̯̥͖͍͕̠̦̼̗ͯ̽͌̔ͪͯ́́͋̍ͨ̿̿̎͒ͤ̓̅̀͂ͧ͋̏ͫͣ̔͘͜͠͏̶̵̸̧̧̥̺͓̘̺͎̜̥͕͈̝̫͎̺̮̱̤̠̠͖̳̻̥̣̪͍͕͇̮͙̹̪ͮͧͫ͂͒ͤͣ̌̽ͨͪ͒̄̄̉̒̊ͩ̅͆͘̚͘͘̚͟͟͝ͅ也是一堆组合用的字符堆叠造成的人为错误

颜文字( ఠൠఠ )ノ 来自日本的礼物

1982年9月19日,史考特·法尔曼率先于卡内基美隆大学的计算机科学电子布告栏上使用:-)及:-(作为颜文字,是颜文字出现于网络世界的开端。它在日本得到极大的发展,创造出丰富的变种。它也是种种字符组合的产物。本节标题的( ఠൠఠ )ノ 中的ఠ就是泰卢固文字母 Ttha,ൠ则是马拉雅拉姆语字母元音 Rr。当然,我不是语言学家,我是通过Unicode编码转换转换成 Unicode 编码,再通过Unicode 字符百科找出它是什么而已

再举几例

ヽ(*。>Д<)o゜中的Д是西里尔文大写字母 De
(o≖◡≖)中的≖是一个数学运算符号
( ͡° ͜ʖ ͡°) °是度数符号ʖ是拉丁文字母竖翻喉塞音符͜ 是组合用下双短音符͡是组合用双竖翻短音符

让你的文字换个方向

文字的开始处加一个阿拉伯文字符ر,你的所有文字就会换个方向,其实不仅仅是这个字符,阿拉伯文的所有字符都可以达到同样的效果,因为阿拉伯文是自右开始书写的,换一种别的右边起始的文字,效果是一样的

热҈的҈字҈都҈出҈汗҈了҈

这里的字符是错位的,因为在汉语字符里插入了不相容的西里尔文百千符号҈。本来҈要与西里尔数字结合使用,但是我们硬把它放在汉字里,就产生了这样的错位现象

进一步的发展

Unicode 字符集是依旧在发展当中的,最新一次的更新来自于 2020 年 3 月,它进一步支持了花剌子模语等小语种。我们常用的 Emoji 也在 2010 年发布的 Unicode 6.0 版中首次被收录。我们期待着 Unicode 的一步步完善,也期待更多的有趣衍生产品的发明

Author: CaryC

文章默认使用 CC BY-NC-SA 4.0 协议进行许可,使用时请注意遵守协议。

Permalink: https://blog.wdsxhb.club/2020/05/09/unicode/

分享

Comments

Unable to load Disqus, please make sure your network can access.