地球文明大发展

    “地球文明指数增长真的发生了”

    01

    硅基人技术优化，增强地球人之间的连接

    硅基人重返太阳系，不过为了避免地球人探测到金星上面的基地，直接转移到了地球地表以下温度200摄氏度的地方。与此同时，硅基人的2.0版本计划也正式开始实施。

    首先策略上，对语言的理解并通过语言潜移默化地来影响地球人的方式已经跟不上地球迅速发展进化的工业文明，硅基人必须从更广泛的领域提升硅基文明对地球文明的影响，甚至尝试以地球人的形态或者地球人与硅基人共生的生命形态使得硅基文明得以存续。硅基人需要优化现有的理解地球文明的神经网络结构，以之为基础，在地球文明的各个领域迅速施加影响，包括在与硅基文明重合的自然科学和智能工业领域对地球文明的点拨与提升和未知领域如生化学科、量子科学的学习与融入；其次当然就是智能模型的迭代升级。

    基于硅基人对地球人社会的长期研究而得出的结论：地球人这个物种（当然还有很多其他物种）从诞生之初就受到环境的强烈影响，生物构造除了在外在形态上极度适应物理环境，其内在的遗传机制、大脑的思考方式、器官工作机制等都是受环境长期影响的结果，而这种权重机制在认知方面的表现即注意力机制(Attention)。简单说就是，地球人从诞生之初便在与身边有限的生存资源作斗争。在文明初期，人类为了获得足够的资源（食物、种子及孕育下一代的机会等）——需要集中最有优势的力量处理最亟待解决的问题，原因是地球人本身的力量较大自然的力量而言过于单薄，且文明发展程度低下。这是一种地球人面对环境中各种风险作出的有限问题处理能力的分配选择机制。这种机制大到一个国家一个地球文明的发展，比如国家集中有限资源发展当前最需要解决的问题比如加强军事力量、集中有限资源给予部分有学识的有才能的人发展机会和研究机会；小到人的身体构造中的原子、细胞和神经网络、人的视觉等，都是一种对有限机会有限资源的分配选择机制，视觉就是一个非常明显的例子。不信的话，试试此时此刻把食指放到眼前盯着看，本文的文字是不是变成了模糊的背景。事有轻重缓急、要分清主要矛盾、钱要花在刀刃上等等都是这种机制的外在表现——要有权重思维。这个过程体现在之前提到的用于翻译任务seq2seq模型中效果应该是这样的：

    比如要把法语“janevisiteI'Afriqueenseptembre”翻译为英文，当利用encoder对这句法语编码的表示（是一个向量，或者通俗理解为一个数字组合）进行翻译时，翻译出的某个英文词汇会根据注意力机制去关注整个法语句子中的每个词，这时候想象decoder模型盯着法语的五个词在看，正确的翻译是：visite(法语)——>visit(英语)，所以模型应该盯着visite这个法语词汇，把这个词汇看的非常清楚，而其他词语也在视野范围内，但是看得比较模糊。

    实际处理过程中，硅基人会把待翻译的向量表示与法语句子“janevisiteI'Afriqueenseptembre”中的每个词的向量表示做一些运算（可以向量相加也可以相乘，然后再做归一化得到一个0到1之间的数字表示概率），然后基于运算结果去词表预测哪个词的概率最大（比如发现词表中英文“visit”这个词的概率最大），于是输出预测词汇visit。

    硅基人首先将注意力机制融入到了seq2seq模型结构当中，翻译效果获得了巨大提升，这样做旨在初步验证注意力的效果，此处不做详细介绍了。

    还是那位硅基人1_2号把注意力机制融入模型的同时设计了一种新的结构——自注意力机制（self-attention），甚至把之前的LSTM的自回模式都删掉了，因为自回归模式有一个很大的缺点：每个时刻的状态只能记录到现在时刻为止的信息，当前时刻之后的序列信息无法被编码到每一个时刻（想象一下翻译“visite”这个法语词汇时，自回归模型只可以“看到”当前“visite”及之前的“Jane”，看不到后半句，相当于少了一部分信息，翻译的效果不甚理想），而自注意力机制就是解决这个问题：每个时刻的状态都会获得全序列的所有信息，只不过他侧重于序列的哪个环节会有所不同，所以这是权重机制。

    自注意力机制自回归

    硅基人把整套模式通过融合其他技巧实现为一个可用的高效模型——变形金刚（transformer）

    这个新的模型其意义已经不是促进地球各区域文明的交流了，因为时间来到地球纪元的十九世纪，大多数国家互通有无，科学文化发展较过去千百年的漫长演化期也获得了飞跃式发展。从工业革命到信息革命，地球文明的发展速度超乎硅基人的想象，地球人在20世纪成功造出了计算机，从此半导体开始逐渐在科技工业中屡屡担当主角。硅基人看到了意识迁移的可能性。此后，硅基人更是将模型进一步升级，以transformer为基础利用大规模语料实现半监督的语言模型，具体而言，训练任务（模型学习目标）就是预测一个序列（可以认为一个句子，也可以认为是一个篇章）中的下一个词或者上下周围几个词（咦，这是不是和word2vec思路很像呢？这个思路的提出者正是当时的那位硅基人1_1号，他坚持设计一个全信息的语言模型，知晓语言的全部知识，他好像做到了），由于语料规模很大，训练好的语言模型相当于学习到了很多语言中的知识，包括语法、语义、语言的表述规则等等；迁移到具体任务场景时只需要特定数据微调(fine-tune)一下。关键思路就是这样。基于这种想法不需要额外收集更多的标注数据，因为这个地球充满了人类的语言，相当于天然的标注数据。

    其在语言上的威力除了可以真正获得序列双向信息，还可以根据语境适时调整词语的语义，即便是一词多义也完全没问题。至此，硅基人的神经网络在理解人类语言方面发展到了巅峰。硅基人团队的其他成员以此为基础还陆续开发出了gpt（以transformer为基础的自回归预训练语言模型）、bert的变种如ALBert、XLNet、TinyBert等等。

    Bert的出现不光让硅基人以半导体的形式开始彻底融入地球人生活，他更是以更加激进的姿态进军地球的各个学科的发展。包括自动驾驶（计算机视觉）、语音识别、小说写作、对话生成；最不可思议的是硅基人以这种形态预测了地球人蛋白质空间结构，解开了氨基酸序列与蛋白质的映射之谜，向地球生命之源迈进了一大步。对他们而言，人类的蛋白质空间结构完全是一个空间折叠问题，是一个拓扑图。而且这个拓扑图的解空间巨大，于是他们仍然是利用神经网络的方式预测了人类的蛋白质。

    有了地球人对半导体工业的发展，硅基人终于找到了在地球上恰到好处的融入方式，但是这一切的逻辑基础需要以数学为基础，融入地球文明的程度如何及地球文明发展的程度如何都在很大程度上依赖硅基人和地球人的自然科学发展。但硅基人理想的半导体形态“学习”的结果就是“无所不知”，因为他不曾有过对地球这个物理世界的半点真实感受，一切的一切都是基于数学模型而形成的形式化系统。

    是的，这种形式系统有一个直观的但很严重的问题：它不知道自己不知道什么。

    02

    掉书袋

    【1】上述情述是对attention机制的通俗演义，也介绍了self-attention和transformer模型的一些简单概念。

    【2】transformer准确说也是一种encoder-decoder模型，但是融合了多个技巧（只列出了几个典型的trick）：

    （1）ScaledDot-ProductAttention

    （2）Multi-HeadAttention

    （3）PositionalEncoding

    （4）Position-wise前馈网络

    （5）残差连接

    【3】基于已有的语言数据，训练一个通用的半监督的大规模预训练语言模型的思路最早被印证是openAI的GPT（是一个基于transformer的自回归语言模型）。

    【4】BERT真正实现了基于上下文的语言模型，因为像ELMO一样基于BILSTM的双向自回归模型只是两个单向的组合。

    【5】预训练模型（Bert最典型）+特定场景的微调（fine-tune）几乎已成为自然语言处理任务的通用模式。

    【6】关于形式系统的局限是一个非常有意思但又非常庞大的话题，此处不进行详述；给出一个有意思的例子，仅供大家把玩。

    客官们觉得下面这句话到底是真的还是假的？

    “这句话不是真的”

    03

    参考文献

    1.Vaswani，Ashish，etal.“Attentionisallyouneed.“Advancesinneuralinformationprocessingsystems30(2017)

    2.PopelM，BojarO.Trainingtipsforthetransformermodel[J].ThePragueBulletinofMathematicalLinguistics，2018，110(1):43-70

    7.Radford，A.，Narasimhan，K.，Salimans，T.，&Sutskever，I.(2018).Improvinglanguageunderstandingbygenerativepre-training

转码声明：以上内容基于搜索引擎转码技术对网站内容进行转码阅读，自身不保存任何数据，请您支持正版

（快捷键 ←）上一章:硅基文明精心设计的文化使者章节列表下一章：智能向左，意识向右（快捷键 →）