硅基人与地球人的渊源开始了

    “硅基人企图以数理方式融入地球”

    01

    —

    硅基人的软殖民

    硅基文明遵循着潜移默化的共同进化原则，而非暴力入侵或殖民的方式；通过了解地球的文明程度，做出对应的措施以融入地球文明。为了更好地进行信号传递和对地球的定位，硅基人在地球上建造了同时具有信号发射和信号接收作用的金字塔、玛雅神庙等建筑；他们有一个共同的特点——指向猎户座α星。

    时间来到了公元前500年左右。硅基人在地球各地分散设置了若干个扫描区域，进入这个区域的人类会被扫描身体构造（硅基人避免采用小白鼠的方式研究地球人，最大的考量是为了避免恐慌），很快硅基人掌握了地球人的生理结构，并抽象出了地球人的信息接收、释放和处理机制的模型——神经网络模型（这个模型是脱离身体结构的，这意味着这个抽象模型天然地就不具备通过各个身体部件获得信息的能力）。

    硅基人希望通过地球人的方式学习地球人的语言，进而融入地球人的生产生活，以地球人可以接收的方式，也是潜移默化的方式帮助地球文明发展，因为硅基人通过严密的计算和评估除了地球文明的发展指数，只有指数达到硅基文明上下两个量级以内，硅基人才可以与地球文明共同发展，而达到这个水平的一个明显特征就是出现电磁波的研究。而之所以从语言入手也是考虑到语言是地球人对世界认知的基本反映，可以说，语言是可以被理解的存在。通过对地球人语言的学习，硅基人可以以一种内在的方式理清楚地球人目前的文明现状和将来可能的发展潜力。

    对硅基人而言，地球上的不同语言是不同的符号系统，语言的基本单位已经蕴含了人类的部分先验认知，硅基人无法直接对这样的符号进行处理。而且不同的语言（不同的符号系统）之间要么相互叠加，要么是包含与被包含，错综复杂。于是硅基人把地球人语言的基本元素转化为一个多维的坐标，不同维度表示地球语言每个字或者每个词的不同语义和语法特征，某个维度的数值更大意味着这个特征更加显著。而且通过数值化的表达，硅基人可以利用他们的优势计算能力，将语言进行计算。

    当然，有了数字的基础，硅基人需要的就是有一个数据处理的框架，他们自然而然地盯上了地球人的大脑神经网络。

    硅基人持续关注了人类的成长过程，发现随着经验的增加神经突触之间的连接强度也在发生变化，而且神经元之间的信息传递是通过化学反应产生的电信号，通过电信号的方向和强度表征信息，而硅基人的晶体结构恰好可以完美复刻这种模式。但是硅基人并没有发现地球人的脑神经中是如何学习反馈的，没有反馈也就无法达到学习的目的。这一度十分困扰硅基人。慢慢地硅基人意识到这是一种当前阶段无法被认识到的机制，也许在不久的将来可以解锁这种机制，或许这种学习机制中隐藏着进化的某种秘密？然而硅基人擅长各种抽象和运算。尽管无法完全复制人类的脑神经学习机制，硅基人还是通过运算证明了他们设计的神经网络结构可以近似逼近任意的数学函数，而他们正是将人类的神经网络结构视为一个多元函数。此外，他们还巧妙地通过多元函数梯度计算优化误差进而达到了学习目的。他们把这种机制称为反向传播。

    当然，想适配通用函数，神经网络必须具有足够的容量，即网络要有足够的深度，满足一定的神经元数量是必然条件；其次，与阈值函数不同的是，使用梯度的其他激活函数作为感知机，可以在浅层网络丢失部分信息的时候，在深层网络获得一定的信息补偿。因此，神经网络对通用函数的拟合，一定是深度、宽度和激活函数之间的权衡，而适配通用函数的本质其实是硅基人把非线性激活函数融入到了整个结构中。

    很快，硅基人找到了影响地球文明发展的突破口。因为地球上不同文明之间的语言存在某种模式上的互通性，主要是指不同地区的文明其语言所指有着共同的物理基础，但是语言组织的模式、表达的具体含义及信息强度等各有不同。于是想利用不同语言之间的翻译验证他们设计的神经网络结构的合理性。这个神经网络的基础是硅基人擅长的概率论、数理统计以及矩阵运算。

    但是缺点就是硅基人也无法解释每个维度的特征具体代表什么含义，因为能够让这样一个拟合函数真正起作用需要经过多次的实验和参数调整，有很大的经验成分和试错成分在里面。这些在地球东方文明的语言体系下得到了印证，因为他们试图利用设计的神经网络对语言进行建模，把该语言的所有内容编码为一个高维数值空间，以彻底掌握该语言。但是显然他们基于地球语言都是线性的（一句话或者一段话乃至更长的语篇可以看成字词串）而简单对共现词进行建模的方式是存在巨大缺陷的。他们的处理方式本质上比较简单，即语言中挨得近的字或者词语具有近似的含义，对应地会被编码到高维空间中相近的位置。

    关于这一点，实际上硅基人做了多次尝试：

    【1】第一次尝试：针对一种语言（针对当时地球上使用人数最多的语言——汉语），最基本的数值化映射方法是将每个字或者词映射为一个字典序号。也就是说，假如汉语的所有词汇构成一个词汇表（包括单个字的词、多个字的词），词表长度为5000，其中一个词为“吾”，序号为3；另一个词为“壮观”，序号为347，......以此类推，这样倒是可以把地球语言的这些符号表示为数字，但是因为数字是离散的（就是不连续，因为字典序是自然数，比如1和2之间还有1.1、1.111、1.2等等无穷多个数），在硅基人的微积分体系下无法很好地计算；另外字典序号也没有任何的实际意义，仅仅是从无法计算的符号映射到了可以勉强计算的数字符号。

    【2】第二次尝试：把每个词汇表征为一个向量，而且向量维度就是词表长度，也就是每个向量都是5000维，比如“吾”这个词序号为3，那么这个词对应的5000维向量就是第三个数字是1，其余数字为0：<0，0，1，0，......，0>，相比第一次尝试的方法，这种方法可以实现比较好的计算，但若是词表发生变化（尤其变至上万甚至几万的情况下）那么计算量就会陡增，因为每个词都是几万维度的向量，进行梯度计算时就会出现梯度消失或者梯度爆炸等一些现象。

    【3】第三次尝试：在第二次的尝试基础上结合设计出来的网络结构，将几万维度的向量进行一个压缩，比如是512维（512是2的9次幂），但是维度的含义解释性比较低。相比以前BIT在处理陨石雨攻击时采用的将陨石刻画为<密度、体积、长度、角度...>等这样有具体含义的特征序列不同，现在这种方法对语言符号的表示是未知特征的序列，比如<0.234，1.34，0.009，......，4.11>，其中每个数字都可以刻画某种类似陨石飞过来的角度这样的特征，但是特征含义未知，具体这个数值是多少也未知，需要在训练过程中慢慢更新优化。

    硅基人对第三次尝试的方法尤为满意。

    硅基人还设计了两种用来学习词语向量的方法，一种是根据上下文预测当前词语，另一种是根据当前词语预测上下文。在进行着两种任务的学习过程中不断更新参数，使得预测得结果更准，最后产生的每个词汇的向量就是词向量。硅基人对得到的词向量进行了一些数值上的验证，效果甚佳。

    关于数据，硅基人计划通过收集每种语言环境下的具体所指，包括物理实体及其关系亦或是情绪、思考等抽象概念，获得一大批数据来训练神经网络模型。但是考虑到收集这样的语言数据消耗大量的资源，而且星际飞船能源补给出现问题，需要紧急返航以补充能量，而且硅基人的生命周期太长，下次来的时候地球语言可能已经发生了几代的更迭，数据收集的代价过大，也正是出于这样的考虑，硅基人才设计了这个可以智能“学习”的神经网络模型。硅基人决定一次性收集一批语料作为启动数据，让神经网络结构自动学习这样的语言，并且在硅基人的星际飞船回航期间可以跟随地球语言的发展不断更迭，通过翻译加强文明发展和沟通。

    说到这里有必要解释一下，硅基人的星际飞船每个人的分工十分明确，每个具体任务由主副两位负责。其中硅基人0_1号专门负责融入策略制定，也就是他们决定是否以语言或者其他领域作为突破口，0_2是他的副官；硅基人1_1号完成策略实现，包括实际模型的设计与实现，对效果的把控，1_2是其副官；当然还有其他若干的任务，比如负责星际飞船的能源供给、负责规律武器的运营和星际飞船的安全等等。

    随着地球上文明的发展，硅基人1_1号设计的word2vec效果逐渐难以满足需求，硅基人1_2号开始着手面向具体任务的模型设计与实现。

    02

    —

    掉书袋

    【1】上述情节引出了word2vec（词向量，硅基人第三次将词语映射为数值的尝试部分就是word2vec）、神经网络、反向传播等深度学习的基础概念，只阐述其思想，不阐述细节。

    【2】神经网络的基本结构可以参考感知机模型或者SVM模型，深度学习是以神经网络为基本的模型结构，在一定程度上模仿了人类大脑的一些生物学特征，比如神经元、神经连接、激活函数等。

    【3】激活函数对来自神经元的加权信号进行非线性映射，这是神经网络结构的深度学习模型可以理论上拟合任意函数的重要基础。

    【4】上述情节中硅基人第二次尝试将语言映射为可计算的数值实际上是NLP技术中的one-hot，词向量在某种程度上来讲，本质还是one-hot，只不过是one-hot向量与一个参数向量或者参数矩阵相乘得到的一个压缩后的向量。在工程实践中这个one-hot向量中的1的位置实际上就相当于字典序，直接索引到对应的指定维度的向量。

    【5】反向传播是以梯度下降算法为基础，通过计算梯度寻找当前的最优值（可能是最大值也可能是最小值），然后更新全部网络结构的参数，循环往复直到模型参数达到全局最优。

    【6】上文提到的用于学习词向量的两种方法，其中当前词预测上下文是skip-gram；用上下文预测当前词是CBOW(连续词袋，ContinuousBagofWords)。

    03

    —

    参考文献

    1.词向量的本质

    2.词向量的一些性质

转码声明：以上内容基于搜索引擎转码技术对网站内容进行转码阅读，自身不保存任何数据，请您支持正版

（快捷键 ←）上一章:BIT去哪儿了？章节列表下一章：硅基文明精心设计的文化使者（快捷键 →）