一读小说 » 都市言情 » 重启人工智能时代 » 第七章 技术讨论

第七章 技术讨论

    “老洪,我老听你说要建立一个推荐系统,可我没明白推荐系统要怎么在Instagram上发挥作用。”等讨论完股权问题,梁浩宇立即问出了自己的疑问。

    “用户都是通过主动搜索关键词来寻找内容的,就算我们能够改善他们的搜索结果,但如果输入的关键词本身就不是他们想找的内容,我们又怎么保证能提供更符合用户口味的内容呢?”

    梁浩宇不愧是几人中最敏锐的一个,他很快就察觉到问题所在,这让洪星十分欣慰,想到自己仅仅让出百分之十五的股权,就收获一个这样的人才,实在是一笔划算的买卖。

    “无论是美国的谷歌、脸书、亚马逊、推特,还是中国的百度、qq、淘宝、微博,目前几乎所有的互联网模式都建立在用户主动搜索上,这种玩法对于搜索引擎来说是可以接受的,但对于社交软件来说简直就是灾难。

    就像你所说的那样,如果用户输入的关键词本身就不是他们想找的内容,或者说他们其实并不知道自己想看什么内容,那他们或许只会胡乱搜索,甚至就懒得去搜索,那我们该怎么办呢?”

    洪星没有立即给出答案,而是给出了一段时间让他们独立思考,然后才道:“想要留住用户,就不能让用户觉得麻烦,比起让用户主动思考自己想要看什么内容,不如我们直接先给用户展示内容,然后根据他们的行为来判断他们喜不喜欢我们推荐的内容。

    如果说用户的主动搜索行为是解答题,那我们给用户的方案就是一个连选择都不需要用户自己做的傻瓜似判断题,通过模型不断学习用户数据,产生相应的标签,然后向用户推送新内容,用户就不用为没有内容看而关闭软件,如此便产生了时间黑洞。”

    为了避免不懂技术的宋子洋听不懂自己讲的内容这种情况,洪星专门用通俗易懂的语言把主要思想说了出来,不过这个回答对于其他技术宅来说显然不能令人满意。

    许凌瀚满脸狐疑:“听起来像是聚类算法,和神经网络有什么关系?”

    梁浩宇也很不解:“按照这样的说法,那岂不是每次新插入对象,模型就需要重新遍历一次整个数据集,这样也太浪费资源了吧?”

    洪星解释道:“不需要,我们可以将对象向量化,用神经网络训练对象以重构对象的权重...”

    陈刚打断了他的话:“你说的向量化是指One-Hot(独热码)[1]吗?”

    洪星摇头否定:“我指的是Vectorization,把一个对象映射到一个向量中。”

    洪星说的每一个字和单词他们都听得懂,但连起来就听不懂了,这也不怪他们,毕竟向量化这种思想比较抽象,而且这些本来就不是高中竞赛应该学的内容,而是研究生课程内容。

    向量化表示有着丰富的含义,通常指的是本文向量化表示,文本向量化的方法中最简单的是陈刚提到的独热编码,但这种编码方式会随着数据集的增大而增加,计算和存储效率都不高,还无法表达词语之间的关系,有着许多缺点。

    常用的文本向量化方法是词嵌入,具体操作是把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量,这样一来既实现了数据降维,又丰富了词的表达能力。

    词嵌入领域的分支繁多,其中最耀眼的成果当属2013年谷歌托马斯·米科洛维(TomásMikolov)领导团队发明的word2vec[2]模型,这是一种利用神经网络训练单词的方法,其训练向量空间的速度比以往的方法都快。

    为什么推荐算法在2017年后好像突然变强了?

    任何变化其实都不是突然产生的,自从研究人员发现word2vec这种方式行得通后,不少其他方向的学者开始研究向量化嵌入在自己领域的,随后便有了node2vec,item2vec等一系列优秀工作。

    这些工作一出来,大家发现万物皆可向量化,而且这类嵌入技术非常好用,还能节约计算资源,于是工业界马上开始部署新技术,各个互联网平台先后都用上了这种模式,其中最具代表性的当属字节跳动。

    当用户需要主动搜索关键词寻找内容时,许多具有很高价值的广告可能永远都无法呈现在用户面前,而通过主动向用户推荐内容,将广告夹在内容之中,这种做法使字节跳动一跃超过BAT成为国内最大的互联网广告商。

    “为什么我一直强调我们的产品是图文分享社交软件,而不是图片分享社交软件,很重要的一点就是我们需要用户的文字标签。”洪星看着众人迷茫又痛苦的表情,决定还是给他们举个例子。

    “分析图片是一件非常困难的事,因此我们需要文字作为载体,通过语言模型来学习平台上发表的内容,再根据用户浏览时间、是否点赞、是否评论等行为进行分析,用于接下来的内容推送。”

    梁浩宇依然有疑问:“这样还是存在一个问题,如果用户输入的文字和图片不匹配,那我们岂不是学不到正确的信息?”

    “所以奖励机制非常重要,我们会倾斜给优质内容更多的流量,让他们可以得到更多点赞,从而鼓励用户发表优质内容;对于那些不知所云的内容,因为它们得不到点赞、用户停留时间低,算法会降低它们的曝光度。”

    点赞功能可以说是社交网络中最重要的功能,虽然不排除有些人在社交平台上发布内容只是单纯为了记录生活,但大部分人如果能够得到点赞认可还是会高兴。

    美国搜索广告机构EfficientFrontier的调查显示,Facebook在2009年2月10日上线了点赞功能后,用户参与度同比增长了31%,同时间段内平均每个帖子印象数的增长为24%。

    新浪微博的数据统计同样令人惊喜,自从推出了强化“赞”功能的新版微博客户端后,用户的人均转发量增长了34%,“赞”的次数增长了94%,个人主页的访问量也上升了45%,用户互动活跃度显著增长。

    几人又问了一些关于技术的问题,洪星知无不谈,这让许凌瀚不由感叹道:“老洪,我知道咱们差距很大,可你毫不保留地自信还是让我吃惊,你是真的一点也不担心我们窃取你的idea啊?”

    洪星当然不需要担心,眼下神经网络鲜有人问津,word2vec也要在2013年才被发明出来,各种大模型更是连萌芽都还没出现,也就是说全世界都没人能做好这件事,除了他自己。

    [1]one-hot(独热)在数字电路和机器学习中被用来表示一种特殊的比特组或向量,该字节或向量里仅容许其中一位为1,其他位都必须为0。

    [2]TomásMikolov,KaiChen,GregCorrado,JeffreyDean:EfficientEstimationofWordRepresentationsinVectorSpace.ICLR(WorkshopPoster)2013