盘点AI写作历史AI取代人类文字工作还有

图片来源

视觉中国

首席发言者

AI又出书啦,这次是本专业的教科书。

世界上最大的科技出版社之一,德国Springer(斯普林格)出版社于本月初出版了第一本完全由机器学习编写的教科书——锂离子电池:机器生成的目前研究摘要(Lithium-IonBatteries:AMachine-GeneratedSummaryofCurrentResearch)。该书长达页,是AI总结出的锂离子电池领域的近3年超篇突出研究成果的摘要,图文并茂。

该书署名作者BetaWriter是由德国法兰克福大学(GoetheUniversityFrankfurt)应用计算语言学(ACoLi)实验室的AI研究人员开发的算法,此算法现能审阅给定主题的大量文献并自动挑选重要的细节呈现。Spring计划在未来利用该算法出版更多针对不同科研领域的书籍。

这本摘要式的教科书可以帮助相关科研人员快速了解这个热门行业的最新进展,但对于普通人来说内容过于专业和遥远。

本文讨论AI写作,下文中的AI特指写作型AI。

不仅教材,段子、小说、剧本、歌词、诗,AI写作统统包揽

这次出版的教科书算不上是AI的惊天大动作,AI在文字创作上早已动作频频。

与我们日常生活联系最紧密的作文是新闻。常见的一些体育赛事、经济行情、证券信息等快讯、简讯类稿件背后可能是由AI编写。AI不仅能发布事件和数据,还能搜索到相关科普知识和系列报道,全程无人执守,再加上自动配图排版,与真人采编作品难以区分。

新闻类稿件缺乏文学性,难以体现AI创造性的一面。

AI也是段子手。上世纪90年代,就有程序员开发了名为JAPE的对话式段子生成器。之后,AI加持的升级版笑话生成器通过分析脱口秀的句式和笑点生成段子,团队希望借此研究人为什么会发笑。AI写段子的同时还能辅助科学家研究人脑的笑神经。

AI早就写过小说。年,纽约大学AI研究员Goodwin训练了专写小说的神经网络,公路旅行时在车上安放GPS、摄像头、麦克风传感器作为输入,旅行结束后一字未改发表了AI写成的6千万字《1theRoad》,被认为是第一本由人工智能写的小说。该小说情节并不完全合理,夹杂着GPS定位数据,还有拼写问题。小说虽然通不过图灵测试,但用诗意的手法开辟了AI在文学应用上的新思路。

《1theRoad》封面

AI写的小说还有机会获奖。年,日本多个团队挑选了几篇AI根据指定关键词和大体框架生成的科幻小说投稿了日本第三届“星新一奖”,部分作品通过了不知情评委的初审。日本科幻小说作家长谷敏思表示,“能够完整写出小说太令人震惊了。如果分满分的话我给打60分,未来令人期待”。这次,AI不仅仅是通过图灵测试,而是能与人类作家一较高下了。

AI做过编剧,剧本还被认真拍成短片。作为伦敦国际科幻电影节(SFL)48小时命题电影挑战赛参赛影片,《Sunspring》的剧本是由Goodwin训练的AI机器人Benjamin编写的,讲述了了未来世界3位主角的三角恋关系。本片请来了专业导演和知名演员出演,评价是喜忧参半,负面评论都是说它不知所云,没有意义,正面评价则认为这是AI的壮举,没有比AI编剧的科幻片更科幻的了。这次实验,开创性大于最终成果的质量。

《Sunspring》剧照

AI在诗歌上也有建树。年微软亚洲研究院的虚拟AI助手小冰写的首现代诗集结出版成了第一部人工智能诗集《阳光失了玻璃窗》。训练样本是年起位中国现代诗人的所有诗歌。非专业人员读起来觉得优美,难以和诗人写的区分,但熟悉现代诗的人认为还有很大的进步空间。在歌曲上,小冰曾与不少电视台和互联网企业合作推出单曲。

《阳光失了玻璃窗》中的一页诗

另外,其他的文体AI也是能轻松上手。比如,对联、古诗词往往使古代的才子想破头,而由于有严格的对仗、格律要求,这类文体对AI来说却更比白话文轻松。网上生成对联、藏头诗等等功能的网站早已不新鲜。

AI写作背后,是一场AI技术进化史

AI有些文体能写得很好,有些文体却难以超越人类,这与它背后的程序算法是分不开的。以小说为例,早期使用RNN和LSTM训练的模型网络难以通过图灵测试,而后期日本团队使用的新型算法就能够骗过专业评委。

人工智能神经网络

对于自然语言的处理统称为NLP(Natural-languageprocessing),下又粗分为语音识别STT(Speechtotext)、自然语言理解NLU(Natural-languageunderstanding)和自然语言生成NLG(Natural-languagegeneration)3块。我们主要讨论的写作涉及到NLG和部分NLU。

早期,要让计算机写作需要预设模版。最初的模版就像我们英语考试中做的完形填空,人写完文章后将会变化的部分扣空,再让计算机根据数据填空。例如,天气预报中常见的:某城市今日某天气,最高最低温度某某度,空气质量某等级。为了不使用扣空的死板模版,科学家人为地将语法规则建模,这样在表达相同意思时,句式可以在人前期设定的有限规则内有多种变化。

现在,AI运用的是统计学方法。通过输入大量真实语料,使用概率统计,预测出词汇最可能的排列组合,自动训练出模型网络。这个模型无需人工编写,除了语法外,还包含词性判断、实体区分、关键词句提取、情感分析等等。当有了模型就可实现NLP的各下游任务,还可通过各种参数精细地控制NLG。

我们不讨论实现细节,只看看现有最好的模型能力几何。

自OpenAI开源GPT-1.0后,在其上改进的BERT和GPT-2.0是目前NLP业内最高水平。Google在18年10月开源的BERT模型破11项记录,部分阅读理解能力还超过了人类。今年2月OpenAI透露的GPT-2.0通过更大的训练得到了比BERT更高的分数,甚至可以通过给定开头续写文章,无论是学术、新闻还是小说类型,


转载请注明:http://www.aierlanlan.com/rzfs/2834.html