近日,深市智搜信息技术有限公司首席科学家郑海涛博士接受了中国科技新闻学会旗下华云网的采访,解惑人工智能写作。
中国科技新闻学会是由科技新闻传播工作者和单位自愿结成的从事科技新闻传播活动的全国性社会组织,为中国科协直属一级学会。所属会员单位包括人民日报社、新华社、中央人民广播电台、中央电视台、经济日报、科技日报、光明日报等中央媒体,各省、市、自治区、直辖市科技媒体和科技新闻传播学会、协会、研究会,以及新媒体、部分高等院校、科技传播机构等。

智搜访谈上华云网首页
以下为本次访谈实录:
内容生产再革命
华云网:智能写作的核心技术之一是智能语义。那么,我们如何理解“智能语义”技术?
郑海涛: 智能语义技术是智能写作的核心技术,定义为机器如何理解文本和生成文本的能力,即自然语言理解和自然语言生成技术。自然语言理解技术,比如我们说的一句话,机器能够识别出这句话中什么人发生了什么事情;自然语言生成技术就像给他一段话或者几个关键词,他能够基于对一段话或者几个关键词的理解重新写出自己的文字。
华云网:在具体应用中,智能语义的精准度如何?
郑海涛: 对自然语言理解技术的评估,评估过程一般是给机器一段文字,让机器去做阅读理解,然后去问他一些比较间接的问题,看是否能够理解语义。写作机器人只有理解了人写的文本,才能模仿人去重新写作。智搜的精准度中文最高可以达到92.67%,普遍高于同行10% ,英文领域的精准度也逼近90%。在中文领域我们是公认的领先于同行( 同行不仅仅是谷歌、BAT、科大讯飞等科技公司,还有高校的研究等),其他同行的精准度普遍在70%多,因为不同的垂直领域,考虑到不同的文本,智搜精准度普遍高5--10%。
华云网:据了解,智搜在写作方面有智媒、智书和智讯三大解决方案,这三个方案都各具什么特点?
郑海涛:我们公司现在主要是面向市场化的商业落地,跟一些高校的研究不一样,我们不仅仅是智能语义的研发,还要进行商业化的落地。而商业化落地三要素是产品、数据来源、技术,智媒、智书和智讯是我们面向商业化的三大场景推出的三大解决方案。
智媒:面向于传媒领域,像传统报业、自媒体,他们比较偏向于新闻资讯类的写作,对于写作的选题、决策,热点的抓取,写作发布后的跟踪特别重视。智媒解决方案给这些客户提供素材、抓取选题,辅助写作决策。
智书:面向内容营销行业,基于素材加上很多联想类的原创写作,比如我们现在主要做的汽车内容营销,给定一个车型,每个人可能会从不同的侧重点去写,比如汽车的外观、颜色、发动机、整体性能等,汽车领域的营销内容题材、风格和新闻媒体领域是完全不同的。
智讯:主要面向B端技术团队,为他们赋能,他们可以将智搜的技术整合到自己的产品中,使他们可以开发自己的定制化产品,我们提供api,给到各个合作伙伴接口服务。
“人工智能写作第一”的深度
华云网:与微软、腾讯等企业相比,智搜的核心优势体现在哪些地方?
郑海涛:腾讯也好、微软也好,他们主要从事的不仅仅是智能写作,还有很多其他方面的工作。相比而言,我们的投入度远高于他们。主要体现在:1. B端写作产品的落地,我们是和B端深度融合,经过多年摸索我们充分了解他们的痛点;2. 对于BAT来说,他们受限于产出投入比,不会去和B端深入合作;3. 数据,素材的积累,精准到每段话甚至每一句话的标签数据我们是经过很多年沉淀下来的,就算是BAT再有人力、物力也不是一下子能够积累起来的;4. 关于机器模型、机器学习的技术我们做得更深。经过我们的不断打磨,可以做到让机器写出一篇逻辑连贯比较通畅的文章,而且这种写作文章不是基于模板的,而是机器学习后读懂了文本内容后重新生成的,目前我们还没有看到有同类技术出现,大部分都是基于模板化的写作。在技术领域方面,我们自动化的生成一篇2000字的文章、或者生成概要、进行机器查重、个性化的改写以及最后发布,经过多年打磨我们已经形成了多个技术专利 及相应的软件著作权。
华云网:我可以理解为腾讯微软他们提供的是标准化产品,智捜提供的是定制化的产品吗?
郑海涛:不完全是,很多企业需求是可以做成标准化的。但大企业不愿意放下身段去和小企业深度合作,对他们来说是一个成本问题,他们要算投入产出比的,对于我们来说,是使命,我们前期大量的投入,到现在才把企业的需求做成一个标准化的产品。
人机合作是王道
华云网:机器如何判定一个消息的新闻价值?
郑海涛:这是一个写作决策的问题,是如何决定选题保证所做选题是新的好的真实的。我们是通过每天对热点新闻、大量报道、权威媒体、重点人物、点击率等多个维度进行统计,经过大数据计算分析,给到编辑多个结果备选,编辑可以根据需要去做决策,而不是说只给一个。
华云网:也就是说,机器人的工作就是搜集素材、把类似素材归结,交给编辑去审核、编辑、写作?
郑海涛:我们是相当于做一个写作助手工作,帮你把所有素材集结,热点挖掘,提供给你做决策,你做出决策后还可以帮你智能写作,写成初稿,你再加上自己的一些想象力、自己的观点类的一些东西,这样就把人机协同做起来了,人主要提供想象力和创意类的,机器负责素材的搜集整理,让人更方便分析。就像一个编辑助理,而且还可以不断学习编辑的写作习惯和新闻报道的习惯,经过不断学习,我们可以更知道编辑的偏好风格,在智能写作时会加入一些编辑的惯用词语。
华云网:传统媒体要想和智捜合作,需要具备哪些条件(生产条件、相关配套)?
郑海涛:我觉得和我们合作的一个先决条件就是要敞开心态。硬件条件之外最核心的就是认知,因为最难的是人机配合度的问题,每个人对AI的接受度不一样,这是一个过程。
生产条件方面,就需要拥抱云服务,对于服务过程来说,你有云最好,如果没有,我们也会提供给您云服务。因为对于一些远程数据的使用,云端数据的上传让机器去学习。
云计算的时代已经到来,但对于有些企业的先决条件和生产条件,要把很多东西放到云端还需要一个过程。
机器是在不断的学习,是可以越做越好的。在这个过程,人需要不断的对数据进行使用、打标签。比如我们的账号,要登陆以后才能使用。不登录就希望机器永远懂我,这个是对机器产生了过高的期望,机器是做不到的。
记者编辑的助手而不是替代
华云网: 与普通记者编辑相比,智能写作的成本优势在哪儿?
郑海涛: 说成本优势的话,要看具体的应用环节,因为成本包含生产成本和运营成本。就媒体行业而言,有专门生产内容的记者,有负责运营的编辑,据我们客观的统计分析,可以提高2-3倍的生产效率,高的可以提高3-4倍。记者行业的痛点不是说完全为了省钱,而是要在固定的预算或成本不变的情况下,把生产效率提高上去。目前我们主要是通过提高效率来降低生产成本。在运营方面,可以运用AI技术做个性化推荐,做可控化推荐,做各种数据分析,让编辑朋友更高效地观察读者的习惯、哪些内容更容易得到读者的认可,在这方面可以帮他们提升2-3倍的效率。我们是把决策权交给编辑的,著作权还是记者、编辑的。
华云网: 你认为智能写作时代,传统媒体的哪类记者编辑最可能率先被淘汰?
郑海涛:人如果能够定义出自己做的事情的时候是不容易被淘汰的,并不是像危言耸听的那样(会造成大面积失业)。像一些简单的财经、体育新闻报道,机器在经过不断学习后也能够做到;但如果加入了自己的想象、创造性的点评分析、或者体育记者对某个球员现状的了解、对未来状态的更新等进行更深入的思考分析,机器还是做不到的,还是需要人才能做到。
我们现在就已经有机器人辅助人工对体育赛事的报道,赛事一结束,马上就可以自动生成新闻报道。但机器主要还是描述客观事实,对于一些需要想象力的、需要深入思考的只有人才能做到了。
保障用户数据安全
华云网:如何保障用户的数据安全?
郑海涛:在技术层面,我们对标的是阿里,他们需要做什么安全测试我们也一样要做;另外我们也会和您签一个安全协议,对客户资料、数据和隐私我们是要绝对保密的,我们的技术也完全能够做到的。为了打消客户的安全顾虑,我们很多情况下也做成混合云模式,有需要外部数据就用我们这边的SaaS服务,如果不需要或者顾虑太多,我们就不提供到客户那边。
比如,我们会用区块链技术等一些加密技术。我们也在不断地进化,不断地用技术进步打消客户的顾虑。
华云网:与传统媒体合作,有几种合作模式?具体如何合作?
郑海涛:1. 标准化云服务模式,需要什么样的内容热点写作也好、 远程的联想式写作也好,支付年费后就可以直接拿来用,不用担心后期的维护问题; 2. 定制化加标准化,即混合云模式。这种的客户有顾虑,很多数据需要留存在本地,部分的定制化数据功能处理,部分数据放我们这端,统一的客户端还是由我们开发; 3. 接口服务模式,B端客户他们有自己的技术服务团队,由他们开发产品,我们只提供相应的技术接口,供他们采购,采购完就可以把我们的技术融合到他们的开发产品中。
或引爆千亿商机
华云网: 公司目前的人员结构如何?在技术团队实力上有哪些特点?
郑海涛:目前智搜研发人员占到大约60%,研发人员包括算法人才,工程人才:把算法工程化,开发产品;架构人才:云服务需要大量的计算,云服务维护。
智搜从一开始就是以清华为班底的,集结了全球知名高校如香港大学、北京大学、国防科技大学等以及大型研发机构如国家863人工智能研究小组的博士与研究生等优秀人才。
我们专注钻研这个领域很多年,在中文领域的积累是国内领先的。在算法领域一个高端算法人才可以顶很多人的,在算法领域我们是比较领先的。
华云网:智捜团队取得过哪些成绩?
郑海涛:公司目前累计发明专利申请12项,软件著作权数19个。获得19th高交会“最具投资潜力奖”和“优秀产品奖”;获得2017年度CEO峰会暨猎云网创投颁奖盛典“最佳人工智能创业公司奖”等。但我们更关注我们的商业化落地。
华云网 :据了解,智搜创立伊始就获得天使轮投资,并在2015年8月获得了金沙江创投500万美元pre-A轮投资。现在公司市场估值是多少?下一轮融资准备在什么时候进行?
郑海涛:我们的技术是国内领先的,人才储备也是领先的,是第一家在智能写作领域能够成功商业化落地并且营收的(去年已经收入过千万),在人工智能企业中还是比较少的。这些都能说明我们公司的实力是得到认可的,目前我们正在进行B轮融资。
华云网:下一步,公司的发展方向是?
郑海涛: 我们从事智能写作行业这么久之后,踩了很多的坑,到今天已经比较明确地找到了我们的定位。第一,把B端的写作需求,包括内容营销和传媒行业需要的人机协同的一些功能先满足,这是我们第一步要做的,通过第一步就可以做到盈亏平衡;
第二、因为我们要做的是智能写作平台,现在我们只是卖系统,未来将更进一步,要打通产业链上下游,写作的需求方,素材的供给方,包括个人、企业、像图片提供方等。以此形成内容上的交易,解决版权问题,辅助客户生长,让客户的内容生产更高效,同时让客户的内容产生更多附加值,这样我们也可以从中收取一定的手续费。未来这至少是一个千亿级市场。