专访香侬科技:致力于让世界听到中文NLP的声音

像所有的创业者一样,香侬科技的初创团队胸怀梦想,期待有一天当人们提起香侬的时候,除了“信息论之父”,还能想起来有一家用技术在链接大千世界的科技公司——香侬科技。

新生的香侬科技选择“长在云上”

香侬科技的CTO王思宽说起企业上云的历程,“在2018年的时候,我们是一家初创公司,自己运营机房的成本太高了,我们决定要选一家云厂商,现在看来,阿里云是一个最简单也最正确的选择。”

从简单的云服务器弹性使用,到数据库服务,后面香侬又在ECS上面自己搭了 K8s。随着业务进一步发展,阿里云的架构师提出了进一步降低IT运维成本的方案,香侬也直接采用了阿里云的AKS。

王思宽说,“从我角度上来看的话,阿里云的优势还在于服务——响应非常及时,技术交流也比较完善,阿里云对于我们的需求能很快给出答案;其次是云功能的学习支持很省心,随着云服务的不断升级完善,功能越来越强大,对于企业方来说存在学习用云的时间成本,阿里云丰富的学习资源给了我们很大的支持。”

启航于情怀,坚定于信仰

初次见到李纪为,是在人工智能小镇,香侬科技位于杭州的新办公区。说起他的标签,很多人可能会知道 “斯坦福计算机用时最短毕业博士”、“《麻省理工科技评论》35岁以下科技创新35人”、“《福布斯》30位30岁以下精英”等等。但是,相比起炫酷的title,他个人显得低调得多,比起一家企业的CEO,更像是一个研究型学者。这位年轻的创业者,是克劳德·香侬的直系弟子。2012年李纪为从北京大学毕业,赴美学习生物工程,后来转向学习人工智能,并入学斯坦福大学,师从Dan Jurafsky(斯坦福大学计算机系教授、语言系主任),而Dan正是香侬的学生。

潜心前沿AI技术,创造文字社会价值

2017年底,李纪为回国,拉上了自己曾经的同窗,成立香侬科技,开始了NLP(自然语言分析)领域的创业。

关于公司名字的由来,李纪为说,这来源于对信息论和其创始人香侬的信仰。读博期间,他曾仔细拜读过香侬划时代的研究论文「Prediction and entropy of printed English」,这是现代NLP很多理论的来源和基础。出于对这位NLP先导的崇拜,公司便由此命名了。

2018年,香侬科技在阿里云实现上云第一站,用数字科技陪伴企业成长。

在整个人类历史上以语言文字形式记载和流传的知识占到知识总量的80%以上。就计算机应用而言,85%左右都是用于语言文字的信息处理。自然语言处理,就是用计算机对自然语言的形、音、义等信息进行处理,对字、词、句、篇章进行输入、输出、识别、分析、理解、生成等的操作和加工。

自然语言处理在我们生活中是怎么应用的呢?

其实,NLP已经在我们的日常生活和工作中随处可见并发挥着重要的作用。小到我们常用的翻译软件、搜索引擎、聊天机器人,都是通过NLP技术让机器去了解我们的诉求,再通过运算处理,反馈给我们想要的答案;大到在金融、司法、政务、工业、传媒等行业领域,也在使用这项技术去处理纷繁复杂的文档文件,从海量文字中更便捷、快速地获得精准信息。

那么,NLP技术是怎样实现这些应用的呢?香侬科技创始人李纪为举了一个形象的比喻:就像是一位小学生通过学习基础知识和训练学习方法,达到了大学生的水平,掌握了这些理论与操作技能后,投身到各行各业去工作。通过一定时间的工作实践与加强学习,他成长为某一垂直领域的“小专家”,过硬的技术加之行业经验的积累,便使他在所属行业中游刃有余。用技术的思维来简单概括,就是用算法搭建起一个“大学生”模型,通过垂直领域小样本数据的不断训练,便掌握相关的知识和能力,成为高效、优质的生产工具。

李纪为用香侬旗下的智能写作产品——火龙果写作做了示范:一名网络小说作者完成基本的框架与前期内容铺垫后,系统可以根据当前写作内容去理解和分析文章类型和主旨,自动推荐相关写作素材;小说完成后,还可以帮助作者进行语法纠错、事实性核查、上下文一致性核查、标点格式检查等一百多种类型纠错核查,不放过任何差错;当创作陷入瓶颈时,能够根据当前内容,自动生成原创情节进行续写。除了文学创作以外,该产品也可以根据关键信息描述,辅助创作不同风格的文体,例如学术风格、公文风格、社交媒体风格等,俨然是一位文字写作的多面手。

据悉,火龙果写作已成为众多学生党、文字工作者的首选“智能助理”,仅用一年时间,注册用户实现了1500%的高速增长。

近些年,自然语言处理发展迅速。2017年,谷歌提出了全新的自然语言处理模型架构——Transformer;2019年至2020年,大规模预训练模型BERT与GPT相继被提出,大规模预训练模型构建于Transformer模型架构之上,能够利用海量的无标注语料完成预训练,从语料中建立对文本的感知并实现知识提取,在几乎所有自然语言处理下游任务中取得显著的效果提升。大规模预训练成为深度学习模型提升效果的必要模块,也是当前AI领域最为火热的研究对象。,但针对中文的自然语言处理研究依然薄弱。

“相比于英文,中文语言的理解要复杂得多。同样的一个字、一个词、一句话,表达的语境不同,表达的方式不同,都可能存在各种不同的含义,曾经人工智能的自然语言处理算法都是利用西方的技术为模板,基于罗马字符的语言,而中文是象形文字,经过漫长的历史发展,它每个字符的造型、读音、含义都可能蕴含着深刻的意思”。“我们之所以开始做这个事情,也是想既然在中国做这个事情,就要把中文领域的研究发扬光大!中文作为世界使用语言第二大的语种资源,它的前景肯定是更广阔的。”李纪为认为,NLP是一个广阔的市场和空间,需要更多的发展和合作,才能把生态做起来,谈及未来计划,李纪为说,未来希望能进一步推动“更懂中文”的新一代自然语言处理基础研究,打破理论和实践之间的壁垒,继续在更多原创性、创新性、实用性问题中深耕、研究,加强人才培育与产学研生态建设,对提升中文自然语言处理研究在国际话语体系中地位多做一些工作。

2018年,新生的香侬科技选择了“长在云上”。

香侬科技,提供以语言理解核心的产业AI技术

香侬科技正在做的事情——提供以语言理解核心的产业AI技术。见微数据、舆情监控系统、智能文档处理平台、智能问答引擎、智能化数据治理平台在金融、司法、政务、新闻出版、教育各个行业遍地开花,面向企业、金融机构、政府等行业提供一站式舆情数据知识加工服务。

持续且大量的人工神经网络计算的深度学习场景,香侬使用了阿里云推荐的GPU实例及AMD实例。搭配对象存储OSS,在数据层面互相打通,海量训练数据的低成本存储和访问要求得到了满足;通过EMR服务进行数据的预处理,分析效率得到了提升;通过云监控服务进行GPU资源的监控与告警,整个过程更加安全稳定;通过ECS、负载均衡、弹性伸缩、资源编排资源的支持,香侬科技快速在云端搭建了完整AI深度学习业务系统。

从2018年到现在,香侬发布了50多篇顶会论文、70多项核心专利;建模中文的独有特征,融入中文字形与拼音信息;提出基于机器阅读理解的实体关系联合抽取方法,取得世界最优结果;基于机器阅读理解的命名实体识别方法,大幅超越之前世界最优结果;基于大规模图神经网络的语义理解模型,结合图结构与预训练,大幅提升模型语义理解能力。在自然语言处理、深度学习、知识图谱等领域……香侬依托多个自主知识产权领先技术,打造了以自然语言处理为核心的全流程智能计算平台。

2021年7月,香侬科技为杭州市余杭区人大办开发了“余杭区人大建议智能分发平台”,仅0.35秒就可以完成原本人工3分钟的信息处理工作,总用时从原本人工处理的8小时工作时间缩短到5分钟,准确率达到了90%以上,极大提高了余杭区人大的议案处理效率和服务能力。

2022年1月,香侬科技拿到了北京市专精特新资质。

香侬科技的未来之路

关于“下一代人工智能”

2018年以来,随着深度学习的大范围应用,关于“下一代人工智能”即将到来的讨论一直没有停止过。但在李纪为看来,这个讨论似乎为时过早。“下一代是怎么定义的呢?”他提出了这样一个问题。

在他看来,目前我们还是处在技术的“窄域时代”,人工智能在我们规定的内容里面,进行舒展、布局、与润色。但是未来的某一天,我们终将会突破窄域,进入“宽域时代”,是一个非常值得期待的景象。

创新上云,助力中文NLP更强

从创业到今天,距离香侬科技成立已经四年整了,从三个人到几百人,李纪为坦言,最难的不是开始,而是现在和未来。从“一人吃饱,全家不饿”到仍在壮大的团队和客户数量,每一步走小了都是不进则退,走大了都是对未来和趋势的预判,风险与机遇并存,肩扛所有员工和客户的信任,责任重大。

这个“难”,是每一个创业者共同的心路历程。无论是“元宇宙”还是“下一代人工智能”,他们没有想那么多,选择一个赛道既是兴趣所在,也是看到它其中的商业能力。香侬更加在意的在自己的行业领域里专门研究一些最顶尖科技,靠团队的力量去研究一代技术或者去推广一代技术,把最新研究的成果找到一个场景实现突破,真正地造福社会。

谈起最初的创业选择,用李纪为自己的话来说就是:自己的代码变成实际应用是每一个技术人的理想。“把研究模型变成现实工具,科学不是陈在纸上的,要有实际的过程应用。”

阿里云与香侬:数字科技陪伴企业成长

数字科技陪伴企业成长,从2018到2022,阿里云底层技术与产品与香侬一路前行,现在,这条路还会继续走下去。

原文链接

本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/511147.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

驭数有道,天翼云数据库 TeleDB 全新升级

8月16日,以“红云天翼 安全普惠”为主题的天翼云TeleDB系列产品升级发布会在线上顺利举办。此次发布的天翼云自主研发云原生数据库进行了全新升级,推出一站式HTAP融合数据库,以及TeleDB数据库容灾双活方案,同时也展示了TeleDB数据…

如何构建一个流量无损的在线应用架构 | 专题尾篇

简介:我们将这些年在每一个环节中的相应解决方案,以产品化的方式沉淀到企业级分布式应用服务(EDAS)中。EDAS 致力于解决在线应用的全流程流量无损,经过 6 年的精细打磨,已经在流量接入与流量服务两个关键位…

云原生微服务技术趋势解读

简介:随着微服务技术门槛大幅下降,随着企业数字化升级步伐加速,随着云计算的迅速发展,微服务将无处不在;随着行业成熟度逐步提升,随着开源和标准推进,微服务的标准逐步形成,标准形成…

中国信通院魏博锴:云原生混部标准解读

嘉宾 | 魏博锴出品 | CSDN云原生2022年7月28日,中国信通院、腾讯云、FinOps产业标准工作组联合发起的《原动力x云原生正发声 降本增效大讲堂》系列直播活动第4讲如期举行,中国信通院云大所云计算部云原生研究员魏博锴解读了云原生混部标准。本文整理自魏…

从平凡到非凡 阿里云李克的技术进阶之路

简介:人物简介:李克 阿里云边缘云计算领域技术负责人 2009年硕士毕业加入阿里至今,一直从事CDN及边缘云领域的技术研发工作,在CDN、边缘计算等方向上有丰富的行业经验,全程参与了阿里云CDN商业化转型,边缘云…

一文搞懂redis

简介:NoSQL泛指非关系型数据库,随着web2.0互联网的诞生,传统的关系型数据库很难对付web2.0大数据时代!尤其是超大规模的高并发的社区,暴露出来很多难以克服的问题,NoSQL在当今大数据环境下发展的十分迅速&a…

热搜!华为 30 岁以下员工仅占 28%,网友:35 岁危机呢?

整理 | 郑丽媛出品 | CSDN(ID:CSDNnews)一直以来,程序员的“35 岁”都是圈内的热议话题:35 岁是程序员的职业终结点、程序员到 35 岁就废了、超过 35 岁的程序员容易被裁……久而久之,35 岁逐渐变成了一个很…

阿里云发布业界首本《云计算公网质量白皮书》

随着互联网的发展,网络已经融入了整个社会发展的进程,如同血液贯通人类文明的五脏六腑。一旦网络出现故障,将给社会的政治、经济、文化造成重大损失。 2021年10月4日,Facebook在地球上”消失”了6小时,市值跌掉3000亿…

选轻量应用服务器or云服务器ECS?一图帮你彻底区分

简介:轻量应用服务器适合轻量级且访问量低的应用场景,更适合个人开发者、对新手小白更友好;而云服务器ECS可覆盖全业务场景(如大数据分析,深度学习等),要求用户有一定的开发技术能力。 本文首发…

宜搭小技巧|一招摆脱纸质表单,数据收集更便捷

简介:开启「应用公开访问」,组织外成员也可提交数据。 许多公司在前台都会准备一个访客登记表,供来访者填写。但如果来访者数量较多,就会出现这样的问题…… 提供纸质表单供访客填写信息,使用起来繁琐且费时&#xff…

如何用 Serverless 低成本打造个人专属网盘?

简介:想要做个网盘不知如何开始,不妨花3分钟读读这篇,看看如何借助 Serverless ,低成本的做一个“不限制网速、无限扩展、同时支持数百种文件格式在线预览、编辑、协作”的专属个人 & 家庭网盘~ 前言 随着全球大数据不断增长…

云之后,亚马逊云科技要为业界提供水和空气一样的安全防护

云巨头亚马逊云科技,正在持续加码云安全。 编辑 | 宋慧 出品 | CSDN云计算 提到亚马逊云科技,我们首先想到的是它在云领域的计算存储等技术和优势。不过亚马逊云科技却连续四年在举办它的全球安全大会 re:Inforce,刚刚 ,2022 re:…

即学即会 Serverless | 如何解决 Serverless 应用开发部署的难题?

简介:开发者在选择使用 Serverless 时,仍会有开发和部署困难、厂商锁定等诸多担忧,有没有一种支持 Serverless 应用全生命周期管理的开发者工具,能够简单快速上手并真正帮助我们提升研发、运维的效能的呢? 破局&#x…

NBF事件中心架构设计与实现

简介:NBF是阿里巴巴供应链中台的基础技术团队打造的一个技术PaaS平台,她提供了微服务FaaS框架,低代码平台和中台基础设施等一系列的PaaS产品,旨在帮助业务伙伴快速复用和扩展中台能力,提升研发效能和对外的商业化输出。…

关于“算力”,这篇文章值得一看

作者 | 小枣君来源 | 鲜枣课堂今天这篇文章,我们来聊聊算力。这两年,算力可以说是ICT行业的一个热门概念。在新闻报道和大咖演讲中,总会出现它的身影。那么,究竟到底什么是算力?算力包括哪些类别,分别有什么…

宜搭小技巧|找不到应用怎么办?群应用一键直达

简介:5步学会「一键添加群应用」! 上期钉多多将Excel一键转应用后,大大提高了同学们的工作效率,于是小伙伴们纷纷用钉钉宜搭创建了各种各样的应用,那么新的问题产生了...... 每次提交数据都要切换到工作台找到对应的…

前端实现多文件编译器

简介:在前端工程中,有时我们需要在浏览器编译并执行一些代码,这种需求常见于低代码场景中。例如我们在搭建时需自定义一部分代码,这些代码需要在渲染时执行。为了方便起见,我们写的代码一定是 ES6 语法,如果…

3个月夯实基建,鲜丰水果这样实现研发数字化

简介:3个月夯实基建,鲜丰水果这样实现研发数字化。简单、快速地提升产研团队的交付质量和交付效率,成为了支持组织业务创新的必选项。让我们一起看看鲜丰究竟如何逐步破局。 鲜丰水果,创始于1997年,历经25年发展史的鲜…

打通源码,高效定位代码问题|云效工程师指北

简介:为了帮助企业和团队挖掘更多源代码价值以赋能日常代码研发、运维等工作,云效代码团队在大数据和智能化方向进行了一系列的探索和实践(例如代码搜索与推荐),本文主要介绍我们如何通过直接打通源代码来提高研发与运…

Nreal中国AR眼镜发布会:正式推出Nreal X和Nreal Air 售价2299元起

2022年8月23日,全球领先的消费级AR眼镜品牌Nreal在京召开中国首场AR眼镜发布会,面向中国市场正式推出三款硬件产品,其中包括两款AR眼镜:全球首款眼镜形态、探索增强现实技术无限场景应用的全功能AR眼镜——Nreal X;全新…