6 月 14 - 15 日 ArchSummit 环球架构师峰会·深圳,深度探索大模型时期软件架构最佳设计。
写在最前李生,中国最早从事机器翻译研究的自然措辞处理科学家之一。哈尔滨工业大学教授,博士生导师,中文信息学会会士,中国中文信息学会名誉理事长。曾任哈尔滨工业大学党委布告、中国中文信息学会第七届理事会理事长。多年来在自然措辞处理领域培养了四十余名博士研究生,百余名硕士研究生。
李生教授是国际打算措辞学会终生造诣奖五十余年来的首位华人得到者,中国打算机学会自然措辞处理专业委员会“精彩造诣学者”奖得到者,中国中文信息学会终生造诣奖得到者。他还是党的十六大代表、全国五一劳动奖章得到者。

上世纪六十年代,李生教授毕业于哈尔滨工业大学,师从中国打算机科学与工程奠基人之一陈光熙教授,他是中国人工智能领域的第一位博士候选人。
我母校哈尔滨工业大学的自然措辞处理研究团队曾被誉为“天下上规模最大、人数最多的自然措辞处理实验室”。同时哈工大也是中国最早从事人工智能、自然措辞处理方向研究的高校之一。从上世纪五十年代最开始涉足机器翻译研究开始,学校一贯在从事自然措辞处理和语音处理中各个方向的研究。为中国人工智能中的自然措辞处理领域培养了大量科学家和工程师。
李生教授是哈工大近 70 年来人工智能和自然措辞处理发展的见证者。倍感荣幸的是,李生教授也是当年我博士论文答辩委员会的主席。虽然当初在学校的很多会媾和活动上都接管过李老师的言传身教,但是这么多年都没有跟他单独互换的机会。
2024 年 4 月,我在北京拜访了李生教授,他向我讲述了学校以及他自己在人工智能研究领域的很多经历。他的讲述仿佛把我身临其田地带入了母校老一辈打算机科学家从前的科研场景。
就读大学心怀报国志向的数学学霸
1943 年,李生出生在黑龙江省兰西县一个屯子家庭。1949 年新中国成立,也是这一年,李生就读初小,开始了他的学生生涯。1954 年,李生考入兰西县低级中学就读初中。三年后,他考入肇东市第一中学开始就读高中。
上世纪五十年代,国家大力推动“两弹一星”的研发。1960 年,李生参加高考,怀着报效国家的梦想,李生报考了哈尔滨工业大学核物理专业,并以精良的成绩顺利考取。实在他当时他也不太明白核物理究竟要学些什么,只是知道这是当时国家培植最须要的专业。
由于李生高考时数学成绩特殊好,入学报到的时候,学校决定根据实际须要把他调处到打算机专业。
李生老师回顾说,当时他根本不理解什么是打算机,作为屯子出来的孩子,他用过算盘,见过打算器,可是打算机真的连见都没有见过。不过对付那个年代的年轻人,学习事情的志向便是到国家最须要的地方去。以是他接管了调处,成为了打算机专业的本科生。
当时的哈工大跟清华大学、北京大学一样,本科都是五年学制。经由五年的学习,1965 年李生本科毕业,并留校任教。
早期科研参与大型电子打算机的研制
刚留校的时候,李生承担了系里的大量传授教化任务,个中包括讲课、批改作业、给学生答疑等。他讲授过包括打算机事理、Basic 措辞、Fortran 措辞在内的很多专业根本课和专业课。
从上世纪五十年代开始,中国的很多科研机构和工厂都在大批量研发和生产大型数字电子打算机。
1968 年,李生带领打算机专业 64 级学生参与 441C 打算机的调试事情,这是当时哈尔滨军事工程学院研制的晶体管打算机。
1970 年 -1974 年国家三线培植期间,李生随学校南迁到重庆市。在重庆,他曾在学校为部队办的打算机学习班授课,也曾与重庆钟表厂互助研制线切割机床(一种电加工机床,紧张用于通过电火花放电来切割金属)。
1974 年,李生随学校重返哈尔滨,在学校迁居办公室参与哈尔滨工业大学的重修。
1976 年,李生参与 DJS—11 型打算机的研制事情,由北京大学供应打算机研发的图纸和技能资料,哈尔滨电子仪器厂为主机总装厂,产品的交付标准参照北京大学电子仪器厂生产的 150 机。
1978 年,李生开始进行“区域性西文期刊机读联合目录”项目的研制。机读目录是一种可以利用打算机读取和处理的书目信息,这些信息可以被打算机自动识别并编辑,机读目录很大程度上方便了书目信息的查询和共享。
这个项目于 1986 年通过黑龙江省科技成果鉴定,这是李生第一个通过成果鉴定的科研项目,项目也得到了航天部科技进步三等奖。
1979 年,李生被评为黑龙江省精良西席。
1983 年,李生开始跟随陈光熙教授攻读博士学位,他也成了中国和哈尔滨工业大学人工智能领域的第一个博士候选人。之后由于一些缘故原由终止了博士学位的攻读。
李生教授与陈光熙教授
陈光熙教授是中国打算机工程学科奠基人,也是哈工大打算机学科的创始人。当时他们的研究方向是信息检索,那时候的信息检索也称为情报检索,便是在国外早期的数据存储磁带中查询数据,获取国外最新的科研事情进展,以确定专业接下来的研究方向。
其间,李生参与了陈光熙教授主持的“TDM 数据库机”的项目研制,数据库打算机是一种实现数据库存储、管理和掌握的专用打算机。这个项目得到了航天部科技进步二等奖。
文献标引机器翻译的研究契机
哈尔滨工业大学和中国公民大学是苏联援建中国的两所高校。上世纪五十年代,有一批苏联专家到哈工大从事传授教化事情,带来了很多俄文资料。把俄文资料翻译成中文成了急需完成的事情。当时俄语系的王畛老师和打算机系的王开铸老师就开始了俄汉机器翻译的研究,这是哈工大最早期的机器翻译事情。
改革开放初期,中国的科学研究全面复苏,由于之前中国的大多技能和履历都是向苏联学习。这时全国很多高校都派出老师去欧美高校访问学习,哈工大打算机专业当时也派出了老师到美国学习,以便开展新的科研方向。
比如,王开铸老师去美国访问回来后开始从事俄汉题录翻译、自动文摘等方向的研究。题录是一种描述文献外部特色的条款,紧张包括文献的题名、著者、出处等信息。俄汉题录翻译便是通过打算机自动把这些条款从俄文自动翻译成中文。自动文摘是通过打算机在一篇文章中自动提取出文章的择要。这两个方向都是自然措辞处理中的主要研究方向。
再比如,舒文豪老师在美国访问时师从国际模式识别创始人傅京孙教授,返国后开始了手写汉字识别的研究。
在同一期间,李生教授开始从事汉英机器翻译研究,正式开启了自然措辞处理的学术生涯。
1984 年,李生晋升为副教授。
1985 年,李生教授的硕士研究生周明入学。李生教授为周明最初确定的研究方向为中文文献的主题词自动标引。自动标引,便是利用打算机从情报和文献中自动抽取检索标志。主题词自动标引,便是自动抽取可以代表情报和文献内容的关键词。这一年,李生 42 岁。
在北京,周明认识了中国科学院科学稽核委员会的吴蔚天研究员(后来吴老师加入了中国软件技能公司措辞工程部)。吴蔚天老师是理工科背景出身,特殊喜好自然措辞处理。那时候吴老师也在做中文文献自动标引的事情。
吴蔚天老师发起周明考虑汉英机器翻译方向,他以为英文的干系数据和工具都比中文多,假如有办法把中文翻译成英文,则英文中的自动标引、自动文摘等技能都可以直接应用,于是他提出了跟李生教授团队一起互助,通过汉英机器翻译进行自动标引的研究。
结果初步协商后,李生教授和周明再次来到北京,与吴蔚天老师签订了科研互助协议。双方也谈论了自动标引研究的初步研究思路:先将中文语句分词,然后依次判断每个词是否跟文献的主题有关联,有关联就保留下来,没有关联就弃用。这种思路被称为“有联系则取,无联系则断。”
比较中文,除了数据和工具比较多,英文自动标引事情还有其他上风。由于中文语句的词语之间没有明确的间隔符,而英文语句的词语之间是通过空格分隔的,分词随意马虎很多。
李生、吴蔚天和周明进一步谈论决定,先把中文句子翻译成英文,然后选取英文句子中的主题词,再把主题词翻译回英文。
这样项目就确定了汉英翻译,接着确定主题词,末了再做英汉翻译的流程。
哈工大人的科研精神态度是务实和谨慎。李生教授意识到这个项目的事情量非常大,别说一个硕士生,便是一个博士生也很难完成,想要完成这个事情,须要一个科研团队。
为了逐步完成这个项目,周明的课题确定为汉英翻译,也便是全体中文文献标引的第一个环节。
1987 年起,李生任哈工大打算机系系主任。
1988 年,CEMT-I 汉英翻译系统开拓完成,CEMT-I 系统利用了词法、语法、语义等措辞学特色实现汉英翻译需求,实现了 300 多个汉语句子和题录的机器翻译。
同年,周明硕士毕业,开始攻读博士学位,由于李生教授当时还不是博士生导师,周明的博士导师为陈光熙教授,李生教授是他的实际辅导西席,博士期间,周明连续汉英机器翻译的研究。
1989 年,CEMT-I 成为中国第一个通过技能鉴定的汉英机器翻译系统。
CEMT-I 汉英翻译系统鉴定会
继 CEMT-I 的成功开拓之后,CEMT-II 和 CEMT-III 系统也陆续出身。CEMT-II 办理了航天部 103 所军贸产品技能解释书的英汉翻译需求。CEMT-III 则实现了科技文章的英汉翻译,这个别系由李生教授团队与中国运载火箭技能研究院打算机运用研究所共同研制。1993 年,这个别系通过了国家鉴定,鉴定委员会主任为时任中国中文信息学会理事长陈力为院士。
1990 年,李生被评为打算机专业教授。
1991 年,周明博士毕业。在周明的博士论文答辩会上,李生教授约请了清华大学的张钹教授和黄昌宁教授,以及国防科技大学的胡守仁教授。
现在来看,这场博士论文答辩会的专门风威可谓相称豪华。张钹教授于 1995 年被评为中国科学院院士,黄昌宁教授也是中国最早从事自然措辞处理的科学家之一,胡守仁教授曾经领导了中国第一台军用专用电子管打算机 901(331) 机的研制。
周明博士是李生教授辅导的第一位博士,也是李生教授培养的第一位中国自然措辞处理科学家。周明博士毕业后到清华大学从事博士后研究事情,后任清华大学副研究员。1999 年,他加入微软亚洲(中国)研究院,卖力自然措辞处理研究组,他在微软事情二十多年,直至微软亚洲研究院副院长。大模型时期,周明博士离开微软,创立了有名人工智能公司澜舟科技。
1992 年,李生教授被评为打算机专业博士研究生导师。
1993 年,李生教授获“国务院政府分外津贴”。
同年,李生教授团队与清华大学、原航天工业总公司共同开拓达雅翻译事情站。当时周明博士已经加入清华大学,并代表清华大学一方卖力这个项目的事情。
达雅翻译事情站可以用于汉英和英汉的赞助机器翻译和赞助写作。这个项目成功的实现了翻译软件的商品化。项目连续三年在北京打算机产品交易会上展出。1997 年,该项目得到部级二等奖。
1994 年起,在国家 863 高技能研究发展操持的支持下,李生教授的团队开展了汉英 - 英汉双向机器翻译研究。先后开拓了 BT863-I 和 BT863-II 双向机器翻译系统,实现了基于规则和基于统计的翻译方法稠浊的机器翻译策略。
基于规则的翻译方法,核心思想是根据措辞的句法、语义等特色,写出翻译过程中的干系规则。基于统计的翻译方法,核心思想是利用统计和数学方法,打算出翻译过程中的干系策略和选择。
与微软互助中国互联网”黄埔军校“的缘起
1996 年,李生教授省获“黑龙江精良中青年专家”称号。
1998 年,李生任哈尔滨工业大学党委布告。
这一年年末,微软在北京成立微软中国研究院。这是微软公司在美国境外开设的第二家根本科研机构,也是微软在美国境外规模最大的研究机构。
研究院刚成立的时候,在海内还没有那么高的认可度。虽然北京的高校很多,但是研究院并没有开展很多校企互助。
这个时候,周明博士已经在微软中国研究院事情。研究院希望在哈工大成立学生俱乐部,卖力高校互助的马歆找到周明,希望他跟李生教授沟通,谈论研究院跟哈工大的互助事宜。
周明随即联系了导师李生教授,时任学校党委布告的李生赞许与微软中国研究院开展互助。李生教授折衷了学校的团委、学生会等干系部门进行对接。1999 年,微软中国研究院到哈工大举办宣讲活动,微软 - 哈工大学生俱乐部成立。与此同时,微软中国研究院与中国高校的互助也拉开帷幕。
2000 年,微软 - 哈工大机器翻译联合实验室成立,李生教授任实验室主任。研究院也先后委派黄昌宁教授、周明博士和马维英博士担当实验室微软方面的联合主任。
2001 年,微软中国研究院更名为微软亚洲研究院。
之后,微软亚洲研究院与中国很多其他顶尖高校也展开了学生培养和科学研究方面的互助,为中国互联网和人工智能行业培养了大量的精良人才,被誉为中国互联网的“黄埔军校”。这些都开始于李生教授当初对待校企互助开放、原谅的态度。
回到一线科研岗位得到打算措辞学领域国际最大声誉
2002 年,李生教授荣获“全国五一劳动奖章”。
2004 年,李生教授卸任学校党委布告,回到打算机学院连续从事传授教化科研事情。
同年开始,连续两届担当国家自然科学基金信息科学部专家评审组成员。
也是在这一年,微软 - 哈工大机器翻译联合实验室升级为“哈工大措辞语音教诲部 - 微软重点实验室”,李生教授连续担当重点实验室主任。
2008 年,李生主持国家自然科学基金重点项目“下一代信息检索”。
2011 年,李生担当中国文信息学会理事长。
2012 年,李生教授参加了由百度公司牵头的国家 863 重大项目“互联网措辞翻译系统研制”。这个项目在 2015 年得到国家科技进步二等奖。
2015 年,李生教授获国际打算措辞学学会(Association for Computational Linguistics,ACL)终生造诣奖。这个奖项是国际打算措辞学领域的最大声誉。他也是这个奖项开设以来的首位华人得到者。曾经的获奖者包括 IDF(逆文档频率) 的提出者 Karen Spärck Jones 等学界泰斗。
Manning 教授为李生教授颁发国际打算措辞学会终生造诣奖
同一年,李生教授获中国中文信息学会终生造诣奖。
2016 年起,李生教授担当中国中文信息学会名誉理事长。
2023 年,李生教授获中国打算机学会自然措辞处理专业委员会"精彩造诣学者"奖。
桃李天下为业界培养多位科学家的科学家
2015 年年末,哈尔滨工业大学机器智能与翻译研究室和社司帐算与信息检索研究中央共同为李生教授举办执教 50 周年纪念活动。活动发布了一本纪念册,名为《春华秋实,桃李天下》。
五十多年来,李生教授培养了近 50 名博士生,百余名硕士生。
光是从前开拓 CEMT 三个机器翻译系统的过程中就培养了中国自然措辞处理领域的数位科学家。
个中包括澜舟科技的周明博士、哈尔滨工业大学的赵铁军教授和张民教授、百度 CTO 王海峰博士等。哈尔滨工业大学的刘挺教授也自从博士毕业后就开始加入李生教授团队从事研究事情。
个中周明和王海峰曾担当国际打算措辞学会主席,他们二位也都曾当选国际打算措辞学会会士(ACL Fellow)。
在学术界,李生教授还培养了北京措辞大学的荀恩东教授、哈尔滨工业大学的杨沐昀教授、秦兵教授和车万翔教授等多位有名学者。
在工业界,他的弟子包括遐想控股副总裁于浩博士、百度公司副总裁赵世奇博士等。
后记
在北京见到李生教授时,他对我说:“中国的人工智能是从机器翻译开始的,虽然早期的时候机器翻译还没有提升到人工智能的高度,不过这也是自然措辞处理学者的一个骄傲。”
从学生的培养,到微软亚洲研究院在海内的首次互助,听李老师讲述几十年来的往事。个中的很多细节和李老师务实的精神让我特殊冲动。
一个多小时的交谈过程中,我能感想熏染到李生老师从前科研过程中条件的艰巨,以及面对方向选择时的谨慎。五十多年来,从零开始到多少机器翻译系统的研制成功,李老师与他的学生们为中国的机器翻译研究做出了开拓性的贡献。
ACL 终生造诣奖的得到,不仅是国际学术界对李生教授长期贡献的认可,也是对中国自然措辞处理学术研究的认可。
个人电脑时期、互联网时期、大模型时期……韶光滚滚向前,新的时期纷至沓来,人工智能在人们生活中的比重越来越大,自然措辞处理方向的研究代价也越来越高。
中国的自然措辞处理研究正是源于几十年前李生教授这一批脚踏实地的学者。他们的事情为中国的自然措辞处理奇迹打下坚实的根本。他们培养的学生是中国这一领域雄厚的人才成本。这些夯实的积累和持续传承的精神足以让我们对未来中国干系领域的发展充满信心。
作者简介:
秦海龙,喷鼻香港科技大学社会科学部博士后研究员,中国中文信息学会社会媒体处理专业委会委员。紧张研究方向为中国人工智能发展史、中国人工智能科学家口述史、打算社会学。博士毕业于哈尔滨工业大学社司帐算与信息检索研究中央,前自然措辞处理研发工程师,曾就职于小米科技和三角兽科技。
原文链接:走近李生教授:培养出周明、王海峰等数位AI科学家,NLP国际最高奖项得主的科研之路_AI&大模型_秦海龙_InfoQ精选文章