不久前,复旦大学计算机科学技术学院教授黄萱菁的名字出现在2020福布斯中国科技女性榜单上。这件事,曾让黄萱菁感到“挺意外”。
今年3月24日,因疫情在家备课的黄萱菁,突然收到学院党委副书记沈安怡的消息:“福布斯中国和学校联系,希望推荐一位女科学家参评福布斯中国科技女性榜。”学校和学院能在第一时间想到自己,黄萱菁确实觉得有点突然。
在这个拥有50位杰出女性的榜单中,只有包括48岁的黄萱菁在内的两位教授从事人工智能相关研究。而就在今年“三八妇女节”,黄萱菁还入选了清华大学—中国工程院知识智能联合研究中心发布的人工智能全球女性榜单。
一位女性从事人工智能研究,且已有20多年,在中国甚至全球都不多见。谈及科学研究之路,黄萱菁常挂在嘴边的一句话是:“我的研究领域偏基础理论,有用、无用的都做。”在她看来,无用的东西可能在未来十年或二十年就有用了。这是黄萱菁亲身经历后的感悟。
像是实验室里的“玩具”
高考后,抱着对计算机的兴趣,黄萱菁填报了复旦大学计算机科学技术系。从兴趣开始,黄萱菁慢慢地喜欢上了科研。
复旦大学首席教授吴立德是黄萱菁的导师,也是国内最早一批从事计算机视觉研究的学者,其研究方向正是围绕人工智能布局。这一方向在当时还是冷门。
黄萱菁是吴立德门下较早攻读自然语言处理的博士生之一。“计算机软硬件水平、人工智能算法水平等相对落后,训练数据稀缺,短时间内无法解决人工智能的实际问题。如让计算机像人类一样,发展视听觉和语言能力、感知客观世界、进行推理决策,要攻克这一难题极具挑战。”黄萱菁表示,无论是自然语言处理还是计算机视觉,都像是实验室里的“玩具”。
黄萱菁开始学术生涯之际,正逢自然语言处理研究的范式发生重大变革。学术界试图让自然语言处理算法像人类一样进行完全的理解与推理,利用统计方法,在海量数据上发挥机器的计算能力,为机器翻译、文本搜索等具体任务提出实现方案,减轻人类负担。
在吴立德的指导下,黄萱菁逐渐开展了自动文摘、文本分类和信息检索等研究,提出了一系列计算机算法。
“当时涌现的另一个新趋势是对于数据和评测的重视,公开数据、第三方测评和之后的交流研讨有助于研究者们对各种算法进行客观比较,学习他人的长处,你追我赶,共同促进技术进步。”而黄萱菁所在的团队是国内最早参加国际权威的文本检索会议的机构之一,在文本过滤、自动问答等任务的测评中先后取得了全球前三名的好成绩,逐渐增加了国内外学术影响力。
需要就能用得上
“复旦大学的黄萱菁利用话题分析、用户建模等自然语言处理技术,挖掘疫情期间重要舆情信息及其演化态势,联合新闻传播领域的专家为舆论引导提出了对策和建议。”在福布斯官方微信公众号的简要介绍中,特意提到了黄萱菁及其团队的工作。
这项工作要追溯到2018年,复旦大学承担上海市科委的一个重大项目“基于类脑人工智能的舆情系统”。黄萱菁所带领的自然语言处理团队是其中一支主要技术力量,负责研究舆情热点识别和人物画像算法。
当新冠肺炎疫情到来时,黄萱菁的研究就派上了用场。他们先从微博的数据流中,快速发现与疫情相关的有价值的话题,并给出热度评估。
微博的数据多且杂乱,让黄萱菁团队非常头疼。“即使定位出与疫情相关的微博,也比想象的要困难。”为此,黄萱菁团队联合复旦大学新闻学院专家,对检索词进行设计,并依据系统返回的结果对检索词进行修正。随后,研究人员采用情感分类方法和深度学习模型,对微博内容进行正负面分类,了解整体的情感走势。紧接着,基于不同类型的人群的微博情感分类,对不同群体的情绪变化进行监控。
黄萱菁发现,个体经营者的情绪会伴随着疫情的发展而不断走低。“这说明,到封城的中后期,复工复产成为政府需要考虑的重点。”最终,他们形成了一份舆情大数据分析报告并提交给上海市科委。
“平时的研究工作在关键时刻发挥作用,尤其在国家甚至是世界范围的灾难面前,作为学者可以参与解决问题、贡献所学,是很令人欣慰的。”但她也深知,“我们做的事情,其实离真正的疫情一线还是有一段距离的”。
把理念传给学生
因为这次的任务比较特殊,黄萱菁从正月初五就开始集结团队成员开展工作,比以往早了十多天。“第一次通知开会时,我们几个老师都比较忐忑,毕竟在春节假期招呼学生工作有点于心不忍。”不过,老师们在群里一喊,学生都很积极,跃跃欲试。
作为60余人规模团队的负责人,黄萱菁兼具各种身份,但她始终没忘记教师这一身份——教书育人。
作为3门本科生课程的任课教师,黄萱菁对课程教学尽心尽责。作为研究生导师,黄萱菁统筹协调整个团队对学生的培养进度。“不明确规定学生该做什么。”黄萱菁表示,在产出方面,她对自己的要求和学生一样,态度足够认真、过程足够努力即可。
在黄萱菁指导下,2014级博士生刘鹏飞以其在“自然语言处理与深度学习”上取得的突出成绩,先后获得百度奖学金、IBM全球博士生英才计划奖、微软学者奖学金、腾讯人工智能奖学金等。“黄老师总是在投稿前帮我耐心地修改,鼓励并推荐我去参评荣誉奖项。尤其是上百页的博士论文,她几乎逐字阅读并写下了详细的修改建议,非常感动!”
在黄萱菁看来,做科研,既要有耐心,也要有平常心。
接下来,她希望能通过学科交叉与融合,为语言学、传播学的研究插上计算的翅膀;通过与生物医学的交叉,为自然语言处理研究找到更多神经科学、认知科学的依据。
除此之外,黄萱菁还有一个想法:“鼓励更多女性参与到计算机科学、人工智能的研究之中,并从中获得乐趣。”(中国科学报记者秦志伟)