树洞回答 | 很内向,在计算机领域的科研、学习中遇到难题都不敢直说

2023-06-27 | 作者:微软亚洲研究院

自第一期问答上线以来,树洞又收到了许多来自四面八方的在计算机领域科研、学习中听不到的“呐喊”。

筛选、归类过树洞收到的内容后,我们为提问的你咨询了微软亚洲研究院在相关领域最适合的解答者。

站在人生的十字路口,难免需要直面选择时附加的焦虑、疑惑与自我怀疑。

如何克服申请博士前不敢开口套瓷的心理障碍?心仪的领域专业知识门槛太高,觉得自己不配怎么办?科研小白如何读提升读论文的效率?对很多研究领域都感兴趣,选择探索多个方向的科研是否是一种对时间的浪费?

听一听树洞连接到的第二波回复,希望这些真诚而又温暖的回答,能够同样帮助到屏幕前有着相似烦恼的你。

提问:

目前我正处在人生的一个十字路口,想读博士,但是内向害怕麻烦别人,也知道要套瓷,不过一直不知道要怎么去做,也不太敢迈出这一步。不知道我这样的性格,是不是真的适合读博士?我需要怎么克服这些心理障碍?另外,身边好多同学申请结果都很好。作为 gap 年选手,怎么处理 peer pressure?

微软亚洲研究院首席研究员王希廷:

你提到想读博士,并且愿意为此克服心理障碍,我想为此恭喜你。能早点想明白自己喜欢什么这很好。面临人生的重大选择,有焦虑、疑惑、自我怀疑都是很正常的,这也在提醒我们更加审慎地思考、突破自我。我想从下面三个方面给出一点我个人的小建议。

1. 是否适合读博士?

读博会面临各种难关,套瓷、调研、创新、严谨推理、写作等等。每个关卡的难度对不同人来说都不太一样。或许内向的人套瓷困难,但坐得住“冷板凳”,能从自己内心汲取力量,真正探索理论边界;而外向的人可以充分和大家讨论,从人际关系中获得力量,找到最有影响力的方向。

如果说读博需要什么能力,我感觉更像八仙过海,各显神通。什么是真正区分是否应该读博的因素呢?我认为就是“过海的欲望”,也就是对读博深厚的兴趣。有了这种兴趣和初心,才能支持我们度过一次次难关,再加上一些对困难挑战的勇气、不愿意放弃的不服气、或者坚韧不拔的品质,我们就可以在这条路上一直走下去,积跬步而至千里。

2. 如何克服心理障碍?

害怕麻烦其他人可能是很多同学共有的困惑,我之前也深深为此困扰。让我觉得豁然开朗的是“合作思维”,也就是在人与人之间建立连接,往往对双方都有好处。你和老师套瓷,同时也让老师有机会去了解一个可能和他很匹配的学生,这往往是老师们乐于见到的情况。你去麻烦别人给你推荐,也是在加深彼此的关联,以后他有什么需要你帮助,你也会欣然帮忙。我刚进微软的时候,周明老师曾和我说,尽管大方地去请求帮助。别人帮助了你,你把事情做成了,心怀感激,别人还会觉得你这个人不错。我后面也从心理学书籍中了解到人确实会倾向于喜欢自己帮助过的人。我想怕麻烦别人的同学,一定是个很会从其他人角度思考问题、会为他人考虑、也知道感恩的人,所以只要常常怀有合作思维,就可能解开对人际交往的心理障碍。退一步说,即使被拒绝了,又有什么损失呢?那只是其他人一个合理的决定,而不是你这个人的问题。

这些年我向很多同事寻求过帮助。刚入职微软亚洲研究院的时候,我完全不会深度学习,研究院的首席研究员刘树杰直接把写得很好的 Transformer 代码分享给我,让我可以快速上手广告生成。这奠定了我和产品组的合作,直到今天一直持续了六年。在其他项目中,我也得到了很多同事无私的帮助。我逐渐认识到微软的公司文化非常鼓励大家互相交流、互相帮助。这个过程让我的心境发生了很大的改变,感觉对这个世界都更有信心了,也从希望回馈帮助我的人,变成了希望回馈这个社会。我想这也是微软文化对我最大的改变之一。

3. 如何处理 Peer Pressure?

Peer pressure 恐怕也是很多同学都有的困扰。我自己就是一个很容易被 peer pressure 影响的人。研究院的同事都太优秀了,我从入职起就不停看到顶会发表、产品落地、比赛获奖的消息,组里的同事也都十分出色,我的老板研究院资深首席研究员谢幸也是多篇论文获得时间检验奖,因此我常常因为觉得自己是组里最弱的而惶惶不安。后来我发现大家都这么想,所以就不慌了。

真正让我转变心态的是意识到自己周围的人都很优秀真是一件好事。这说明我处在一个优秀的平台。近距离观察优秀的人也是一种独特的优势,如果我们希望,就可以从很多人身上学习到他们的优点。如果擅长建立合作关系,周围优秀的人还可以成为我们非常强大的盟友,能与优秀的队友并肩作战,是十分值得庆幸的。

再换个角度想,天外有天人外有人,如果我们身边没有比我们强的人,难道别的地方就没有嘛?尝试着将自己的目光放在一个广阔的空间,也许心就安定下来了。最终可以作为高效稳定参照的,就是我们自己。

提问:

作为刚入门科研的小白,读论文时遇到的问题太多,常常了解完其中一个名词就需要花很久。如何提升自己的学习效率呢?

微软亚洲研究院首席研究员谭旭:

首先,在学习时我们可以坚持层次结构原则,把控高层次的逻辑抓住主要信息,然后再补充学习低层次的细枝末节的知识点。可以刻意控制住自己想去了解每一个概念知识点的冲动,看看即便不理解它,把它当成一个代号,会不会影响对主线的理解。如果不影响,那就高效地推进不用打岔太多。迅速消化完梗概知识,建立起基础的框架轮廓,这个时候就会觉得前面这座知识的大山也不过如此,剩下的就是分割包围蚕食,将不是主干的知识点一个个消化掉。整体把握一个总分结构、先粗后细、抓大放小的原则,能提升学习效率。

同时,也要意识到这是入门学习任何领域时都会遇到的问题,是一个自然的学习曲线。刚起步时确实非常慢,很多知识点都不会,那就花时间学。有的时候不一定是效率不行,而是时间累积不够,没有跨越那个知识涌现的临界点。过了那个点,可能会觉得很多知识都串起来了,学习效率也就大幅提升了。

提问:

如果想做计算机图形学的研究,到底需要多强的背景?我时常去看一些博士的简历,感觉很多人的背景都非常好,觉得是自己遥不可及的程度。虽然我知道,人努力就会成功,但总会在这件事情上打怵。

微软亚洲研究院首席研究员董悦:

随着人工智能技术的发展,计算机图形学所研究的问题也有了较大的变化,计算机图形学所涵盖的科研范围现在也比以往宽泛了许多。例如现在比较火热的 2D 图像和 3D 形体生成任务;利用 Diffusion 模型或 GAN 模型来进行图像编辑;三维形体理解;NeRF 渲染;甚至是超分辨率算法、图像去噪等等领域,和计算机视觉以及人工智能的其他领域都密切相关。对于做这些方面研究的同学而言,背景知识的要求其实和其他人工智能和计算机视觉领域非常相似。当然,计算机图形学还有一些非常传统的、与人工智能关系稍微远一点的领域,比如,和数学关系比较密切的计算几何。由于算法本身会涉及数学上的理论推导与证明、以及一些物理上常用的近似计算方法,所以图形学对研究者的数理基础也有一定的要求。

简而言之,计算机图形学是一个非常宽泛的概念,其中不同的子领域对科研背景所需要的知识也有很大的不同,并不存在于一定需要某一个具体知识背景的说法。即使是这个领域的研究员,也不一定完全了解这个领域每个方向的艰深技术。

科研是很艰辛的,所以如果想要做科研,就要对自己认定的方向有足够的热爱。仅仅说“我想做计算机图形学”,可能还是对这个领域认识还不够细致,如果能够想明白自己想做的是领域里具体的哪一个问题,就可以更明确地知道这个问题会涉及到哪些背景知识,进而去充实自己。我认识的计算机图形学专家中,有的人是物理学背景的,读博之前基本没有做过编程;有的人是编程竞赛背景的,读博之前并没做过图形学相关的工作;甚至有一位非常著名的计算机图形学教授,他本科是英语专业辅修的计算机。所以,只要自己有理想并且为之努力,梦想都是有可能实现的。

提问:

我是一个对计算机很感兴趣的本科生,对每个方向都很感兴趣。站在研究的十字路口上,我很困惑于自己要选择哪条路,自己对所有都很感兴趣是不是一定程度上也是不知道自己对什么感兴趣呢?如果这样,那选择了其他方向的科研是否就变成了一种浪费时间?

微软亚洲研究院首席研究员王希廷:

站在人生十字路口上,面临众多选择,必然有很多困惑。你提到的选方向的困惑也很有代表性。我想从下面两个方面提供一点我的思考。

1. 怎么选择研究方向?

我记得读博涉及到选方向的时候,后来指导我博士工作的刘世霞老师说,选方向主要需要权衡兴趣和自己的优势,而这两者也往往相辅相成,我深以为然。所以这里面可以做的功课就是更清晰地了解自己的兴趣和优势是否能够匹配一个方向。

如果还有时间,那么可以从学知识向科研走得更近一步,比如,做做相关项目、申请相关实习、和相关领域老师讨论等。这样我们就能收集到更多信息来更准确地衡量我们的兴趣是暂时的还是持久的,以及做这些方向的核心能力是否是我们的优势。如果没有时间了,其实也没关系,就问问自己的心。有个心理老师说过,什么样的目标是最好的呢?就是你想到的时候心砰砰跳,觉得兴奋紧张,又有一些害怕,但是仔细一想好像也是可以列出计划来,可能实现的,那么这就是一个最好的目标了。在重大决定前,当理性思考已经无法排除更多选项的时候,听从自己的内心一定不会是个很差的选择。

2. 选择了错误的路怎么办?方向如果中途改变是不是就是浪费时间呢?

很多看似仓促的选择也许也没有差得很远,更谈不上很浪费时间了。我本科选择的是电子系,当初只因招生的一个老师说,电子系主要需要数学、物理、英语好,我想着我不是挺擅长这些嘛,就在不清楚电子系具体做什么的情况下申请了。其实现在想想,这么简单、看似也比较仓促的决定似乎也挺好的,更何况这位同学你已经算是了解得比较深入、全面了。虽然后面我博士转到了计算机专业,但其实计算机和电子的相通之处远大于不同之处。所以,很多看似不同的选择也许也没有差得很远,更谈不上很浪费时间了。比起找到最优选择,更重要的是相信自己总能找到出路和解决办法的信心。

焦虑一个很大的来源是:我做的选择是不是最好的?但我们又不是全知全能的神,怎么可能总是做出最好的选择呢?生活中大部分重要的决定,恐怕也都是在信息极度不全的情况下做出的。这种情况下要求最优,并且对自己因为没有做到最优而丢失的部分反复咀嚼,就有点像自我PUA了。这除了能让我们斗志消沉、患得患失,还有什么好处呢?

我认为真正的英雄需要在直面事实时仍拥有战斗的勇气。事实是我们本来就无法保证自己的选择总是最好的。在这种情况下,战斗的勇气就是:不管我的选择给我带来了什么,我都能为此负责,并且披荆斩棘找到一条不错的出路。如果有这种觉悟和信心,那就没有什么可怕的了,也走上了一条自我成长的成熟之路。

提问:

如何入门深度学习在音乐方面的研究?小白一枚很慌。

微软亚洲研究院首席研究员谭旭:

首先,莫慌,在当下,入门任何深度学习+垂直赛道结合的领域,都会比以往更容易。因为现在的深度学习技术,从学习范式、建模方法、模型结构等在各个领域都趋于收敛,涌现出大一统的趋势。正所谓学好数理化,走遍天下都不怕。只要有良好的深度学习基础,在一两个主要领域(比如 CV 和 NLP)有过经历,加上对目标领域的知识有针对性的学习,入门会相对容易。

我们先来看针对音乐的深度学习技术的学习。音乐可以类比人类语言:语言有符号化语言也就是文字,也有口头语言也就是语音。而音乐有符号化的音乐也就是曲谱,也有最终的音乐音频。音乐的曲谱/音频两个模态和语言的文字/语音相对应,所以可以借鉴语言和语音所使用的深度学习技术来帮助音乐处理。入门深度学习技术尤其是 NLP/Speech 相关技术(比如 Self-supervised Learning, Pre-training, Transformer, Large Language Model, Autoregressive Model, Diffusion Model 等),对于从事 AI 音乐非常有帮助。

我们再看音乐本身知识的学习。音乐相比图像或语言这些常见的模态可能门槛稍微高一点,但是相比其它垂直赛道比如金融、法律、医疗、科学发现等,还是容易很多的。如果对音乐本身不是非常了解,可以学习一些基本的乐理,能对音乐的旋律、和声、曲式、配器等有一些基本的了解,更深入的音乐知识可以等入门以后有兴趣再慢慢学。然后需要了解一些对计算机和深度学习友好的音乐表征,比如音频、频谱、MIDI、ABC notation 等,以及一些基本的涉及到音乐理解和创作的任务,比如音乐分离、曲谱转录、音乐检索、词曲生成、伴奏生成、歌声合成、乐器音色渲染、混音、以及直接端到端对音乐音频进行理解和生成的任务。

另外,可以参考一些入门的书籍、教程、论文以及开源项目,能更快的入门上手 AI 音乐,比如:1)《音频音乐与计算机的交融-- 音频音乐技术》;2)AI 音乐教程(AI Music Composition Tutorial @ ACM Multimedia 2021);3)AI 音乐研究项目 Microsoft Muzic 和 Google Magenta 等。

提问:

作为应用数学的研究生,希望了解深度学习理论方向的主流研究问题(例如通过 NTK 分析网络超参数化)以及相关研究论文。

微软亚洲研究院高级研究员张辉帅:

深度学习理论涉及众多的研究问题,此回答仅能展现部分研究方向。包括:

1. 理解深度学习的泛化性能:理解为什么一个在训练集上表现良好的复杂模型能在测试集上也表现良好,尽管它的参数数量远远超过了训练样本的数量,如 double descent 理论等。

2. 理解深度学习的优化性能:深度学习通常依赖于如随机梯度下降(SGD)这样的优化算法。理解和改进这些优化算法,以及分析他们的收敛性,是深度学习的重要研究课题。其中研究问题包括 neural tangent kernel, mean field theory, convergence of Adam/SGD with more realistic assumptions, hyper-parameter optimization / transferability 等。

3. 针对神经网络实际遇到的问题/现象的建模与理解,研究问题包括解释性和可解释性,如 maximal coding rate reduction 等,以及优化过程中神经网络海森矩阵的演化,如 Edge of Stability 理论等。参考文献可以根据关键词搜索。

把心底的思绪释放出来,解决问题的办法其实还有很多。正如王希廷所说:比起找到最优选择,更重要的是相信自己总能找到出路和解决办法的信心。

标签