IP Intelligence Lab

Introduction

组内大的研究方向为大语言模型(含多模态)、信息检索及智能体等,包含知识产权、法律和生物信息等多种垂域相关研究,依托大连理工大学信息检索实验室(指导老师:林原副教授许侃高级工程师)与中国科学院深圳先进技术研究院(指导老师:博士生王琪尧)主要针对大连理工大学的本科生进行自然语言处理领域的科研指导(其他学校学生同样欢迎联系)。 具有较为丰富的计算资源,指导学生推免至中国科学院大学、上海交通大学、浙江大学、北京航空航天大学及大连理工大学等。欢迎任何年级、任何专业、任何学校的同学随时通过邮件联系三位老师(发送任一老师,并抄送其他两位老师),一起在人工智能+、自然语言处理等领域做出有趣的研究。

本科生亮点成果

  • 论文:2024年以来,已有本科生发表包含领域中文期刊会议,中文信息学报(2篇)、计算机学报(1篇)、图书情报工作(1篇)、图书理论与实践(1篇)、计算机工程与应用(1篇)、CCIR(5篇)等相关论文;同时目前已有本科生投稿领域英文顶会,NeurIPS、ICLR、ACL、EMNLP、AAAI及ICASSP等。
  • 知识产权:指导本科生授权及申请专利 4 项,授权软件著作权 7 项。
  • 竞赛:指导本科生获得 10 项国家级奖项和 12 项省级奖项,包含第十九届“挑战杯”全国大学生课外学术科技作品竞赛国家级一等奖、“挑战杯”中国大学生创业计划竞赛全国银奖、中国大学生计算机设计大赛全国二等奖/三等奖、中国TRIZ杯大学生创新方法竞赛全国二等奖等。
  • 荣誉:国家奖学金、校优秀本科毕业论文、大连理工大学各类命名/专项/单项奖学金、国家级大创、CCIR2025最佳论文候选等。
  • 升学去向:中国科学院计算所,深圳先进技术研究院等院所、上海交通大学、复旦大学、浙江大学、北京航空航天大学、大连理工大学等。

Training

Target

面向本科生科研,针对自然语言处理、大语言模型、信息检索及知识产权、法律等垂域应用,将收获:

  • 熟悉人工智能研究领域基础、前沿知识,通过至少每周一次的组会与老师、学长交流,提升科研能力
  • 掌握人工智能领域科研的基本流程,学会阅读、理解、表达文献,熟练运用各类科研工具和文献撰写工具及技巧
  • 面向上述前沿研究领域,探索新颖科研想法,在人工智能中文、英文的顶级期刊及会议上发表论文,参与国内外学术会议交流学习,申请专利与软著
  • 参与相关科研项目,提前了解人工智能领域的项目流程,转化国家级大创,参与各类国家级创新创业竞赛

Content

入门培训目标:掌握基本的科研能力,学会制作PPT、撰写LaTex等基础工具,学会文献检索、阅读等,学习大模型之前的机器学习、深度学习、自然语言处理的相关知识。

  1. 大语言模型前的基础知识

    • 编程基础:熟悉Python语言(建议 Learning while Doing,特别是编程语言),基础语法、面向对象编程,有问题问GPT。会使用PyCharm等IDE、熟练配置编译(会ssh远程连接与上传文件【服务器所需】等
    • 机器学习、深度学习基础
      学习参考:台大李宏毅(homepage)的课程(17、18年等课程)
      机器学习学习路线:基本概念(训练集测试集验证集、指标、损失等)、监督学习、无监督学习、半监督学习相关算法
      深度学习学习路线:基本概念(梯度下降、反向传播、交叉熵损失、激活函数等)、全连接层、CNN、RNN、LSTM、GRU、Transformer等
    • NLP基础
      学习参考:CS336、大规模语言模型(复旦NLP撰写)等 统计自然语言处理:宗成庆,主要理解NLP的任务(分词、词性标注等)、语料库,以及例如n-gram等重要概念
      基于深度学习的自然语言处理:理解不同架构的Language Model,Encoder-Only(BERT系列等)、Encoder-Decoder(T5等)、Decoder-Only(GPT2、GPT3等)

Assessment

为了避免浪费你我的时间,将在后续详细说明本小组的入门考核,目前请还是联系三位指导老师(发送任一老师,并抄送其他两位老师)。

Member

  • 指导老师:林原副教授、许侃高级工程师、博士生王琪尧(中科院深先院)
  • 在组学生:王宏波(计算机)、刘华仁(经管)、康涵禹(数学)、曹荣(未来)、王世强(未来)、胡浩然(未来)、陈欣宜(计算机)、陈旭峰(计算机)、秦知非(公管)、祝铭徽(公管)
  • 毕业学生:吴鑫卓(浙江大学,工程硕博)、黄建国(上海交通大学,直博)、卢树乐(北京航空航天大学,硕士)、李林蔚(复旦大学)等