第145章 草台班子的第一次会议
  “大家好,我叫陈耀宗,目前工作主要是研究概率论。骆教授跟我提了乔源博士的这个想法后,我就开始思考能否將概率图模型,比如高斯过程应用到这个问题上。
  但思考过后从理论上来说,这是个很蠢的办法。首先我们需要建立一个带有优质跟劣质標籤的大规模论文数据集,然后將之转化为监督分类问题。
  显然光是建立这么一个论文数据集就是个极大的工程。而且要辨別论文是优质还是劣质,或者水论文本身需要一个標准………”
  .…从优化的角度看,我们的目標是要为一个高度非凸且可能存在平坦区域的损失曲面,找到一个能通向全局最优的路径。
  在我看来,一篇高质量的论文,其证明路径在抽象的逻辑空间中所形成的几何轨跡应该是迂迴的,但最终能收敛……”
  “……我认为可以尝试將一篇论文的论证过程建模为一个离散动力系统。其稳定性和收敛性可以类比为论证的严谨和有效………”
  .……基於以上论证,所以我的想法是,我们也许可以从更基础的特徵工程开始做起。
  传统ai做文本分类,特徵无非是词袋、tf-idf、主题模型如lda。我们可以尝试构建一个多模態模型,同时处理文本、公式和图表……”
  .……直接从知识图谱的补全角度切入。具体来说,训练一个模型,当输入一篇新论文p时,它能判断出p是否填补了图谱中一个关键的空洞。
  我们可以借鑑图神经网络,比如graphsage或gat,来预测这篇论文在目前知识网络中的重要程度……“我觉得刚刚各位老师都说得很好,我是学数据挖掘的,之所以希望加入这个课题,主要还是希望能提升自我。
  如果一定要说想法,我觉得就是可以利用无监督学习,对大量论文的嵌入向量做一个聚类。我觉得学术审美的差异或许会映射在不同聚类中心之间的距离和形状上。
  这样就可以计算一个轮廓係数的变种,並依此来衡量一篇论文相对於已有知识的位置。
  这其中有些是我之前的想法,有些是我刚听鲁教授的发言想到的。
  不管如何我的主要目的还是学习和提高,会尽力完成布置给我的任……”
  乔源坐在骆余馨旁边,默默听著这个临时组建的兴趣小组成员们的发言。
猜你喜欢
- 荐女尊世界的绿茶同类好书
- 荐华娱:当导演,我顺极了同类好书
- 荐异界:圣武士的正经冒险同类好书
- 荐东京泡沫时代,从文豪到大娱乐家同类好书
- 荐我在北极抓龙的日子同类好书
- 荐人在完美,开局抱自己大腿同类好书
- 荐重生02,天仙叫我別装了同类好书
- 荐华娱:我是小花主理人同类好书
- 荐仙侣同类好书
- 荐美利坚水浒演义同类好书