炼数成金 门户 商业智能 查看内容

ICML等六大会议自然语言处理类论文统计分析:谁是领跑者?

2016-7-1 17:27| 发布者: 炼数成金_小数| 查看: 26826| 评论: 0|原作者: Marek|来自: 机器之心

摘要: 昨日,作者 Marek 发布文章,统计了自然语言处理领域,各大高校、科技公司在六大论文会议上发表相关论文的数据情况。对行业内各机构此方面的研究状况给出了一个直观的图形展示。最近,我好奇在我的行业里,有多少机 ...
昨日,作者 Marek 发布文章,统计了自然语言处理领域,各大高校、科技公司在六大论文会议上发表相关论文的数据情况。对行业内各机构此方面的研究状况给出了一个直观的图形展示。

最近,我好奇在我的行业里,有多少机构在发表论文。谷歌发表的会比微软多吗?哪所大学有最好的自然语言处理(NLP)论文发表排名?可以从中看出未来什么有趣的趋势吗?数量不等于质量,但是发表数仍然是业界活动的合理指标,如研究小组有多大,研究项目有多开放。

我的方法是从六大会议(ACL, EACL, NAACL, EMNLP, NIPS, ICML)上抓取与我的研究相关的论文。前四大峰会不关注自然语言处理的方法而关注应用,后两个峰会不关注机器学习任务而关注学习算法。搜索时间范围被设定为 2012——2016 年,因为我对近期发表的论文更感兴趣。

幸运的是,这六大会议都有不错的网站,并列出了网站上所有发表过的论文。ACL Anthology 涵盖了 ACL,EACL,NAACL 和 EMNLP 的记录,NIPS 有独立的论文网站,JMLR 的网站上有 ICML 的会议记录(除了第 12 届 ICML 的记录在峰会网站上)。我写了 Python 脚本,从这些峰会网站上爬取了所有论文,提取出作者名字和所属机构。作者名可以直接从网站上爬取下来,但为了找到机构名字,我不得不将 pdf 文件 装换成普通文本并从论文的前 30 行提取出任何像大学名或公司名的名字。我写了一堆代码来将名字映射到标准版本(「UCL」映射到「University College London」,「Google Inc」映射到「Google」),不过我好像还是漏了一些边缘情况。

下图是排名前 25 的机构以及他们论文提交给的大会。

卡内基梅隆大学以 305 篇论文位居榜首。第二名是微软的 302 篇,十分接近,同样是业界的领跑者。我有点吃惊,微软发表的论文竟然这么多,几乎是谷歌的两倍,特别是看起来应该是谷歌发表了更多论文。斯坦福大学位居第三,发表数远超其他机构。爱丁堡大学和剑桥大学分别发表了 121 篇和 117 篇论文。

我们看看峰会的分布情况,普林斯顿大学和 UCL 仅有少量自然语言处理研究,他们的论文几乎都发表在 ICML 和 NIPS。斯坦福大学,伯克利大学和麻省理工学院看起来也更多地关注机器学习算法。相反,爱丁堡大学,约翰霍普金斯大学和马里兰大学的大多论文都发表在与自然语言处理有关的峰会上。CMU,微软和哥伦比亚大学是排名靠前的发表者中最平衡的,自然语言处理和机器学习的比例几乎是 50:50。

我们也可以看看前十五的机构每年的论文发表数。

卡内基梅隆大学保持着非常好的记录,虽然它最近才超过微软成为第一名。谷歌,麻省理工学院,伯克利大学,剑桥大学和普林斯顿大学的排名都在步步提高,近年来呈上升趋势。2016 年的下滑是因为截止到目前,数据不完整,ACL 和 NIPS 今年的论文还没公开。

现在让我们看看该图的个人版。

Chris Dyer 以 50 篇论文位居榜首。这个结果十分令人惊讶,他 2012 年才开始发表论文(那年仅两篇),然后 2015 年火箭式跃居榜首。他几乎所有的论文都发表在 自然语言处理峰会上,仅有两篇分别发表在 NIPS 和 ICML上。Noah Smith,Chris Manning 和 Dan Klein 分别排 2,3,4 名,发表数比较稳定,但是主要也都发表在 NLP 峰会上。相反,Zoubin Ghahramani,Yoshua Bengio 和 Lawrence Carin 主要集中于机器学习算法上。

看起来两个研究社区有明显的分水岭,研究者要么发表自然语言处理的论文,要么发表机器学习的论文。看起来有点意外,尤其是在自然语言处理领域中的神经网络文章成为大趋势的背景下。两个领域可能都会从未来更紧密的整合中获得好处。

我希望我为感兴趣的同行们做了一点微小的工作。未来,我很乐意去更新统计数据,看看局势如何变化。同时,如果你发现了统计中的任何错误,请联系我。

更新一:应要求,我已经添加了第一作者的最高发表数统计图。斯坦福大学的 Jiwei Li 以 14 篇论文远超其他人。William Yang Wang(卡内基梅隆大学),Young-Bum Kim(微软),Manaal Faruqui(卡内基梅隆大学),Elad Hazan(普林斯顿大学),和 Eunho Yang (IBM)都以第一作者身份发表了 9 篇令人印象深刻的论文。

更新二:修正 Jordan Boyd-Graber,他在 NIPS 的名字是 Jordan L. Boyd-Graber。

欢迎加入本站公开兴趣群
商业智能与数据分析群
兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识
QQ群:81035754

鲜花

握手

雷人

路过

鸡蛋

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

 

GMT+8, 2017-1-17 08:41 , Processed in 0.596738 second(s), 28 queries .