概要
本ページでは,計算機科学の分野の国際会議の関係を総体的にとらえられることを目的として,過去の国際会議で採録された論文データから国際会議マップを作成した.
この国際会議マップでは,論文の著者が重なる会議同士は関連あると定義しリンクとしたネットワークをもって図示している.結果として,周辺の会議の総合的な立場にある会議ほどより多くのエッジをもつネットワークとなる.自身が参加している国際会議がみつかるなら近隣となっている国際会議を調べてもらいたい.
なお,本WebPageは,人工知能学会誌(Vol.23,No.3)の特集「国際会議に通すための英語論文」の解説記事「論文投稿のための国際会議マップ」(pp.380--384) のサポートページとして作成しております.国際会議マップの具体的な作成方法は論文を参照,または著者に直接問い合わせてください.
国際会議マップとは
研究者にとって,研究論文をどの国際会議に投稿するかを決めることは,研究のスケジュールは勿論のこと,それ以降の方向性に影響を与える重要な作業である.多くの研究者は,何かしらの基準で会議の取捨選択を行っているであろう.では,その際,候補となる会議はどのようにして選ばれたのだろうか.日頃,研究活動を行っていれば,国際会議の存在を知り情報を得る機会はあるだろう.だが,特に学生など若手にとって,その機会は自身の所属に依存しがちではないだろうか.その理由としては,国際会議に関する良質な情報を得ることは容易ではないために,研究者個人が抱える社会ネットワークに頼らざるを得ないためなどが考える,我々は,戦略的に国際会議の投稿スケジュールを立てるためには,自身の関わっている国際会議の立ち位置を把握し,関連する国際会議を俯瞰することが必要だと考える.そこで,国際会議の関係性を総体的に把握する手段の一つとして,以下のような国際会議マップを生成した.
この図は,国際会議マップの人工知能に関する国際会議を中心としたネットワーク部分の拡大図である.それぞれの色は,計算機科学(Computer Science)の各分野に分け,それぞれの分野の主要な会議を色が塗られている.また,各ノードの大きさがそれぞれ異なるが,ノードのAuthority度を計算するHITSより求めた値に応じて変えている.
図1では,左側に人工知能系の主要会議である,IJCAI, ECAI, AAAI, AAMAS などが見える.そして,機械学習系の ICML, ECML, 次にデータマイニング系の KDD, ICDM, 右の方では,Web 関係の国際会議をみることができる.図1に各分野のおよそのエリアを重ねて表示したものが下記の図になる.
図2 分野をオーバーラップさせたマップの一例
このように重ねてみると,Web関連の会議周辺では,データベースや,データマイニング,そして知識発見の研究者が主に関わっているのではないかというような感じでで,分野間の関係を推測できるようになる.おそらくこのような関係性は,その分野に長く関わっている研究者であれば,感覚的に知っていることではないかと思われる.だが,関わりの薄い分野などのことは,やはり知ることは難しいのではないだろうか.そのような場面で,国際会議マップのように統計的に関係性を抽出・提示するネットワーク分析が役に立つと考えている.
なお,国際会議マップを作成するにあたり,DBLP のデータを利用した.以下,利用した DBLP のデータに加えた修正点・変更点を示す.国際会議マップの具体的な作成方法は,「論文PDF」もしくは URL を参照してほしい.
論文メタデータの補正
会議名の補正
DBLPで提供されている論文メタデータは,非常に整理されているデータではあるが,一部修正が必要な個所がある.おもに,(1),(2)のようなナンバーや,Vol.XX というボリュームが,一部残っている.また,中には AAA/BBB, AAA / BBB のように,若干の記述の違いがあり,それらの修正が必要である.また,XMLデータは HTML用表記の特殊文字(üや&)などがもちいられており,それらを置き換える必要がある.
その他にも,DBLPでは,ドイツ・ヨーロッパローカルな会議・研究会の登録も多く,マップにおけるヨーロッパ各国の会議が重要な位置を締めがちな部分もある.また.共催された会議や統合された会議なども,そのまま登録されているため,マップ作成時には,それらを統合するなどの作業も必要である.以下は,会議名の統合,ローカル会議の削除,略称への変更を行った会議名を列挙する.
会議名の統合
国際会議は,時として統合したり,名前を変えたりすることがある.ここでは,DBLPなどを参考として,同一の会議と考えても良いと思われる会議を列挙する.
対応表は,以下のページに掲載する.
ローカル研究会の削除
ここでは,基本的に同じ国で開催され,国内参加者が多いドメスティックナ会議を取り除くためのリストである.各国の情報が一様に入っているのであれば問題は少ないが,DBLPでは,特にドイツ国内の会議が多く含まれ,ヨーロッパを中心とした会議の比重が重く計算されやすくなっていることもあり削除した.
略称への変更
ワークショップリスト
国際会議では,ワークショップが併設されていることが多いと思われる.DBLPでは,併設ワークショップに関しては,"HOGE workshop" と記述されている.一時は,これらワークショップを本会議の発表に含めてネットワーク図を作成していたが,特に「主要な」国際会議で近隣の国際会議との関連性(ベクトルコサイン値)が低くなる傾向があったので削除するために,本リストを作成した.
- ワークショップリストなど,関連性が低くなることから,ワークショップのみで発表している研究者の関連の深い国際会議と,本会議のみで発表している研究者の関連の深い国際会議とが大きく異っている可能性がある.これが意味するところはいろいろ考えられるが,現時点では知見とするだけの根拠がないため,これ以上は言及しない..
国際会議ネットワーク図
以下に,1975-2008までのDBLPデータを用いた国際会議マップを掲載する.各ネットワーク図は,graphviz を用いて描画したものであり,ノードの配置はノード間の重みを1としたバネモデルにより描画されたもので,ノードの絶対座標には特に意味はないことに注意されたい.
また,DBLPには,国際会議で発表されたすべての論文が登録れているわけではない.よって,一般的に「主要な」国際会議とされている会議であって図には含まれていない場合も多々あることも注意されたい.
ネットワーク全体図(1980 - 2008)
国際会議の変遷(5年間隔)
主要な研究分野に趨勢があるように,「主要」とされる国際会議の趨勢はもちろん,分野どうしの関連性にも変化があるものとと思われる.下記のリンクでは,5年区切りで分割された論文データを基に作成した国際会議マップを用いてその関係性の変遷を概観する.
国際会議の変遷(10年間隔)
上記の5年間隔と同様に10年間隔の場合の国際会議マップを概観する.
多次元尺度構成法による分析
分析といっても,大したことはしていない.統計ソフト R を使って,データを下記のようにプロットしただけである.
上記の散布図では,きれいに3つの軸(セキュリティ関連,データベース関連,並列計算関係)に別れている.以下では,軸を20に設定した時の多次元尺度構成法による散布図をいくつか掲載する.
プログラム
DBLPデータから,ネットワーク図を作成するまでのプログラムを公開予定.
なお,ネットワーク図は graphviz の neato を用いて作成している.
DBLPのXMLデータの処理
DBLP から提供されている XML データを力業でパースするプロ グラム.国際会議のプロシーディングス,ジャーナルなどの要 素を拾えるようにしてはいるが,実際には,論文のみしかきち んと動作を確認していない.
このパーサーでデータから引っ張り出しているのは,会議名と,著者名のみ.会議名に関しては統合などの関係で変更しながら使用している.
ベクトルコサイン近似度の計算
graphviz形式データの作成
ネットワーク図(SVG画像)の調整
XML形式で記述された SVG は,必要に応じて直接書き直すことができる.本来は,会議の重要度などに応じてノードの大きさをかえるためのプログラムであったが,現状では,リンクの太さをかえるためにだけに使用している
課題
様々な課題があるがとりあえず,思いつくもの列挙しておく
- 「主要な」国際会議の見える化について
- 国際会議を開催する側からの視点の追加
- 国際会議情報の充実化
- 他の領域(ドメイン)への適応
- 研究者個人のための国際会議マップの作成
- 時間軸の考慮
- ネットワークの偏り
現状では,一般的に主要とされる会議が,必ずしも重要な会議としてマップに表示できているわけではない.我々は,作成した国際会議マップを利用して PageRank や HITS などを求めることで,「主要な」国際の見える化を試みたが,必ずしもよい(それらしい)結果とはならなかった.理由としては,DBLP に登録されている論文データの不足などが考えられるが,十分な検証ができていない.
しかしながら,総体的な視点から「主要な」国際会議を示せることは重要であるため,改善を試みたいと考えている.
現在の国際会議マップは,DBLPに登録されている発表論文のみのデータを用いている.しかしながら,国際会議の重要度を測る指標として,プログラム委員など開催関係者のデータを重要とする考え方もあることや,そもそも DBLP に登録されていないデータも多々ある.そのため,分析の元データを充実化させてみることで,国際会議マップを作成する意義が増のではないかと考えている.
ここで作成した国際会議マップは,対象となる出来事(イベント等)とその属性値となる参加者などがデータとして得られるならば作成可能である.計算機科学以外の研究分野(医学など)はもちろん,展示会や物産展のようなイベントにたいしても適応できると思われる.
現状では,国際会議の開催年は考慮していない.しかしながら,研究者が投稿の歴史(年代記?)は,個々の研究者が考えている研究の移り変わりが内包されていると考えられる.
本研究では,ネットワーク(というより研究者の参加傾向)に偏りがあることを前提することで,関係性の定義が成り立っていると考えている.ただし,その偏りには,少なくとも 1) 研究分野による偏り,と 2) 地域的な偏り が存在していると考えられる.事実,作成した国際会議マップでは,比較的ヨーロッパで主催されている会議が多く登録されている傾向があるためか,ネットワークの構造から得られる指標もヨーロッパ開催の会議が高く評価される.よく言えば,地域的なコミュニティが形成されていることが抽出できたと考えらるが,この国際会議マップでもとめられるものは,分野の広がりを知ることでもあるので地域的な偏りを取り除けることが理想だと考える.
- DBWorld::International Conferences
- DBLP:Computer Science Conferences & Workshops
- MicroSoft Libra
- ACM Digital Library
- IEEE
ComputerScienceに関する国際会議が登録されXML形式でデータが公開されている.一番古いデータには1975年ぐらい.たとえ登録されている国際会議であっても,すべての会議に関して登録されているわけではないので注意が必要.
基本的,DBLPのデータを整理したシステム.ACMの論文データなども網羅しているため,DBLPより登録されている論文の数は多い.一定の分野(Domain)を設定して,それに関係する国際会議,Journal を分け,筆者などの Citation を内部からとトータルの計算を行っている.そのため,研究者が対外的に?知られた存在なのかどうかなどの判断がつけることが可能.
本ページに掲載されている図やプログラムなどは自由に利用していただいてかまいません.データなどに関しての質問などがありましたら kosuke.shinoda [[at]] aist.go.jp までご連絡下さい.また,研究として取り組みたいと思われる方々の相談なども歓迎いたします.
- 2008.03.26: 画像追加
- 2008.03.16: 一応公開
- 2008.03.16: 会議名対応表掲載
- 2008.03.11: 初稿作成