ビッグデータ工学講座のサイトにようこそ!

本講座では、社会を変えるビッグデータ革命を牽引することを目的とし,誰がどこで何をしたか等の人・モノ・場所などのつながりを表すビッグデータから知識を発見する分散マイニング技術と,ビッグデータと機械学習を活用して人間の言語をコンピュータが理解することを目指した自然言語処理技術について教育と研究をおこなっています。

研究テーマの一覧

分散データ処理エンジン

分散データ処理エンジンとは,数100台を超えるコンピュータを使って大量なビッグデータをリアルタイムで分析処理する技術であり,Google や Facebook を含めて多くの企業で利用されています.
ビッグデータ工学講座では,MapReduce に代表される分散データ処理エンジンに関する高速化技術に関する研究を行っており,特に OLAP 分析・クラスタ解析・PageRank計算・相関ルールマイニング・行列分解などの分析処理の特徴を捉えることで,処理を最適化する分散データ処理技術に取り組んでいます.またビッグデータを安心して利用するため自動的にデータを匿名化するセキュアなデータマイニング技術についても取り組んでいます.

分散クエリの最適化機構

グラフマイニング技術

グラフマイニングとは,「どの人がどこで何を買った・何を見た」などの,人・モノ・場所の関係に関するデータをグラフ構造で表現して,得られる大規模なグラフデータを用いて,モノを推薦したり,影響力のある人物を発見したり,世の中のトレンドを分析したりする技術です.
ビッグデータ工学講座では,グラフのクラスタ解析・ PageRankを高速に処理するアルゴリズムに関する研究と,これらのアルゴリズムを利用するにあたってどのようにグラフ構造のデータを構築し,どのようにグラフ構造の時間的な変化を捉えるかといった,グラフ分析における試行錯誤を伴う分析操作を自動化する技術について取り組んでいます.

グラフマイニングの概要

統計的アプローチによる言語理解

言語は人間の知識の根幹であり,意思伝達において非常に重要な手段です.言語をコンピュータによって解析し,意味を理解できるようにすることで,人間にとって最も自然なコミュニケーション手段の一つである言葉によるコンピュータとのインタラクションが可能となり,さらには大規模な知識ベースの構築,それを使った高度な人工知能の実現につながります.
言語は様々なルールに基づいて使用され,また単語からフレーズ,文,文章となるにつれて,その組み合わせは爆発的に大きくなります.そのため基礎となるルールを人手で整備しても,個々の言語現象に逐一対応するのは困難です.そこで統計学と機械学習をルールと合わせて用いることで,このような多種多様な言語現象に対応できるようになると期待されます.
また大規模なデータを統計的に処理することで,言語の意味を数値的に表現する研究も活発に行われています.それにより言葉の意味を数学的に扱えるようになり,言葉の意味を機械学習に取り込むことで,意味を考慮した言語処理が可能になるのです.
ビッグデータ工学講座ではこのような統計的アプローチを用いた言語理解について,理論から開発までカバーする研究を行っていきます.

統計的アプローチ

ビッグデータからの言語資源獲得

自然言語処理の発展には大規模な言語資源が不可欠です.辞書や,単語の意味的関連を記述したシソーラス,自然文を集めたコーパスは自然言語処理において広く使われています.しかしこの世界に存在する多様な言語,あらゆる技術分野をカバーする上で満足な規模とはいえません.また機械学習を用いた学習を行うためには,様々な言語的属性が付与された目的特化型の言語資源が必要になりますが,多くのタスクでそのようなアノテート済みの言語資源は不足しています.言語資源は自然言語処理手法に大きな影響を持ち,特に機械学習を用いる場合,用いる言語資源によって性能が大きく左右されます.研究コミュニティにおいて共通の言語資源を用いて手法の構築・評価をすることで,データの特性に依存せずより公正な手法の評価ができます.そのため構築した言語資源の公開・共有は,自然言語処理技術の進展,研究コミュニティの発展ために非常に重要です.
そこでビッグデータ工学講座では,大規模データからの言語資源獲得を目的とし,手法の開発から言語資源の公開まで取り組んでいきます.

言語資源獲得

What's New

2014-07-01
鬼塚教授が着任されました
2014-06-16
荒瀬准教授が着任されました
ページのトップへ戻る