京都大学研究支援SPIRITS:「知の越境」融合チーム研究プログラム  2020-2021年度採択プロジェクト
京都大学 SPIRITS

研究紹介

多くの古代文献はその成立に謎を抱えています。いつ、どこで、誰によってどのように書かれたものかが記されていない「年代不詳、作者不詳」の文献は数多く存在しますが、成立背景のよりよい理解が文献内容の理解を深めるであろうことは言うまでもありません。本研究の対象である、紀元前1500年頃から500年頃までの間に成立したと言われる、古代インドのヴェーダ祭式文献も、そのような例の一つです。

ヴェーダ祭式文献とは、紀元前1500年頃からインドに侵入したインド・アーリア人の信仰を巡って、当時の宗教者、いわゆるバラモンたちが作成した数々の聖典の総称です。彼らの宗教は、自然神を中心とした多くの神々に、讃歌と火にくべる供物を通じて交流し、自然と社会のつつがなき運行を願うもので、インド社会を現在に至るまで特徴づける宗教、ヒンドゥー教の元ともなっています。ヴェーダ文献は、いくつかの家系(あるいは学派)が、それぞれに独自のものを編纂し口伝えによって伝承してきました(文字による筆記が普及してからは、書写による伝承も加わりましたが、あくまでも口頭による伝承が伝統の中心です)。それぞれの家系が伝えるヴェーダ文献は、最も古い時代に作られた神々への讃歌や祭式の際に唱える祝詞、その後に加えられた祭式の解説、そこにさらに哲学議論、式次第の詳細、などが加えられ、長い編纂期間の中で順次充実されていった一連の文献ジャンルをセットにしたものです。つまり、様々な家系(学派)が横の関係を持つ中で、それぞれの家系が時代の推移と共に編纂された、つまり時間という縦軸に位置付けられる複数の文献を持っている。この、時間という縦軸と、古代の北インドに位置していたいくつもの家系の地理上の変化と互いの関係性の変化という横軸の中に、ヴェーダ文献の成立と発展を位置づけることができます。

当時の古代インド社会は、部族単位での遊牧移住社会から、小規模な都市国家の成立へと推移していたと考えられています。ヴェーダ文献の時間、空間的な位置づけによって、古代インド社会の発展を読み解くことが本プロジェクトの目的です。

ヴェーダ写本

データサイエンス×古代インド文献

ヴェーダ文献の中に見られる思想や祭式、あるいは言語現象を取り上げ、その学派間の違いや時代による変遷を考察する研究は、インド学(ヴェーダ文献学)の分野において積み重ねられてきました。このような研究にデータサイエンスの手法を取り入れることで、考察対象の規模を大きくし、より詳細な分析、より複雑な変化や関係性の考察をすることが可能になります。ヴェーダ文献の成り立ちに基づく複雑な構成や付随する地理的時間的特徴より、情報科学の様々な観点の分析により、様々な種類の分析結果が得られると考えられます。ヴェーダ文献群の中の一つ一つの文献も、一度に全体が完成されたものではなく、コア部分に順次追加部分が加えられていくという、複数の言語層を含む構成が考えられるため、まず、一つの文献の中の言語層を分析する必要があり、その上でさらに複数の文献間でその言語層ごとの比較をすることができます。文献間の比較についても、同時代と考えられるものの比較と、時代層の異なる文献の影響関係の考察が考えられます。このような様々な特徴をデータに紐づけながら相互に連携して可視化する、「ビジュアル分析」システムを作成することで、個々のデータを並べただけでは把握できない、古代インド文献の示す時空間的特徴の全体像を得ることができます。ビジュアル分析とはインタラクティブな情報可視化システムによって可能になる解析的推論を促進するアプローチのことを指します。このようにして作り上げる「文献の時空間のマッピング」は、一つの研究結果であると同時に、古代インド社会の発展をより深く議論するための出発点になり得ると考えています。

研究方法と研究チーム

現在のところ、2本の柱を中心に研究を進めています。一つは、祭式に用いるマントラ(祝詞)がどの文献に記載されているかを網羅した、既存のインデックス*を利用し、文献間の関係をあぶり出すものです。ヴェーダ祭式では、古い讃歌集に集録されているような由緒正しい祝詞を好んで使用するため、一つの祝詞が様々なヴェーダ文献において言及されることが多くあります。複数の文献が一つの祝詞に共通して言及すること(一つの祝詞の共起関係)が文献間の関係性を示し得ると考えられます。

* Bloomfield, Maurice (1893): A Vedic Concordance. [Harvard Oriental Series 10]. Cambridge – Mass. 本研究にはこれに対する増補版(電子データ付き)を用いた:Franceschini, Marco (2007): An updated Vedic concordance : Maurice Bloomfield’s A Vedic concordance enhanced with new material taken from seven Vedic texts. Cambridge: Dept. of Sanskrit and Indian Studies, Harvard University. 本データの整理を同志社大学文化情報学部尾城奈緒子が行った。
アタルヴァヴェーダ(パイッパラーダ派)とマイトラーヤニー・サンヒターの対応関係を表す並行座標プロット (parallel coordinate plot)
リグヴェーダとマイトラーヤニー・サンヒターの対応関係を表す散布図 (scatter plot)

もう一つは、文献の中身をデータ化し、テキストマイニング(文字列の出現の頻度や共出現の相関、出現傾向、時系列などを解析する)を行うことで、文献の中の言語層をあぶり出したり文献間の関係性を探るものです。この研究はヴェーダ文献の形態素解析データを前提とします。これまで、サンスクリット語を自然言語処理の手法で解析することは非常に困難であると考えられてきましたが、Oliver Hellwigのプログラム開発により可能になりつつあります。将来的には形態素解析データを元にした様々な分析を行うことを目指していますが、現在は文献の形態素解析データの作成を進めている段階です。作成されたデータはDCS – Digital Corpus of Sanskrit (http://www.sanskrit-linguistics.org/dcs/index.php)に収録されます。

Digital Corpurs of Sanskritとは(DCSウェブサイトHomeより): The Digital Corpus of Sanskrit (DCS) is a Sandhi-split corpus of Sanskrit texts with full morphological and lexical analysis.
The DCS is designed for text-historical research in Sanskrit linguistics and philology. Users can search for lexical units (words) and their collocations in a corpus of about 4,600,000 manually tagged words in 650,000 text lines.
The DCS offers two main entry points for research:
  1. Words can be retrieved from the dictionary through a simple query or a dictionary page. For each lexical unit contained in the corpus, DCS provides the complete set of occurrences and a statistical evaluation based on historical principles.
  2. The text interface shows all contained texts along with their interlinear lexical and morphological analysis.
Large parts of the annotations are available for download at github.

マントラ共起関係による文献間の関係分析を夏川浩明が担当、分析結果から何が読み取れるかを天野恭子と共に検討し、より有用な分析結果の可視化のためにフィードバックを行っています。

ヴェーダ文献の形態素解析データ作成を、Oliver Hellwig、天野恭子、伏見誠が進めています。データが完成するのはまだ先ですが、完成したデータを用いてどのような分析が可能であるかの試行を、京極祐樹が行っています。

様々な種類の分析結果を連携させて時空間マッピングに集約する、データ可視化の核心部分を、夏川浩明がリードします。特にマントラの共起関係は上述した散布図や並行座標プロットに現れるような文献間の1対1の関係だけではなく、あるマントラが様々な文献に登場します。マントラの共起関係を単純なグラフ構造で表現するのでなく、グラフを拡張した概念であるハイパーグラフとみなしその構造を可視化すると、多数の文献間の大域的な共通性や局所的な特徴を捉えることができるでしょう。データ可視化とアナリティクスを融合させたビジュアル分析により、多様な情報が紐づけられた複雑な構成を持つ古代インド文献の成り立ちに迫ります。

ヴェーダ文献の形態素解析データ作成については、独立した研究として、科研費挑戦的研究(萌芽)課題番号:20K20697 『古代インド文献成立過程解明に向けた文体計量分析のためのデータベース構築』の枠内で行っています。 本研究のために、Oliver Hellwigが、プログラムによる解析、解析結果のチェック、データベースへの登録を共同で行う目的の作業用ウェブサイトの作成および運用を、以下のようにデザインしています: A web-based interface for the morpho-lexical, AI-powered annotation of Sanskrit texts Motivation: In order to obtain large scale linguistic data for research in the history of the Vedic corpus, a new framework needs to be built for the collaborative annotation of these data. The SanskritTagger (Hellwig, 2009) can only be run on one machine, as different versions of its database cannot be synchronized, and therefore does not allow for collaborative annotation. The Digital Corpus of Sanskrit (Hellwig, DCS – The Digital Corpus of Sanskrit, 2010-2019) is a static snapshot of the SanskritTagger database and therefore does not allow for annotation at all. The planned web-based system consists of three main components: database, analysis model and user interface. The planned database contains the corpus, the lexicon and the linguistic rules (Sandhi, inflection, irregular and verbal forms) for parsing Sanskrit texts. This MySQL database will be extracted from the Access database underlying the SanskritTagger. The SanskritTagger database uses an ASCII based encoding of Sanskrit which needs to be converted into an appropriate Unicode encoding for the MySQL database; special attention needs to be paid to diphthongs and aspirated consonants which count as one phoneme in the linguistic analysis. The analysis model takes a line of Sanskrit text as input, produces all possible morpho-lexical analyses of this line and orders these analyses by decreasing linguistic probabilities using corpus information and machine learning (ML) techniques. – Due to Sandhi, the rich morphology and the large vocabulary, even short lines of Sanskrit text can have several thousand morpho-lexical readings, most of which are, however, linguistically meaningless (Hellwig & Nehrdich, 2018). The aim of the ML model is to select the most probable morpho-lexical annotation of a text line and to facilitate and speed up the annotation in this way. The analysis model itself consists of two layers:
  1. The first deterministic layer creates all possible morpho-lexical analyses of a text line using the phonetic (Sandhi), lexical and morphological information stored in the database, and stores the result in an XML file.
  2. The second probabilistic layer reorders the XML file using ML techniques. This step requires a certain amount of research, and it is planned to publish its results at a major NLP conference in 2022 (ACL, EMNLP, COLING). The design of this layer starts with a sequence (Hellwig, 2016) and a graph-based model (Krishna, et al., 2018), which will be implemented in a development environment using the tensorflow library. The performance of the developed models will be evaluated using gold data from the SanskritTagger database. The final model will combine the graph-based approach with an energy function of the edges that considers n-grams of linguistic information as well as long range dependencies by using recurrency (on the character level; Hellwig & Nehrdich, 2018) and attention mechanisms.
The user interface (UI) provides functions for managing texts and their analyses, correcting the automatically generated analyses and editing the linguistic information contained in the MySQL database. While the database and the analysis model can (partly) rely on previous work, the UI needs to be built from scratch in PHP/Javascript/Ajax, using a model-view-controller framework. It consists of the following elements:
  1. Views for checking and correcting the analyses provided by the ML model (registered users). These views are central for building the corpus, and care needs to be taken to design them as intuitively as possible. Each user has access to the analyses of his own text.
  2. A view for exporting linguistic information from the database (conllu format; all users).
  3. Views for user administration (admin).
  4. Views for importing texts into the corpus for further linguistic annotation (admin).
Bibliography Hellwig, O. (2009). SanskritTagger, a stochastic lexical and POS tagger for Sanskrit. Sanskrit Computational Linguistics. First and Second International Symposia (pp. 266-277). Berlin: Springer. Hellwig, O. (2010-2019). DCS – The Digital Corpus of Sanskrit. From http://www.sanskrit-linguistics.org/dcs/index.php Hellwig, O. (2016). Improving the Morphological Analysis of Classical Sanskrit. Proceedings of the 6th Workshop on South and Southeast Asian Natural Languages, (pp. 142-151). Osaka. Hellwig, O., & Nehrdich, S. (2018). Sanskrit Word Segmentation Using Character-level Recurrent and Convolutional Neural Networks. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing (pp. 2754-2763). Brussels: ACL. Krishna, A., Santra, B., Bandaru, S. P., Sahu, G., Sharma, V. D., Satuluri, P., & Goyal, P. (2018). Free as in Free Word Order: An Energy Based Model for Word Segmentation and Morphological Tagging in Sanskrit. Proceedings of the EMNLP (pp. 2550-2561). Brussels: ACL.”>A web-based interface for the morpho-lexical, AI-powered annotation of Sanskrit texts