Kendra の基本操作

やること

Kendra インデックスを作成して S3 データソースのドキュメントを同期し、検索を行うまでの操作を確認します。

インデックスの作成

Kendra のコンソールを開き、”Create an Index” をクリックしてインデックスの作成をはじめます。

https://console.aws.amazon.com/kendra/

インデックス名と Kendra インデックスが利用する IAM role を設定します。

事前に IAM role を作成していない場合、インデックスの作成と同時に自動で必要な権限を持つ IAM role を作成できます。Kendra インデックスに必要なポリシーは、以下のドキュメントに記載されています。

IAM access roles for Amazon Kendra - Amazon Kendra

The required access permissions for Amazon Kendra.

「Index name」には、任意の Index 名を入力します。
「IAM role」には、インデックスが利用する IAM role を設定 (作成) します。

ユーザーのアクセス制御に関する設定です。今回は触らないため、デフォルトのままにします。

利用する Edition を選択します。今回は検証目的なので Developer edition を選択します。

確認画面で設定内容を確認し、”Create” ボタンをクリックしてインデックスを作成します。

データソースの作成

インデックスの作成が完了したら、S3 データソースを作成してドキュメントを同期します。

左メニューから “Data sources” を選択し、”Amazon S3 connector” を追加します。

データソース名とデフォルトで使用する言語を設定します。

「Data source name」に任意のデータソース名を入力します。
「Default language」では、対象ドキュメントの言語を設定します。

S3 データソースが利用する IAM role を設定します。先ほど設定したインデックスの IAM role と異なり、実際にデータを取得する際に必要になる権限を許可する必要があります。事前に作成した IAM role を指定することもできますし、コンソールで命名して自動で作成することもできます。

データソースの種類ごとに必要になるポリシーは以下のドキュメントに記載されています。

IAM access roles for Amazon Kendra - Amazon Kendra

The required access permissions for Amazon Kendra.

S3 データソースは VPC 構成をサポートしていますが、今回は使用しないのでデフォルトのままにします。

同期対象の設定では、ドキュメントを格納してある S3 バケットを指定します。今回は、そのほかの設定はデフォルトのままとします。

同期モードの設定では、フル同期を行うか、差分同期を行うか設定します。どちらを設定した場合も、初めての同期ではフル同期されます。

同期のスケジュールも設定可能です。基本的にはコンソールで用意された設定で十分かとは思いますが、より細かく制御したい場合には、cron 形式で指定することも可能です。今回は、手動で同期を実行するため、”Run on demand” を設定しています。

Creating a data source connector - Amazon Kendra

How to create an Amazon Kendra data source connector.

ドキュメントフィールドとインデックスフィールドのマッピングを設定できます。今回はデフォルトのままとします。

確認画面で設定内容を確認し、”Add data source” ボタンをクリックして S3 データソースを作成します。

作成が完了したら、作成したデータソースのコンソールを開いて “Sync now” ボタンをクリックして同期を開始します。同期対象のドキュメントの量に応じて、同期には数分から数時間かかる可能性があります。

検索テスト

インデックスへドキュメントの取り込みが完了したので、クエリを発行できるようになります。

Kendra では、コンソール上で簡単に検索動作を確認できるように検索コンソールが用意されています。左メニューの “Search indexed content” をクリックして検索コンソールを開きます。

検索コンソールを開いたら、右側のスパナアイコンから設定を開き、検索に使用する言語に日本語を設定します。今回、ドキュメントは日本語として解析してインデックに追加しているので、検索で使用する言語も日本語として解析される必要があります。

検索バーに質問を入力して検索を行います。

ここまでで Kendra インデックスにおける検索動作を確認できました。

検索コンソールを利用する以外にも、Query API を使用して検索結果を取得することもできます。

Amazon Kendra API Reference

$ aws kendra query --index-id af34224d-f4d8-4706-8292-daa8c6d7da50 --query-text "やさしい" --attribute-filter '{"EqualsTo":{"Key":"_language_code","Value":{"StringValue": "ja"}}}' --query-result-type-filter DOCUMENT
{
    "QueryId": "2f0cb871-69af-4012-a8dc-d6a0029fc32e",
    "ResultItems": [
        {
            "Id": "2f0cb871-69af-4012-a8dc-d6a0029fc32e-5512a564-5d14-4ee5-b729-c12251926093",
            "Type": "DOCUMENT",
            "Format": "TEXT",
            "AdditionalAttributes": [],
            "DocumentId": "s3://k-log-bucket/930005563.pdf",
            "DocumentTitle": {
                "Text": "930005563.pdf",
                "Highlights": []
            },
            "DocumentExcerpt": {
                "Text": "１ 章 はじめに                                        \n \n\n\n２ 章 「やさしい日本語」とは \n      \n\n\n（１） 「やさしい日本語」とは？ \n\n\n     （２） なぜ、「やさしい日本語」が必要なの？ \n\n\n     （３） 誰を対象に使うの？ \n\n\n     （４） 実際にどういう場面で使われているの？ \n\n\n   \n\n\n３ 章 「やさしい日本語」の作り方 \n       \n\n\n（１） 「やさしい日本語」のための文書の選択 \n\n\n（２） 「やさしい日本語」のための文書の再構成 \n\n\n（３） 「やさしい日本語」変換のための基本ルール \n\n\n  \n\n\n４ 章 練習問題  \n\n\n「やさしい日本語」に書き換えよう！",
                "Highlights": [
...

検索コンソールはあくまで検索のテスト目的で利用するものとなります。

実際にユーザーが Kendra で検索を行うためには、ユーザーがアクセスする UI や Kendra へのクエリ実行処理などの開発が必要になります。