kuromoji-es

License

ピュアJavaScriptのESモジュールとして実装された日本語形態素解析器です。オリジナルのKuromojiを現代的な仕様に移植し、シンプルさと最新のウェブ標準との互換性を重視して設計されています。

機能

使い方

kuromoji-esをインポートし、非同期関数のcreateTokenizerを使用してトークナイザーのインスタンスを取得します。辞書はデフォルトでリモートCDNから読み込まれます。

import { kuromoji } from "https://code4fukui.github.io/kuromoji-es/kuromoji.js";

// 辞書を非同期で読み込み、トークナイザーを生成
const tokenizer = await kuromoji.createTokenizer();

// 文のトークン化
const tokens = tokenizer.tokenize("すもももももももものうち");

console.log(tokens);

APIリファレンス

kuromoji.createTokenizer()

辞書ファイルを非同期で読み込み、トークナイザーのインスタンスで解決されるPromiseを返します。

tokenizer.tokenize(text)

日本語テキストの文字列を受け取り、詳細な形態素情報を含むトークンオブジェクトの配列を返します。

トークンオブジェクトの構造

tokenize()メソッドは、以下の構造を持つオブジェクトの配列を返します。

[
  {
    "word_id": 509800,
    "word_type": "KNOWN",
    "word_position": 1,
    "surface_form": "黒文字",
    "pos": "名詞",
    "pos_detail_1": "一般",
    "pos_detail_2": "*",
    "pos_detail_3": "*",
    "conjugated_type": "*",
    "conjugated_form": "*",
    "basic_form": "黒文字",
    "reading": "クロモジ",
    "pronunciation": "クロモジ"
  }
]

フィールド:

辞書の各フィールドの詳細については、オリジナルのkuromoji.js JSDocページをご参照ください。

謝辞

本プロジェクトは、Takuya Asano氏によるkuromoji.jsの移植版です。同ライブラリは、Atilika Inc.によるオリジナルのKuromojiプロジェクトをJavaScriptに移植したものです。

ライセンス

本ライブラリはApache License, Version 2.0の下でライセンスされています。