当SDD言語ファクトリーでは研究者の方々や民間企業における開発担当者様にご使用していただる様々な言語資源を作成しております。製作は言語資源作成に25年以上従事しているベテランスタッフが行ないますのでお気軽にご相談ください。*対象言語:日本語・英語 (中国語も内容により可)
- 形態素情報付与(書き言葉/話し言葉)
- 構文解析/統語情報付与
- 格情報や意味情報の付与
- 各種特殊データ収集解析(ブログ、ツイッター、方言など)
- 固有名詞収集
- 異表記の収集
- 用語集・対訳データベースの作成
- 海外(英語)言語資源の日本語への翻訳
- 海外(英語)アノテーション仕様書の日本語への翻訳
- その他、あらゆる言語に関する資源
大量のデータを効率的かつ正確に作成するためには見やすく使いやすいエディタは不可欠です。当方ではアノテータの希望(構文解析における木構造のわかりやすい表示など)を最大限に取り入れたオリジナルのエディタを開発作成してデータを構築してまいりました。詳しくは:言語資源作成用オリジナルツールをご覧ください。
言語資源作成においては詳細かつ一般のアノテータ(情報処理の専門家ではないという意味)にもわかりやすい仕様書は非常に重要です。当方では一からの仕様書の作成、海外研究機関作成の英語仕様書の日本語化、既存の仕様書の(わかりやすい文章への)再編集なども行なっております。これまでに作成いたしました最も大量の翻訳例はペンツリーバンクの統語情報に関する仕様書の日本語訳・再編集です。
過去25年の間に私が携わりました言語資源作成の一例です。申し訳ございませんが、守秘義務がございますのですべてのクライアント名を省略させていただきます。
- 国内新聞記事(約3万文)への品詞/統語情報付与
- 海外新聞記事(ウォールストリートジャーナル、約1万文)への統語/照応情報付与
- 国内ブログからの固有名詞情報抽出
- 話しことばへの言い間違え情報タグ付与
- 国内地名異表記辞典
- 音声認識自動通訳ソフト用固有名詞辞書作成
- 大規模webデータ(約80万文)からの類似文の抽出
小規模な(本当に小規模な)データベース作成でもご相談にのらせていただきます。学生/研究生の方々や非営利目的のご研究の場合には安価にて作業させていただきますので、ご相談くださいませ。
お問合せは下記までメールを:
SDD言語ファクトリー
神戸市中央区下山手通
e-mail: webmaster@kitchentranslator.com
ツイート