Mextractrのドキュメント
Mextractr WebAPIは、イベント(出来事)のメタデータ自動抽出APIです。
テキストを渡すと、その中に含まれている日時・地名・人名といったイベントのメタデータを抽出して
Atom形式で返します。Mextractrは現在、β版、すなわち開発中の状態で無償版を試験的に公開しています。
APIの利用条件については、利用規約ページをご覧ください。
呼び出しURLとパラメータ
呼び出しURL
http://api.emetadata.net/mextractr
入力パラメータ
| パラメータ | 形式 | 意味 |
| text | UTF8でURLエンコードした文字列 | メタデータ抽出元の文字列 |
| out | 現状"atom"だけ | 出力データの形式:デフォルトはatom |
| apikey | 文字列 | MextractrのAPIキー(必須) |
出力形式
形式1:Atom
現状、Atom形式だけをサポートしています(順次追加予定)。gDataのEventKindの仕様に準拠しています。 (gDataについての詳細は: Googleコードサイト内gdEventKindの解説 )
下記では、Mextractr WebAPIの仕様として注意点のあるものだけを記述しています。文字コードはUTF-8です。
| 要素(属性)名 *は0~N回、無印は1回 | データ型 | 説明 |
| feed/entry/content | string | 抽出元文字列すべて (<,>,&は'>','<','&' に置換されます) |
| feed/entry/gd:who(valueString) * | string | 人名/法人名 法人名と推測される場合は先頭に'*'を付ける |
| feed/entry/gd:when(valueString) * | date/datetime | 日時に関する抽出結果 |
| feed/entry/gd:where(valueString) * | string | 場所、位置に関する抽出結果 |
| feed/entry/gd:extendedProperty name='what'(value) * | string | 何をするかに関する抽出結果 |
サンプル
*サンプルコードはこちら。
呼び出しURL
http://api.emetadata.net/mextractr?text=%e6%9d%a5%e3%82%8b5%e6%9c%8823%e6%97%a5%e3%80%81%e5%ae%9a%e6%99%82%e6%a0%aa%e4%b8%bb%e7%b7%8f%e4%bc%9a%e3%82%92%e6%9d%b1%e4%ba%ac%e9%83%bd%e5%a2%a8%e7%94%b0%e5%8c%ba%e6%9c%ac%e6%89%80%e3%81%ae%e5%bc%8a%e7%a4%be%e6%9c%ac%e5%ba%97A%e4%bc%9a%e8%ad%b0%e5%ae%a4%e3%81%ab%e3%81%a6%e9%96%8b%e5%82%ac%e3%81%84%e3%81%9f%e3%81%97%e3%81%be%e3%81%99%e3%80%82%0d%0a%e6%98%af%e9%9d%9e%e3%81%94%e5%87%ba%e5%b8%ad%e3%81%84%e3%81%9f%e3%81%a0%e3%81%91%e3%81%be%e3%81%99%e3%82%88%e3%81%86%e3%81%8a%e9%a1%98%e3%81%84%e7%94%b3%e3%81%97%e3%81%82%e3%81%92%e3%81%be%e3%81%99%e3%80%82%20%e3%83%a1%e3%82%bf%e3%83%87%e3%83%bc%e3%82%bf%e6%a0%aa%e5%bc%8f%e4%bc%9a%e7%a4%be&out=atom&apikey=XXXXXXXXX
パラメータの指定内容は以下のとおりです。
-
out=atom
atom形式での出力を指定(現状、固定パラメータです) -
apikey=XXXXXXXX
APIキーの指定(ここではダミーです。実際の使用では、キーを取得して置換してください) -
text= ...
UTF-8でURLエンコードした文字列。
内容は次のとおり:”来る5月23日、定時株主総会を墨田区の弊社本店A会議室にて開催いたします。是非ご出席いただけますようお願い申しあげます。 メタデータ株式会社”
出力結果
<?xml version="1.0" encoding="utf-8"?>
<feed xmlns="http://www.w3.org/2005/Atom"
xmlns:gd="http://schemas.google.com/g/2005"
xmlns:georss="http://www.georss.org/georss">
<title>Mextractr results</title>
<updated>Mon Jun 02 16:09:48 JST2008</updated>
<author><name>Mextractr</name></author>
<id>20080602_0001</id>
<entry xmlns:gd="http://schemas.google.com/g/2005">
<category scheme="http://schemas.google.com/g/2005#kind"
term="http://schemas.google.com/g/2005#event"/>
<id>20080602_0001</id>
<title>extracted event metadata</title>
<author><name>Mextractr</name></author>
<updated>Mon Jun 02 16:09:48 JST 2008</updated>
<content>来る5月23日、定時株主総会を東京都墨田区本所の弊社本店A会議室にて開催いたします。
是非ご出席いただけますようお願い申しあげます。 メタデータ株式会社</content>
<gd:when startTime='5月23日' valueString='5月23日'/>
<gd:who valueString='*メタデータ株式会社'/>
<gd:where valueString='東京都墨田区本所'/>
<gd:where valueString='弊社本店A会議室'/>
<gd:extendedProperty name='what' value='定時株主総会'/>
</entry>
</feed>
エラー出力サンプル
<?xml version="1.0" encoding="utf-8" ?>
<error>
<message>GET/POST param apikey is invalid.</message>
</error>
拡張機能について
2008年7月15日より拡張機能の一般公開を行っています。→好評につき8月末日まで公開期間を延長します。 MA4応募のための当機能の利用延長、および、サポート付き有償サービスについては下記問い合わせ先まで お問い合わせください。
公開中の機能は以下の通りです。
- 日付の数値化(正規化):文字列で表現されている日付を数値化(正規化)したデータを付与します
<gd:when startTime="2008-05-23" valueString="5月23日"/>
<gd:where valueString="ハワイ島"/>
<georss:point/>19.621892 -155.478516</georss:point/>
</gd:where/>
<cbc:Amount currencyID='JPY'>1500円</cbc:Amount>
また、金額を扱うため、および、今後の機能拡張で活用するため、名前空間として以下を追加しました。
xmlns:cac="urn:oasis:names:specification:ubl:schema:xsd:CommonAggregateComponents-2" xmlns:cbc="urn:oasis:names:specification:ubl:schema:xsd:CommonBasicComponents-2" xmlns:ext="urn:oasis:names:specification:ubl:schema:xsd:CommonExtensionComponents-2"これらの名前空間はUniversal Business Language (UBL) v2.0で定義しているものです。
更新記録
- 2008-09-09:Atom内のcontentの出力について、
<,>,&をそれぞれ'>','<','&' に置換して出力するよう変更しました。
一部の不適切な仕様の古いブラウザやフィードリーダからMextractrAPIを呼出して変換させた場合、
悪意ある原文テキストの入力によりAtom内に万一script表記が生成された場合に実行してしまう可能性が存在していた問題を解消しました。 - 2008-08-01:試験的に、日本円による金額表現の抽出を追加しています。
- 2008-07-30:whenについて、期間の表現を時点の表現と誤認識する現象を改善しました。
- 2008-07-30:年の省略、月の省略表記に対する推定処理を追加しました。
- 2008-07-30:主にwhoについて接辞自身がvalueStringに含まれない問題を解決しました。
- 2008-07-30:接頭辞の「株式会社」が後続の名詞や未定義語とまとめあげられない問題を解決しました。
- 2008-07-22:アルファベット未定義語の品詞推定に関する過学習を解消しました。
これにより、アルファベット未定義語がgd:whoになりがちだった問題点が解決しました。 - 2008-07-15:期間限定で拡張機能の一般公開を開始しました。
- 2008-07-15:APIの処理速度を大幅に改善しました(約10倍速)。
- 2008-06-18:whereの抽出結果が細かく切れる問題を改善しました。
お問い合わせは
Mextractrについてのお問い合わせはmextractr@metadata.co.jp
までメールでご連絡ください。
(お手数ですが、アットマークを半角に置き換えてください)
