« 2010年9月 | トップページ | 2011年4月 »

2010年10月

2010年10月23日 (土)

お気軽にXMLを扱ってみる 其の7

では、構文解析です。

構文は、字句解析して得た語句を走査して、状態遷移を切り替えながら解析していきます。

たとえば、最初の状態から、『<』をみつけたら、要素定義開始状態に移行して、『>』を見つけるまで、要素として情報として取得して、『>』をみつけたら、要素定義完了みたいな感じです。

ということで、要素関連で状態遷移図を設計したら、以下の様になりました。

1

状態を一つずつ解説しますと、

初期状態 初期、要素の中にいる状態
要素開始 要素名取得前状態
要素名 要素名取得状態
終了要素開始 要素名(終了)取得前状態
終了要素名 要素名(終了)取得状態
終了要素 要素終了前状態

となっています。

次回は、これらをコード化してみます。

| | コメント (0) | トラックバック (0)

2010年10月22日 (金)

お気軽にXMLを扱ってみる 其の6

では、字句解析を設計します。

区切り記号は、以下のワードにします。

『<』,『/』,『"』,『>』,『=』,『 』,『\r』,『\n』,『\t』

上記区切りの中でも、コントロールコードの『\r』,『\n』,『\t』につきましては、参照等を行わないので、構文解析を簡単にするためにも、無視してしまいます。

たとえば、以下の文章に適用すると、

<fruit>
  <apple price="100" />
  <glape price="200" />
</fruit>

以下のような字句に分解できます。

『<』『fruit』『>』『<』『apple』『 』『price』『=』『"』『100』・・・

XMLの文章をいきなり解析しようとすると、どうやってやろうかって感じですが、字句に分解されていれば、なんとか解析できそうですね。

それでは、コード化しましょう。

文章を渡すと、分解された語句の集まりが取得できるような関数になればいいので、以下のような関数を設計します。

void collectTokens( const char* _xml, list<string>& TokenList )

区切りを見つけるたびに、_xmlの文字を一文字ずつ取得して、その文字が区切りでないならば、語句として合成していきます。区切り文字がきたときには、その時点でできあがっている語句をリストに積んで、また、語句の合成を行っていきます。

以上の事をコードにすると、以下のような感じになりました。

void collectTokens( const char* _xml, list<string>& TokenList ) {
    string str;
    for( ;; ) {
        // 文章から一文字取得
        char c = *_xml++;
        if( c == NULL ) {
            // 走査完了
            if( !str.empty() ) {
                // 未処理ワードが残っているならば、リストに積む
                TokenList.push_back( str );
            }
            break;
        }
        else if( ( c == '<' ) || ( c == '/' ) || ( c == '"' ) ||
            ( c == '>' ) ||   ( c == '=' ) || ( c == ' ' ) ||
            ( c == '\n' ) || ( c == '\r' ) || ( c == '\t' ) )
        {
            if( !str.empty() ) {
                TokenList.push_back( str );
                str.clear();
            }
            if( ( c != '\n' ) && ( c != '\r' ) && ( c != '\t' ) )
            {
                // 上記の無視ワード以外
                str = c;
                TokenList.push_back( str );
                str.clear();
            }
        }
        else  {
            str += c;
        }
    }
}

つぎは、構文解析を考えていきます。

| | コメント (0) | トラックバック (0)

« 2010年9月 | トップページ | 2011年4月 »