XML

2010年10月23日 (土)

お気軽にXMLを扱ってみる 其の7

では、構文解析です。

構文は、字句解析して得た語句を走査して、状態遷移を切り替えながら解析していきます。

たとえば、最初の状態から、『<』をみつけたら、要素定義開始状態に移行して、『>』を見つけるまで、要素として情報として取得して、『>』をみつけたら、要素定義完了みたいな感じです。

ということで、要素関連で状態遷移図を設計したら、以下の様になりました。

1

状態を一つずつ解説しますと、

初期状態 初期、要素の中にいる状態
要素開始 要素名取得前状態
要素名 要素名取得状態
終了要素開始 要素名(終了)取得前状態
終了要素名 要素名(終了)取得状態
終了要素 要素終了前状態

となっています。

次回は、これらをコード化してみます。

| | コメント (0) | トラックバック (0)

2010年10月22日 (金)

お気軽にXMLを扱ってみる 其の6

では、字句解析を設計します。

区切り記号は、以下のワードにします。

『<』,『/』,『"』,『>』,『=』,『 』,『\r』,『\n』,『\t』

上記区切りの中でも、コントロールコードの『\r』,『\n』,『\t』につきましては、参照等を行わないので、構文解析を簡単にするためにも、無視してしまいます。

たとえば、以下の文章に適用すると、

<fruit>
  <apple price="100" />
  <glape price="200" />
</fruit>

以下のような字句に分解できます。

『<』『fruit』『>』『<』『apple』『 』『price』『=』『"』『100』・・・

XMLの文章をいきなり解析しようとすると、どうやってやろうかって感じですが、字句に分解されていれば、なんとか解析できそうですね。

それでは、コード化しましょう。

文章を渡すと、分解された語句の集まりが取得できるような関数になればいいので、以下のような関数を設計します。

void collectTokens( const char* _xml, list<string>& TokenList )

区切りを見つけるたびに、_xmlの文字を一文字ずつ取得して、その文字が区切りでないならば、語句として合成していきます。区切り文字がきたときには、その時点でできあがっている語句をリストに積んで、また、語句の合成を行っていきます。

以上の事をコードにすると、以下のような感じになりました。

void collectTokens( const char* _xml, list<string>& TokenList ) {
    string str;
    for( ;; ) {
        // 文章から一文字取得
        char c = *_xml++;
        if( c == NULL ) {
            // 走査完了
            if( !str.empty() ) {
                // 未処理ワードが残っているならば、リストに積む
                TokenList.push_back( str );
            }
            break;
        }
        else if( ( c == '<' ) || ( c == '/' ) || ( c == '"' ) ||
            ( c == '>' ) ||   ( c == '=' ) || ( c == ' ' ) ||
            ( c == '\n' ) || ( c == '\r' ) || ( c == '\t' ) )
        {
            if( !str.empty() ) {
                TokenList.push_back( str );
                str.clear();
            }
            if( ( c != '\n' ) && ( c != '\r' ) && ( c != '\t' ) )
            {
                // 上記の無視ワード以外
                str = c;
                TokenList.push_back( str );
                str.clear();
            }
        }
        else  {
            str += c;
        }
    }
}

つぎは、構文解析を考えていきます。

| | コメント (0) | トラックバック (0)

2010年8月30日 (月)

お気軽にXMLを扱ってみる 其の5

前回までで、要素、属性を保持する入れ物ができましたので、XMLを解析してクラスに代入していきましょう。

まず、XMLを解析していくわけですが、順番としては、字句解析 -> 構文解析と進めます。

字句解析は、XMLの内容を最小単位に分解する作業になります。この最小単位をトークンと呼びます。今回、トークンとして表現するものは、以下のようにします。

・区切りとなる記号(『<』とか、『=』とか、『"』とかになります)

・要素名や属性名等々

字句解析が完了したら、構文解析に移ります。構文解析では、要素や属性等々を特定する作業になります。
ここでは、状態遷移を使うことで、解析を行っていこうと思います。

それでは、次回、字句解析を設計していきます。

| | コメント (0) | トラックバック (0)

2010年8月18日 (水)

お気軽にXMLを扱ってみる 其の4

ずいぶん、時間が経ってしまいましたが、お気軽にXMLを扱ってみたいと思います。

前回、属性のクラスを設計したので、今回は、要素のクラスを設計します。

要素は、名前と、要素、属性を保持することができます。名前は問題ないとして、要素と属性は、リストかなんかで管理しますか。

とりあえず、要素と属性のリストに関しては、生成、削除、参照の機能を用意します。

では、それらを踏まえて、ソースです。

class element {
public:
    /* 名前の取得 */
    std::string getName( void ) const {
        return m_Name;
    }
    /* 名前の設定 */
    void setName( std::string name ) {
        m_Name = name;
    }
    /* 要素生成 */
    element* createElement( void ) {
        element* e = new element;
        m_ElementList.push_back( e );
        return e;
    }
    /* 要素削除 */
    void deleteElement( element* e ) {
        std::list<element*>::iterator it =
            find( m_ElementList.begin(), m_ElementList.end(), e );
        if( it != m_ElementList.end() ) {
            delete *it;
            m_ElementList.erase( it );
        }
    }
    /* 要素参照 */
    std::list<element*>::iterator getElementBegin( void ) {
        return m_ElementList.begin();
    }
    std::list<element*>::iterator getElementEnd( void ) {
        return m_ElementList.end();
    }
    /* 属性生成 */
    attribute* createAttribute( void ) {
        attribute* a = new attribute;
        m_AttributeList.push_back( a );
        return a;
    }
    /* 属性削除 */
    void deleteAttribute( attribute* a ) {
        std::list<attribute*>::iterator it =
            find( m_AttributeList.begin(), m_AttributeList.end(), a );
        if( it != m_AttributeList.end() ) {
            delete *it;
            m_AttributeList.erase( it );
        }
    }
    /* 属性参照 */
    std::list<attribute*>::iterator getAttributeBegin( void ) {
        return m_AttributeList.begin();
    }
    std::list<attribute*>::iterator getAttributeEnd( void ) {
        return m_AttributeList.end();
    }
public:
    /* コンストラクタ */
    element() {;}
    /* デストラクタ */
    virtual ~element() {
        /* 属性の削除 */
        for( std::list<attribute*>::iterator it = m_AttributeList.begin();
             it != m_AttributeList.end(); it++ )
        {
            delete *it;
        }
        m_AttributeList.clear();
        /* 要素の削除 */
        for( std::list<element*>::iterator it = m_ElementList.begin();
             it != m_ElementList.end(); it++ )
        {
            delete *it;
        }
        m_ElementList.clear();
    }
protected:
    element( const element& );
    const element& operator=( const element& );
protected:
    /* 名前 */
    std::string m_Name;
    /* 要素リスト */
    std::list<element*> m_ElementList;
    /* 属性リスト */
    std::list<attribute*> m_AttributeList;
};

あんまり、解説するところはないですね。一応、参照につきましては、リストのイテレータを取得できるようにしました。

XMLを保持するための入れ物が完成しましたので、つぎは、XMLの読み取りを行っていきたいと思います。

| | コメント (0) | トラックバック (0)

2010年7月23日 (金)

お気軽にXMLを扱ってみる 其の3

ずいぶん、横道にそれていましたが、お気軽にXMLを扱ってみたいと思います。

まずは、属性クラスを設計します。

属性は、名前と値を管理するだけですので、さくっとできます。
以下、ソースリストです。

class attribute {
public:
    /* 名前の取得 */
    std::string getName( void ) const {
        return m_Name;
    }
    /* 値の取得 */
    std::string getValue( void ) const {
        return m_Value;
    }
    /* 名前の設定 */
    void setName( string name ) {
        m_Name = name;
    }
    /* 値の設定 */
    void setValue( string value ) {
        m_Value = value;
    }
public:
    /* コンストラクタ */
    attribute() {;}
    /* デストラクタ */
    virtual ~attribute() {;}
protected:
    attribute( const attribute& );
    const attribute& operator=( const attribute& );
};

解説するまでもないですね。

短いですが、今回はここまで。次回は、要素を管理するクラスを設計します。

| | コメント (0) | トラックバック (0)