Mach/builder/src-c/tokenizer.c

#include <parser.h>

#include <stdio.h>
#include <stdlib.h>

i32_t mach_tokenize(MachTokenStream *stream)
{
    usz_t tokens_capacity = 2048;
    stream->num_tokens = 0;
    stream->tokens = calloc(sizeof(MachToken), tokens_capacity);
    
    usz_t offset = 0;
    while(offset < stream->len_source)
    {
        // There must always be one more after the last one for the STREAM_END token.
        if((stream->num_tokens + 1) >= tokens_capacity)
        {
            tokens_capacity *= 2;
            stream->tokens = realloc(stream->tokens, sizeof(MachToken) * tokens_capacity);
        }
        usz_t token_start = offset;
        usz_t len_token = 0;
        rune_t rune = rr_extract_utf8(stream->source, offset, &len_token);
        if(len_token == 0)
        {
            // TODO: A log-entry because of invalid UTF-8 should be written here.
            return -1;
        }
        offset += len_token;
        
        if(rr_rune_is_letter(rune))
        {
            while(offset < stream->len_source)
            {
                len_token = 0;
                rune = rr_extract_utf8(stream->source, offset, &len_token);
                if(!rr_rune_is_letter(rune) && (rune != '_'))
                    break;
                offset += len_token;
            }
            MachToken token;
            token.offset = token_start;
            token.length = offset - token_start;
            token.type = MACH_TOKEN_WORD;
            token.data.sign_type = rr_rune_to_ascii_sign(rune);
            stream->tokens[stream->num_tokens++] = token;
            continue;
        }
        
        if(rr_rune_is_digit(rune))
        {
            while(offset < stream->len_source)
            {
                rune = rr_extract_utf8(stream->source, offset, &offset);
                if(!rr_rune_is_digit(rune))
                    break;
            }
            MachToken token;
            token.offset = token_start;
            token.length = offset - token_start;
            token.type = MACH_TOKEN_INTEGER;
            token.data.sign_type = rr_rune_to_ascii_sign(rune);
            stream->tokens[stream->num_tokens++] = token;
            continue;
        }
        
        if(rune == '#')
        {
            usz_t old_offset = offset;
            rune_t following_rune = rr_extract_utf8(stream->source, offset, &offset);
            if(following_rune == '#')
            {
                while(offset < stream->len_source)
                {
                    following_rune = rr_extract_utf8(stream->source, offset, &offset);
                    if(following_rune == '\n')
                        break;
                }
                continue;
            }
            else if(following_rune == '[')
            {
                // Count how many brackets are needed to end this comment
                
                usz_t num_opening_brackets = 1;
                while(offset < stream->len_source)
                {
                    following_rune = rr_extract_utf8(stream->source, offset, &offset);
                    if(following_rune != '[')
                        break;
                    ++num_opening_brackets;
                }
                
                // Find the end of the comment
                
                while(offset < stream->len_source)
                {
                    following_rune = rr_extract_utf8(stream->source, offset, &offset);
                    usz_t num_closing_brackets = 0;
                    while(following_rune == ']')
                    {
                        ++num_closing_brackets;
                        if(num_closing_brackets == num_opening_brackets)
                            break;
                        following_rune = rr_extract_utf8(stream->source, offset, &offset);
                    }
                }
                continue;
            }
            offset = old_offset;
        }
        
        if(rune == '"')
        {
            bool_t faulty = FALSE;
            while(offset < stream->len_source)
            {
                rune = rr_extract_utf8(stream->source, offset, &offset);
                
                if(rune == '"')
                    break;
                
                if(rune == '\n')
                {
                    faulty = TRUE;
                    break;
                }
                // If this is a backslash, skip the next character
                if(rune == '\\')
                    rr_extract_utf8(stream->source, offset, &offset);
            }
            if(faulty)
            {
                // TODO: A log-entry because of an invalid string should be written here
                return -2;
            }
            MachToken token;
            token.offset = token_start;
            token.length = offset - token_start;
            token.type = MACH_TOKEN_STRING;
            token.data.processed_string = NULL; // !TODO!: Postprocess escape sequences
            stream->tokens[stream->num_tokens++] = token;
            continue;
        }
        
        if(rr_rune_is_ascii_special(rune))
        {
            MachToken token;
            token.offset = token_start;
            token.length = offset - token_start;
            token.type = MACH_TOKEN_SPECIAL_SIGN;
            token.data.sign_type = rr_rune_to_ascii_sign(rune);
            stream->tokens[stream->num_tokens++] = token;
            continue;
        }
        
        
    }
    return 0;
}
Added initial code; tokenizer/token-display, main function and other boilerplate like the build script 2024-02-11 06:10:01 +00:00			`#include <parser.h>`

			`#include <stdio.h>`
			`#include <stdlib.h>`

			`i32_t mach_tokenize(MachTokenStream *stream)`
			`{`
			`usz_t tokens_capacity = 2048;`
			`stream->num_tokens = 0;`
			`stream->tokens = calloc(sizeof(MachToken), tokens_capacity);`

			`usz_t offset = 0;`
			`while(offset < stream->len_source)`
			`{`
			`// There must always be one more after the last one for the STREAM_END token.`
			`if((stream->num_tokens + 1) >= tokens_capacity)`
			`{`
			`tokens_capacity *= 2;`
			`stream->tokens = realloc(stream->tokens, sizeof(MachToken) * tokens_capacity);`
			`}`
			`usz_t token_start = offset;`
			`usz_t len_token = 0;`
			`rune_t rune = rr_extract_utf8(stream->source, offset, &len_token);`
			`if(len_token == 0)`
			`{`
			`// TODO: A log-entry because of invalid UTF-8 should be written here.`
			`return -1;`
			`}`
			`offset += len_token;`

			`if(rr_rune_is_letter(rune))`
			`{`
			`while(offset < stream->len_source)`
			`{`
			`len_token = 0;`
			`rune = rr_extract_utf8(stream->source, offset, &len_token);`
			`if(!rr_rune_is_letter(rune) && (rune != '_'))`
			`break;`
			`offset += len_token;`
			`}`
			`MachToken token;`
			`token.offset = token_start;`
			`token.length = offset - token_start;`
			`token.type = MACH_TOKEN_WORD;`
			`token.data.sign_type = rr_rune_to_ascii_sign(rune);`
			`stream->tokens[stream->num_tokens++] = token;`
			`continue;`
			`}`

			`if(rr_rune_is_digit(rune))`
			`{`
			`while(offset < stream->len_source)`
			`{`
			`rune = rr_extract_utf8(stream->source, offset, &offset);`
			`if(!rr_rune_is_digit(rune))`
			`break;`
			`}`
			`MachToken token;`
			`token.offset = token_start;`
			`token.length = offset - token_start;`
			`token.type = MACH_TOKEN_INTEGER;`
			`token.data.sign_type = rr_rune_to_ascii_sign(rune);`
			`stream->tokens[stream->num_tokens++] = token;`
			`continue;`
			`}`

			`if(rune == '#')`
			`{`
			`usz_t old_offset = offset;`
			`rune_t following_rune = rr_extract_utf8(stream->source, offset, &offset);`
			`if(following_rune == '#')`
			`{`
			`while(offset < stream->len_source)`
			`{`
			`following_rune = rr_extract_utf8(stream->source, offset, &offset);`
			`if(following_rune == '\n')`
			`break;`
			`}`
			`continue;`
			`}`
			`else if(following_rune == '[')`
			`{`
			`// Count how many brackets are needed to end this comment`

			`usz_t num_opening_brackets = 1;`
			`while(offset < stream->len_source)`
			`{`
			`following_rune = rr_extract_utf8(stream->source, offset, &offset);`
			`if(following_rune != '[')`
			`break;`
			`++num_opening_brackets;`
			`}`

			`// Find the end of the comment`

			`while(offset < stream->len_source)`
			`{`
			`following_rune = rr_extract_utf8(stream->source, offset, &offset);`
			`usz_t num_closing_brackets = 0;`
			`while(following_rune == ']')`
			`{`
			`++num_closing_brackets;`
			`if(num_closing_brackets == num_opening_brackets)`
			`break;`
			`following_rune = rr_extract_utf8(stream->source, offset, &offset);`
			`}`
			`}`
			`continue;`
			`}`
			`offset = old_offset;`
			`}`

			`if(rune == '"')`
			`{`
			`bool_t faulty = FALSE;`
			`while(offset < stream->len_source)`
			`{`
			`rune = rr_extract_utf8(stream->source, offset, &offset);`

			`if(rune == '"')`
			`break;`

			`if(rune == '\n')`
			`{`
			`faulty = TRUE;`
			`break;`
			`}`
			`// If this is a backslash, skip the next character`
			`if(rune == '\\')`
			`rr_extract_utf8(stream->source, offset, &offset);`
			`}`
			`if(faulty)`
			`{`
			`// TODO: A log-entry because of an invalid string should be written here`
			`return -2;`
			`}`
			`MachToken token;`
			`token.offset = token_start;`
			`token.length = offset - token_start;`
			`token.type = MACH_TOKEN_STRING;`
			`token.data.processed_string = NULL; // !TODO!: Postprocess escape sequences`
			`stream->tokens[stream->num_tokens++] = token;`
			`continue;`
			`}`

			`if(rr_rune_is_ascii_special(rune))`
			`{`
			`MachToken token;`
			`token.offset = token_start;`
			`token.length = offset - token_start;`
			`token.type = MACH_TOKEN_SPECIAL_SIGN;`
			`token.data.sign_type = rr_rune_to_ascii_sign(rune);`
			`stream->tokens[stream->num_tokens++] = token;`
			`continue;`
			`}`


			`}`
			`return 0;`
			`}`