Skip to content

[ML] khaiii Tokenizer #3

Description

@nsms556

존재하는 태그만 사용 여부

  • 참조한 코드의 경우 아레나 점수를 높이기 위해 Train Set에 존재하는 태그만 필터링하여 사용
  • 필터링을 빼면 좀 더 다양한 태그를 생성 가능할 것으로 예상
    • 그러나 토큰화 자체가 정확하지 않은 경우가 있어서 뜬금없는 토큰이 태그로 저장되는 경우 존재
    • 이를 막으려면 미리 토큰 사전을 생성할 필요가 있음 -> 시간이 오래 걸릴 것으로 생각됨

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions