Skip to content

Instantly share code, notes, and snippets.

@phineas-pta
Last active April 19, 2025 09:21
Show Gist options
  • Select an option

  • Save phineas-pta/05cad38a29fea000ab6d9e13a6f7e623 to your computer and use it in GitHub Desktop.

Select an option

Save phineas-pta/05cad38a29fea000ab6d9e13a6f7e623 to your computer and use it in GitHub Desktop.

Revisions

  1. phineas-pta revised this gist May 25, 2023. 2 changed files with 112 additions and 11 deletions.
    23 changes: 21 additions & 2 deletions xoa_dau.md
    Original file line number Diff line number Diff line change
    @@ -18,6 +18,21 @@ def xoa_dau(txt: str) -> str:
    return txt.translate(BANG_XOA_DAU)
    ```

    **hãy xem phần giải thích bên dưới để hiểu về các dạng unicode chuẩn C và D**

    phiên bản không phụ thuộc vào các dạng unicode cho ai muốn mì ăn liền

    ```python
    BANG_XOA_DAU_FULL = str.maketrans(
    "ÁÀẢÃẠĂẮẰẲẴẶÂẤẦẨẪẬĐÈÉẺẼẸÊẾỀỂỄỆÍÌỈĨỊÓÒỎÕỌÔỐỒỔỖỘƠỚỜỞỠỢÚÙỦŨỤƯỨỪỬỮỰÝỲỶỸỴáàảãạăắằẳẵặâấầẩẫậđèéẻẽẹêếềểễệíìỉĩịóòỏõọôốồổỗộơớờởỡợúùủũụưứừửữựýỳỷỹỵ",
    "A"*17 + "D" + "E"*11 + "I"*5 + "O"*17 + "U"*11 + "Y"*5 + "a"*17 + "d" + "e"*11 + "i"*5 + "o"*17 + "u"*11 + "y"*5,
    chr(774) + chr(770) + chr(795) + chr(769) + chr(768) + chr(777) + chr(771) + chr(803) # 8 kí tự dấu dưới dạng unicode chuẩn D
    )

    def xoa_dau_full(txt: str) -> str:
    return txt.translate(BANG_XOA_DAU_FULL)
    ```

    ## 1. giải thích quá trình

    cần package `unicodedata` (có sẵn trong python):
    @@ -78,22 +93,26 @@ txt.translate(BANG_XOA_DAU) # "“ Dao duc kinh”"
    ```

    lệnh thay thế kí tự trên toàn chuỗi được thực thi đúng 1 lần duy nhất

    ngoài ra parameter thứ 3 của `str.maketrans` là 1 string của các kí tự muốn xoá, ta có thể đưa vào 8 kí tự dấu vào đó (xem code đầu bài)

    ## 2. so sánh với các cách xoá dấu thường sử dụng khác

    ### 2.1. cài thêm package phụ trợ

    điểm mạnh là tốc độ, do thực thi lệnh thay thế kí tự trên toàn chuỗi đúng 1 lần duy nhất (giống như trên), nhưng còn nhiều thiếu sót

    - *dùng `unidecode.unidecode()`*: vốn được dùng để chuyển kí tự unicode về bảng ASCII, vậy nên sẽ **làm mất các kí tự khác**, ví dụ ở trên 2 kí tự `“ ”` sẽ thành `" "`; phương pháp duy nhất ko bị ảnh hưởng bởi dạng unicode chuẩn C hay D
    - *package [`unidecode`](https://github.com/avian2/unidecode)*: vốn được dùng để chuyển kí tự unicode về bảng ASCII, vậy nên sẽ **làm mất các kí tự khác**, ví dụ ở trên 2 kí tự `“ ”` sẽ thành `" "`; phương pháp duy nhất ko bị ảnh hưởng bởi dạng unicode chuẩn C hay D

    ```python
    from unidecode import unidecode
    txt = "“Đạo đức kinh”"
    unidecode(txt) # '" Dao duc kinh"'
    ```

    - *dùng `flashtext.KeywordProcessor()`*: hứa hẹn tốc độ nhanh hơn cả `.replace()``RegEx` do có thuật toán đặc biệt, **nhưng chưa tương thích với kí tự ngoài bảng ASCII**
    - *thuật toán FlashText với package [`flashtext`](https://github.com/vi3k6i5/flashtext)*: hứa hẹn tốc độ nhanh hơn cả `.replace()``RegEx`, **nhưng không thể thực thi thay thế kí tự** (có thể thay thế từ - word)

    - *thuật toán Aho-Corasick với package [`fsed`](https://github.com/wroberts/fsed) hoặc [`cyac`](https://github.com/nppoly/cyac)*: trong số các package sử dụng thuật toán Aho-Corasick, chỉ có 2 package này có chức năng thay thế kí tự, còn lại chỉ có chức năng tìm, tốc độ cũng rất tốt

    ### 2.2. xử lí kí tự bằng công cụ có sẵn trong python

    100 changes: 91 additions & 9 deletions xoa_dau_benchmark.ipynb
    91 additions, 9 deletions not shown because the diff is too large. Please use a local Git client to view these changes.
  2. phineas-pta revised this gist May 24, 2023. 2 changed files with 230 additions and 4 deletions.
    10 changes: 6 additions & 4 deletions xoa_dau.md
    Original file line number Diff line number Diff line change
    @@ -1,6 +1,6 @@
    # xoá dấu tiếng Việt với Python

    phương pháp nhanh hơn, hiệu quả hơn và không cần cài thêm package
    phương pháp nhanh hơn và không cần cài thêm package

    code hoàn chỉnh:

    @@ -97,10 +97,12 @@ unidecode(txt) # '" Dao duc kinh"'

    ### 2.2. xử lí kí tự bằng công cụ có sẵn trong python

    xem kết quả benchmark ở notebook phía dưới

    - khởi tạo chuỗi mới

    ```python
    BANG_XOA_DAU_1 = {"Á": "A" , "À": "A" , …}
    BANG_XOA_DAU_1 = {"Á": "A", "À": "A", …}
    txt = "“Đạo đức kinh”"
    txt = "".join([BANG_XOA_DAU_1.get(s, s) for s in txt])
    ```
    @@ -110,15 +112,15 @@ về cơ bản thì tương đương với phương pháp mình trình bày ở
    - *dùng `.replace()`*:

    ```python
    BANG_XOA_DAU_2 = {"Á": "A" , "À": "A" , …} # total 134 items
    BANG_XOA_DAU_2 = {"Á": "A", "À": "A", …} # total 134 items
    txt = "“Đạo đức kinh”"
    for k, v in BANG_XOA_DAU_2.items():
    txt = txt.replace(k, v)
    ```

    lệnh thay thế kí tự trên toàn chuỗi (`.replace()`) được thực thi 134 lần

    - *dùng `RegEx`*: viết code ngắn hơn, tốc độ nhanh hơn `.replace()`
    - *dùng `RegEx`*: viết code ngắn hơn, ~~tốc độ nhanh hơn `.replace()`~~

    ```python
    import re
    224 changes: 224 additions & 0 deletions xoa_dau_benchmark.ipynb
    Original file line number Diff line number Diff line change
    @@ -0,0 +1,224 @@
    {
    "cells": [
    {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
    "# Benchmark xóa dấu"
    ]
    },
    {
    "cell_type": "code",
    "execution_count": 1,
    "metadata": {},
    "outputs": [],
    "source": [
    "import re, random\n",
    "from timeit import timeit\n",
    "from matplotlib import pyplot as plt"
    ]
    },
    {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
    "mặc định văn bản dưới dạng unicode chuẩn C (unicode normal form C)"
    ]
    },
    {
    "cell_type": "code",
    "execution_count": 2,
    "metadata": {},
    "outputs": [],
    "source": [
    "CHU_CO_DAU = \"ÁÀẢÃẠĂẮẰẲẴẶÂẤẦẨẪẬĐÈÉẺẼẸÊẾỀỂỄỆÍÌỈĨỊÓÒỎÕỌÔỐỒỔỖỘƠỚỜỞỠỢÚÙỦŨỤƯỨỪỬỮỰÝỲỶỸỴáàảãạăắằẳẵặâấầẩẫậđèéẻẽẹêếềểễệíìỉĩịóòỏõọôốồổỗộơớờởỡợúùủũụưứừửữựýỳỷỹỵ\"\n",
    "CHU_KO_DAU = \"A\"*17 + \"D\" + \"E\"*11 + \"I\"*5 + \"O\"*17 + \"U\"*11 + \"Y\"*5 + \"a\"*17 + \"d\" + \"e\"*11 + \"i\"*5 + \"o\"*17 + \"u\"*11 + \"y\"*5\n",
    "assert(len(CHU_CO_DAU) == len(CHU_KO_DAU))"
    ]
    },
    {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
    "№ 0: `str.maketrans() + .translate()`"
    ]
    },
    {
    "cell_type": "code",
    "execution_count": 3,
    "metadata": {},
    "outputs": [],
    "source": [
    "BANG_XOA_DAU_0 = str.maketrans(CHU_CO_DAU, CHU_KO_DAU)\n",
    "def xoa_dau_0(txt):\n",
    " return txt.translate(BANG_XOA_DAU_0)"
    ]
    },
    {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
    "№ 1: `new string`"
    ]
    },
    {
    "cell_type": "code",
    "execution_count": 4,
    "metadata": {},
    "outputs": [],
    "source": [
    "BANG_XOA_DAU_1 = dict(zip(CHU_CO_DAU, CHU_KO_DAU))\n",
    "def xoa_dau_1(txt):\n",
    " return \"\".join(BANG_XOA_DAU_1.get(s, s) for s in txt)"
    ]
    },
    {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
    "№ 2: `.replace()`"
    ]
    },
    {
    "cell_type": "code",
    "execution_count": 5,
    "metadata": {},
    "outputs": [],
    "source": [
    "BANG_XOA_DAU_2 = dict(zip(CHU_CO_DAU, CHU_KO_DAU))\n",
    "def xoa_dau_2(txt):\n",
    " for k, v in BANG_XOA_DAU_2.items():\n",
    " txt = txt.replace(k, v)\n",
    " return txt"
    ]
    },
    {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
    "№ 3: `RegEx`"
    ]
    },
    {
    "cell_type": "code",
    "execution_count": 6,
    "metadata": {},
    "outputs": [],
    "source": [
    "BANG_XOA_DAU_3 = {\n",
    " \"A\": re.compile(\"[ÁÀẢÃẠĂẮẰẲẴẶÂẤẦẨẪẬ]\"),\n",
    " \"D\": re.compile(\"Đ\"),\n",
    " \"E\": re.compile(\"[ÈÉẺẼẸÊẾỀỂỄỆ]\"),\n",
    " \"I\": re.compile(\"[ÍÌỈĨỊ]\"),\n",
    " \"O\": re.compile(\"[ÓÒỎÕỌÔỐỒỔỖỘƠỚỜỞỠỢ]\"),\n",
    " \"U\": re.compile(\"[ÚÙỦŨỤƯỨỪỬỮỰ]\"),\n",
    " \"Y\": re.compile(\"[ÝỲỶỸỴ]\"),\n",
    " \"a\": re.compile(\"[áàảãạăắằẳẵặâấầẩẫậ]\"),\n",
    " \"d\": re.compile(\"đ\"),\n",
    " \"e\": re.compile(\"[èéẻẽẹêếềểễệ]\"),\n",
    " \"i\": re.compile(\"[íìỉĩị]\"),\n",
    " \"o\": re.compile(\"[óòỏõọôốồổỗộơớờởỡợ]\"),\n",
    " \"u\": re.compile(\"[úùủũụưứừửữự]\"),\n",
    " \"y\": re.compile(\"[ýỳỷỹỵ]\")\n",
    "}\n",
    "def xoa_dau_3(txt):\n",
    " for k, v in BANG_XOA_DAU_3.items():\n",
    " txt = v.sub(k, txt)\n",
    " return txt"
    ]
    },
    {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
    "array chứa thời gian thực thi từng phương pháp để so sánh"
    ]
    },
    {
    "cell_type": "code",
    "execution_count": 7,
    "metadata": {},
    "outputs": [],
    "source": [
    "vec_N, vec_0, vec_1, vec_2, vec_3 = [], [], [], [], []"
    ]
    },
    {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
    "benchmark với văn bản có độ dài 10<sup>0</sup>, 10<sup>1</sup>, 10<sup>2</sup>, …, 10<sup>8</sup> kí tự, với tất cả kí tự đều có dấu (worst-case scenario)"
    ]
    },
    {
    "cell_type": "code",
    "execution_count": 8,
    "metadata": {},
    "outputs": [],
    "source": [
    "N_repet = 10 # sồ lần thực thi (lấy thời gian trung bình)\n",
    "for i in range(9):\n",
    " N = 10**i\n",
    " txt = \"\".join(random.choices(CHU_CO_DAU, k=N))\n",
    "\n",
    " t_0 = timeit(\"xoa_dau_0(txt)\", number=N_repet, globals=globals())\n",
    " t_1 = timeit(\"xoa_dau_1(txt)\", number=N_repet, globals=globals())\n",
    " t_2 = timeit(\"xoa_dau_2(txt)\", number=N_repet, globals=globals())\n",
    " t_3 = timeit(\"xoa_dau_3(txt)\", number=N_repet, globals=globals())\n",
    "\n",
    " vec_N.append(N)\n",
    " vec_0.append(t_0)\n",
    " vec_1.append(t_1)\n",
    " vec_2.append(t_2)\n",
    " vec_3.append(t_3)"
    ]
    },
    {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
    "đồ thị so sánh"
    ]
    },
    {
    "cell_type": "code",
    "execution_count": 9,
    "metadata": {},
    "outputs": [
    {
    "data": {
    "image/png": "",
    "text/plain": [
    "<Figure size 640x480 with 1 Axes>"
    ]
    },
    "metadata": {},
    "output_type": "display_data"
    }
    ],
    "source": [
    "plt.plot(vec_N, vec_0, color=\"red\", label=\"str.maketrans()\")\n",
    "plt.plot(vec_N, vec_1, color=\"green\", label=\"new string\")\n",
    "plt.plot(vec_N, vec_2, color=\"blue\", label=\".replace()\")\n",
    "plt.plot(vec_N, vec_3, color=\"black\", label=\"RegEx\")\n",
    "plt.xscale(\"log\")\n",
    "plt.xlabel(\"string length\")\n",
    "plt.ylabel(\"time (s)\")\n",
    "plt.legend()\n",
    "plt.show()"
    ]
    }
    ],
    "metadata": {
    "kernelspec": {
    "display_name": "Python 3",
    "language": "python",
    "name": "python3"
    },
    "language_info": {
    "name": "python"
    }
    },
    "nbformat": 4,
    "nbformat_minor": 5
    }
  3. phineas-pta revised this gist May 23, 2023. 1 changed file with 32 additions and 22 deletions.
    54 changes: 32 additions & 22 deletions xoa_dau.md
    Original file line number Diff line number Diff line change
    @@ -7,15 +7,15 @@ code hoàn chỉnh:
    ```python
    import unicodedata

    DIACRITICS_TABLE = str.maketrans(
    BANG_XOA_DAU = str.maketrans(
    "ÁÀẢÃẠĂẮẰẲẴẶÂẤẦẨẪẬĐÈÉẺẼẸÊẾỀỂỄỆÍÌỈĨỊÓÒỎÕỌÔỐỒỔỖỘƠỚỜỞỠỢÚÙỦŨỤƯỨỪỬỮỰÝỲỶỸỴáàảãạăắằẳẵặâấầẩẫậđèéẻẽẹêếềểễệíìỉĩịóòỏõọôốồổỗộơớờởỡợúùủũụưứừửữựýỳỷỹỵ",
    "A"*17 + "D" + "E"*11 + "I"*5 + "O"*17 + "U"*11 + "Y"*5 + "a"*17 + "d" + "e"*11 + "i"*5 + "o"*17 + "u"*11 + "y"*5
    )

    def xoa_dau(txt: str) -> str:
    if not unicodedata.is_normalized("NFC", txt):
    txt = unicodedata.normalize("NFC", txt)
    return txt.translate(DIACRITICS_TABLE)
    return txt.translate(BANG_XOA_DAU)
    ```

    ## 1. giải thích quá trình
    @@ -65,7 +65,7 @@ unicodedata.is_normalized("NFC", txt) # True
    nhờ vào dạng unicode chuẩn C, thay thế kí tự là “1 kí tự thay thế 1 kí tự” (thay vì “1 kí tự thay thế nhiều kí tự” nếu không đúng chuẩn), cách làm hiệu quả nhất là tạo bảng tương ứng kí tự có dấu - ko dấu với hàm `str.maketrans()` có sẵn trong python:

    ```python
    DIACRITICS_TABLE = str.maketrans(
    BANG_XOA_DAU = str.maketrans(
    "ÁÀẢÃẠĂẮẰẲẴẶÂẤẦẨẪẬĐÈÉẺẼẸÊẾỀỂỄỆÍÌỈĨỊÓÒỎÕỌÔỐỒỔỖỘƠỚỜỞỠỢÚÙỦŨỤƯỨỪỬỮỰÝỲỶỸỴáàảãạăắằẳẵặâấầẩẫậđèéẻẽẹêếềểễệíìỉĩịóòỏõọôốồổỗộơớờởỡợúùủũụưứừửữựýỳỷỹỵ",
    "A"*17 + "D" + "E"*11 + "I"*5 + "O"*17 + "U"*11 + "Y"*5 + "a"*17 + "d" + "e"*11 + "i"*5 + "o"*17 + "u"*11 + "y"*5
    )
    @@ -74,10 +74,10 @@ DIACRITICS_TABLE = str.maketrans(
    xoá dấu với hàm `.translate()` có sẵn trong python:

    ```python
    txt.translate(DIACRITICS_TABLE) # "“ Dao duc kinh”"
    txt.translate(BANG_XOA_DAU) # "“ Dao duc kinh”"
    ```

    lệnh thay thế kí tự trên toàn chuỗi đúng 1 lần duy nhất
    lệnh thay thế kí tự trên toàn chuỗi được thực thi đúng 1 lần duy nhất

    ## 2. so sánh với các cách xoá dấu thường sử dụng khác

    @@ -89,40 +89,50 @@ lệnh thay thế kí tự trên toàn chuỗi đúng 1 lần duy nhất

    ```python
    from unidecode import unidecode
    unidecode(txt) # '" Dao duc kinh"'
    unidecode(raw_txt) # '" Dao duc kinh"'
    txt = "“Đạo đức kinh"
    unidecode(txt) # '" Dao duc kinh"'
    ```

    - *dùng `flashtext.KeywordProcessor()`*: hứa hẹn tốc độ nhanh hơn cả `.replace()``RegEx` do có thuật toán đặc biệt, **nhưng chưa tương thích với kí tự ngoài bảng ASCII**

    ### 2.2. xử lí kí tự bằng công cụ có sẵn trong python

    lệnh thay thế kí tự trên toàn chuỗi được thực thi nhiều lần nên sẽ chậm hơn
    - khởi tạo chuỗi mới

    ```python
    BANG_XOA_DAU_1 = {"Á": "A" , "À": "A" , …}
    txt = "“Đạo đức kinh”"
    txt = "".join([BANG_XOA_DAU_1.get(s, s) for s in txt])
    ```

    về cơ bản thì tương đương với phương pháp mình trình bày ở trên, nhưng chậm hơn do sử dụng vòng lặp `for`

    - *dùng `.replace()`*:

    ```python
    BANG_XOA_DAU = {"Á": "A" , "À": "A" , …} # total 134 items
    for k, v in BANG_XOA_DAU.items():
    BANG_XOA_DAU_2 = {"Á": "A" , "À": "A" , …} # total 134 items
    txt = "“Đạo đức kinh”"
    for k, v in BANG_XOA_DAU_2.items():
    txt = txt.replace(k, v)
    ```

    lệnh `.replace()` được thực thi 134 lần
    lệnh thay thế kí tự trên toàn chuỗi (`.replace()`) được thực thi 134 lần

    - *dùng `RegEx`*: viết code ngắn hơn, tốc độ nhanh hơn `.replace()`

    ```python
    import re
    BANG_XOA_DAU = { # compile and save regex object for reuse is more efficient
    BANG_XOA_DAU_3 = { # compile and save regex object for reuse is more efficient
    "A": re.compile("[ÁÀẢÃẠĂẮẰẲẴẶÂẤẦẨẪẬ]"),
    "a": re.compile("[áàảãạăắằẳẵặâấầẩẫậ]"),
    # total 14 items
    }
    for k, v in BANG_XOA_DAU.items():
    txt = "“Đạo đức kinh”"
    for k, v in BANG_XOA_DAU_3.items():
    txt = v.sub(k, txt)
    ```

    lệnh `re.sub()` được thực thi 14 lần
    lệnh thay thế kí tự trên toàn chuỗi (`re.sub()`) được thực thi 14 lần

    ## 3. phụ lục: bảng unicode codepoint kí tự tiếng Việt

    @@ -133,19 +143,19 @@ không tồn tại dạng này đối với kí tự Đđ
    dấu đổi nguyên âm

    <table><tbody><tr>
    <td>̆ (dấu ă)<br /><code>U+0306</code></td>
    <td>̂ (dấu mũ âêô)<br /><code>U+0302</code></td>
    <td>̛ (dấu móc ơư)<br /><code>U+031B</code></td>
    <td>&#774; (dấu ă)<br /><code>U+0306</code></td>
    <td>&#770; (dấu mũ âêô)<br /><code>U+0302</code></td>
    <td>&#795; (dấu móc ơư)<br /><code>U+031B</code></td>
    </tr></tbody></table>

    dấu thanh điệu

    <table><tbody><tr>
    <td>́ (dấu sắc)<br /><code>U+0301</code></td>
    <td>̀ (dấu huyền)<br /><code>U+0300</code></td>
    <td>̉ (dấu hỏi)<br /><code>U+0309</code></td>
    <td>̃ (dấu ngã)<br /><code>U+0303</code></td>
    <td>̣ (dấu nặng)<br /><code>U+0323</code></td>
    <td>&#769; (dấu sắc)<br /><code>U+0301</code></td>
    <td>&#768; (dấu huyền)<br /><code>U+0300</code></td>
    <td>&#777; (dấu hỏi)<br /><code>U+0309</code></td>
    <td>&#771; (dấu ngã)<br /><code>U+0303</code></td>
    <td>&#803; (dấu nặng)<br /><code>U+0323</code></td>
    </tr></tbody></table>

    ### 3.2. dạng unicode chuẩn C
  4. phineas-pta created this gist May 23, 2023.
    356 changes: 356 additions & 0 deletions xoa_dau.md
    Original file line number Diff line number Diff line change
    @@ -0,0 +1,356 @@
    # xoá dấu tiếng Việt với Python

    phương pháp nhanh hơn, hiệu quả hơn và không cần cài thêm package

    code hoàn chỉnh:

    ```python
    import unicodedata

    DIACRITICS_TABLE = str.maketrans(
    "ÁÀẢÃẠĂẮẰẲẴẶÂẤẦẨẪẬĐÈÉẺẼẸÊẾỀỂỄỆÍÌỈĨỊÓÒỎÕỌÔỐỒỔỖỘƠỚỜỞỠỢÚÙỦŨỤƯỨỪỬỮỰÝỲỶỸỴáàảãạăắằẳẵặâấầẩẫậđèéẻẽẹêếềểễệíìỉĩịóòỏõọôốồổỗộơớờởỡợúùủũụưứừửữựýỳỷỹỵ",
    "A"*17 + "D" + "E"*11 + "I"*5 + "O"*17 + "U"*11 + "Y"*5 + "a"*17 + "d" + "e"*11 + "i"*5 + "o"*17 + "u"*11 + "y"*5
    )

    def xoa_dau(txt: str) -> str:
    if not unicodedata.is_normalized("NFC", txt):
    txt = unicodedata.normalize("NFC", txt)
    return txt.translate(DIACRITICS_TABLE)
    ```

    ## 1. giải thích quá trình

    cần package `unicodedata` (có sẵn trong python):

    ```python
    import unicodedata
    ```

    cho 1 string trong python như sau:

    ```python
    raw_txt = "“Đạo đức kinh”"
    ```

    ### bước 1: đưa về dạng unicode chuẩn C (unicode normal form C)

    nếu bạn cho rằng `raw_txt` rất bình thường thì bạn đã lầm, bởi vì dấu là 1 kí tự riêng

    ví dụ thay vì là 1 kí tự `` (`U+1EE9`) văn bản lại là chuỗi:
    - 3 kí tự `u` (`U+0075`) + `◌̛` (dấu móc ư `U+031B`) + `◌́` (dấu sắc `U+0301`), do khi crawl text online dạng HTML là `u&#795;&#769;`, lưu ý thứ tự của `U+031B``U+0301` không quan trọng 👉 đây gọi là dạng unicode chuẩn D (unicode normal form D)
    - 2 kí tự `ư` (`U+01B0`) + `◌́` (dấu sắc `U+0301`) 👉 không thuộc về dạng unicode chuẩn nào
    - 2 kí tự `ú` (`U+00FA`) + `◌̛` (dấu móc ư `U+031B`) 👉 không thuộc về dạng unicode chuẩn nào

    bước này ít người biết đến, nếu bỏ qua bước này, kế tiếp khi ta xoá dấu (thay thế `` bằng `u`) sẽ gặp rắc rối do không biết `` là 1 kí tự hay chuỗi 2/3 kí tự

    mình phát hiện ra vấn đề này khi crawl text truyện chữ về đọc

    dạng unicode chuẩn C là khi các dấu nhập chung thành 1 kí tự duy nhất `` (`U+1EE9`)

    để kiểm tra xem text đã đúng dạng unicode chuẩn C (viết tắt NFC):

    ```python
    unicodedata.is_normalized("NFC", raw_txt) # False
    ```

    chuyển sang dạng unicode chuẩn C

    ```python
    txt = unicodedata.normalize("NFC", raw_txt) # "“Đạo đức kinh”"
    unicodedata.is_normalized("NFC", txt) # True
    ```

    ### bước 2: xoá dấu cực nhanh

    nhờ vào dạng unicode chuẩn C, thay thế kí tự là “1 kí tự thay thế 1 kí tự” (thay vì “1 kí tự thay thế nhiều kí tự” nếu không đúng chuẩn), cách làm hiệu quả nhất là tạo bảng tương ứng kí tự có dấu - ko dấu với hàm `str.maketrans()` có sẵn trong python:

    ```python
    DIACRITICS_TABLE = str.maketrans(
    "ÁÀẢÃẠĂẮẰẲẴẶÂẤẦẨẪẬĐÈÉẺẼẸÊẾỀỂỄỆÍÌỈĨỊÓÒỎÕỌÔỐỒỔỖỘƠỚỜỞỠỢÚÙỦŨỤƯỨỪỬỮỰÝỲỶỸỴáàảãạăắằẳẵặâấầẩẫậđèéẻẽẹêếềểễệíìỉĩịóòỏõọôốồổỗộơớờởỡợúùủũụưứừửữựýỳỷỹỵ",
    "A"*17 + "D" + "E"*11 + "I"*5 + "O"*17 + "U"*11 + "Y"*5 + "a"*17 + "d" + "e"*11 + "i"*5 + "o"*17 + "u"*11 + "y"*5
    )
    ```

    xoá dấu với hàm `.translate()` có sẵn trong python:

    ```python
    txt.translate(DIACRITICS_TABLE) # "“ Dao duc kinh”"
    ```

    lệnh thay thế kí tự trên toàn chuỗi đúng 1 lần duy nhất

    ## 2. so sánh với các cách xoá dấu thường sử dụng khác

    ### 2.1. cài thêm package phụ trợ

    điểm mạnh là tốc độ, do thực thi lệnh thay thế kí tự trên toàn chuỗi đúng 1 lần duy nhất (giống như trên), nhưng còn nhiều thiếu sót

    - *dùng `unidecode.unidecode()`*: vốn được dùng để chuyển kí tự unicode về bảng ASCII, vậy nên sẽ **làm mất các kí tự khác**, ví dụ ở trên 2 kí tự `“ ”` sẽ thành `" "`; phương pháp duy nhất ko bị ảnh hưởng bởi dạng unicode chuẩn C hay D

    ```python
    from unidecode import unidecode
    unidecode(txt) # '" Dao duc kinh"'
    unidecode(raw_txt) # '" Dao duc kinh"'
    ```

    - *dùng `flashtext.KeywordProcessor()`*: hứa hẹn tốc độ nhanh hơn cả `.replace()``RegEx` do có thuật toán đặc biệt, **nhưng chưa tương thích với kí tự ngoài bảng ASCII**

    ### 2.2. xử lí kí tự bằng công cụ có sẵn trong python

    lệnh thay thế kí tự trên toàn chuỗi được thực thi nhiều lần nên sẽ chậm hơn

    - *dùng `.replace()`*:

    ```python
    BANG_XOA_DAU = {"Á": "A" , "À": "A" , …} # total 134 items
    for k, v in BANG_XOA_DAU.items():
    txt = txt.replace(k, v)
    ```

    lệnh `.replace()` được thực thi 134 lần

    - *dùng `RegEx`*: viết code ngắn hơn, tốc độ nhanh hơn `.replace()`

    ```python
    import re
    BANG_XOA_DAU = { # compile and save regex object for reuse is more efficient
    "A": re.compile("[ÁÀẢÃẠĂẮẰẲẴẶÂẤẦẨẪẬ]"),
    "a": re.compile("[áàảãạăắằẳẵặâấầẩẫậ]"),
    # total 14 items
    }
    for k, v in BANG_XOA_DAU.items():
    txt = v.sub(k, txt)
    ```

    lệnh `re.sub()` được thực thi 14 lần

    ## 3. phụ lục: bảng unicode codepoint kí tự tiếng Việt

    ### 3.1. dạng unicode chuẩn D

    không tồn tại dạng này đối với kí tự Đđ

    dấu đổi nguyên âm

    <table><tbody><tr>
    <td>̆ (dấu ă)<br /><code>U+0306</code></td>
    <td>̂ (dấu mũ âêô)<br /><code>U+0302</code></td>
    <td>̛ (dấu móc ơư)<br /><code>U+031B</code></td>
    </tr></tbody></table>

    dấu thanh điệu

    <table><tbody><tr>
    <td>́ (dấu sắc)<br /><code>U+0301</code></td>
    <td>̀ (dấu huyền)<br /><code>U+0300</code></td>
    <td>̉ (dấu hỏi)<br /><code>U+0309</code></td>
    <td>̃ (dấu ngã)<br /><code>U+0303</code></td>
    <td>̣ (dấu nặng)<br /><code>U+0323</code></td>
    </tr></tbody></table>

    ### 3.2. dạng unicode chuẩn C

    tham khảo thêm: https://vietunicode.sourceforge.net/charset/vietcharset.html

    <table><tbody>
    <tr>
    <td></td>
    <td>Á<br /><code>U+00C1</code></td>
    <td>À<br /><code>U+00C0</code></td>
    <td>Ả<br /><code>U+1EA2</code></td>
    <td>Ã<br /><code>U+00C3</code></td>
    <td>Ạ<br /><code>U+1EA0</code></td>
    </tr>
    <tr>
    <td>Ă<br /><code>U+0102</code></td>
    <td>Ắ<br /><code>U+1EAE</code></td>
    <td>Ằ<br /><code>U+1EB0</code></td>
    <td>Ẳ<br /><code>U+1EB2</code></td>
    <td>Ẵ<br /><code>U+1EB4</code></td>
    <td>Ặ<br /><code>U+1EB6</code></td>
    </tr>
    <tr>
    <td>Â<br /><code>U+00C2</code></td>
    <td>Ấ<br /><code>U+1EA4</code></td>
    <td>Ầ<br /><code>U+1EA6</code></td>
    <td>Ẩ<br /><code>U+1EA8</code></td>
    <td>Ẫ<br /><code>U+1EAA</code></td>
    <td>Ậ<br /><code>U+1EAC</code></td>
    </tr>
    <tr>
    <td>Đ<br /><code>U+0110</code></td>
    <td colspan="5"></td>
    </tr>
    <tr>
    <td></td>
    <td>È<br /><code>U+00C8</code></td>
    <td>É<br /><code>U+00C9</code></td>
    <td>Ẻ<br /><code>U+1EBA</code></td>
    <td>Ẽ<br /><code>U+1EBC</code></td>
    <td>Ẹ<br /><code>U+1EB8</code></td>
    </tr>
    <tr>
    <td>Ê<br /><code>U+00CA</code></td>
    <td>Ế<br /><code>U+1EBE</code></td>
    <td>Ề<br /><code>U+1EC0</code></td>
    <td>Ể<br /><code>U+1EC2</code></td>
    <td>Ễ<br /><code>U+1EC4</code></td>
    <td>Ệ<br /><code>U+1EC6</code></td>
    </tr>
    <tr>
    <td></td>
    <td>Í<br /><code>U+00CD</code></td>
    <td>Ì<br /><code>U+00CC</code></td>
    <td>Ỉ<br /><code>U+1EC8</code></td>
    <td>Ĩ<br /><code>U+0128</code></td>
    <td>Ị<br /><code>U+1ECA</code></td>
    </tr>
    <tr>
    <td></td>
    <td>Ó<br /><code>U+00D3</code></td>
    <td>Ò<br /><code>U+00D2</code></td>
    <td>Ỏ<br /><code>U+1ECE</code></td>
    <td>Õ<br /><code>U+00D5</code></td>
    <td>Ọ<br /><code>U+1ECC</code></td>
    </tr>
    <tr>
    <td>Ô<br /><code>U+00D4</code></td>
    <td>Ố<br /><code>U+1ED0</code></td>
    <td>Ồ<br /><code>U+1ED2</code></td>
    <td>Ổ<br /><code>U+1ED4</code></td>
    <td>Ỗ<br /><code>U+1ED6</code></td>
    <td>Ộ<br /><code>U+1ED8</code></td>
    </tr>
    <tr>
    <td>Ơ<br /><code>U+01A0</code></td>
    <td>Ớ<br /><code>U+1EDA</code></td>
    <td>Ờ<br /><code>U+1EDC</code></td>
    <td>Ở<br /><code>U+1EDE</code></td>
    <td>Ỡ<br /><code>U+1EE0</code></td>
    <td>Ợ<br /><code>U+1EE2</code></td>
    </tr>
    <tr>
    <td></td>
    <td>Ú<br /><code>U+00DA</code></td>
    <td>Ù<br /><code>U+00D9</code></td>
    <td>Ủ<br /><code>U+1EE6</code></td>
    <td>Ũ<br /><code>U+0168</code></td>
    <td>Ụ<br /><code>U+1EE4</code></td>
    </tr>
    <tr>
    <td>Ư<br /><code>U+01AF</code></td>
    <td>Ứ<br /><code>U+1EE8</code></td>
    <td>Ừ<br /><code>U+1EEA</code></td>
    <td>Ử<br /><code>U+1EEC</code></td>
    <td>Ữ<br /><code>U+1EEE</code></td>
    <td>Ự<br /><code>U+1EF0</code></td>
    </tr>
    <tr>
    <td></td>
    <td>Ý<br /><code>U+00DD</code></td>
    <td>Ỳ<br /><code>U+1EF2</code></td>
    <td>Ỷ<br /><code>U+1EF6</code></td>
    <td>Ỹ<br /><code>U+1EF8</code></td>
    <td>Ỵ<br /><code>U+1EF4</code></td>
    </tr>
    <tr>
    <td></td>
    <td>á<br /><code>U+00E1</code></td>
    <td>à<br /><code>U+00E0</code></td>
    <td>ả<br /><code>U+1EA3</code></td>
    <td>ã<br /><code>U+00E3</code></td>
    <td>ạ<br /><code>U+1EA1</code></td>
    </tr>
    <tr>
    <td>ă<br /><code>U+0103</code></td>
    <td>ắ<br /><code>U+1EAF</code></td>
    <td>ằ<br /><code>U+1EB1</code></td>
    <td>ẳ<br /><code>U+1EB3</code></td>
    <td>ẵ<br /><code>U+1EB5</code></td>
    <td>ặ<br /><code>U+1EB7</code></td>
    </tr>
    <tr>
    <td>â<br /><code>U+00E2</code></td>
    <td>ấ<br /><code>U+1EA5</code></td>
    <td>ầ<br /><code>U+1EA7</code></td>
    <td>ẩ<br /><code>U+1EA9</code></td>
    <td>ẫ<br /><code>U+1EAB</code></td>
    <td>ậ<br /><code>U+1EAD</code></td>
    </tr>
    <tr>
    <td>đ<br /><code>U+0111</code></td>
    <td colspan="5"></td>
    </tr>
    <tr>
    <td></td>
    <td>è<br /><code>U+00E8</code></td>
    <td>é<br /><code>U+00E9</code></td>
    <td>ẻ<br /><code>U+1EBB</code></td>
    <td>ẽ<br /><code>U+1EBD</code></td>
    <td>ẹ<br /><code>U+1EB9</code></td>
    </tr>
    <tr>
    <td>ê<br /><code>U+00EA</code></td>
    <td>ế<br /><code>U+1EBF</code></td>
    <td>ề<br /><code>U+1EC1</code></td>
    <td>ể<br /><code>U+1EC3</code></td>
    <td>ễ<br /><code>U+1EC5</code></td>
    <td>ệ<br /><code>U+1EC7</code></td>
    </tr>
    <tr>
    <td></td>
    <td>í<br /><code>U+00ED</code></td>
    <td>ì<br /><code>U+00EC</code></td>
    <td>ỉ<br /><code>U+1EC9</code></td>
    <td>ĩ<br /><code>U+0129</code></td>
    <td>ị<br /><code>U+1ECB</code></td>
    </tr>
    <tr>
    <td></td>
    <td>ó<br /><code>U+00F3</code></td>
    <td>ò<br /><code>U+00F2</code></td>
    <td>ỏ<br /><code>U+1ECF</code></td>
    <td>õ<br /><code>U+00F5</code></td>
    <td>ọ<br /><code>U+1ECD</code></td>
    </tr>
    <tr>
    <td>ô<br /><code>U+00F4</code></td>
    <td>ố<br /><code>U+1ED1</code></td>
    <td>ồ<br /><code>U+1ED3</code></td>
    <td>ổ<br /><code>U+1ED5</code></td>
    <td>ỗ<br /><code>U+1ED7</code></td>
    <td>ộ<br /><code>U+1ED9</code></td>
    </tr>
    <tr>
    <td>ơ<br /><code>U+01A1</code></td>
    <td>ớ<br /><code>U+1EDB</code></td>
    <td>ờ<br /><code>U+1EDD</code></td>
    <td>ở<br /><code>U+1EDF</code></td>
    <td>ỡ<br /><code>U+1EE1</code></td>
    <td>ợ<br /><code>U+1EE3</code></td>
    </tr>
    <tr>
    <td></td>
    <td>ú<br /><code>U+00FA</code></td>
    <td>ù<br /><code>U+00F9</code></td>
    <td>ủ<br /><code>U+1EE7</code></td>
    <td>ũ<br /><code>U+0169</code></td>
    <td>ụ<br /><code>U+1EE5</code></td>
    </tr>
    <tr>
    <td>ư<br /><code>U+01B0</code></td>
    <td>ứ<br /><code>U+1EE9</code></td>
    <td>ừ<br /><code>U+1EEB</code></td>
    <td>ử<br /><code>U+1EED</code></td>
    <td>ữ<br /><code>U+1EEF</code></td>
    <td>ự<br /><code>U+1EF1</code></td>
    </tr>
    <tr>
    <td></td>
    <td>ý<br /><code>U+00FD</code></td>
    <td>ỳ<br /><code>U+1EF3</code></td>
    <td>ỷ<br /><code>U+1EF7</code></td>
    <td>ỹ<br /><code>U+1EF9</code></td>
    <td>ỵ<br /><code>U+1EF5</code></td>
    </tr>
    </tbody></table>
    69 changes: 69 additions & 0 deletions xoa_dau_sang_vni_telex.py
    Original file line number Diff line number Diff line change
    @@ -0,0 +1,69 @@
    BANG_DANH_DAU = {
    "vni": {
    "Á": "A1" , "À": "A2" , "Ả": "A3" , "Ã": "A4" , "Ạ": "A5" ,
    "Ă": "A8", "Ắ": "A81", "Ằ": "A82", "Ẳ": "A83", "Ẵ": "A84", "Ặ": "A85",
    "Â": "A6", "Ấ": "A61", "Ầ": "A62", "Ẩ": "A63", "Ẫ": "A64", "Ậ": "A65",
    "Đ": "D9",
    "É": "E1" , "È": "E2" , "Ẻ": "E3" , "Ẽ": "E4" , "Ẹ": "E5" ,
    "Ê": "E6", "Ế": "E61", "Ề": "E62", "Ể": "E63", "Ễ": "E64", "Ệ": "E65",
    "Í": "I1" , "Ì": "I2" , "Ỉ": "I3" , "Ĩ": "I4" , "Ị": "I5" ,
    "Ó": "O1" , "Ò": "O2" , "Ỏ": "O3" , "Õ": "O4" , "Ọ": "O5" ,
    "Ô": "O6", "Ố": "O61", "Ồ": "O62", "Ổ": "O63", "Ỗ": "O64", "Ộ": "O65",
    "Ơ": "O7", "Ớ": "O71", "Ờ": "O72", "Ở": "O73", "Ỡ": "O74", "Ợ": "O75",
    "Ú": "U1" , "Ù": "U2" , "Ủ": "U3" , "Ũ": "U4" , "Ụ": "U5" ,
    "Ư": "U7", "Ứ": "U71", "Ừ": "U72", "Ử": "U73", "Ữ": "U74", "Ự": "U75",
    "Ý": "Y1" , "Ỳ": "Y2" , "Ỷ": "Y3" , "Ỹ": "Y4" , "Ỵ": "Y5" ,
    "á": "a1" , "à": "a2" , "ả": "a3" , "ã": "a4" , "ạ": "a5" ,
    "ă": "a8", "ắ": "a81", "ằ": "a82", "ẳ": "a83", "ẵ": "a84", "ặ": "a85",
    "â": "a6", "ấ": "a61", "ầ": "a62", "ẩ": "a63", "ẫ": "a64", "ậ": "a65",
    "đ": "d9",
    "é": "e1" , "è": "e2" , "ẻ": "e3" , "ẽ": "e4" , "ẹ": "e5" ,
    "ê": "e6", "ế": "e61", "ề": "e62", "ể": "e63", "ễ": "e64", "ệ": "e65",
    "í": "i1" , "ì": "i2" , "ỉ": "i3" , "ĩ": "i4" , "ị": "i5" ,
    "ó": "o1" , "ò": "o2" , "ỏ": "o3" , "õ": "o4" , "ọ": "o5" ,
    "ô": "o6", "ố": "o61", "ồ": "o62", "ổ": "o63", "ỗ": "o64", "ộ": "o65",
    "ơ": "o7", "ớ": "o71", "ờ": "o72", "ở": "o73", "ỡ": "o74", "ợ": "o75",
    "ú": "u1" , "ù": "u2" , "ủ": "u3" , "ũ": "u4" , "ụ": "u5" ,
    "ư": "u7", "ứ": "u71", "ừ": "u72", "ử": "u73", "ữ": "u74", "ự": "u75",
    "ý": "y1" , "ỳ": "y2" , "ỷ": "y3" , "ỹ": "y4" , "ỵ": "y5" ,
    },
    "telex": {
    "Á": "AS" , "À": "AF" , "Ả": "AR" , "Ã": "AX" , "Ạ": "AJ" ,
    "Ă": "AW", "Ắ": "AWS", "Ằ": "AWF", "Ẳ": "AWR", "Ẵ": "AWX", "Ặ": "AWJ",
    "Â": "AA", "Ấ": "AAS", "Ầ": "AAF", "Ẩ": "AAR", "Ẫ": "AAX", "Ậ": "AAJ",
    "Đ": "DD",
    "É": "ES" , "È": "EF" , "Ẻ": "ER" , "Ẽ": "EX" , "Ẹ": "EJ" ,
    "Ê": "EE", "Ế": "EES", "Ề": "EEF", "Ể": "EER", "Ễ": "EEX", "Ệ": "EEJ",
    "Í": "IS" , "Ì": "IF" , "Ỉ": "IR" , "Ĩ": "IX" , "Ị": "IJ" ,
    "Ó": "OS" , "Ò": "OF" , "Ỏ": "OR" , "Õ": "OX" , "Ọ": "OJ" ,
    "Ô": "OO", "Ố": "OOS", "Ồ": "OOF", "Ổ": "OOR", "Ỗ": "OOX", "Ộ": "OOJ",
    "Ơ": "OW", "Ớ": "OWS", "Ờ": "OWF", "Ở": "OWR", "Ỡ": "OWX", "Ợ": "OWJ",
    "Ú": "US" , "Ù": "UF" , "Ủ": "UR" , "Ũ": "UX" , "Ụ": "UJ" ,
    "Ư": "UW", "Ứ": "UWS", "Ừ": "UWF", "Ử": "UWR", "Ữ": "UWX", "Ự": "UWJ",
    "Ý": "YS" , "Ỳ": "YF" , "Ỷ": "YR" , "Ỹ": "YX" , "Ỵ": "YJ" ,
    "á": "as" , "à": "af" , "ả": "ar" , "ã": "ax" , "ạ": "aj" ,
    "ă": "aw", "ắ": "aws", "ằ": "awf", "ẳ": "awr", "ẵ": "awx", "ặ": "awj",
    "â": "aa", "ấ": "aas", "ầ": "aaf", "ẩ": "aar", "ẫ": "aax", "ậ": "aaj",
    "đ": "dd",
    "é": "es" , "è": "ef" , "ẻ": "er" , "ẽ": "ex" , "ẹ": "ej" ,
    "ê": "ee", "ế": "ees", "ề": "eef", "ể": "eer", "ễ": "eex", "ệ": "eej",
    "í": "is" , "ì": "if" , "ỉ": "ir" , "ĩ": "ix" , "ị": "ij" ,
    "ó": "os" , "ò": "of" , "ỏ": "or" , "õ": "ox" , "ọ": "oj" ,
    "ô": "oo", "ố": "oos", "ồ": "oof", "ổ": "oor", "ỗ": "oox", "ộ": "ooj",
    "ơ": "ow", "ớ": "ows", "ờ": "owf", "ở": "owr", "ỡ": "owx", "ợ": "owj",
    "ú": "us" , "ù": "uf" , "ủ": "ur" , "ũ": "ux" , "ụ": "uj" ,
    "ư": "uw", "ứ": "uws", "ừ": "uwf", "ử": "uwr", "ữ": "uwx", "ự": "uwj",
    "ý": "ys" , "ỳ": "yf" , "ỷ": "yr" , "ỹ": "yx" , "ỵ": "yj" ,
    }
    }

    def xoa_dau_sang_vni_telex(txt: str, kieu_go: str) -> str:
    kieu_go = kieu_go.lower()
    if kieu_go not in BANG_DANH_DAU:
    raise Exception("kiểu gõ ko hợp lệ")
    for k, v in BANG_DANH_DAU[kieu_go].items():
    txt = txt.replace(k, v)
    return txt

    xoa_dau_sang_vni_telex(txt, "vni") # "“D9a5o d9u71c kinh”"
    xoa_dau_sang_vni_telex(txt, "telex") # "“DDajo dduwsc kinh”"