Last active
April 19, 2025 09:21
-
-
Save phineas-pta/05cad38a29fea000ab6d9e13a6f7e623 to your computer and use it in GitHub Desktop.
Revisions
-
phineas-pta revised this gist
May 25, 2023 . 2 changed files with 112 additions and 11 deletions.There are no files selected for viewing
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode charactersOriginal file line number Diff line number Diff line change @@ -18,6 +18,21 @@ def xoa_dau(txt: str) -> str: return txt.translate(BANG_XOA_DAU) ``` **hãy xem phần giải thích bên dưới để hiểu về các dạng unicode chuẩn C và D** phiên bản không phụ thuộc vào các dạng unicode cho ai muốn mì ăn liền ```python BANG_XOA_DAU_FULL = str.maketrans( "ÁÀẢÃẠĂẮẰẲẴẶÂẤẦẨẪẬĐÈÉẺẼẸÊẾỀỂỄỆÍÌỈĨỊÓÒỎÕỌÔỐỒỔỖỘƠỚỜỞỠỢÚÙỦŨỤƯỨỪỬỮỰÝỲỶỸỴáàảãạăắằẳẵặâấầẩẫậđèéẻẽẹêếềểễệíìỉĩịóòỏõọôốồổỗộơớờởỡợúùủũụưứừửữựýỳỷỹỵ", "A"*17 + "D" + "E"*11 + "I"*5 + "O"*17 + "U"*11 + "Y"*5 + "a"*17 + "d" + "e"*11 + "i"*5 + "o"*17 + "u"*11 + "y"*5, chr(774) + chr(770) + chr(795) + chr(769) + chr(768) + chr(777) + chr(771) + chr(803) # 8 kí tự dấu dưới dạng unicode chuẩn D ) def xoa_dau_full(txt: str) -> str: return txt.translate(BANG_XOA_DAU_FULL) ``` ## 1. giải thích quá trình cần package `unicodedata` (có sẵn trong python): @@ -78,22 +93,26 @@ txt.translate(BANG_XOA_DAU) # "“ Dao duc kinh”" ``` lệnh thay thế kí tự trên toàn chuỗi được thực thi đúng 1 lần duy nhất ngoài ra parameter thứ 3 của `str.maketrans` là 1 string của các kí tự muốn xoá, ta có thể đưa vào 8 kí tự dấu vào đó (xem code đầu bài) ## 2. so sánh với các cách xoá dấu thường sử dụng khác ### 2.1. cài thêm package phụ trợ điểm mạnh là tốc độ, do thực thi lệnh thay thế kí tự trên toàn chuỗi đúng 1 lần duy nhất (giống như trên), nhưng còn nhiều thiếu sót - *package [`unidecode`](https://github.com/avian2/unidecode)*: vốn được dùng để chuyển kí tự unicode về bảng ASCII, vậy nên sẽ **làm mất các kí tự khác**, ví dụ ở trên 2 kí tự `“ ”` sẽ thành `" "`; phương pháp duy nhất ko bị ảnh hưởng bởi dạng unicode chuẩn C hay D ```python from unidecode import unidecode txt = "“Đạo đức kinh”" unidecode(txt) # '" Dao duc kinh"' ``` - *thuật toán FlashText với package [`flashtext`](https://github.com/vi3k6i5/flashtext)*: hứa hẹn tốc độ nhanh hơn cả `.replace()` và `RegEx`, **nhưng không thể thực thi thay thế kí tự** (có thể thay thế từ - word) - *thuật toán Aho-Corasick với package [`fsed`](https://github.com/wroberts/fsed) hoặc [`cyac`](https://github.com/nppoly/cyac)*: trong số các package sử dụng thuật toán Aho-Corasick, chỉ có 2 package này có chức năng thay thế kí tự, còn lại chỉ có chức năng tìm, tốc độ cũng rất tốt ### 2.2. xử lí kí tự bằng công cụ có sẵn trong python -
phineas-pta revised this gist
May 24, 2023 . 2 changed files with 230 additions and 4 deletions.There are no files selected for viewing
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode charactersOriginal file line number Diff line number Diff line change @@ -1,6 +1,6 @@ # xoá dấu tiếng Việt với Python phương pháp nhanh hơn và không cần cài thêm package code hoàn chỉnh: @@ -97,10 +97,12 @@ unidecode(txt) # '" Dao duc kinh"' ### 2.2. xử lí kí tự bằng công cụ có sẵn trong python xem kết quả benchmark ở notebook phía dưới - khởi tạo chuỗi mới ```python BANG_XOA_DAU_1 = {"Á": "A", "À": "A", …} txt = "“Đạo đức kinh”" txt = "".join([BANG_XOA_DAU_1.get(s, s) for s in txt]) ``` @@ -110,15 +112,15 @@ về cơ bản thì tương đương với phương pháp mình trình bày ở - *dùng `.replace()`*: ```python BANG_XOA_DAU_2 = {"Á": "A", "À": "A", …} # total 134 items txt = "“Đạo đức kinh”" for k, v in BANG_XOA_DAU_2.items(): txt = txt.replace(k, v) ``` lệnh thay thế kí tự trên toàn chuỗi (`.replace()`) được thực thi 134 lần - *dùng `RegEx`*: viết code ngắn hơn, ~~tốc độ nhanh hơn `.replace()`~~ ```python import re This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode charactersOriginal file line number Diff line number Diff line change @@ -0,0 +1,224 @@ { "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Benchmark xóa dấu" ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "import re, random\n", "from timeit import timeit\n", "from matplotlib import pyplot as plt" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "mặc định văn bản dưới dạng unicode chuẩn C (unicode normal form C)" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [], "source": [ "CHU_CO_DAU = \"ÁÀẢÃẠĂẮẰẲẴẶÂẤẦẨẪẬĐÈÉẺẼẸÊẾỀỂỄỆÍÌỈĨỊÓÒỎÕỌÔỐỒỔỖỘƠỚỜỞỠỢÚÙỦŨỤƯỨỪỬỮỰÝỲỶỸỴáàảãạăắằẳẵặâấầẩẫậđèéẻẽẹêếềểễệíìỉĩịóòỏõọôốồổỗộơớờởỡợúùủũụưứừửữựýỳỷỹỵ\"\n", "CHU_KO_DAU = \"A\"*17 + \"D\" + \"E\"*11 + \"I\"*5 + \"O\"*17 + \"U\"*11 + \"Y\"*5 + \"a\"*17 + \"d\" + \"e\"*11 + \"i\"*5 + \"o\"*17 + \"u\"*11 + \"y\"*5\n", "assert(len(CHU_CO_DAU) == len(CHU_KO_DAU))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "№ 0: `str.maketrans() + .translate()`" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [], "source": [ "BANG_XOA_DAU_0 = str.maketrans(CHU_CO_DAU, CHU_KO_DAU)\n", "def xoa_dau_0(txt):\n", " return txt.translate(BANG_XOA_DAU_0)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "№ 1: `new string`" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [], "source": [ "BANG_XOA_DAU_1 = dict(zip(CHU_CO_DAU, CHU_KO_DAU))\n", "def xoa_dau_1(txt):\n", " return \"\".join(BANG_XOA_DAU_1.get(s, s) for s in txt)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "№ 2: `.replace()`" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [], "source": [ "BANG_XOA_DAU_2 = dict(zip(CHU_CO_DAU, CHU_KO_DAU))\n", "def xoa_dau_2(txt):\n", " for k, v in BANG_XOA_DAU_2.items():\n", " txt = txt.replace(k, v)\n", " return txt" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "№ 3: `RegEx`" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [], "source": [ "BANG_XOA_DAU_3 = {\n", " \"A\": re.compile(\"[ÁÀẢÃẠĂẮẰẲẴẶÂẤẦẨẪẬ]\"),\n", " \"D\": re.compile(\"Đ\"),\n", " \"E\": re.compile(\"[ÈÉẺẼẸÊẾỀỂỄỆ]\"),\n", " \"I\": re.compile(\"[ÍÌỈĨỊ]\"),\n", " \"O\": re.compile(\"[ÓÒỎÕỌÔỐỒỔỖỘƠỚỜỞỠỢ]\"),\n", " \"U\": re.compile(\"[ÚÙỦŨỤƯỨỪỬỮỰ]\"),\n", " \"Y\": re.compile(\"[ÝỲỶỸỴ]\"),\n", " \"a\": re.compile(\"[áàảãạăắằẳẵặâấầẩẫậ]\"),\n", " \"d\": re.compile(\"đ\"),\n", " \"e\": re.compile(\"[èéẻẽẹêếềểễệ]\"),\n", " \"i\": re.compile(\"[íìỉĩị]\"),\n", " \"o\": re.compile(\"[óòỏõọôốồổỗộơớờởỡợ]\"),\n", " \"u\": re.compile(\"[úùủũụưứừửữự]\"),\n", " \"y\": re.compile(\"[ýỳỷỹỵ]\")\n", "}\n", "def xoa_dau_3(txt):\n", " for k, v in BANG_XOA_DAU_3.items():\n", " txt = v.sub(k, txt)\n", " return txt" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "array chứa thời gian thực thi từng phương pháp để so sánh" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [], "source": [ "vec_N, vec_0, vec_1, vec_2, vec_3 = [], [], [], [], []" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "benchmark với văn bản có độ dài 10<sup>0</sup>, 10<sup>1</sup>, 10<sup>2</sup>, …, 10<sup>8</sup> kí tự, với tất cả kí tự đều có dấu (worst-case scenario)" ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [], "source": [ "N_repet = 10 # sồ lần thực thi (lấy thời gian trung bình)\n", "for i in range(9):\n", " N = 10**i\n", " txt = \"\".join(random.choices(CHU_CO_DAU, k=N))\n", "\n", " t_0 = timeit(\"xoa_dau_0(txt)\", number=N_repet, globals=globals())\n", " t_1 = timeit(\"xoa_dau_1(txt)\", number=N_repet, globals=globals())\n", " t_2 = timeit(\"xoa_dau_2(txt)\", number=N_repet, globals=globals())\n", " t_3 = timeit(\"xoa_dau_3(txt)\", number=N_repet, globals=globals())\n", "\n", " vec_N.append(N)\n", " vec_0.append(t_0)\n", " vec_1.append(t_1)\n", " vec_2.append(t_2)\n", " vec_3.append(t_3)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "đồ thị so sánh" ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [ { "data": { "image/png": "", "text/plain": [ "<Figure size 640x480 with 1 Axes>" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "plt.plot(vec_N, vec_0, color=\"red\", label=\"str.maketrans()\")\n", "plt.plot(vec_N, vec_1, color=\"green\", label=\"new string\")\n", "plt.plot(vec_N, vec_2, color=\"blue\", label=\".replace()\")\n", "plt.plot(vec_N, vec_3, color=\"black\", label=\"RegEx\")\n", "plt.xscale(\"log\")\n", "plt.xlabel(\"string length\")\n", "plt.ylabel(\"time (s)\")\n", "plt.legend()\n", "plt.show()" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "name": "python" } }, "nbformat": 4, "nbformat_minor": 5 } -
phineas-pta revised this gist
May 23, 2023 . 1 changed file with 32 additions and 22 deletions.There are no files selected for viewing
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode charactersOriginal file line number Diff line number Diff line change @@ -7,15 +7,15 @@ code hoàn chỉnh: ```python import unicodedata BANG_XOA_DAU = str.maketrans( "ÁÀẢÃẠĂẮẰẲẴẶÂẤẦẨẪẬĐÈÉẺẼẸÊẾỀỂỄỆÍÌỈĨỊÓÒỎÕỌÔỐỒỔỖỘƠỚỜỞỠỢÚÙỦŨỤƯỨỪỬỮỰÝỲỶỸỴáàảãạăắằẳẵặâấầẩẫậđèéẻẽẹêếềểễệíìỉĩịóòỏõọôốồổỗộơớờởỡợúùủũụưứừửữựýỳỷỹỵ", "A"*17 + "D" + "E"*11 + "I"*5 + "O"*17 + "U"*11 + "Y"*5 + "a"*17 + "d" + "e"*11 + "i"*5 + "o"*17 + "u"*11 + "y"*5 ) def xoa_dau(txt: str) -> str: if not unicodedata.is_normalized("NFC", txt): txt = unicodedata.normalize("NFC", txt) return txt.translate(BANG_XOA_DAU) ``` ## 1. giải thích quá trình @@ -65,7 +65,7 @@ unicodedata.is_normalized("NFC", txt) # True nhờ vào dạng unicode chuẩn C, thay thế kí tự là “1 kí tự thay thế 1 kí tự” (thay vì “1 kí tự thay thế nhiều kí tự” nếu không đúng chuẩn), cách làm hiệu quả nhất là tạo bảng tương ứng kí tự có dấu - ko dấu với hàm `str.maketrans()` có sẵn trong python: ```python BANG_XOA_DAU = str.maketrans( "ÁÀẢÃẠĂẮẰẲẴẶÂẤẦẨẪẬĐÈÉẺẼẸÊẾỀỂỄỆÍÌỈĨỊÓÒỎÕỌÔỐỒỔỖỘƠỚỜỞỠỢÚÙỦŨỤƯỨỪỬỮỰÝỲỶỸỴáàảãạăắằẳẵặâấầẩẫậđèéẻẽẹêếềểễệíìỉĩịóòỏõọôốồổỗộơớờởỡợúùủũụưứừửữựýỳỷỹỵ", "A"*17 + "D" + "E"*11 + "I"*5 + "O"*17 + "U"*11 + "Y"*5 + "a"*17 + "d" + "e"*11 + "i"*5 + "o"*17 + "u"*11 + "y"*5 ) @@ -74,10 +74,10 @@ DIACRITICS_TABLE = str.maketrans( xoá dấu với hàm `.translate()` có sẵn trong python: ```python txt.translate(BANG_XOA_DAU) # "“ Dao duc kinh”" ``` lệnh thay thế kí tự trên toàn chuỗi được thực thi đúng 1 lần duy nhất ## 2. so sánh với các cách xoá dấu thường sử dụng khác @@ -89,40 +89,50 @@ lệnh thay thế kí tự trên toàn chuỗi đúng 1 lần duy nhất ```python from unidecode import unidecode txt = "“Đạo đức kinh”" unidecode(txt) # '" Dao duc kinh"' ``` - *dùng `flashtext.KeywordProcessor()`*: hứa hẹn tốc độ nhanh hơn cả `.replace()` và `RegEx` do có thuật toán đặc biệt, **nhưng chưa tương thích với kí tự ngoài bảng ASCII** ### 2.2. xử lí kí tự bằng công cụ có sẵn trong python - khởi tạo chuỗi mới ```python BANG_XOA_DAU_1 = {"Á": "A" , "À": "A" , …} txt = "“Đạo đức kinh”" txt = "".join([BANG_XOA_DAU_1.get(s, s) for s in txt]) ``` về cơ bản thì tương đương với phương pháp mình trình bày ở trên, nhưng chậm hơn do sử dụng vòng lặp `for` - *dùng `.replace()`*: ```python BANG_XOA_DAU_2 = {"Á": "A" , "À": "A" , …} # total 134 items txt = "“Đạo đức kinh”" for k, v in BANG_XOA_DAU_2.items(): txt = txt.replace(k, v) ``` lệnh thay thế kí tự trên toàn chuỗi (`.replace()`) được thực thi 134 lần - *dùng `RegEx`*: viết code ngắn hơn, tốc độ nhanh hơn `.replace()` ```python import re BANG_XOA_DAU_3 = { # compile and save regex object for reuse is more efficient "A": re.compile("[ÁÀẢÃẠĂẮẰẲẴẶÂẤẦẨẪẬ]"), "a": re.compile("[áàảãạăắằẳẵặâấầẩẫậ]"), … # total 14 items } txt = "“Đạo đức kinh”" for k, v in BANG_XOA_DAU_3.items(): txt = v.sub(k, txt) ``` lệnh thay thế kí tự trên toàn chuỗi (`re.sub()`) được thực thi 14 lần ## 3. phụ lục: bảng unicode codepoint kí tự tiếng Việt @@ -133,19 +143,19 @@ không tồn tại dạng này đối với kí tự Đđ dấu đổi nguyên âm <table><tbody><tr> <td>̆ (dấu ă)<br /><code>U+0306</code></td> <td>̂ (dấu mũ âêô)<br /><code>U+0302</code></td> <td>̛ (dấu móc ơư)<br /><code>U+031B</code></td> </tr></tbody></table> dấu thanh điệu <table><tbody><tr> <td>́ (dấu sắc)<br /><code>U+0301</code></td> <td>̀ (dấu huyền)<br /><code>U+0300</code></td> <td>̉ (dấu hỏi)<br /><code>U+0309</code></td> <td>̃ (dấu ngã)<br /><code>U+0303</code></td> <td>̣ (dấu nặng)<br /><code>U+0323</code></td> </tr></tbody></table> ### 3.2. dạng unicode chuẩn C -
phineas-pta created this gist
May 23, 2023 .There are no files selected for viewing
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode charactersOriginal file line number Diff line number Diff line change @@ -0,0 +1,356 @@ # xoá dấu tiếng Việt với Python phương pháp nhanh hơn, hiệu quả hơn và không cần cài thêm package code hoàn chỉnh: ```python import unicodedata DIACRITICS_TABLE = str.maketrans( "ÁÀẢÃẠĂẮẰẲẴẶÂẤẦẨẪẬĐÈÉẺẼẸÊẾỀỂỄỆÍÌỈĨỊÓÒỎÕỌÔỐỒỔỖỘƠỚỜỞỠỢÚÙỦŨỤƯỨỪỬỮỰÝỲỶỸỴáàảãạăắằẳẵặâấầẩẫậđèéẻẽẹêếềểễệíìỉĩịóòỏõọôốồổỗộơớờởỡợúùủũụưứừửữựýỳỷỹỵ", "A"*17 + "D" + "E"*11 + "I"*5 + "O"*17 + "U"*11 + "Y"*5 + "a"*17 + "d" + "e"*11 + "i"*5 + "o"*17 + "u"*11 + "y"*5 ) def xoa_dau(txt: str) -> str: if not unicodedata.is_normalized("NFC", txt): txt = unicodedata.normalize("NFC", txt) return txt.translate(DIACRITICS_TABLE) ``` ## 1. giải thích quá trình cần package `unicodedata` (có sẵn trong python): ```python import unicodedata ``` cho 1 string trong python như sau: ```python raw_txt = "“Đạo đức kinh”" ``` ### bước 1: đưa về dạng unicode chuẩn C (unicode normal form C) nếu bạn cho rằng `raw_txt` rất bình thường thì bạn đã lầm, bởi vì dấu là 1 kí tự riêng ví dụ thay vì là 1 kí tự `ứ` (`U+1EE9`) văn bản lại là chuỗi: - 3 kí tự `u` (`U+0075`) + `◌̛` (dấu móc ư `U+031B`) + `◌́` (dấu sắc `U+0301`), do khi crawl text online dạng HTML là `ứ`, lưu ý thứ tự của `U+031B` và `U+0301` không quan trọng 👉 đây gọi là dạng unicode chuẩn D (unicode normal form D) - 2 kí tự `ư` (`U+01B0`) + `◌́` (dấu sắc `U+0301`) 👉 không thuộc về dạng unicode chuẩn nào - 2 kí tự `ú` (`U+00FA`) + `◌̛` (dấu móc ư `U+031B`) 👉 không thuộc về dạng unicode chuẩn nào bước này ít người biết đến, nếu bỏ qua bước này, kế tiếp khi ta xoá dấu (thay thế `ứ` bằng `u`) sẽ gặp rắc rối do không biết `ứ` là 1 kí tự hay chuỗi 2/3 kí tự mình phát hiện ra vấn đề này khi crawl text truyện chữ về đọc dạng unicode chuẩn C là khi các dấu nhập chung thành 1 kí tự duy nhất `ứ` (`U+1EE9`) để kiểm tra xem text đã đúng dạng unicode chuẩn C (viết tắt NFC): ```python unicodedata.is_normalized("NFC", raw_txt) # False ``` chuyển sang dạng unicode chuẩn C ```python txt = unicodedata.normalize("NFC", raw_txt) # "“Đạo đức kinh”" unicodedata.is_normalized("NFC", txt) # True ``` ### bước 2: xoá dấu cực nhanh nhờ vào dạng unicode chuẩn C, thay thế kí tự là “1 kí tự thay thế 1 kí tự” (thay vì “1 kí tự thay thế nhiều kí tự” nếu không đúng chuẩn), cách làm hiệu quả nhất là tạo bảng tương ứng kí tự có dấu - ko dấu với hàm `str.maketrans()` có sẵn trong python: ```python DIACRITICS_TABLE = str.maketrans( "ÁÀẢÃẠĂẮẰẲẴẶÂẤẦẨẪẬĐÈÉẺẼẸÊẾỀỂỄỆÍÌỈĨỊÓÒỎÕỌÔỐỒỔỖỘƠỚỜỞỠỢÚÙỦŨỤƯỨỪỬỮỰÝỲỶỸỴáàảãạăắằẳẵặâấầẩẫậđèéẻẽẹêếềểễệíìỉĩịóòỏõọôốồổỗộơớờởỡợúùủũụưứừửữựýỳỷỹỵ", "A"*17 + "D" + "E"*11 + "I"*5 + "O"*17 + "U"*11 + "Y"*5 + "a"*17 + "d" + "e"*11 + "i"*5 + "o"*17 + "u"*11 + "y"*5 ) ``` xoá dấu với hàm `.translate()` có sẵn trong python: ```python txt.translate(DIACRITICS_TABLE) # "“ Dao duc kinh”" ``` lệnh thay thế kí tự trên toàn chuỗi đúng 1 lần duy nhất ## 2. so sánh với các cách xoá dấu thường sử dụng khác ### 2.1. cài thêm package phụ trợ điểm mạnh là tốc độ, do thực thi lệnh thay thế kí tự trên toàn chuỗi đúng 1 lần duy nhất (giống như trên), nhưng còn nhiều thiếu sót - *dùng `unidecode.unidecode()`*: vốn được dùng để chuyển kí tự unicode về bảng ASCII, vậy nên sẽ **làm mất các kí tự khác**, ví dụ ở trên 2 kí tự `“ ”` sẽ thành `" "`; phương pháp duy nhất ko bị ảnh hưởng bởi dạng unicode chuẩn C hay D ```python from unidecode import unidecode unidecode(txt) # '" Dao duc kinh"' unidecode(raw_txt) # '" Dao duc kinh"' ``` - *dùng `flashtext.KeywordProcessor()`*: hứa hẹn tốc độ nhanh hơn cả `.replace()` và `RegEx` do có thuật toán đặc biệt, **nhưng chưa tương thích với kí tự ngoài bảng ASCII** ### 2.2. xử lí kí tự bằng công cụ có sẵn trong python lệnh thay thế kí tự trên toàn chuỗi được thực thi nhiều lần nên sẽ chậm hơn - *dùng `.replace()`*: ```python BANG_XOA_DAU = {"Á": "A" , "À": "A" , …} # total 134 items for k, v in BANG_XOA_DAU.items(): txt = txt.replace(k, v) ``` lệnh `.replace()` được thực thi 134 lần - *dùng `RegEx`*: viết code ngắn hơn, tốc độ nhanh hơn `.replace()` ```python import re BANG_XOA_DAU = { # compile and save regex object for reuse is more efficient "A": re.compile("[ÁÀẢÃẠĂẮẰẲẴẶÂẤẦẨẪẬ]"), "a": re.compile("[áàảãạăắằẳẵặâấầẩẫậ]"), … # total 14 items } for k, v in BANG_XOA_DAU.items(): txt = v.sub(k, txt) ``` lệnh `re.sub()` được thực thi 14 lần ## 3. phụ lục: bảng unicode codepoint kí tự tiếng Việt ### 3.1. dạng unicode chuẩn D không tồn tại dạng này đối với kí tự Đđ dấu đổi nguyên âm <table><tbody><tr> <td>̆ (dấu ă)<br /><code>U+0306</code></td> <td>̂ (dấu mũ âêô)<br /><code>U+0302</code></td> <td>̛ (dấu móc ơư)<br /><code>U+031B</code></td> </tr></tbody></table> dấu thanh điệu <table><tbody><tr> <td>́ (dấu sắc)<br /><code>U+0301</code></td> <td>̀ (dấu huyền)<br /><code>U+0300</code></td> <td>̉ (dấu hỏi)<br /><code>U+0309</code></td> <td>̃ (dấu ngã)<br /><code>U+0303</code></td> <td>̣ (dấu nặng)<br /><code>U+0323</code></td> </tr></tbody></table> ### 3.2. dạng unicode chuẩn C tham khảo thêm: https://vietunicode.sourceforge.net/charset/vietcharset.html <table><tbody> <tr> <td></td> <td>Á<br /><code>U+00C1</code></td> <td>À<br /><code>U+00C0</code></td> <td>Ả<br /><code>U+1EA2</code></td> <td>Ã<br /><code>U+00C3</code></td> <td>Ạ<br /><code>U+1EA0</code></td> </tr> <tr> <td>Ă<br /><code>U+0102</code></td> <td>Ắ<br /><code>U+1EAE</code></td> <td>Ằ<br /><code>U+1EB0</code></td> <td>Ẳ<br /><code>U+1EB2</code></td> <td>Ẵ<br /><code>U+1EB4</code></td> <td>Ặ<br /><code>U+1EB6</code></td> </tr> <tr> <td>Â<br /><code>U+00C2</code></td> <td>Ấ<br /><code>U+1EA4</code></td> <td>Ầ<br /><code>U+1EA6</code></td> <td>Ẩ<br /><code>U+1EA8</code></td> <td>Ẫ<br /><code>U+1EAA</code></td> <td>Ậ<br /><code>U+1EAC</code></td> </tr> <tr> <td>Đ<br /><code>U+0110</code></td> <td colspan="5"></td> </tr> <tr> <td></td> <td>È<br /><code>U+00C8</code></td> <td>É<br /><code>U+00C9</code></td> <td>Ẻ<br /><code>U+1EBA</code></td> <td>Ẽ<br /><code>U+1EBC</code></td> <td>Ẹ<br /><code>U+1EB8</code></td> </tr> <tr> <td>Ê<br /><code>U+00CA</code></td> <td>Ế<br /><code>U+1EBE</code></td> <td>Ề<br /><code>U+1EC0</code></td> <td>Ể<br /><code>U+1EC2</code></td> <td>Ễ<br /><code>U+1EC4</code></td> <td>Ệ<br /><code>U+1EC6</code></td> </tr> <tr> <td></td> <td>Í<br /><code>U+00CD</code></td> <td>Ì<br /><code>U+00CC</code></td> <td>Ỉ<br /><code>U+1EC8</code></td> <td>Ĩ<br /><code>U+0128</code></td> <td>Ị<br /><code>U+1ECA</code></td> </tr> <tr> <td></td> <td>Ó<br /><code>U+00D3</code></td> <td>Ò<br /><code>U+00D2</code></td> <td>Ỏ<br /><code>U+1ECE</code></td> <td>Õ<br /><code>U+00D5</code></td> <td>Ọ<br /><code>U+1ECC</code></td> </tr> <tr> <td>Ô<br /><code>U+00D4</code></td> <td>Ố<br /><code>U+1ED0</code></td> <td>Ồ<br /><code>U+1ED2</code></td> <td>Ổ<br /><code>U+1ED4</code></td> <td>Ỗ<br /><code>U+1ED6</code></td> <td>Ộ<br /><code>U+1ED8</code></td> </tr> <tr> <td>Ơ<br /><code>U+01A0</code></td> <td>Ớ<br /><code>U+1EDA</code></td> <td>Ờ<br /><code>U+1EDC</code></td> <td>Ở<br /><code>U+1EDE</code></td> <td>Ỡ<br /><code>U+1EE0</code></td> <td>Ợ<br /><code>U+1EE2</code></td> </tr> <tr> <td></td> <td>Ú<br /><code>U+00DA</code></td> <td>Ù<br /><code>U+00D9</code></td> <td>Ủ<br /><code>U+1EE6</code></td> <td>Ũ<br /><code>U+0168</code></td> <td>Ụ<br /><code>U+1EE4</code></td> </tr> <tr> <td>Ư<br /><code>U+01AF</code></td> <td>Ứ<br /><code>U+1EE8</code></td> <td>Ừ<br /><code>U+1EEA</code></td> <td>Ử<br /><code>U+1EEC</code></td> <td>Ữ<br /><code>U+1EEE</code></td> <td>Ự<br /><code>U+1EF0</code></td> </tr> <tr> <td></td> <td>Ý<br /><code>U+00DD</code></td> <td>Ỳ<br /><code>U+1EF2</code></td> <td>Ỷ<br /><code>U+1EF6</code></td> <td>Ỹ<br /><code>U+1EF8</code></td> <td>Ỵ<br /><code>U+1EF4</code></td> </tr> <tr> <td></td> <td>á<br /><code>U+00E1</code></td> <td>à<br /><code>U+00E0</code></td> <td>ả<br /><code>U+1EA3</code></td> <td>ã<br /><code>U+00E3</code></td> <td>ạ<br /><code>U+1EA1</code></td> </tr> <tr> <td>ă<br /><code>U+0103</code></td> <td>ắ<br /><code>U+1EAF</code></td> <td>ằ<br /><code>U+1EB1</code></td> <td>ẳ<br /><code>U+1EB3</code></td> <td>ẵ<br /><code>U+1EB5</code></td> <td>ặ<br /><code>U+1EB7</code></td> </tr> <tr> <td>â<br /><code>U+00E2</code></td> <td>ấ<br /><code>U+1EA5</code></td> <td>ầ<br /><code>U+1EA7</code></td> <td>ẩ<br /><code>U+1EA9</code></td> <td>ẫ<br /><code>U+1EAB</code></td> <td>ậ<br /><code>U+1EAD</code></td> </tr> <tr> <td>đ<br /><code>U+0111</code></td> <td colspan="5"></td> </tr> <tr> <td></td> <td>è<br /><code>U+00E8</code></td> <td>é<br /><code>U+00E9</code></td> <td>ẻ<br /><code>U+1EBB</code></td> <td>ẽ<br /><code>U+1EBD</code></td> <td>ẹ<br /><code>U+1EB9</code></td> </tr> <tr> <td>ê<br /><code>U+00EA</code></td> <td>ế<br /><code>U+1EBF</code></td> <td>ề<br /><code>U+1EC1</code></td> <td>ể<br /><code>U+1EC3</code></td> <td>ễ<br /><code>U+1EC5</code></td> <td>ệ<br /><code>U+1EC7</code></td> </tr> <tr> <td></td> <td>í<br /><code>U+00ED</code></td> <td>ì<br /><code>U+00EC</code></td> <td>ỉ<br /><code>U+1EC9</code></td> <td>ĩ<br /><code>U+0129</code></td> <td>ị<br /><code>U+1ECB</code></td> </tr> <tr> <td></td> <td>ó<br /><code>U+00F3</code></td> <td>ò<br /><code>U+00F2</code></td> <td>ỏ<br /><code>U+1ECF</code></td> <td>õ<br /><code>U+00F5</code></td> <td>ọ<br /><code>U+1ECD</code></td> </tr> <tr> <td>ô<br /><code>U+00F4</code></td> <td>ố<br /><code>U+1ED1</code></td> <td>ồ<br /><code>U+1ED3</code></td> <td>ổ<br /><code>U+1ED5</code></td> <td>ỗ<br /><code>U+1ED7</code></td> <td>ộ<br /><code>U+1ED9</code></td> </tr> <tr> <td>ơ<br /><code>U+01A1</code></td> <td>ớ<br /><code>U+1EDB</code></td> <td>ờ<br /><code>U+1EDD</code></td> <td>ở<br /><code>U+1EDF</code></td> <td>ỡ<br /><code>U+1EE1</code></td> <td>ợ<br /><code>U+1EE3</code></td> </tr> <tr> <td></td> <td>ú<br /><code>U+00FA</code></td> <td>ù<br /><code>U+00F9</code></td> <td>ủ<br /><code>U+1EE7</code></td> <td>ũ<br /><code>U+0169</code></td> <td>ụ<br /><code>U+1EE5</code></td> </tr> <tr> <td>ư<br /><code>U+01B0</code></td> <td>ứ<br /><code>U+1EE9</code></td> <td>ừ<br /><code>U+1EEB</code></td> <td>ử<br /><code>U+1EED</code></td> <td>ữ<br /><code>U+1EEF</code></td> <td>ự<br /><code>U+1EF1</code></td> </tr> <tr> <td></td> <td>ý<br /><code>U+00FD</code></td> <td>ỳ<br /><code>U+1EF3</code></td> <td>ỷ<br /><code>U+1EF7</code></td> <td>ỹ<br /><code>U+1EF9</code></td> <td>ỵ<br /><code>U+1EF5</code></td> </tr> </tbody></table> This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode charactersOriginal file line number Diff line number Diff line change @@ -0,0 +1,69 @@ BANG_DANH_DAU = { "vni": { "Á": "A1" , "À": "A2" , "Ả": "A3" , "Ã": "A4" , "Ạ": "A5" , "Ă": "A8", "Ắ": "A81", "Ằ": "A82", "Ẳ": "A83", "Ẵ": "A84", "Ặ": "A85", "Â": "A6", "Ấ": "A61", "Ầ": "A62", "Ẩ": "A63", "Ẫ": "A64", "Ậ": "A65", "Đ": "D9", "É": "E1" , "È": "E2" , "Ẻ": "E3" , "Ẽ": "E4" , "Ẹ": "E5" , "Ê": "E6", "Ế": "E61", "Ề": "E62", "Ể": "E63", "Ễ": "E64", "Ệ": "E65", "Í": "I1" , "Ì": "I2" , "Ỉ": "I3" , "Ĩ": "I4" , "Ị": "I5" , "Ó": "O1" , "Ò": "O2" , "Ỏ": "O3" , "Õ": "O4" , "Ọ": "O5" , "Ô": "O6", "Ố": "O61", "Ồ": "O62", "Ổ": "O63", "Ỗ": "O64", "Ộ": "O65", "Ơ": "O7", "Ớ": "O71", "Ờ": "O72", "Ở": "O73", "Ỡ": "O74", "Ợ": "O75", "Ú": "U1" , "Ù": "U2" , "Ủ": "U3" , "Ũ": "U4" , "Ụ": "U5" , "Ư": "U7", "Ứ": "U71", "Ừ": "U72", "Ử": "U73", "Ữ": "U74", "Ự": "U75", "Ý": "Y1" , "Ỳ": "Y2" , "Ỷ": "Y3" , "Ỹ": "Y4" , "Ỵ": "Y5" , "á": "a1" , "à": "a2" , "ả": "a3" , "ã": "a4" , "ạ": "a5" , "ă": "a8", "ắ": "a81", "ằ": "a82", "ẳ": "a83", "ẵ": "a84", "ặ": "a85", "â": "a6", "ấ": "a61", "ầ": "a62", "ẩ": "a63", "ẫ": "a64", "ậ": "a65", "đ": "d9", "é": "e1" , "è": "e2" , "ẻ": "e3" , "ẽ": "e4" , "ẹ": "e5" , "ê": "e6", "ế": "e61", "ề": "e62", "ể": "e63", "ễ": "e64", "ệ": "e65", "í": "i1" , "ì": "i2" , "ỉ": "i3" , "ĩ": "i4" , "ị": "i5" , "ó": "o1" , "ò": "o2" , "ỏ": "o3" , "õ": "o4" , "ọ": "o5" , "ô": "o6", "ố": "o61", "ồ": "o62", "ổ": "o63", "ỗ": "o64", "ộ": "o65", "ơ": "o7", "ớ": "o71", "ờ": "o72", "ở": "o73", "ỡ": "o74", "ợ": "o75", "ú": "u1" , "ù": "u2" , "ủ": "u3" , "ũ": "u4" , "ụ": "u5" , "ư": "u7", "ứ": "u71", "ừ": "u72", "ử": "u73", "ữ": "u74", "ự": "u75", "ý": "y1" , "ỳ": "y2" , "ỷ": "y3" , "ỹ": "y4" , "ỵ": "y5" , }, "telex": { "Á": "AS" , "À": "AF" , "Ả": "AR" , "Ã": "AX" , "Ạ": "AJ" , "Ă": "AW", "Ắ": "AWS", "Ằ": "AWF", "Ẳ": "AWR", "Ẵ": "AWX", "Ặ": "AWJ", "Â": "AA", "Ấ": "AAS", "Ầ": "AAF", "Ẩ": "AAR", "Ẫ": "AAX", "Ậ": "AAJ", "Đ": "DD", "É": "ES" , "È": "EF" , "Ẻ": "ER" , "Ẽ": "EX" , "Ẹ": "EJ" , "Ê": "EE", "Ế": "EES", "Ề": "EEF", "Ể": "EER", "Ễ": "EEX", "Ệ": "EEJ", "Í": "IS" , "Ì": "IF" , "Ỉ": "IR" , "Ĩ": "IX" , "Ị": "IJ" , "Ó": "OS" , "Ò": "OF" , "Ỏ": "OR" , "Õ": "OX" , "Ọ": "OJ" , "Ô": "OO", "Ố": "OOS", "Ồ": "OOF", "Ổ": "OOR", "Ỗ": "OOX", "Ộ": "OOJ", "Ơ": "OW", "Ớ": "OWS", "Ờ": "OWF", "Ở": "OWR", "Ỡ": "OWX", "Ợ": "OWJ", "Ú": "US" , "Ù": "UF" , "Ủ": "UR" , "Ũ": "UX" , "Ụ": "UJ" , "Ư": "UW", "Ứ": "UWS", "Ừ": "UWF", "Ử": "UWR", "Ữ": "UWX", "Ự": "UWJ", "Ý": "YS" , "Ỳ": "YF" , "Ỷ": "YR" , "Ỹ": "YX" , "Ỵ": "YJ" , "á": "as" , "à": "af" , "ả": "ar" , "ã": "ax" , "ạ": "aj" , "ă": "aw", "ắ": "aws", "ằ": "awf", "ẳ": "awr", "ẵ": "awx", "ặ": "awj", "â": "aa", "ấ": "aas", "ầ": "aaf", "ẩ": "aar", "ẫ": "aax", "ậ": "aaj", "đ": "dd", "é": "es" , "è": "ef" , "ẻ": "er" , "ẽ": "ex" , "ẹ": "ej" , "ê": "ee", "ế": "ees", "ề": "eef", "ể": "eer", "ễ": "eex", "ệ": "eej", "í": "is" , "ì": "if" , "ỉ": "ir" , "ĩ": "ix" , "ị": "ij" , "ó": "os" , "ò": "of" , "ỏ": "or" , "õ": "ox" , "ọ": "oj" , "ô": "oo", "ố": "oos", "ồ": "oof", "ổ": "oor", "ỗ": "oox", "ộ": "ooj", "ơ": "ow", "ớ": "ows", "ờ": "owf", "ở": "owr", "ỡ": "owx", "ợ": "owj", "ú": "us" , "ù": "uf" , "ủ": "ur" , "ũ": "ux" , "ụ": "uj" , "ư": "uw", "ứ": "uws", "ừ": "uwf", "ử": "uwr", "ữ": "uwx", "ự": "uwj", "ý": "ys" , "ỳ": "yf" , "ỷ": "yr" , "ỹ": "yx" , "ỵ": "yj" , } } def xoa_dau_sang_vni_telex(txt: str, kieu_go: str) -> str: kieu_go = kieu_go.lower() if kieu_go not in BANG_DANH_DAU: raise Exception("kiểu gõ ko hợp lệ") for k, v in BANG_DANH_DAU[kieu_go].items(): txt = txt.replace(k, v) return txt xoa_dau_sang_vni_telex(txt, "vni") # "“D9a5o d9u71c kinh”" xoa_dau_sang_vni_telex(txt, "telex") # "“DDajo dduwsc kinh”"