qundao/mirror-chise-ids

GitHub: qundao/mirror-chise-ids

CHISE-IDS是CHISE项目的汉字结构描述数据包,提供CJK统一表意文字及其扩展字符的表意文字描述序列(IDS)结构化数据,用于汉字字形分解与部件分析研究。

Stars: 0 | Forks: 0

此目录包含 CHISE-IDS 包,其中包含关于汉字(漢字)结构的数据和工具。 # 如何安装 请安装 [CL-CHISE](https://gitlab.chise.org/CHISE/cl-chise)。 请注意,如果您在 SBCL 中安装 CL-CHISE,CL-CHISE 会自动安装此包。 您也可以在 XEmacs CHISE 中使用此包。 如果您的系统中已安装 XEmacs CHISE,请在 CHISE-IDS 发行版的目录中输入: ``` % make install ``` [注意] 如果您没有 XEmacs CHISE,CHISE-base 包可能会很有用。它是一个安装程序包,用于安装 CHISE 功能,包括 libchise、XEmacs CHISE、CHISE-IDS 包、其他一些 Emacs Lisp 实用程序、一些字体等。可在此处获取: ``` http://www.chise.org/dist/base/ ``` # IDS 文件 以下文件包含关于汉字(漢字)结构的数据。 ## 抽象字符的 IDS 文件 ``` IDS-UCS-Basic.txt CJK Unified Ideographs (U+4E00 〜 U+9FA5) of ISO/IEC 10646-1:2000 IDS-UCS-Ext-A.txt CJK Unified Ideographs Extension A (U+3400 〜 U+4DB5, U+FA1F and U+FA23) of ISO/IEC 10646-1:2000 IDS-UCS-Ext-B-1.txt CJK Unified Ideographs Extension B [part 1] (U-00020000 〜 U-00021FFF) of ISO/IEC 10646-2:2001 IDS-UCS-Ext-B-2.txt CJK Unified Ideographs Extension B [part 2] (U-00022000 〜 U-00023FFF) of ISO/IEC 10646-2:2001 IDS-UCS-Ext-B-3.txt CJK Unified Ideographs Extension B [part 3] (U-00024000 〜 U-00025FFF) of ISO/IEC 10646-2:2001 IDS-UCS-Ext-B-4.txt CJK Unified Ideographs Extension B [part 4] (U-00026000 〜 U-00027FFF) of ISO/IEC 10646-2:2001 IDS-UCS-Ext-B-5.txt CJK Unified Ideographs Extension B [part 5] (U-00028000 〜 U-00029FFF) of ISO/IEC 10646-2:2001 IDS-UCS-Ext-B-6.txt CJK Unified Ideographs Extension B [part 6] (U-0002A000 〜 U-0002A6D6) of ISO/IEC 10646-2:2001 IDS-UCS-Ext-C.txt CJK Unified Ideographs Extension C (U-0002A700 〜 U-0002B738) IDS-UCS-Ext-D.txt CJK Unified Ideographs Extension D (U-0002B740 〜 U-0002B81D) IDS-UCS-Ext-E.txt CJK Unified Ideographs Extension E (U-0002B820 〜 U-0002CEA1) IDS-UCS-Ext-F.txt CJK Unified Ideographs Extension F (U-0002CEB0 〜 U-0002EBE0) IDS-UCS-Ext-G.txt CJK Unified Ideographs Extension G (U-00030000 〜 U-0003134A) IDS-UCS-Ext-H.txt CJK Unified Ideographs Extension H (U-00031350 〜 U-000323AF) IDS-UCS-Ext-I.txt CJK Unified Ideographs Extension I (U-0002EBF0 〜 U-0002EE5D) ``` 在这些文件中,每一行代表一个抽象字符,且 IDS 中使用的每个组件都应是抽象字符。 如果一个组件被 UCV 统一为两个或多个 CJK Unified Ideographs,则一个 CJK Unified Ideograph 代表该抽象组件(在语义上,它表示由 UCV 统一的抽象组件,而非抽象字符本身)。 ## 字形的 IDS 文件 ``` IDS-UCS-Compat.txt CJK Compatibility Ideographs (U+F900 〜 U+FA2D, except U+FA1F and U+FA23) of ISO/IEC 10646-1:2000 IDS-UCS-Compat-Supplement.txt CJK Compatibility Ideographs Supplement (U-0002F800 〜 U-0002FA1D) of ISO/IEC 10646-2:2001 IDS-JIS-X0208-1990.txt IDS-CNS-1.txt IDS-CNS-2.txt IDS-CNS-3.txt IDS-Daikanwa-01.txt IDS-Daikanwa-02.txt IDS-Daikanwa-03.txt IDS-Daikanwa-04.txt IDS-Daikanwa-05.txt IDS-Daikanwa-06.txt IDS-Daikanwa-07.txt IDS-Daikanwa-08.txt IDS-Daikanwa-09.txt IDS-Daikanwa-10.txt IDS-Daikanwa-11.txt IDS-Daikanwa-12.txt IDS-Daikanwa-dx.txt IDS-Daikanwa-ho.txt IDS-CDP.txt IDS-CBETA.txt ``` 在这些文件中,每一行代表由相应的 CJK Unified Ideograph 统一的字形,而非抽象字符。因此,每个组件都应是字形。如果 CJK Unified Ideograph 指示唯一且具体的字形,则它被用作字形组件。但如果一个 CJK Unified Ideograph 统一了两个或多个字形,则使用 CHISE 字符本体中的一个字形对象。在这种情况下,字形以实体引用(entity-reference)格式表示。请注意,即使组件可以用 CJK Unified Ideograph 编码,它也可能被编码为实体引用,以指示 CHISE 字符本体中的对应字形。在这种情况下,这**不是**错误!请不要发送 Pull/Merge-Request 或 issue 要求将实体引用转换为相应的 CJK Unified Ideographs! ## 格式 这些文件采用 UTF-8 编码。文件中每一行的格式为: ``` (@apparent=) ``` 或 ``` ;; ``` 每个元素的含义为 ``` (U+0009) code point U+hhhh Hex form of UCS code point (U+0000 〜 U+FFFF) U-hhhhhhhh Hex form of UCS code point (U+00000000 〜 U+7FFFFFFF) character corresponding with Ideographic Description Sequence (based on ISO/IEC 10646-1:2000 F.3.1; however Compatibility Ideographs and non-UCS Ideographs are also allowed) comment ``` `(@apparent=)` 是一个可选字段。`@apparent=` 表示 `` 代表表观结构。请注意,存储在第 3 个字段中的 `` 可能被视为功能结构。 ## 扩展 IDC ### 非抽象 IDC &U-i001+2FF1; U+2FF1-itaiji-001x⿰yz = ⿸⿹xyz &U-i001+2FFB; U+2FFB-itaiji-001x⿰yz = ⿷⿼xyz &U-i002+2FF1; U+2FF1-itaiji-002x⿰yz = ⿺⿽xyz # 许可证 本包是自由软件;您可以根据自由软件基金会发布的 GNU General Public License 条款重新分发和/或修改它; либо 许可证版本 2,或(根据您的选择)任何后续版本。 分发本包是希望它会有用,但**不提供任何保证**;甚至没有适销性或特定用途适用性的暗示保证。有关更多详细信息,请参阅 GNU General Public License。 您应该随本包一起收到 GNU General Public License 的副本;请参阅文件 COPYING。如果没有,请写信给 Free Software Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA 02111-1307, USA。 # 致谢 本包的开发得到了日本信息技术促进机构(IPA)“探索性软件项目”的支持。 IDS-UCS* 文件中的某些数据源自 C.C. Hsieh 及其团队在台湾台北中央研究院开发的 CDP 数据库,并在此基础上进行了扩展。
标签:CHISE, CJK统一汉字, Common Lisp, ISO/IEC 10646, NLP, Unicode, XEmacs, 中文信息处理, 字形库, 字形描述, 字符集, 开源数据集, 数据工具, 文字学, 汉字拆分, 汉字结构分析, 汉字编码, 汉学研究, 计算语言学