qundao/mirror-chise-ids
GitHub: qundao/mirror-chise-ids
CHISE-IDS是CHISE项目的汉字结构描述数据包,提供CJK统一表意文字及其扩展字符的表意文字描述序列(IDS)结构化数据,用于汉字字形分解与部件分析研究。
Stars: 0 | Forks: 0
此目录包含 CHISE-IDS 包,其中包含关于汉字(漢字)结构的数据和工具。
# 如何安装
请安装 [CL-CHISE](https://gitlab.chise.org/CHISE/cl-chise)。
请注意,如果您在 SBCL 中安装 CL-CHISE,CL-CHISE 会自动安装此包。
您也可以在 XEmacs CHISE 中使用此包。
如果您的系统中已安装 XEmacs CHISE,请在 CHISE-IDS 发行版的目录中输入:
```
% make install
```
[注意] 如果您没有 XEmacs CHISE,CHISE-base 包可能会很有用。它是一个安装程序包,用于安装 CHISE 功能,包括 libchise、XEmacs CHISE、CHISE-IDS 包、其他一些 Emacs Lisp 实用程序、一些字体等。可在此处获取:
```
http://www.chise.org/dist/base/
```
# IDS 文件
以下文件包含关于汉字(漢字)结构的数据。
## 抽象字符的 IDS 文件
```
IDS-UCS-Basic.txt CJK Unified Ideographs (U+4E00 〜 U+9FA5)
of ISO/IEC 10646-1:2000
IDS-UCS-Ext-A.txt CJK Unified Ideographs Extension A
(U+3400 〜 U+4DB5, U+FA1F and U+FA23)
of ISO/IEC 10646-1:2000
IDS-UCS-Ext-B-1.txt CJK Unified Ideographs Extension B [part 1]
(U-00020000 〜 U-00021FFF)
of ISO/IEC 10646-2:2001
IDS-UCS-Ext-B-2.txt CJK Unified Ideographs Extension B [part 2]
(U-00022000 〜 U-00023FFF)
of ISO/IEC 10646-2:2001
IDS-UCS-Ext-B-3.txt CJK Unified Ideographs Extension B [part 3]
(U-00024000 〜 U-00025FFF)
of ISO/IEC 10646-2:2001
IDS-UCS-Ext-B-4.txt CJK Unified Ideographs Extension B [part 4]
(U-00026000 〜 U-00027FFF)
of ISO/IEC 10646-2:2001
IDS-UCS-Ext-B-5.txt CJK Unified Ideographs Extension B [part 5]
(U-00028000 〜 U-00029FFF)
of ISO/IEC 10646-2:2001
IDS-UCS-Ext-B-6.txt CJK Unified Ideographs Extension B [part 6]
(U-0002A000 〜 U-0002A6D6)
of ISO/IEC 10646-2:2001
IDS-UCS-Ext-C.txt CJK Unified Ideographs Extension C
(U-0002A700 〜 U-0002B738)
IDS-UCS-Ext-D.txt CJK Unified Ideographs Extension D
(U-0002B740 〜 U-0002B81D)
IDS-UCS-Ext-E.txt CJK Unified Ideographs Extension E
(U-0002B820 〜 U-0002CEA1)
IDS-UCS-Ext-F.txt CJK Unified Ideographs Extension F
(U-0002CEB0 〜 U-0002EBE0)
IDS-UCS-Ext-G.txt CJK Unified Ideographs Extension G
(U-00030000 〜 U-0003134A)
IDS-UCS-Ext-H.txt CJK Unified Ideographs Extension H
(U-00031350 〜 U-000323AF)
IDS-UCS-Ext-I.txt CJK Unified Ideographs Extension I
(U-0002EBF0 〜 U-0002EE5D)
```
在这些文件中,每一行代表一个抽象字符,且 IDS 中使用的每个组件都应是抽象字符。
如果一个组件被 UCV 统一为两个或多个 CJK Unified Ideographs,则一个 CJK Unified Ideograph 代表该抽象组件(在语义上,它表示由 UCV 统一的抽象组件,而非抽象字符本身)。
## 字形的 IDS 文件
```
IDS-UCS-Compat.txt CJK Compatibility Ideographs
(U+F900 〜 U+FA2D, except U+FA1F and U+FA23)
of ISO/IEC 10646-1:2000
IDS-UCS-Compat-Supplement.txt
CJK Compatibility Ideographs Supplement
(U-0002F800 〜 U-0002FA1D)
of ISO/IEC 10646-2:2001
IDS-JIS-X0208-1990.txt
IDS-CNS-1.txt
IDS-CNS-2.txt
IDS-CNS-3.txt
IDS-Daikanwa-01.txt
IDS-Daikanwa-02.txt
IDS-Daikanwa-03.txt
IDS-Daikanwa-04.txt
IDS-Daikanwa-05.txt
IDS-Daikanwa-06.txt
IDS-Daikanwa-07.txt
IDS-Daikanwa-08.txt
IDS-Daikanwa-09.txt
IDS-Daikanwa-10.txt
IDS-Daikanwa-11.txt
IDS-Daikanwa-12.txt
IDS-Daikanwa-dx.txt
IDS-Daikanwa-ho.txt
IDS-CDP.txt
IDS-CBETA.txt
```
在这些文件中,每一行代表由相应的 CJK Unified Ideograph 统一的字形,而非抽象字符。因此,每个组件都应是字形。如果 CJK Unified Ideograph 指示唯一且具体的字形,则它被用作字形组件。但如果一个 CJK Unified Ideograph 统一了两个或多个字形,则使用 CHISE 字符本体中的一个字形对象。在这种情况下,字形以实体引用(entity-reference)格式表示。请注意,即使组件可以用 CJK Unified Ideograph 编码,它也可能被编码为实体引用,以指示 CHISE 字符本体中的对应字形。在这种情况下,这**不是**错误!请不要发送 Pull/Merge-Request 或 issue 要求将实体引用转换为相应的 CJK Unified Ideographs!
## 格式
这些文件采用 UTF-8 编码。文件中每一行的格式为:
```
(@apparent=)
```
或
```
;;
```
每个元素的含义为
```
(U+0009)
code point
U+hhhh Hex form of UCS code point
(U+0000 〜 U+FFFF)
U-hhhhhhhh Hex form of UCS code point
(U+00000000 〜 U+7FFFFFFF)
character corresponding with
Ideographic Description Sequence
(based on ISO/IEC 10646-1:2000 F.3.1; however
Compatibility Ideographs and non-UCS Ideographs are
also allowed)
comment
```
`(@apparent=)` 是一个可选字段。`@apparent=` 表示 `` 代表表观结构。请注意,存储在第 3 个字段中的 `` 可能被视为功能结构。
## 扩展 IDC
### 非抽象 IDC
&U-i001+2FF1;
x⿰yz = ⿸⿹xyz
&U-i001+2FFB;
x⿰yz = ⿷xyz
&U-i002+2FF1;
x⿰yz = ⿺xyz
# 许可证
本包是自由软件;您可以根据自由软件基金会发布的 GNU General Public License 条款重新分发和/或修改它; либо 许可证版本 2,或(根据您的选择)任何后续版本。
分发本包是希望它会有用,但**不提供任何保证**;甚至没有适销性或特定用途适用性的暗示保证。有关更多详细信息,请参阅 GNU General Public License。
您应该随本包一起收到 GNU General Public License 的副本;请参阅文件 COPYING。如果没有,请写信给 Free Software Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA 02111-1307, USA。
# 致谢
本包的开发得到了日本信息技术促进机构(IPA)“探索性软件项目”的支持。
IDS-UCS* 文件中的某些数据源自 C.C. Hsieh 及其团队在台湾台北中央研究院开发的 CDP 数据库,并在此基础上进行了扩展。
x⿰yz = ⿸⿹xyz
&U-i001+2FFB;
x⿰yz = ⿷xyz
&U-i002+2FF1;
x⿰yz = ⿺xyz
# 许可证
本包是自由软件;您可以根据自由软件基金会发布的 GNU General Public License 条款重新分发和/或修改它; либо 许可证版本 2,或(根据您的选择)任何后续版本。
分发本包是希望它会有用,但**不提供任何保证**;甚至没有适销性或特定用途适用性的暗示保证。有关更多详细信息,请参阅 GNU General Public License。
您应该随本包一起收到 GNU General Public License 的副本;请参阅文件 COPYING。如果没有,请写信给 Free Software Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA 02111-1307, USA。
# 致谢
本包的开发得到了日本信息技术促进机构(IPA)“探索性软件项目”的支持。
IDS-UCS* 文件中的某些数据源自 C.C. Hsieh 及其团队在台湾台北中央研究院开发的 CDP 数据库,并在此基础上进行了扩展。标签:CHISE, CJK统一汉字, Common Lisp, ISO/IEC 10646, NLP, Unicode, XEmacs, 中文信息处理, 字形库, 字形描述, 字符集, 开源数据集, 数据工具, 文字学, 汉字拆分, 汉字结构分析, 汉字编码, 汉学研究, 计算语言学