[Share Experiences]搜狗输入法细胞词库制作及导入工具(命令行版)
20250911更新:
现在有更好的开源版项目,不再需要wine环境:
由@nopdan 开源
https://github.com/nopdan/scel-maker
构建方法:
sudo apt install golang-go
git clone https://github.com/nopdan/scel-maker.git
cd scel-maker
# 将生成词库文件头中的0xD2, 0x6D修改成0x44, 0x43,以兼容搜狗拼音输入法NG版
sed -i '/copy(header\[4:], \[\]byte{/ s/0xD2, 0x6D/0x44, 0x43/' ./main.go
go env -w GOPROXY=https://goproxy.cn,direct
go build -ldflags="-s -w" -o scel-maker
用法:
scel-maker input.txt
单行词条的格式:'shi'li'ci'tiao 示例词条
=================================
以下作废:
注意:此工具为个人学习Linux系统的作品,其中含有搜狗输入法组件,版权属于原软件开发商,请勿商用。
关于搜狗输入法NEXT版用户数据的友情提示:
# 用户配置目录
$HOME/.config/cpis/
# 细胞词库目录
$HOME/.config/cpis/sogou/pcpy/scd/
# 当前用户词库文件
$HOME/.config/cpis/sogou/pcpy/sgim_usr_v3new.bin
安装包:
搜狗文本词库制作工具20250717-1.zip
scdmaker_3.6.0.0_amd64.deb(密码:833y)
scdmaker_3.6.0.0_arm64.deb(密码:3e0r) 注意:arm64架构仅在飞腾d3000平台上的UOS1070中测试
解析scel工具.zip
示例文本词库.zip
使用方法:
一、运行环境部署:
1.安装deb
2.在启动器菜单点击”初始化scdmaker容器“
出现以下提示框,则为初始化成功:
3.在启动器菜单点击“添加scdmaker命令”
4.打开一个新的终端,输入命令 scdmaker
如果返回如下消息,则表示命令添加成功。如果没有生效,请注销并重新登录。
二、制作搜狗拼音输入法的文本词库
自动版:
1.按照说明安装“搜狗文本词库制作工具”
2.使用以下命令将含有中文词条的文本转换为搜狗拼音文本词库
# deepin23/25环境
python sgdict-maker.py inputtext.txt
或者
# UOS环境
python3 sgdict-maker.py inputtext.txt
手动版:
使用wps表格等工具手动制作,步骤如下:
1.一个词条一行
2.词条及文件格式要求:
a.单行词条的格式:'shi'li'ci'tiao 示例词条
b.字符编码集为 ANSI、GBK或 GB18030
c.换行符为Windows风格,即 Windows(CR LF)
如果编码集与换行符不符合要求,请使用 notepad--这个软件来转换。
三、生成词库:
命令如下:
scdmaker your_dict.txt
将在 your_dict.txt同样的位置生成 your_dict.scel
注意:txt文件名即为生成的词库名称,按需修改。
四、导入词库:
方法1.使用搜狗输入法next内置的功能导入
方法2.使用脚本 解析scel.sh your_dict.scel
六、删除工具
1.卸载运行环境包
sudo apt remove com.scdmaker.deepin
2.删除添加的scdmaker命令
rm -f $HOME/.local/bin/scdmaker
====================↓啰嗦的话↓=================
在去年的时候,简单研究了一下搜狗输入法细胞词库,具体见下面的几个帖子:
[经验分享] 搜狗输入法ng版导入细胞词库过程的简要分析
[经验分享] UOS v20 1070中的搜狗输入法导入自定义词库
[交流分享] 搜狗输入法ng版本自制细胞词库无法导入的问题解决
[经验分享] 在Deepin/UOS上快速生成搜狗细胞词库的探索
[经验分享] 演示一个搜狗拼音细胞词库生成、制作、修改的小工具
最终的成果是一个借助chagpt,用qt写的细胞词库生成、自定义的工具。那个工具在整理完自己的词库之后,就放仓库没用了,其间心血来潮修改了几次,还给改坏了,后来忙别的去了,没时间弄了,就扔下没管了。
最近几天,有群友在问,想要用一下。我就把以前制作的命令行版贴出来,先用着再说。