排序 – 如何将汉字转换成拼音 - 代码日志

排序 – 如何将汉字转换成拼音

对于中文文本的排序,我想将汉字转换成拼音,正确分隔每个汉字并将连续字符分组在一起。

你可以通过提供这样做的逻辑或源代码来帮助我完成这个任务吗?

如果有任何开源或lib已经存在,请让我知道。

简短的答案:你没有

长的答案:汉字到汉语拼音没有一对一的映射。只是一些快速的例子:

>把可以是“ba”在第三音或第四音。
>可以是“无”或“iao”第三音。
乐可以是“乐”或“ue”,都是第四音。
>落可以是“罗”,“拉”或“老挝”,全是第四音。

等等。我有一本关于这个话题的初学者书,有207个例子。我强调,这是一本初学者的书,绝对不是完整的。每个人都有一个或两个使用和条件的例子,您可以选择适当的发音。这不是很容易编程的(如果有的话)。

这甚至不能解决你想要处理的其他滑溜的事情:将字符分成分组的单词。一个字的这个概念是有点滑的中文。 (有两个对应的术语,大致对应于中文的“单词”,例如:字和词,第一个是字符,第二组字符被放在一个概念中(我经常被中国人询问多少个“字”我们可以阅读,当时他们真的意思是“人物”。)虽然在某些情况下,区别是明确的(例如,乌鸦“这个词是”乌鸦“ – 两个字必须一起表达想法将它翻译成“黑乌鸦”是不正确的,在其他情况下不太清楚,“你好”是什么意思?一个字是什么意思,惯用的“你好”还是两个字翻译字面意思是“你好”?每一个人物都是单独的,或是与其他单词分开组合在一起,它们意味着与他们个人意义完全不一样的东西,因此,你如何计划将汉语拼音音译这是难以获得的权利在第一位!)进入“话”?

http://stackoverflow.com/questions/4813086/how-to-convert-chinese-characters-to-pinyin

本站文章除注明转载外,均为本站原创或编译
转载请明显位置注明出处:排序 – 如何将汉字转换成拼音