一种句子相似度对比方法与流程

本虚构关涉计算机技术场地。,详细关于,关涉句子外观度匹敌方法。。

装置技术:

学术不端行动是指研究院的一点点诈骗行动。、不良行动或失范,或许是抬起另无论哪些人学术研究成果的人。,学术欺诈,障碍学术放针,与理科活力和道德准则戴盆望天,摒弃理科实验记录的是非问句基本的,它对理科和呕出有剧烈的的负面情感。,剧烈的伤害学术抽象的丑陋气象。。

趋势,为了阻挠学术不端行动,需求对著作举行检索。,但是,目前的著作综述的诡计。,你要责任反省就是同无论哪些人句子。,改写句子,分量反省奈何。,这造成目前的的反省技术不克不及无效。。

技术如愿以偿基础:

本虚构所要处理的技术成绩是目前的著作。,改写句子,分量反省奈何。,这造成目前的的反省技术不克不及无效。,企图是预约一种句子外观度匹敌方法。,处理前述的成绩。

本虚构经过以下技术课题如愿以偿。:

句子外观度匹敌法,包含以下步调:S1:将原句子和对比句子向数字化至就是同无论哪些人矢径间隔;S2:从数据中演绎原句子矢径和对比句子矢径的夹角;S3:当原句子矢径和对比句子矢径的夹角以内数量开始时,以为两个句子是外观的。;当原句子矢径和对比句子矢径的夹角大于开始时,以为两个句子不大可能性。。

目前的技术,以阻挠学术不端行动。,需求对著作举行检索。,但是,目前的著作综述的诡计。,你要责任反省就是同无论哪些人句子。,改写句子,分量反省奈何。,这造成目前的的反省技术不克不及无效。。当运用本虚构时,先将原句子和对比句子向数字化至就是同无论哪些人矢径间隔,再从数据中演绎原句子矢径和对比句子矢径的夹角,因同样句子是数字化的。,因而平坦的改写句子,词典不克有专家的换衣。,矢径间隔说话中肯机能也将是外观的。,当原句子矢径和对比句子矢径的夹角以内数量开始时,以为两个句子是外观的。;当原句子矢径和对比句子矢径的夹角大于开始时,以为两个句子不大可能性。,这使得改写句子变为可能性。,不克情感整数分量反省。,更无效地阻挠学术不端行动。。

更多的,步调S1包含以下子步调:S11:将原句子和对比句子的接受词典萃取物至无论哪些人矢径间隔,每个词代表无论哪些人维度。;S12:将原始句子说话中肯单词数分将按比例放大单词的值;S13:将词典在对比句子涌现的次数作业给该词典在对比句子矢径的值。

当运用本虚构时,鉴于华语特点的特性,华语特点是以字为基本图案,构词法或构词法。,因而它非常奇特的匹配离开。,把句子划分。,再萃取物矢径间隔,放针了分量检测的胜利。。

更多的,步调S1还包含以下子步调:S14:将矢径间隔中同义词的维度兼并。。

更多的,步调S2包含以下步调:经过原句子矢径和对比句子矢径的夹角的余弦断定夹角的值:X是原始的句子矢径。,Y为对比句子矢径,θ为原句子矢径和对比句子矢径的夹角。

当运用本虚构时,在两个矢径已知的必要的下,经过匹敌整数。,平坦的矢径的维数很高。,它也可以迅速的手感。,放针反复反省的性能。。

更多的,步调S3的开始为10~20度。。

将本虚构与目前的技术举行了匹敌。,它具有以下优点和惠及胜利。:

本虚构句子外观度匹敌法,为了句子就改写了。,不克情感整数分量反省。,更无效地阻挠学术不端行动。。

详细完成方法

为了本虚构的企图、技术处理课题和优势专家。,上面是无论哪些人事例。,塌下了本虚构的更多解说。,仅运用本虚构的表现性完成例及其阐明。,责任对本虚构的限度局限。。

完成例1

本虚构句子外观度匹敌法,句子外观度匹敌法,包含以下步调:S1:将原句子和对比句子向数字化至就是同无论哪些人矢径间隔;S2:从数据中演绎原句子矢径和对比句子矢径的夹角;S3:当原句子矢径和对比句子矢径的夹角以内数量开始时,以为两个句子是外观的。;当原句子矢径和对比句子矢径的夹角大于开始时,以为两个句子不大可能性。。步调S1包含以下子步调:S11:将原句子和对比句子的接受词典萃取物至无论哪些人矢径间隔,每个词代表无论哪些人维度。;S12:将原始句子说话中肯单词数分将按比例放大单词的值;S13:将词典在对比句子涌现的次数作业给该词典在对比句子矢径的值。步调S1还包含以下子步调:S14:将矢径间隔中同义词的维度兼并。。步调S2包含以下步调:经过原句子矢径和对比句子矢径的夹角的余弦断定夹角的值:X是原始的句子矢径。,Y为对比句子矢径,θ为原句子矢径和对比句子矢径的夹角。更多的,步调S3的开始为10~20度。。

本完成例的如愿以偿,先将原句子和对比句子向数字化至就是同无论哪些人矢径间隔,再从数据中演绎原句子矢径和对比句子矢径的夹角,因同样句子是数字化的。,因而平坦的改写句子,词典不克有专家的换衣。,矢径间隔说话中肯机能也将是外观的。,当原句子矢径和对比句子矢径的夹角以内数量开始时,以为两个句子是外观的。;当原句子矢径和对比句子矢径的夹角大于开始时,以为两个句子不大可能性。,这使得改写句子变为可能性。,不克情感整数分量反省。,更无效地阻挠学术不端行动。。鉴于华语特点的特性,华语特点是以字为基本图案,构词法或构词法。,因而它非常奇特的匹配离开。,把句子划分。,再萃取物矢径间隔,放针了分量检测的胜利。。在两个矢径已知的必要的下,经过匹敌整数。,平坦的矢径的维数很高。,它也可以迅速的手感。,放针反复反省的性能。。

完成例2

该完成例鉴于完成例1。,选择以下内容:

原句子:X射线反射光悲痛。

对比句子:商品的X射线辐照。

把两个句子陷入两个单词。:

原句子:经过X射线,在悲痛上。。

对比句子:商品X射线辐照。

后来地矢径间隔是:

(经过),X射线,对,悲痛,反射光,完成);

原句的矢径表现为:(1,1,1,1,1,0);对比句子的矢径表现为(0,1,1,1,1,1);

后来地可以折叠两个矢径私下的夹角。,断定两个句子的外观性。。

详细完成方法。,本虚构的企图、并更多论述了技术课题和效益。,被期望逮捕的是,外面的所述仅为本虚构的详细完成方法便了,它不企图限度局限本虚构的进行辩护视野。,在本虚构的活力和基本的视野内。,作出无论哪些修正、无分轩轾掉换、改善等。,应包含在本虚构进行辩护视野内。。

发表评论

电子邮件地址不会被公开。 必填项已用*标注