一种基于问句主题的自动问答答案选择方法

Submitted by neurta on Sun, 12/29/2019 - 11:41
本发明公开了一种基于问句主题的自动问答答案选择方法,通过获取问答对,对问答对中的答案进行分类,构建分类的答案集;提取待回答问句主题,根据待回答问句主题和分类模型对待回答问句进行分类,比对分类的答案集,获取待回答问句的候选答案集,根据待回答问句和与其对应的候选答案集,使用问答匹配模型获取待回答问句的答案;本发明提供的基于问句主题的自动问答答案选择方法,根据待回答问句主题对待回答问句进行分类,能够过滤掉与主题不相关的信息,提升数据集质量,提升自动问答的准确性。

设计模式:策略模式【Strategy Pattern】

Submitted by neurta on Fri, 12/20/2019 - 12:53
总体来说设计模式分为三大类:   创建型模式,共五种:工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。   结构型模式,共七种:适配器模式、装饰器模式、代理模式、外观模式、桥接模式、组合模式、享元模式。   行为型模式,共十一种:策略模式、模板方法模式、观察者模式、迭代子模式、责任链模式、命令模式、备忘录模式、状态模式、访问者模式、中介者模式、解释器模式。

btree索引和hash索引的区别

Submitted by neurta on Tue, 12/17/2019 - 14:54
(1)Hash 索引仅仅能满足"=","IN"和"<=>"查询,不能使用范围查询。 由于 Hash 索引比较的是进行 Hash 运算之后的 Hash 值,所以它只能用于等值的过滤,不能用于基于范围的过滤,因为经过相应的 Hash 算法处理之后的 Hash 值的大小关系,并不能保证和Hash运算前完全一样。 (2)Hash 索引无法被用来避免数据的排序操作。 由于 Hash 索引中存放的是经过 Hash 计算之后的 Hash 值,而且Hash值的大小关系并不一定和 Hash 运算前的键值完全一样,所以数据库无法利用索引的数据来避免任何排序运算; (3)Hash 索引不能利用部分索引键查询。

大型图像抽取对象识别

Submitted by neurta on Tue, 12/10/2019 - 14:29
def plot_image(i, predictions_array, true_label, img): predictions_array, true_label, img = predictions_array, true_label[i], img[i] plt.grid(False) plt.xticks([]) plt.yticks([]) plt.imshow(img, cmap=plt.cm.binary) predicted_label = np.argmax(predictions_array) if predicted_label == true_label: color = 'blue' else: color = 'red' plt.xlabel("{} {:2.0f}% ({})".format(class_names[predicted_label], 100*np.max(predictions_array), class_names[true_label]), color=color) def plot_value_array(i, predictions_array, true_label): predictions_array, true_label = predictions_array, true_label[i] plt.grid(False) plt.xticks(range(10)) plt.yticks([]) thisplot = plt.bar(range(10), predictions_array, color="#777777") plt.ylim([0, 1]) predicted_label = np.argmax(predictions_array) thisplot[predicted_label].set_color('red') thisplot[true_label].set_color('blue')

标准号:GB/T 34083-2017 中文标准名称:中文语音识别互联网服务接口规范

Submitted by neurta on Tue, 12/10/2019 - 10:11
国家标准《中文语音识别互联网服务接口规范》由TC28(全国信息技术标准化技术委员会)归口上报及执行,主管部门为国家标准化管理委员会。 主要起草单位 科大讯飞股份有限公司 、中国电信集团公司 、中国电子技术标准化研究院 、北京慧听科技有限公司 、苏州思必驰信息科技有限公司 、阿里云计算有限公司 、中国科学院声学研究所 。 主要起草人 李洪亮 、严峻 、于继栋 、朱恩德 、程彩峰 、张陈 、胡修文 、杨震 、赵菁华 、周伟达 。

发明名称 --- 一种基于动态数字验证码的语音门禁系统

Submitted by neurta on Mon, 12/09/2019 - 11:29
1.一种基于动态数字验证码的语音门禁系统,包括声纹注册终端、服务器与门禁终端,其特征在于,所述声纹注册终端与门禁终端连接在服务器上,所述的声纹注册终端包括声纹网络通信模块、声纹录音模块和声纹显示模块,所述的声纹网络通信模块用于接收和发送声音数据或控制信号,所述的声纹录音模块用于采集用户录音,所述的声纹显示模块用于显示动态数字码或其它提示信息。 2.根据权利要求1所述的一种基于动态数字验证码的语音门禁系统,其特征在于:所述的服务器包括服务器网络通信模块、动态数字码生成模块、声纹识别模块、语音识别模块、管理模块与存储模块。 3.根据权利要求1所述的一种基于动态数字验证码的语音门禁系统,其特征在于:所述的门禁终端包括网络通信模块、控制模块、显示模块、报警模块、录音模块与感应模块。 4.根据权利要求2所述的一种基于动态数字验证码的语音门禁系统,其特征在于:所述的服务器网络通信模块用于与声纹注册终端和门禁终端进行通信,接收以及发送声音数据或控制信号;所述的动态数字码生成模块用

2020 IEEE Fellow名单出炉

Submitted by neurta on Wed, 11/27/2019 - 12:45

IEEE 全称是美国电子电气工程师学会(Institute of Electrical and Electronic Engineers),是国际性电子技术与信息科学工程师学会,在 160 多个国家拥有超过 40 万会员。IEEE Fellow 为学会最高等级会员,是 IEEE 授予成员的最高荣誉,在学术科技界被认定为权威的荣誉和重要的职业成就。当选人需要对工程科学与技术的进步或应用做出重大贡献,为社会带来重大价值。当选人数不超过 IEEE 当年会员总数的 0.1%。

 

去年,机器之心就对 IEEE 2019 Fellow 进行了报道。据统计,去年晋升 IEEE Fellow 的华人学者近百位,来自大陆地区高校和企业的新晋 Fellow 30 多位,其中包括清华大学魏少军、Petuum 创始人兼 CEO 邢波教授这样的资深学者,非常引人注目。

 

结巴分词

Submitted by neurta on Tue, 11/26/2019 - 15:54
常见问题 1. 模型的数据是如何生成的? 详见: https://github.com/fxsjy/jieba/issues/7 2. “台中”总是被切成“台 中”?(以及类似情况) P(台中) < P(台)×P(中),“台中”词频不够导致其成词概率较低 解决方法:强制调高词频 jieba.add_word('台中') 或者 jieba.suggest_freq('台中', True) 3. “今天天气 不错”应该被切成“今天 天气 不错”?(以及类似情况) 解决方法:强制调低词频 jieba.suggest_freq(('今天', '天气'), True) 或者直接删除该词 jieba.del_word('今天天气') 4. 切出了词典中没有的词语,效果不理想? 解决方法:关闭新词发现 jieba.cut('丰田太省了', HMM=False) jieba.cut('我们中出了一个叛徒', HMM=False) 更多问题请点击:https://github.com/fxsjy/jieba/issues?sort=updated&state=closed

阿里妈妈造发布国内首个工业级的图深度学习开源框架Euler

Submitted by neurta on Sun, 05/12/2019 - 13:34
https://github.com/alibaba/euler 1.1Euler的核心能力 1)大规模图的分布式学习 工业界的图往往具有数十亿节点和数百亿边,有些场景甚至可以到数百亿节点和数千亿边,在这样规模的图上单机训练是不可行的。Euler支持图分割和高效稳定的分布式训练,可以轻松支撑数十亿点、数百亿边的计算规模。 2)支持复杂异构图的表征 工业界的图关系大都错综复杂,体现在节点异构、边关系异构,另外节点和边上可能有非常丰富的属性,这使得一些常见的图神经网络很难学到有效的表达。Euler在图结构存储和图计算的抽象上均良好的支持异构点、异构边类型的操作,并支持丰富的异构属性,可以很容易的在图学习算法中进行异构图的表征学习。 3)图学习与深度学习的结合 工业界有很多经典场景,例如搜索/推荐/广告场景,传统的深度学习方法有不错效果,如何把图学习和传统方法结合起来,进一步提升模型能力是很值得探索的。Euler支持基于深度学习样本的mini-batch训练,把图表征直接输入到深度学习网络中联合训练。 4)分层抽象与灵活扩展 Euler系统抽象为图引擎层、图操作算子层、算法实现层三个层次,可以快速地在高层扩展一个图学习算法。实际上,Euler也内置了大量的算法实现供大家直接使用。

NLP自然语言处理tf-idf 三个基本应用【更新中】

Submitted by neurta on Sat, 05/11/2019 - 14:16
任务三:如何通过词频,对文章进行自动摘要 信息都包含在句子中,有些句子包含的信息多,有些句子包含的信息少。 "自动摘要"就是要找出那些包含信息最多的句子。 句子的信息量用"关键词"来衡量。如果包含的关键词越多,就说明这个句子越重要。 Luhn提出用"簇"(cluster)表示关键词的聚集。所谓"簇"就是包含多个关键词的句子片段。