敏感词匹配系统的设计与实践

2022年3月15日

作者：vivo互联网服务器团队-Liang Kangwu 一、前言谛听系统是vivo的内容审核平台，保障了vivo各互联网产品持续健康的发展。谛听支持审核多种内容类型，但日常主要审核的内容是文本，下图是一个完整的文本审核流程，包括名单匹配、敏感词匹配、AI机器审核、人工审核四个环节。待审核文本……

阅读全文

新东方在线教育实时数仓的落地实践

2022年3月15日

以下文章来源于ApacheDoris ，作者ApacheDoris 背景介绍在传统数据仓库方面，通常以 T+1 离线批量计算为主，按照数仓建模方式，把要处理的业务按照主题域划分，构建各种数据模型，来满足公司经营分析，财务分析等各种公司管理层的数据需求。然而，随着在线教育快速发展市场竞争非常激……

阅读全文

谷歌自然语言处理模型基于

2022年3月15日

一、前言最近谷歌搞了个大新闻，公司AI团队新发布的BERT模型，在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩：全部两个衡量指标上全面超越人类，并且还在11种不同NLP测试中创出最佳成绩，包括将GLUE基准推至80.4％（绝对改进7.6％），MultiNLI准确度达……

阅读全文

在有赞的实践和应用

2022年3月15日

沈磊@有赞 Flink 中文社区摘要：今天主要分享的内容是 Flink 在有赞的实践和应用。一、Flink 的容器化改造和实践 1. 有赞的集群演进历史 2014 年 7 月，第一个 Storm 任务正式上线； 2016 年，引入 Spark Streaming，运行在 Hadoop Yarn； 2018 年，引入了 Flink，作业模式为 Flink on Yarn Per Job； 2020 年 6 月，实现了 100% Flink Jar 任务 K8s……

阅读全文

基于构建企业级实时数据湖

2022年3月15日

Apache Flink 是大数据领域非常流行的流批统一的计算引擎，数据湖是顺应云时代发展潮流的新型技术架构。那么当 Apache Flink 遇见数据湖时，会碰撞出什么样的火花呢？本次分享主要包括以下核心内容：数据湖的相关背景介绍；经典业务场景介绍；为什么选择 Apache Iceberg；如何通过 Flink+Iceberg 实现流式入湖社区未来规划工作。视频回……

阅读全文

揭秘升级版语义搜索技术

2022年3月15日

欢迎关注本人公众号" 蘑菇先生学习记 “，会定期分享算法最新进展以及工作实践感悟。上一篇分享了 KDD'21 | 淘宝搜索中语义向量检索技术，今天分享Facebook在KDD'21上发表的又一篇EBR文章： Que2Search: Fast and Accurate Query and Document Understanding for Search at Facebook 。两篇文章的风格差异巨大。Facebook延续了……

阅读全文

同城商业数据仓库建设实践

2022年3月15日

分享嘉宾：钟云云 58同城数据架构师编辑整理：李凯凯出品平台：DataFunTalk、AI启蒙者导读：早在多年以前在Hadoop系列分布式计算与存储、消息中间件还没有成熟的时候，数据仓库主要基于Oracle的数仓建设。但随着时间的推移，传统数据仓库的数据计算与存储，已经无法很好地支……

阅读全文

源码系列类

2022年3月15日

原文地址： https://www.amazingkoala.com.cn/Lucene/gongjulei/2018/1209/24.html IntBlockPool 类在索引阶段，使用 IntBlockPool 来存储 term(域值)的信息，在 MemoryIndex 中，使用此类对 term 在文档中的位置、payload 数据进行存储，它即 MemoryIndex 中的倒排表，它的数据就是用这个类的对象存储的。在介绍 IntBlockPool 类时，我们根据这个类在 MemoryIndex 中实际使用过程来讲解。如何介绍 IntBlockPool 类首先会贴出这个类中几个重要的方法，……

阅读全文

搜索系统中的纠错问题

2022年3月15日

CS 的陋室纠错是搜索引擎中一个非常有特色的模块，对用户输入的内容进行改写从而让用户得到正确的结果，有的时候也会带有一些惊喜度，所以纠错技术是一个搜索体验的加分项，近期突然对这块有兴趣，所以就了解了一下。（学习周报本周停，学习内容都在这了）纠错技术的背景人非圣贤，孰能无过，别说是搜索……

阅读全文

源码系列索引文件的生成四之跳表

2022年3月15日

在文章索引文件的生成（三）中我们介绍了在 Lucene 中生成跳表 SkipList 的流程，通过流程图的方法介绍了源码中的实现方式，而对于读取 SkipList 的内容，决定直接以例子的方式来介绍其读取过程，下文中出现的名词如果没有作出介绍，请先阅读文章索引文件的生成（三）。例子直接给出一个生成后的跳表：图 1：在图 1 中，为了便……

阅读全文

知识铺的博客

敏感词匹配系统的设计与实践

新东方在线教育实时数仓的落地实践

谷歌自然语言处理模型基于

在有赞的实践和应用

基于构建企业级实时数据湖

揭秘升级版语义搜索技术

同城商业数据仓库建设实践

源码系列类

搜索系统中的纠错问题

源码系列索引文件的生成四之跳表

最近文章

福利派送

分类

标签

友情链接

其它