钟前文安智能董事长陶海博士确认出席FUS猎云网2020人工智能产业峰会!

9月30日报道

计算视觉作为人工智能的三大应用领域之一,在商业化应用领域近年来取得了长足的发展。随着计算视觉技术的加速落地,计算视觉的应用前景广阔,不仅在自动驾驶领域,计算视觉还在手机、安防、医疗、新零售、交通运输等领域有着重要的意义。

基于上下文的句子相似性

同时,你最好对这些知识有所了解:word2vec嵌入,神经网络,Tensorflow,Github和推荐系统。

希望读者自行在电影或其他相关数据集上DIY自己的Web应用程序。如果您遇到任何问题或有其他有趣的想法,欢迎交流。

AI研习社是AI学术青年和AI开发者技术交流的在线社区。我们与高校、学术机构和产业界合作,通过提供学习、实战和求职服务,为AI学术青年和开发者的交流互助和职业发展打造一站式平台,致力成为中国最大的科技创新人才聚集地。

带有电影海报的推荐页面

3.降维算法:尽管模型嵌入维度为100,但人眼只能看到3维物品,为此,我们需要将矢量压缩为2维或3维形式。

2.将元数据上传到Github gist上,以便图示节点带有标签。

2. Tensorboard Projector:Tensorflow开源的Web应用,可以接收模型嵌入并在低维空间进行渲染,实现可视化交互。在tensorboard主页上可以查看Wikipedia和MNIST语料库的示例投影。建议读者花时间具体了解下映射、滤波、嵌入空间以及各种降维算法。

本次峰会将围绕人工智能的产业应用的话题展开交流,邀请人工智能技术企业,加入真实场景应用案例来展开主题演讲,通过最新应用技术落地及应用成果转化,将视线和观点聚焦人工智能在“进击”与“破圈”,解读AI技术对生产生活的改变,揭秘AI在抗击疫情中的贡献,探讨AI技术如何为产业赋能。

2.基于电影属性:根据电影的元标记(如演员,导演,语言,发行年份等)进行推荐。但这样的缺点是,电影的属性不会随时间改变,无法考虑用户行为进行实时推荐。

方法b:t分布随机邻域嵌入TSNE。一种用于探索高维数据的非线性降维算法,将多维数据映射到适合于人类观察的两个或多个维度。该算法的关键在于最小化两个分布之间的差异,即测量输入对象的成对相似性的分布以及相应低维嵌入点的成对相似性的分布。

雷锋网版权文章,。详情见转载须知。

Geeks For Geeks更详细的指出了TSNE和PCA之间的八项区别,为人们提供了很好的参考。

本文将为介绍一个电影推荐系统,在推荐系统中,有许多电影向量悬浮于多维空间。同时,本文介绍的推荐系统无需租用服务器、编写代码、抓取数据或网页维护等繁杂的工作,非常容易上手。此外,你还可以将其扩展到社交网络、股票、运动员、电视节目、书籍等领域。想象一下,众多实例都会被映射到多维矢量空间,一览无余,那时多么直观啊。

方法a:主成分分析PCA。一种常用的降维算法,可提高模型的可解释性,同时最大程度地减少信息丢失。其主要思想是,构建新的互不相关的主成分,最大程度地提高方差,即将包含最大信息的特征转化为低维主成分。根据主成分增量方差(如90%的方差)确定截止值。

与GX8010同期发布的语音芯片GX8008,是业界最早搭载「国产CPU+国产NPU」双国产处理器的AIoT芯片,可应用于智能家居、智能车载等领域,为设备进行智能语音前端处理,支持本地唤醒和离线语音指令识别。

文安智能董事长陶海博士,师承美国“计算机视觉之父” Thomas S. Huang教授,发表过数十篇具有影响力的学术论文,获得十余项计算机视觉领域发明专利。陶海博士是北京市海外高层次人才、北京百名领军人才工程、北京市特聘专家;也是全国安全防范报警系统标准化技术委员会(SAC/TC100)国际标准化专家;曾被评为智能交通行业风云人物、最受媒体关注AI企业家Top10。

就像word2vec嵌入将相近单词映射到向量空间后距离较小,我们在100维向量空间中对电影进行嵌入,这样就将数据维度从58k(类似one-hot表示)减少到100k(嵌入表示)。

现阶段,国芯科技AI业务涵盖智能音箱、智能车载、智能家电、智能穿戴等多个应用领域,覆盖「人-车-家」全场景应用。凭借着低功耗、高性能、高集成度等特点,国芯科技AI芯片获得众多一线算法和互联网公司的高度认可,迄今为止,已和阿里巴巴、京东、百度、360、Rokid、出门问问、科大讯飞、声智、思必驰、创维、TCL、海尔等公司达成深入合作。

总结:本文介绍了如何处理Movielens数据集,矢量嵌入(文中指用户ID),基于FSE的句子相似度矩阵以及使用Google的TensorFlow部署web电影推荐应用。

5.使用tensorboard可视化交互,单击某一电影即可查找类似的电影,还提供TSNE或PCA降维操作。

10月16日,陶海博士将出席本次猎云网人工智能产业峰会,分享其在计算机视觉领域的积累与思考,和现场嘉宾共同探讨人工智能应用落地和商业化的未来与发展!

PCA和TSNE之间的主要区别为:一是PCA为线性降维,而TSNE是非线性度降维;二是目标函数不同,PCA试图保留全局数据结构,而TSNE保留局部结构。

嵌入能够捕获标记或像素之间的语义相似性,并将其投影到向量空间中。例如,我们知道“费德勒”和“网球”之间存在密切关联,那么在100维嵌入空间中,“费德勒”比“特朗普”更接近“网球”。

使用嵌入结构构建web步骤如下:

输入MovieLens数据集,该数据集包含用户对电影的评分,分值从0到5。为避免噪声,MovieLens剔除了评分次数低于20且统计不准确的用户。同时,该数据集有诸多版本,范围从[1k用户* 1.7k电影]到[280k用户* 58k电影],使用时请注意查看。对基于用户的协同过滤,可以忽略分级质量,以0/1表示用户是否对电影进行评分。 

对于新兴的OTT平台,由于没有资源生成元标签和标注电影,同时希望用户与平台进行隐式交互,因此基于用户的协同过滤(CF)方法是最适合的。至于像Netflix,Youtube这样的大公司,实际上使用Prime-Video混合推荐方法。在本文中,我们仅讨论基于用户的协同过滤,即通过用户矢量表征电影。数据集结构如下:

如果,你也是位热爱分享的AI爱好者。欢迎与译站一起,学习新知,分享成长。

1.基于流行度:标识过去X时段内最受欢迎(观看最多)的电影,将这些电影推荐给所有用户。

1.将嵌入数据上传到GitHub gist,并在config JSON中进行更新。对于初学者,可以直接使用我在此托管的嵌入数据。

Movielens数据的电影嵌入代码:

接下来是句子嵌入,即将用户视为句子,捕获句子的语义相似性。通过BERT,Elmo,Doc2Vec和Universal Sentence Encoder等方式均可方便的实现句子嵌入,具体选择哪种方式主要取决于模型的速度,根据我的测试,Fast_Sentence_Embeddings(FSE)是我比较推荐的方法,该方法直接根据各词的word2vec生成复合向量。对于BERT这样的SOTA系统而言,用户ID很难表现出语义相似性,因此,即使使用经过Wikipedia或GoogleNews预训练的模型,也不会有太大差异,这样,模型的速度就成为唯一的衡量标准。FSE每秒可处理约500K句子,而预训练编码模型低于每秒100句。

3.基于用户:根据用户的观看模式和喜好,对用户进行分组,为用户推荐同组内其他用户观看的电影。例如,如果我观看了Inception和Dark Knight,其他看过这两部电影的人也喜欢看Prestige,那么推荐给我Prestige是较好的选择。

完成影片嵌入后,我们将结合tensorboard和Github完成电影推荐系统的部署。特别感谢Google对tensorboard开源的工作。

文安智能是一家计算机视觉产品及解决方案提供商,其自主研发一系列图像识别核心算法,主要产品为高清智能摄像机,产品广泛应用于智慧交通、安防领域、智慧景区及司法监狱等领域。

4.MovieLens数据集:作为电影推荐系统的标准数据集,该数据集提供[userid-movieid]数据,包含58,000电影和2,600万评分。自1997年以来,该数据对于推动推荐系统的发展起着重要作用。在Google books搜索“ movielens”得到2,750个结果,在Google Scholar搜索得到7,580个结果,MovieLens数据集的影响可见一斑。应用该数据集可基于SVD矩阵或神经网络构建面向电影条目或是用户的推荐系统,并根据过去的偏好预测新用户评分。

高榕资本项目负责人表示:“在物联网产品智能化的大趋势下,人工智能语音技术被视为智能场景的一大交互入口,而高性价比的芯片及模组是产品大规模落地的关键,国芯科技在AI芯片的设计经验和创新能力具备行业领先优势。期待未来国芯科技继续围绕人、家、车等场景,为产业提供先进的解决方案,加速人们走进万物互联的美好生活。”

我们邀请到了产学研用为一体的30+高质量企业来分享应用落地案例,50+行业头部企业,100+行业创投精英前来分享人工智能行业前沿,用先锋视角来观察、发现人工智能的前景与未来,洞察人工智能行业动向。

关于“AI UP”FUS猎云网2020年度人工智能产业峰会

AI UP,让我们共同见证AI的力量!

关于基于电影的协同过滤创建推荐系统,我之前写过一篇详细的博客。感兴趣的读者可以点此查看,并将推荐结果与基于用户的推荐结果进行比较。

4.部署Web应用程序!

国芯科技是一家AI芯片设计研发商,专注于数字电视、家庭媒体中心及人工智能领域的芯片设计、系统方案开发及芯片销售。公司开发的数字电视芯片产品已涵盖DVB全球标准及中国标准的所有数字电视接收终端领域,是国内数字电视市场芯片产品种类最齐全、解调解码芯片出货量最大的本土芯片设计企业。

根据上述这些概念,我们可以创建一个电影推荐的Web应用,使用的电影数据包括3700Netflix电影和上述数据集中的58k电影。(数据源见此)

1.Embedding:将高维向量投射到低维稠密向量空间。由于表示图像/单词的像素或标记特征可能需要数百万个参数,因此我们需要定义一种受限统一结构,以此作为ML模型的输入。在对高维或大量特征进行建模以导出受限数据大小模式时,通常会遇到维数灾难,即模型无法从输入数据中提取相关模式。通常我们会使用主成分分析(PCA),TSNE或L1正则化等方法进行降维,但是对于极高维度和稀疏数据集(如Wikipedia语料库中的数百万个标记),基于神经网络的嵌入可以很好的提取相关属性。

与word2vec嵌入类似,我们通过用户ID训练浅层神经网络。经过训练,我们在用户ID嵌入中实现类似“网球-费德勒”的关系。至此,我们可以找到相似的用户,并可以将用户分为几类,通过推送或电子邮件发送有针对性的讯息。除了基于相似用户的推荐方法,我们还可以根据电影进行推荐,这就需要对电影信息进行类似操作了。

其他可用于推荐的数据集:

国芯科技CEO黄智杰表示:“国芯凭借着在音视频方向多年的技术积累,围绕‘AI+人、家、车’的应用融合,助力众多合作伙伴在AI领域构建核心竞争力。在新基建时代,国芯将持续在芯片领域耕耘,不断为行业输出具备竞争力的解决方案。”

学习本文需要满足以下条件:对新概念的好奇心,渴望部署自己的Web应用程序。

你看过《盗梦空间》吗?是否被影片中的梦中梦烧脑,或是想象现实世界中物品能否像电影中那样漂浮在空中?至少目前我们没有办法使物体悬浮在空中,但是,数据科学家可以将python向量映射到多维空间。

根据之前的介绍,电影推荐可分为以下三种类型:

从2001年成立至今,国芯科技已成为全球领先的机顶盒芯片供应商之一,开发的数字机顶盒芯片遍布全球,产品累计出货近4亿颗。2019年,国芯科技机顶盒芯片发货量超过3千万颗,在多个细分市场的出货量占据业界领先的市场份额。

天眼查APP信息显示,杭州国芯科技股份有限公司成立于2001年1月,法定代表人为王匡。国芯科技董事长王匡,多年以来一直从事数字信号处理、信息传输、芯片设计、宽带信道编码、视频传输等方面的研究开发工作。参与研发的“高清晰度数字电视关键技术与设备”项目获2003年度国家科学技术进步二等奖、上海市科学技术一等奖,是国家数字电视传输标准联合研发小组有线传输标准技术负责人。组织承担了多项国家级产业化项目和省部级科研项目。作为技术发明人,先后申请27项国家技术发明专利(其中15项已授权),并先后在国内外一、二级刊物上发表文章30余篇。 王匡教授带领公司坚持“一切以市场为导向”的经营理念,形成了一支稳定的产品开发、市场和管理队伍,公司由一个初创的高科技公司成长为一家本土数字电视芯片产品线最齐全的成熟的IC设计企业。

FUS猎云网2020年度人工智能产业峰会将于10月16日在北京金茂万丽酒店举行,诚邀各界人士共同探讨人工智能在不同场景里面的应用及商业化落地。

同时,国芯科技深耕人工智能领域,是国内领先的AIoT芯片提供商。2017年率先推出业内首款物联网AI芯片GX8010,集成了国芯科技自研神经网络处理器gxNPU,用于加速神经网络的运算。

你可以点击该链接预览我们的电影推荐系统。

Github输入配置文件

2020年,国芯科技推出超低功耗AI芯片GX8002,功耗可低至70uW,是目前业内最低功耗AI芯片,集成了第二代自研神经网络处理器gxNPU V200和自研的硬件VAD模块。凭借着超低功耗,GX8002可以广泛应用在TWS耳机、手表、眼镜等智能穿戴领域。

Back To Top