JA自己写什么功能可以提升技术?
作者:卡卷网发布时间:2025-01-10 19:26浏览数量:77次评论数量:0次
搭建一个we,实现100万张图片的和搜索,以及10万个种子文件的和搜索,当然还有自动爬取图片和种子文件的功能。
搜索功能要支持全文搜索,和过滤。
把这个做出来,且能顺畅前面说到的这个量级的内容,你的技术就可以达到很不错的水平。
update2023.09.14晚:
没想到评论的不少,补充一下技术关键点的说明吧,能自搞定这些技术关键点的,35岁之后下岗的可能性会很低不少。
1.图片的获取
解析网页,批量下载图片,图片内容md5简单防重。一般访问海外的较安全,最多被封ip,不会有其它后果。
2.t种子的获取
hash的格式是有32位和40位的,需要归一化,需要从某些l提取解析提取hash。
需要通过某些通过hash下载种子文件。
3.图片相似度去重及清洗最佳图片
有些图片只是被多加了水印,且层层转换,会存在大量冗余图片,需要一定的算法能力去清洗出低画质图片,尽可能只保留高画质,且尽可能聚合归类。
4.图片exif信息解析,图片与网页内容的关联梳理等。
5.图片内容加密存储,不想直接被查看,或者是想使用网盘存储,AES加密一般是需要的。加密则涉及密码的,全局只使用一个密码的安全性是很低的。
6.网页内容的分词处理,过滤不必要的干扰内容。
7.t种子的解析提取,t种子内的文件过滤逻辑处理。
8.网页内容和t种子内容中的全文搜索(有两个t搜索,一个只支持按t种子文件名搜索,那种文件名是1的,没法搜索到种子内的优质内容,另外一个搜索,有全文搜索功能,但是没有过滤文件名,搜索结果精度有限)。
9.保存大量文件的目录划分规则,以及大量小文件的存储优化。
10.使用图形识别技术,将有共同特征的图片自动聚合在一起,便于搜索。
11.数据库存储上百万记录之后,可以做下分库分表的练手。
做好这些,既能锻炼技术能力,又能收获大量内容,还能快速精准的找到自己喜欢欣赏的内容,一举多得。
update2023.09.28:
我不会白嫖别人的技术,也不会白嫖别人的资源。以后有兴致了再写点文章分享下原创的技术知识点总结。
免责声明:本文由卡卷网编辑并发布,但不代表本站的观点和立场,只提供分享给大家。
相关推荐

你 发表评论:
欢迎