搜索引擎搭建:Heritrix + Lucene

搜索引擎 倒排索引 PageRank Web

采用 Heritix + Lucene 搭建搜索引擎原型,支持网站排名(PageRank)和倒排索引(Inverted Index),并评估其性能。

爬虫(Heritrix)

Heritrix 是用作 Web 归档的爬虫框架,java语言实现,具有 Apache License 自由软件许可。我们采用heritrix抓取网页数据。 可参照官方 Guide:https://webarchive.jira.com/wiki/display/Heritrix/Heritrix+3.0+and+3.1+User+Guide

Makefile 批量更新缩略图

Linux Makefile Unix

背景

网站中通常会产生大量的多媒体文件,尤其是图片。维护和更新这些文件却是很繁琐的事情。本文介绍如何批量地更新用于web的缩略图:采用 ImageMagick + Makefile 的方式,既能及时地更新缩略图,又避免了不必要的文件操作。

  • ImageMagick:是一款命令行图片处理工具,其功能复杂强大,毫不逊色于Ps。在Linux服务器中,通常采用 ImageMagick 来进行web后台的图片操作。
  • Makefile:在 Unix 系统中,通常用 make 来自动化建构软件。make 根据依赖文件的修改时间进行判断是否执行更新,避免了不必要的更新操作。

部署自己的博客:Github+Jekyll

Github LaTeX Markdown Jekyll

最近终于完成了个人博客的开发和部署,就把整个过程记录在这里。利用 GitHub 提供的文件服务部署,采用 github + jekyll 方式构建静态博客站点。目前支持功能如下:

  • 代码片段高亮。由 rouge 提供,配置在 _conf 文件中。从 这篇文章 可以看到显示效果。
  • LaTex 公式渲染。由 MathJax 把 LaTex 渲染为 SVG,HTML 或 MathML。从 这篇文章 可以看到显示效果。
  • 静态服务。这是一个静态博客,由 Github Pages 提供服务。
  • Google 统计。配置在 _conf 文件中。

下文介绍具体的搭建步骤:

上一页